Minseolog

[다시보기] Attention is All You Need

기존 시퀀스 변환 모델들은 주로 복잡한 RNN, CNN 기반으로 인코더 디코더 구조를 사용했다. 이러한 모델들은 입력과 출력 시퀀스의 각 위치를 순차적으로 처리하기 때문에 병렬화가 어렵고 학습시간이 오래 걸리는 단점이 있었다. attention은 기존 인코더 디코더의 성능을 강화시키며 주목받고 있던 메커니즘이다. 이 논문에서 attention을 발표...