부스트캠프 AI Tech 1기 [T1209 최보미]/U stage

Day19 학습정리 - NLP4

B1001101 2021. 2. 18. 23:57

강의복습

Transformer

더보기

1) Scaled Dot-Product Attention

  • input: Query, Key, Value (벡터)
  • output: weighted sum of values
  • multiple queries

2) Multi-head attention

  • : W 행렬을 사용해 Q, K, V를 h개의 lower dimensional space에 mapping시킴

3) Block-Based Model

  • 각 블록은 2개의 sub-layer로 구성
    • Multi-head attention,
    • Two-layer feed-forward NN (with ReLU)
  • 각 단계마다 Residual connection, layer normalization 존재 → 𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚(𝑥 + 𝑠𝑢𝑏𝑙𝑎𝑦𝑒𝑟(𝑥)) 
  • layer normalization
    • 각 word vector들을 mean 0, variance 1이 되도록 표준
    • 각 sequence vector 변환
  • Positional Encoding

4) Masked Self-Attention

  • 아직 생성되지 않은 단어 접근 방지

피어세션

오늘 피어세션도 코드를 리뷰하는 형식으로 진행됐다. Attention 개념이 이해가 안 됐었는데 팀원들 설명을 듣고 어느정도 이해가 되었다. LSTM에 Attention을 적용할 수 있는지 얘기가 나와서 찾아봤는데 다른 RNN과 마찬가지로 hidden state를 사용해서 적용할 수 있었다.


코멘트

역시 트랜스포머는 어려운 것 같다. 3주차때에도 배웠었는데 그 때 제대로 이해 못 하고 넘어갔더니 이번주에 고생이다. Attention 개념을 잘 이해해야 할 것 같다.