Day19 학습정리

부스트캠프 AI Tech 1기 [T1209 최보미]/U stage

Day19 학습정리 - NLP4

B1001101 2021. 2. 18. 23:57

강의복습

Transformer

1) Scaled Dot-Product Attention

input: Query, Key, Value (벡터)
output: weighted sum of values

multiple queries

2) Multi-head attention

: W 행렬을 사용해 Q, K, V를 h개의 lower dimensional space에 mapping시킴

3) Block-Based Model

각 블록은 2개의 sub-layer로 구성
- Multi-head attention,
- Two-layer feed-forward NN (with ReLU)
각 단계마다 Residual connection, layer normalization 존재 → 𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚(𝑥 + 𝑠𝑢𝑏𝑙𝑎𝑦𝑒𝑟(𝑥))

layer normalization
- 각 word vector들을 mean 0, variance 1이 되도록 표준
- 각 sequence vector 변환

Positional Encoding

4) Masked Self-Attention

아직 생성되지 않은 단어 접근 방지

피어세션

오늘 피어세션도 코드를 리뷰하는 형식으로 진행됐다. Attention 개념이 이해가 안 됐었는데 팀원들 설명을 듣고 어느정도 이해가 되었다. LSTM에 Attention을 적용할 수 있는지 얘기가 나와서 찾아봤는데 다른 RNN과 마찬가지로 hidden state를 사용해서 적용할 수 있었다.

코멘트

역시 트랜스포머는 어려운 것 같다. 3주차때에도 배웠었는데 그 때 제대로 이해 못 하고 넘어갔더니 이번주에 고생이다. Attention 개념을 잘 이해해야 할 것 같다.

저작자표시

'부스트캠프 AI Tech 1기 [T1209 최보미] > U stage' 카테고리의 다른 글

Day21 학습정리 - 그래프 이론 기초 & 그래프 패턴 (0)	2021.02.22
Day20 학습정리 - NLP5 (0)	2021.02.19
Day18 학습정리 - NLP3 (0)	2021.02.17
Day17 학습정리 - NLP2 (0)	2021.02.16
Day16 학습정리 - NLP1 (0)	2021.02.15

현재글Day19 학습정리 - NLP4

Today :
Yesterday :

Google Cloud Pub/Sub, RNN, 인코스런, Boostcamp AI Tech, pandas, Google Cloud Platform, Google Kubernetes Engine, Django, python, Image Classification, Google Cloud Functions, cnn, 네이버 부스트캠프, DRF, 소셜로그인, Data Engineering, flask, T아카데미, Data Studio, Docker,

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

보미의 Tech Blog