프로젝트 회고
- 데이터셋 문장을 변형해서 ...[E1]엔티티1[/E1]...[E2]엔티티2[/E2]...와 같이 엔티티를 강조하는 식으로 special token을 적용해봤는데 정확도가 2%정도 떨어졌다. tokenizer에 entity를 따로 넣어주지 않고 변형한 문장만 넣어줘서 그럴 것이라고 추측한다.
+ entity도 같이 넣어줬더니 지금까지중 최고의 정확도가 나왔다.
- max-length를 200으로 늘려봤는데 오히려 정확도가 1%정도 떨어졌다. 무조건 max-length를 늘린다고 성능이 좋아지는 것은 아닌 것 같다.
'부스트캠프 AI Tech 1기 [T1209 최보미] > P stage-2 (KLUE)' 카테고리의 다른 글
Day 10 학습정리 - Stage2 마무리 (0) | 2021.04.23 |
---|---|
Day9 학습정리 - 최신 자연어 처리 연구 (0) | 2021.04.22 |
Day7 학습정리 - BERT 기반 문장 토큰 분류 모델 학습 (0) | 2021.04.20 |
Day6 학습정리 - BERT 기반 두 문장 관계 분류 모델 학습 (0) | 2021.04.19 |
Day5 학습정리 - BERT 기반 단일 문장 분류 모델 학습 (0) | 2021.04.16 |