강의 복습
1. 자연어 전처리
- Python string 관련 함수
2. 자연어 토크나이징
- 토큰화(Tokenizing)
- 주어진 데이터를 토큰(Token)이라 불리는 단위로 나누는 작업
- 기준: 어절, 단어, 형태소, 음절, 자소 등
- 문장 토큰화(Sentence Tokenizing): 문장 분리
단어 토큰화(Word Tokenizing): 구두점 분리, 단어 분리 - 한국어 토큰화
- 영어는 띄어쓰기를 기준으로도 잘 동작하는 편
- 한국어는 조사나 어미를 붙여서 말을 만들기 때문에 띄어쓰기만으로는 부족
- 어절이 의미를 가지는 최소 단위인 형태소로 분리
- 어절 단위: 띄어쓰기 단위로 분리, split(' ') 함수 사용
- 형태소 단위: mecab 사용
!pip install konlpy
!bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)
from konlpy.tag import Mecab
- 음절 단위: 한 글자씩 분리, list() 함수 사용
- 자소 단위: 초성/중성/종성 단위로 분리, hgtk 라이브러리 사용
- WordPiece 단위
프로젝트 회고
오늘은 과제를 하느라 프로젝트는 진행하지 못했다. 이번주는 강의내용 학습 위주로 하고 프로젝트는 천천히 진행할 생각이다.
오늘 피어세션때 이번 프로젝트에서는 바꿔볼만한 것이 뭐가 있을지 이야기가 나왔었는데 모델, 토크나이저, data augmention정도밖에 없는 것 같다.
'부스트캠프 AI Tech 1기 [T1209 최보미] > P stage-2 (KLUE)' 카테고리의 다른 글
Day6 학습정리 - BERT 기반 두 문장 관계 분류 모델 학습 (0) | 2021.04.19 |
---|---|
Day5 학습정리 - BERT 기반 단일 문장 분류 모델 학습 (0) | 2021.04.16 |
Day4 학습정리 - 한국어 BERT 언어 모델 학습 (0) | 2021.04.15 |
Day3 학습정리 - BERT 언어 모델 소개 (0) | 2021.04.14 |
Day1 학습정리 - 인공지능과 자연어 처리 (0) | 2021.04.12 |