부스트캠프 AI Tech 1기 [T1209 최보미]/P stage-2 (KLUE)

Day2 학습정리 - 자연어의 전처리

B1001101 2021. 4. 13. 23:46

강의 복습

1. 자연어 전처리

  • Python string 관련 함수

2. 자연어 토크나이징

  • 토큰화(Tokenizing)
    • 주어진 데이터를 토큰(Token)이라 불리는 단위로 나누는 작업
    • 기준: 어절, 단어, 형태소, 음절, 자소 등
  • 문장 토큰화(Sentence Tokenizing): 문장 분리
    단어 토큰화(Word Tokenizing): 구두점 분리, 단어 분리
  • 한국어 토큰화
    • 영어는 띄어쓰기를 기준으로도 잘 동작하는 편
    • 한국어는 조사나 어미를 붙여서 말을 만들기 때문에 띄어쓰기만으로는 부족
    • 어절이 의미를 가지는 최소 단위인 형태소로 분리
  • 어절 단위: 띄어쓰기 단위로 분리, split(' ') 함수 사용
  • 형태소 단위: mecab 사용
      !pip install konlpy
      !bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)
      from konlpy.tag import Mecab
  • 음절 단위: 한 글자씩 분리, list() 함수 사용
  • 자소 단위: 초성/중성/종성 단위로 분리, hgtk 라이브러리 사용
  • WordPiece 단위

프로젝트 회고

오늘은 과제를 하느라 프로젝트는 진행하지 못했다. 이번주는 강의내용 학습 위주로 하고 프로젝트는 천천히 진행할 생각이다.

오늘 피어세션때 이번 프로젝트에서는 바꿔볼만한 것이 뭐가 있을지 이야기가 나왔었는데 모델, 토크나이저, data augmention정도밖에 없는 것 같다.