Day2 학습정리 - 자연어의 전처리

부스트캠프 AI Tech 1기 [T1209 최보미]/P stage-2 (KLUE)

Day2 학습정리 - 자연어의 전처리

B1001101 2021. 4. 13. 23:46

강의 복습

1. 자연어 전처리

Python string 관련 함수

정규표현식
greeksharifa.github.io/%EC%A0%95%EA%B7%9C%ED%91%9C%ED%98%84%EC%8B%9D(re)/2018/07/20/regex-usage-01-basic/

2. 자연어 토크나이징

토큰화(Tokenizing)
- 주어진 데이터를 토큰(Token)이라 불리는 단위로 나누는 작업
- 기준: 어절, 단어, 형태소, 음절, 자소 등
문장 토큰화(Sentence Tokenizing): 문장 분리
단어 토큰화(Word Tokenizing): 구두점 분리, 단어 분리
한국어 토큰화
- 영어는 띄어쓰기를 기준으로도 잘 동작하는 편
- 한국어는 조사나 어미를 붙여서 말을 만들기 때문에 띄어쓰기만으로는 부족
- 어절이 의미를 가지는 최소 단위인 형태소로 분리
어절 단위: 띄어쓰기 단위로 분리, split(' ') 함수 사용
형태소 단위: mecab 사용
!pip install konlpy
!bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)
from konlpy.tag import Mecab

음절 단위: 한 글자씩 분리, list() 함수 사용
자소 단위: 초성/중성/종성 단위로 분리, hgtk 라이브러리 사용
WordPiece 단위

프로젝트 회고

오늘은 과제를 하느라 프로젝트는 진행하지 못했다. 이번주는 강의내용 학습 위주로 하고 프로젝트는 천천히 진행할 생각이다.

오늘 피어세션때 이번 프로젝트에서는 바꿔볼만한 것이 뭐가 있을지 이야기가 나왔었는데 모델, 토크나이저, data augmention정도밖에 없는 것 같다.

저작자표시

'부스트캠프 AI Tech 1기 [T1209 최보미] > P stage-2 (KLUE)' 카테고리의 다른 글

Day6 학습정리 - BERT 기반 두 문장 관계 분류 모델 학습 (0)	2021.04.19
Day5 학습정리 - BERT 기반 단일 문장 분류 모델 학습 (0)	2021.04.16
Day4 학습정리 - 한국어 BERT 언어 모델 학습 (0)	2021.04.15
Day3 학습정리 - BERT 언어 모델 소개 (0)	2021.04.14
Day1 학습정리 - 인공지능과 자연어 처리 (0)	2021.04.12

현재글Day2 학습정리 - 자연어의 전처리

Today :
Yesterday :

Google Cloud Functions, 인코스런, Image Classification, T아카데미, RNN, Google Cloud Platform, flask, 네이버 부스트캠프, Data Studio, Google Kubernetes Engine, Docker, python, Django, cnn, pandas, Google Cloud Pub/Sub, 소셜로그인, Boostcamp AI Tech, Data Engineering, DRF,

보미의 Tech Blog

Day2 학습정리 - 자연어의 전처리

강의 복습

1. 자연어 전처리

2. 자연어 토크나이징

프로젝트 회고

'부스트캠프 AI Tech 1기 [T1209 최보미] > P stage-2 (KLUE)' 카테고리의 다른 글

'부스트캠프 AI Tech 1기 [T1209 최보미]/P stage-2 (KLUE)'의 다른글

티스토리툴바

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Day2 학습정리 - 자연어의 전처리

강의 복습

1. 자연어 전처리

2. 자연어 토크나이징

프로젝트 회고

'부스트캠프 AI Tech 1기 [T1209 최보미] > P stage-2 (KLUE)' 카테고리의 다른 글

'부스트캠프 AI Tech 1기 [T1209 최보미]/P stage-2 (KLUE)'의 다른글

관련글

티스토리툴바