Day10 학습정리 - 시각화 / 통계학

부스트캠프 AI Tech 1기 [T1209 최보미]/U stage

Day10 학습정리 - 시각화 / 통계학

B1001101 2021. 1. 29. 21:51

강의 복습

1. 시각화 도구

1) matplotlib

파이썬의 대표적인 시각화 도구
pyplot 객체를 사용하여 데이터를 표시
Figure 안에 axis로 구성
subplot: grid로 순서 작성
color, linestyle, title, legend(범례), grid, xylim(x,y축 범위) 등 지정 가능
그래프 종류: scatter, bar, hist(히스토그램), boxplot

2) seaborn

기존 matplotlib에 기본 설정 추가
복잡한 그래프를 간단하게 만들 수 있는 wrapper
간단한 코드 + 예쁜 결과
basic plots: lineplot, scatterplot, countplot 등
predefined plots: violinplot, stripplot, swarmplot, pointplot, regplot 등
multiple plots: 한 개 이상의 도표를 하나의 플롯에 작성, axes를 사용해 grid 나눔
predefined multiple plots: replot, catplot, facetgrid, pairplot, pairplot, lmplot

2. 통계학 맛보기

1) 모수 (parameter)

통계적 모델링: 적절한 가정 위에서 확률분포를 추정(inference)
모집단의 분포를 정확하게 알아내는 것은 불가능하므로 근사적으로 확률분포 추정
모수적(parametric) 방법론: 데이터가 특정 확률분포를 따른다고 가정하고 그 분포를 결정하는 모수 추정
비모수(nonparametric) 방법론: 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀜
확률분포 가정하는 방법: 우선 히스토그램을 통해 모양 관찰, 기계적으로 가정해서는 안 되며 데이터 생성 원리 먼저 고려
- 데이터가 2개의 값(0, 1)만 가지는 경우 → 베르누이 분포
- 데이터가 n개의 이산적인 값을 가지는 경우 → 카테고리분포
- 데이터가 [0,1] 사이에서 값을 가지는 경우 → 베타분포
- 데이터가 0 이상의 값을 가지는 경우 → 감마분포, 로그정규분포 등
- 데이터가 R 전체에서 값을 가지는 경우 → 정규분포, 라플라스분포 등
정규분포의 모수
- 표본분산을 구할 때 N이 아니라 N-1로 나누는 이유: 불편추정량 구하기 위해

표집분포(sampling distribution): 통계량의 확률분포
중심극한정리(Central Limit Theorem): 표본평균의 표집분포는 N이 커질수록 정규분포 𝒩(𝜇, 𝜎²/N) 따름

2) 최대가능도 추정법 (Maximum Likelihood Estimation, MLE)

이론적으로 가장 가능성이 높은 모수를 추정하는 방법 중 하나
가능도(likelihood) 함수: 모수 𝛉를 따르는 분포가 x를 관찰할 가능성(확률로 해석하면 안 됨)

데이터 집합 X가 독립적으로 추출되었을 경우 로그가능도 최적화

로그가능도를 사용하는 이유
- 데이터 숫자가 수억 단위가 되면 컴퓨터의 정확도로는 가능도 계산 불가능
- 데이터가 독립일 경우 가능도의 곱셈을 로그가능도의 덧셈으로 바꿀 수 있어서 컴퓨터로 연산 가능
- 경사하강법에서 미분 연산량을 O(n²)에서 O(n)으로 줄여줌
- 대부분의 경우 경사하강법을 사용하므로 음의 로그가능도(negative log-likelihood) 최적화
정규분포: 두 미분이 모두 0이 되는 𝛍, 𝛔 찾음
카테고리 분포: 경우의 수를 세어서 비율을 구함, 라그랑주 승수법 사용
- 베르누이 분포: 결과값 2가지, 이항분포: 베르누이 n회 시행
- 카테고리 분포: 결과값 n가지, 다항분포: 카테고리 n회 시행
- https://datascienceschool.net/02%20mathematics/08.03%20%EC%B9%B4%ED%85%8C%EA%B3%A0%EB%A6%AC%EB%B6%84%ED%8F%AC%EC%99%80%20%EB%8B%A4%ED%95%AD%EB%B6%84%ED%8F%AC.html

8.3 카테고리분포와 다항분포 — 데이터 사이언스 스쿨

이 절에서는 베르누이분포의 확장판인 카테고리분포와 이항분포의 확장판인 다항분포를 공부한다. 베르누이분포가 이진분류문제(binary classification)에 사용된 것처럼 카테고리분포는 다중분류

datascienceschool.net

3) 딥러닝에서 최대가능도 추정법

분류 문제에서 소프트맥스 벡터는 카테고리분포의 모수를 모델링
원핫벡터로 표현한 정답레이블 y를 관찰데이터로 이용해 확률분포인 소프트맥스 벡터의 로그가능도 최적화할 수 있음
기계학습에서 사용되는 손실함수들은 모델이 학습하는 확률분포와 데이터에서 관찰되는 확률분포의 거리를 통해 유도
데이터공간에 두 개의 확률분포 P(x), Q(x)가 있을 경우 두 확률분포 사이의 거리를 계산할 때 다음과 같은 함수들 이용
- 총변동 거리(Total Variation Distance, TV)
- 쿨백-라이블러 발산(Kullback-Leibler Divergence, KL)
- 바슈타인 거리(Wasserstein Distance)
쿨백-라이블러 발산
- 최대가능도 추정법은 쿨백-라이블러 발산 최소화하는 것과 같음

마스터클래스 & 피어세션

이번주 강의가 수학강의이라서 오늘 마스터클래스는 주로 수학에 관련된 질문들이 많았다. 질문들을 보니 나뿐만 아니라 수학을 어려워하고 잘 와닿지 않는 학생들이 많은 것 같았다.

오늘 피어세션에서는 팀원들이 각자 공부한 내용, 궁금한 점을 이야기하는 시간을 가졌다. 강의를 들을때는 잘 와닿지 않았던 내용들이 팀원의 설명을 들으니까 정리되는 느낌이 들어서 좋았다.

코멘트

부스트캠프 시작한지 얼마 안 된 것 같은데 벌써 2주차가 끝났다. 이번주에 배운 수학은 어렵지만 확실히 알고 넘어가야 할 내용이 많아서 주말에 복습을 열심히 해야겠다.

저작자표시

'부스트캠프 AI Tech 1기 [T1209 최보미] > U stage' 카테고리의 다른 글

Day12 학습정리 - 최적화 (0)	2021.02.02
Day11 학습정리 - 딥러닝 기초 (0)	2021.02.01
Day9 학습정리 - Pandas II / 확률론 (0)	2021.01.28
Day8 학습정리 - Pandas I / 딥러닝 학습방법 이해하기 (0)	2021.01.27
Day7 학습정리 - 경사하강법 (0)	2021.01.26

현재글Day10 학습정리 - 시각화 / 통계학

Today :
Yesterday :

Data Engineering, DRF, RNN, python, Google Kubernetes Engine, Django, Image Classification, flask, T아카데미, 네이버 부스트캠프, Google Cloud Pub/Sub, Google Cloud Functions, 인코스런, pandas, Boostcamp AI Tech, 소셜로그인, cnn, Data Studio, Docker, Google Cloud Platform,

보미의 Tech Blog