강의 복습
1. 시각화 도구
더보기
1) matplotlib
- 파이썬의 대표적인 시각화 도구
- pyplot 객체를 사용하여 데이터를 표시
- Figure 안에 axis로 구성
- subplot: grid로 순서 작성
- color, linestyle, title, legend(범례), grid, xylim(x,y축 범위) 등 지정 가능
- 그래프 종류: scatter, bar, hist(히스토그램), boxplot
2) seaborn
- 기존 matplotlib에 기본 설정 추가
- 복잡한 그래프를 간단하게 만들 수 있는 wrapper
- 간단한 코드 + 예쁜 결과
- basic plots: lineplot, scatterplot, countplot 등
- predefined plots: violinplot, stripplot, swarmplot, pointplot, regplot 등
- multiple plots: 한 개 이상의 도표를 하나의 플롯에 작성, axes를 사용해 grid 나눔
- predefined multiple plots: replot, catplot, facetgrid, pairplot, pairplot, lmplot
2. 통계학 맛보기
더보기





1) 모수 (parameter)
- 통계적 모델링: 적절한 가정 위에서 확률분포를 추정(inference)
- 모집단의 분포를 정확하게 알아내는 것은 불가능하므로 근사적으로 확률분포 추정
- 모수적(parametric) 방법론: 데이터가 특정 확률분포를 따른다고 가정하고 그 분포를 결정하는 모수 추정
- 비모수(nonparametric) 방법론: 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀜
- 확률분포 가정하는 방법: 우선 히스토그램을 통해 모양 관찰, 기계적으로 가정해서는 안 되며 데이터 생성 원리 먼저 고려
- 데이터가 2개의 값(0, 1)만 가지는 경우 → 베르누이 분포
- 데이터가 n개의 이산적인 값을 가지는 경우 → 카테고리분포
- 데이터가 [0,1] 사이에서 값을 가지는 경우 → 베타분포
- 데이터가 0 이상의 값을 가지는 경우 → 감마분포, 로그정규분포 등
- 데이터가 R 전체에서 값을 가지는 경우 → 정규분포, 라플라스분포 등
- 정규분포의 모수
- 표본분산을 구할 때 N이 아니라 N-1로 나누는 이유: 불편추정량 구하기 위해

- 표집분포(sampling distribution): 통계량의 확률분포
- 중심극한정리(Central Limit Theorem): 표본평균의 표집분포는 N이 커질수록 정규분포 𝒩(𝜇, 𝜎2/N) 따름
2) 최대가능도 추정법 (Maximum Likelihood Estimation, MLE)
- 이론적으로 가장 가능성이 높은 모수를 추정하는 방법 중 하나
- 가능도(likelihood) 함수: 모수 𝛉를 따르는 분포가 x를 관찰할 가능성(확률로 해석하면 안 됨)

- 데이터 집합 X가 독립적으로 추출되었을 경우 로그가능도 최적화

- 로그가능도를 사용하는 이유
- 데이터 숫자가 수억 단위가 되면 컴퓨터의 정확도로는 가능도 계산 불가능
- 데이터가 독립일 경우 가능도의 곱셈을 로그가능도의 덧셈으로 바꿀 수 있어서 컴퓨터로 연산 가능
- 경사하강법에서 미분 연산량을 O(n2)에서 O(n)으로 줄여줌
- 대부분의 경우 경사하강법을 사용하므로 음의 로그가능도(negative log-likelihood) 최적화
- 정규분포: 두 미분이 모두 0이 되는 𝛍, 𝛔 찾음
- 카테고리 분포: 경우의 수를 세어서 비율을 구함, 라그랑주 승수법 사용
- 베르누이 분포: 결과값 2가지, 이항분포: 베르누이 n회 시행
- 카테고리 분포: 결과값 n가지, 다항분포: 카테고리 n회 시행
- https://datascienceschool.net/02%20mathematics/08.03%20%EC%B9%B4%ED%85%8C%EA%B3%A0%EB%A6%AC%EB%B6%84%ED%8F%AC%EC%99%80%20%EB%8B%A4%ED%95%AD%EB%B6%84%ED%8F%AC.html
8.3 카테고리분포와 다항분포 — 데이터 사이언스 스쿨
이 절에서는 베르누이분포의 확장판인 카테고리분포와 이항분포의 확장판인 다항분포를 공부한다. 베르누이분포가 이진분류문제(binary classification)에 사용된 것처럼 카테고리분포는 다중분류
datascienceschool.net
3) 딥러닝에서 최대가능도 추정법
- 분류 문제에서 소프트맥스 벡터는 카테고리분포의 모수를 모델링
- 원핫벡터로 표현한 정답레이블 y를 관찰데이터로 이용해 확률분포인 소프트맥스 벡터의 로그가능도 최적화할 수 있음
- 기계학습에서 사용되는 손실함수들은 모델이 학습하는 확률분포와 데이터에서 관찰되는 확률분포의 거리를 통해 유도
- 데이터공간에 두 개의 확률분포 P(x), Q(x)가 있을 경우 두 확률분포 사이의 거리를 계산할 때 다음과 같은 함수들 이용
- 총변동 거리(Total Variation Distance, TV)
- 쿨백-라이블러 발산(Kullback-Leibler Divergence, KL)
- 바슈타인 거리(Wasserstein Distance)
- 쿨백-라이블러 발산
- 최대가능도 추정법은 쿨백-라이블러 발산 최소화하는 것과 같음


마스터클래스 & 피어세션
이번주 강의가 수학강의이라서 오늘 마스터클래스는 주로 수학에 관련된 질문들이 많았다. 질문들을 보니 나뿐만 아니라 수학을 어려워하고 잘 와닿지 않는 학생들이 많은 것 같았다.
오늘 피어세션에서는 팀원들이 각자 공부한 내용, 궁금한 점을 이야기하는 시간을 가졌다. 강의를 들을때는 잘 와닿지 않았던 내용들이 팀원의 설명을 들으니까 정리되는 느낌이 들어서 좋았다.
코멘트
부스트캠프 시작한지 얼마 안 된 것 같은데 벌써 2주차가 끝났다. 이번주에 배운 수학은 어렵지만 확실히 알고 넘어가야 할 내용이 많아서 주말에 복습을 열심히 해야겠다.
'부스트캠프 AI Tech 1기 [T1209 최보미] > U stage' 카테고리의 다른 글
Day12 학습정리 - 최적화 (0) | 2021.02.02 |
---|---|
Day11 학습정리 - 딥러닝 기초 (0) | 2021.02.01 |
Day9 학습정리 - Pandas II / 확률론 (0) | 2021.01.28 |
Day8 학습정리 - Pandas I / 딥러닝 학습방법 이해하기 (0) | 2021.01.27 |
Day7 학습정리 - 경사하강법 (0) | 2021.01.26 |