1. 오늘의 학습목표
- 대회 플랫폼 사용법 익히기
- 주어진 이미지 데이터 탐색
2. 목표를 달성하기 위해 한 행동
우선 train 폴더에 들어가서 폴더명과 파일명은 어떤 식으로 되어있는지, 어떤 이미지들이 있는지 대충 확인해보았다.
그다음 트레인 이미지 정보가 담겨있는 CSV 파일을 읽어서 데이터 분포를 확인했다. 분석 결과 성비는 여자:남자가 6:4 정도 되었고 나이 분포를 그래프로 그려 확인해보니 양 끝에 많이 분포해있는 것을 알 수 있었다.
그리고 각 이미지들의 클래스를 분류하여 라벨링했다. 클래스별 이미지 개수를 확인해보니까 불균형이 있었다.
그다음 각 클래스별로 이미지를 5장씩 뽑아 출력해보았다. 마스크 대신 천을 쓴 사람도 있었고 눈에 마스크를 한 사람도 있었다. 처음에는 이미지가 모두 jpg 형식인 줄 알고 이미지 파일을 불러올 때 jpg 확장자를 사용했는데 오류가 나서 살펴보니까 jpg가 아닌 것도 있었다. 그래서 glob를 사용해 확장자에 관계없이 모두 불러올 수 있도록 바꿨다.
3. 회고
오늘은 첫 날이라서 본격적인 학습은 시작하지 않고 대회 플랫폼에 적응할 겸 가볍게 데이터 탐색만 해보았다. 나름 의미 있는 결과를 얻은 것 같다. 데이터 불균형을 어떻게 처리해야 할지는 더 고민해봐야겠다. 트레인 이미지만 확인해보고 테스트 이미지는 아직 제대로 확인 못 했는데 테스트 이미지도 확인해봐야겠다.
'부스트캠프 AI Tech 1기 [T1209 최보미] > P stage-1 (이미지분류)' 카테고리의 다른 글
Day6 학습정리 (0) | 2021.04.05 |
---|---|
Day5 학습정리 (0) | 2021.04.02 |
Day4 학습정리 - Training & Inference (0) | 2021.04.01 |
Day3 학습정리 - Model (0) | 2021.03.31 |
Day2 학습정리 - Data Feeding (0) | 2021.03.30 |