부스트캠프 AI Tech 1기 [T1209 최보미]/P stage-1 (이미지분류)

Day1 학습정리 - EDA

B1001101 2021. 3. 29. 22:53

1. 오늘의 학습목표

  • 대회 플랫폼 사용법 익히기
  • 주어진 이미지 데이터 탐색

 

2. 목표를 달성하기 위해 한 행동

우선 train 폴더에 들어가서 폴더명과 파일명은 어떤 식으로 되어있는지, 어떤 이미지들이 있는지 대충 확인해보았다.

그다음 트레인 이미지 정보가 담겨있는 CSV 파일을 읽어서 데이터 분포를 확인했다. 분석 결과 성비는 여자:남자가 6:4 정도 되었고 나이 분포를 그래프로 그려 확인해보니 양 끝에 많이 분포해있는 것을 알 수 있었다.

그리고 각 이미지들의 클래스를 분류하여 라벨링했다. 클래스별 이미지 개수를 확인해보니까 불균형이 있었다.

그다음 각 클래스별로 이미지를 5장씩 뽑아 출력해보았다. 마스크 대신 천을 쓴 사람도 있었고 눈에 마스크를 한 사람도 있었다. 처음에는 이미지가 모두 jpg 형식인 줄 알고 이미지 파일을 불러올 때 jpg 확장자를 사용했는데 오류가 나서 살펴보니까 jpg가 아닌 것도 있었다. 그래서 glob를 사용해 확장자에 관계없이 모두 불러올 수 있도록 바꿨다.

 

3. 회고

오늘은 첫 날이라서 본격적인 학습은 시작하지 않고 대회 플랫폼에 적응할 겸 가볍게 데이터 탐색만 해보았다. 나름 의미 있는 결과를 얻은 것 같다. 데이터 불균형을 어떻게 처리해야 할지는 더 고민해봐야겠다. 트레인 이미지만 확인해보고 테스트 이미지는 아직 제대로 확인 못 했는데 테스트 이미지도 확인해봐야겠다.