사용자별 정답률과 문제별 정답률을 카테고리화해서 넣어봤는데 validation때는 auc가 높게 나왔지만 제출해봤더니 점수가 많이 떨어졌다.
정답률을 계산할 때 누적합으로 계산해서 행마다 값이 계속 조금씩 바뀌었었는데 오늘 피어세션때 이야기를 나눠보니까 그렇게 하면 난이도의 의미가 사라질 것 같다는 생각이 들었다. 그래서 전체 데이터로 한번에 계산해서 모든 행에 동일한 값을 넣는 방법을 적용해볼것이다.
계속 validation 점수랑 리더보드 점수가 차이가 많이 나는데 Cross Validation을 사용해 데이터 불균형 문제를 해결해야 할 것 같다. 피어세션때 나왔던 방법들로는 train:valid 비율 8:2로 바꾸기, 데이터 전부 train으로 사용하기, Nested CV 등이 있었다.