오늘 피어세션에서 문제 번호 자료형이 int일 때보다 string일 때 점수가 더 높게 나왔다는 이야기를 듣고 csv파일에서 문제 번호가 string으로 고정되도록 앞에 알파벳 A를 추가했다. feature의 자료형은 모델 성능이랑 상관이 없을 것 같은데 왜 다르게 나오는지 의아하다.
train data랑 test data에 대해 feature engineering을 따로 진행하면 train data 중에서 맞춘 문제 수와 같이 계속 누적되는 정보가 test data에 반영되지 않고 초기화된다. 그래서 train data의 정보가 test data에서 계속 이어지게 하기 위해 train이랑 test 데이터프레임을 합쳐서 한 번에 계산한 후 다시 나누는 방식을 사용해봤다.