LGBM에 OOF를 어떻게 적용할 수 있을지 알아보기 위해 PyCaret이 어떤 식으로 동작하는지 조사해봤다.
- 먼저 setup() 함수에서 설정한 비율에 따라 데이터가 train set과 valid set으로 나뉨
- Cross Validation은 train set에만 적용됨
- fold_strategy default값: stratified k-fold
- stratified 할 때 기준은 target value(answerCode)로 추정(따로 명시되어있지는 않음)
- 결과는 각 fold의 평균값
- sklearn custom CV generator 형태로 fold_strategy 직접 지정할 수 있음
- get_config() 함수 사용해서 각 fold에 해당하는 index 추출 가능
- create_model(): train set에 대해 Cross Validation 진행
- tune_model(): random grid search 통해 하이퍼파라미터 최적화
- finalize_model(): 모델을 전체 데이터(train set + valid set)에 대해 fitting
- predict_model(): 주어진 데이터에 대한 예측값 반환 (데이터를 따로 지정하지 않으면 valid set으로 계산한 결과 반환)
- Score_0: label 0일 확률
Score_1: label 1일 확률
- Score_0: label 0일 확률
'부스트캠프 AI Tech 1기 [T1209 최보미] > P stage-4 (DKT)' 카테고리의 다른 글
Day17 학습정리 + 부스트캠프 수료 소감 (0) | 2021.06.15 |
---|---|
Day15 학습정리 (0) | 2021.06.11 |
Day14 학습정리 (0) | 2021.06.10 |
Day13 학습정리 (0) | 2021.06.09 |
Day12 학습정리 (0) | 2021.06.08 |