#!/usr/bin/env python3
feature auto-selection --intro
새로운 특성을 만드는 방법이 많으므로 데이터의 차원이 원복 특성의 수 이상으로 증가
따라서 모델은 더 복잡해지고 overfitting될 가능성도 높아짐
새로운 특성을 추가하거나, 고차원 데이터셋을 사용할 때 가장 유용한 특성만 선택하여 차원을 줄이는 것이 좋음
이렇게 하면 모델이 간단해지고 일반화 성능이 올라감
어떤 특성이 좋은지 아는 방법에는 크게 3가지가 있음
1. univariate statics일변량통계
2. model-based selection모델기반선택
3. iterative selection반복적 선택
이 방법들은 모두 지도학습이므로 target값이 필요하며
train set에만 특성 선택에 사용해야함
'데이터 표현과 특성 > feature auto-selection' 카테고리의 다른 글
feature selection based model(모델 기반 특성 선택) (0) | 2018.04.01 |
---|---|
univariate analysis(단변량 분석) (0) | 2018.03.30 |