#!/usr/bin/env python3


feature auto-selection --intro


새로운 특성을 만드는 방법이 많으므로 데이터의 차원이 원복 특성의 수 이상으로 증가

따라서 모델은 더 복잡해지고 overfitting될 가능성도 높아짐

새로운 특성을 추가하거나, 고차원 데이터셋을 사용할 때 가장 유용한 특성만 선택하여 차원을 줄이는 것이 좋음

이렇게 하면 모델이 간단해지고 일반화 성능이 올라감


어떤 특성이 좋은지 아는 방법에는 크게 3가지가 있음

1. univariate statics일변량통계

2. model-based selection모델기반선택

3. iterative selection반복적 선택


이 방법들은 모두 지도학습이므로 target값이 필요하며

train set에만 특성 선택에 사용해야함

+ Recent posts