나장승현
|2024. 12. 28. 22:46
1. 개념
- 데이터 분석, 머신러닝(딥러닝)을 수행하기 전에 데이터를 가공, 변경, 정체하는 일련의 과정
- ML 모델에 적용하려면 데이터셋은 다음 조건을 갖춰야 함
- 결측치(NULL) 값이 허용되지 않음
- 문자열도 허용되지 않음
2. 유형
- 결측치 처리
- 결측된 데이터가 너무 많은 경우 -> 열 전체를 삭제
- 결측된 데이터가 일부인 경우 -> 다른 값(평균값, 최빈값 등)으로 대체
- 데이터 인코딩(Label Encoding, One-hot Encoding)
- 문자열은 변환이 필요
- Label Encoding : 범주형 데이터를 숫자로 일대일 매핑(ex. 조류: 1, 포유류: 2)
- One-hot Encoding : 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방법
- 스케일링(정규화, 표준화 등)
- 표준화 : 데이터 값이 각각 평균 0이고 분산 1인 가우시안 정규 분포를 가진 값으로 변환하는 것
- 정규화
- minmax scaler
- maxabs scaler
- 이상치 처리
- IQR : 사분위 값의 편차를 이용하여 이상치를 걸러냄
- 전체 데이터를 정렬하여 이를 4등분(Q1, Q2, Q3, Q4)
- IQR : Q1 ~ Q3
- Q3에 1.5 * IQR을 더한 지점보다 크거나 Q1에 1.5 * IQR을 뺀 지점보다 작으면 이상치로 간주
- 샘플링(언더 샘플링, 오버 샘플링)
- feature engineering
- feature selection
- feature extraction
- 기타 등등