[AI] 데이터 전처리

나장승현

|2024. 12. 28. 22:46

1. 개념

결측치 처리
- 결측된 데이터가 너무 많은 경우 -> 열 전체를 삭제
- 결측된 데이터가 일부인 경우 -> 다른 값(평균값, 최빈값 등)으로 대체
데이터 인코딩(Label Encoding, One-hot Encoding)
- 문자열은 변환이 필요
- Label Encoding : 범주형 데이터를 숫자로 일대일 매핑(ex. 조류: 1, 포유류: 2)
- One-hot Encoding : 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방법
스케일링(정규화, 표준화 등)
- 표준화 : 데이터 값이 각각 평균 0이고 분산 1인 가우시안 정규 분포를 가진 값으로 변환하는 것
- 정규화
  - minmax scaler
  - maxabs scaler
이상치 처리
- IQR : 사분위 값의 편차를 이용하여 이상치를 걸러냄
  - 전체 데이터를 정렬하여 이를 4등분(Q1, Q2, Q3, Q4)
  - IQR : Q1 ~ Q3
  - Q3에 1.5 * IQR을 더한 지점보다 크거나 Q1에 1.5 * IQR을 뺀 지점보다 작으면 이상치로 간주
샘플링(언더 샘플링, 오버 샘플링)
feature engineering
feature selection
feature extraction
기타 등등

[AI] 회귀분석 (0)	2024.12.28
[AI] 인공지능 기본 (1)	2024.06.05