1. 개념

  • 데이터 분석, 머신러닝(딥러닝)을 수행하기 전에 데이터를 가공, 변경, 정체하는 일련의 과정
  • ML 모델에 적용하려면 데이터셋은 다음 조건을 갖춰야 함
    • 결측치(NULL) 값이 허용되지 않음
    • 문자열도 허용되지 않음

2. 유형

  • 결측치 처리
    • 결측된 데이터가 너무 많은 경우 -> 열 전체를 삭제
    • 결측된 데이터가 일부인 경우 -> 다른 값(평균값, 최빈값 등)으로 대체
  • 데이터 인코딩(Label Encoding, One-hot Encoding)
    • 문자열은 변환이 필요
    • Label Encoding : 범주형 데이터를 숫자로 일대일 매핑(ex. 조류: 1, 포유류: 2)
    • One-hot Encoding : 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방법
  • 스케일링(정규화, 표준화 등)
    • 표준화 : 데이터 값이 각각 평균 0이고 분산 1인 가우시안 정규 분포를 가진 값으로 변환하는 것
    • 정규화
      • minmax scaler
      • maxabs scaler
  • 이상치 처리
    • IQR : 사분위 값의 편차를 이용하여 이상치를 걸러냄
      • 전체 데이터를 정렬하여 이를 4등분(Q1, Q2, Q3, Q4)
      • IQR : Q1 ~ Q3
      • Q3에 1.5 * IQR을 더한 지점보다 크거나 Q1에 1.5 * IQR을 뺀 지점보다 작으면 이상치로 간주
  • 샘플링(언더 샘플링, 오버 샘플링)
  • feature engineering
  • feature selection
  • feature extraction
  • 기타 등등

'💻 Computer Science > AI' 카테고리의 다른 글

[AI] 회귀분석  (0) 2024.12.28
[AI] 인공지능 기본  (0) 2024.06.05