Data

  • 데이터 객체 및 그 속성의 집합
  • objects, records, data points
  • attribute, feature, independent variable

속성 값 유형

이산 속성

  • 유한하거나 가산 무한한 값들을 갖고 있음
  • Nominal: 같다 다르다, Mode
  • Ordinal: 크다 작다, Mode, Median

연속 속성

  • 속성 값으로 실수를 갖고 있음
  • Interval: 가감 가능, Mode, Median, Mean
  • Ratio: 승제 가능, Mode, Median, Mean

입출력 변수

X

  • input, exogenous variable

Y

  • output variable, label

데이터 셋 유형

레코드 데이터

  • 데이터 행렬
  • 문서 데이터: 각 Document는 Term 벡터가 됨
  • 거래 데이터: 각 Transaction

그래프 데이터

  • World Wide Web
  • 분자 구조

순서가 있는 데이터

  • 순열 데이터
  • 유전자 서열 데이터
  • 공간 데이터
  • 시계열 데이터

데이터 품질

Noise

  • 원래 값의 변경을 의미

이상치

  • 데이터 셋의 대부분의 다른 데이터 개체들과는 상당히 다른 데이터 개체를 의미

결측치

  • 결측치 발생 원인
    • 정보 수집 안됨
    • 속성들이 모든 경우에 적용 가능하지 않을 수 있음
  • 결측치 처리(Missing Value Imputation)
    • 데이터 개체 제거
    • 결측치 추정
    • 분석중 결측치 무시
    • 결측치 치환(확률 가중치 적용)

중복 데이터

  • 데이터 셋은 중복된 데이터 또는 서로 거의 중복되는 데이터 개체 포함 가능
  • ex) 여러 이메일 주소를 가진 동일한 사용자

+ Recent posts