[3학년][1학기][데이터마이닝][2w]
2024. 3. 13. 22:22
Data
- 데이터 객체 및 그 속성의 집합
- objects, records, data points
- attribute, feature, independent variable
속성 값 유형
이산 속성
- 유한하거나 가산 무한한 값들을 갖고 있음
- Nominal: 같다 다르다, Mode
- Ordinal: 크다 작다, Mode, Median
연속 속성
- 속성 값으로 실수를 갖고 있음
- Interval: 가감 가능, Mode, Median, Mean
- Ratio: 승제 가능, Mode, Median, Mean
입출력 변수
X
- input, exogenous variable
Y
- output variable, label
데이터 셋 유형
레코드 데이터
- 데이터 행렬
- 문서 데이터: 각 Document는 Term 벡터가 됨
- 거래 데이터: 각 Transaction
그래프 데이터
- World Wide Web
- 분자 구조
순서가 있는 데이터
- 순열 데이터
- 유전자 서열 데이터
- 공간 데이터
- 시계열 데이터
데이터 품질
Noise
- 원래 값의 변경을 의미
이상치
- 데이터 셋의 대부분의 다른 데이터 개체들과는 상당히 다른 데이터 개체를 의미
결측치
- 결측치 발생 원인
- 정보 수집 안됨
- 속성들이 모든 경우에 적용 가능하지 않을 수 있음
- 결측치 처리(Missing Value Imputation)
- 데이터 개체 제거
- 결측치 추정
- 분석중 결측치 무시
- 결측치 치환(확률 가중치 적용)
중복 데이터
- 데이터 셋은 중복된 데이터 또는 서로 거의 중복되는 데이터 개체 포함 가능
- ex) 여러 이메일 주소를 가진 동일한 사용자
'학사 > 아주대 융시공' 카테고리의 다른 글
[3학년][1학기][디지털제조입문][3w] (0) | 2024.03.19 |
---|---|
[3학년][1학기][인공지능시스템][2w] (0) | 2024.03.14 |
[3학년][1학기][디지털제조입문][2w] (0) | 2024.03.13 |
[3학년][1학기][엔지니어링데이터베이스관리론][1w] (0) | 2024.03.09 |
[3학년][1학기][디지털제조입문][1w] (0) | 2024.03.05 |