변수 선택
- 데이터의 종속변수에 가장 영향이 있을 만한 독립변수를 선정하는 방법
- 독립변수가 많은 모델일수록 종속변수를 잘 예측할 가능성이 높지만, 불필요한 변수는 오히려 모델을 악화시킴
- 데이터 정제 후 분석과정에서 좋은 모델을 구성하기 위해서는 변수 선택의 과정이 필수
- 필터 방법 : 독립변수 하나와 종속변수 하나씩 적합한 통계적 기법을 이용하여 상관이 있는 변수를 찾아내는 방법
- 래퍼 방법 : 독립변수들을 미리 정해놓고 예측분석 과정에서 예측과 분류에 기여하는 영향 변수만을 선정하는 방법
- 임베디드 방법 : 모델링 기법 자체에 변수선택 방법이 포함된 임베디드 방법
데이터 축소
방대한 양의 데이터를 대상으로 데이터를 분석하고 마이닝 기법을 적용한다면, 분석에 매우 많은 시간이 소요되어 비현실적이므로 데이터의 축소가 필요함
- 차원적 축소 : 데이터 인코딩 스키마를 적용하여 압축되거나 축소된 표현 제공
- 수치적 축소 : 모수적 모형이나 비모수적 모형을 이용한 데이터 대체
- 모수적 모형 : 모수의 특성을 활용하는 모형으로 모집단이 정규분포를 띤다는 가정하에 표본 통계량으로 모집단 통계량을 추정하는 방식
- 비모수적 모형 : 모수의 특성을 활용하지 않는 모형으로 군집화, 표본 추출, 히스토그램 등이 대표적인 예
-> 축소된 데이터 집합에 대한 분석 결과는 원본 데이터 집합의 분석 결과와 동일한 결과를 산출해야 함
1. 속성 부분집합 선택
- 데이터 집합에서 연관성이 낮거나 중복되는 속성(또는 특성, 차원)을 제거함으로써 데이터 집합의 크기를 효율적으로 줄이는 것
- 속성 부분집합 선택에서 주요 목표는 전체 속성에 가장 가까운 데이터 범주의 확률분포를 가지면서도, 사용하는 속성의 수는 최소화 하는 속성 집합을 찾는 것
- 시간 효율성 향상
- 너무많은 속성을 포함한 데이터 집합은 시간 효율성을 떨어뜨림
- 속성 부분집합으로 데이터 분석과정의 속도를 높임 - 분석 알고리즘 성능 개선
- 영향력이 적거나 중복적인 속성을 제거하여 분석 알고리즘의 혼동을 줄이고 결과의 품질을 향상 - 데이터 이해도 증가
- 필요하지않은 속성을 제거함으로써 속성에 대한 이해도가 증가하고 핵심적 특성을 명확하게 파악할 수 있음
최소속성집합 찾기
- 소모적 탐색법
- 가능한 모든 2^n개의 속성 조합을 탐색하여 최적의 조합을 찾는 방법
- n의 값에 따라 탐색할 조합의 수가 기하급수적으로 증가하므로 현실적으로 적용이 어려움 - 경험적 방법과 경험적 기법의 종류
- 검색 공간을 축소하여 탐색 비용을 줄이는 방법으로 매 회마다 최선으로 보이는 속성을 선택하는 Greedy방식을 사용함
- 눈앞의 문제에서 최적인 해를 찾아가면서 전역적으로 최적이 될 것을 기대하는 방법
- 최적 혹은 최악의 속성들은 서로 독립적이라고 가정하는 통계적 유의성 검정을 통해 결정
1. 단계적 전진 선택법 : 속성의 공집합으로 시작해서 최적의 속성들을 추가해 나가는 방법
2. 단계적 후진 제거법 : 속성의 전체집합으로 시작해서 최악의 속성들을 하나씩 제거하는 방법
3. 전진 선택법과 후진 선택법의 결합 : 각 단계마다 최선의 속성을 선택하고 최악의 선택을 제거하는 방법
2. 차원 축소
- 정보 유지 : 분석 대상이 되는 여러 변수의 정보를 최대한 보존하면서 변수의 개수를 줄임
- 분석 개선 : 다른 분석 과정의 전 단계로 사용되거나 분석 수행 후 결과를 개선하는 방법
- 시각화 : 고차원 데이터를 저차원으로 변환하여 시각적으로 이해하기 쉽도록 도움
- 비지도 학습법 : 직접 예측이나 분류 목적에 활용되지는 않고, 주로 비지도 학습방법으로 수행됨
- 후속 분석에 활용 : 축소된 차원은 이후의 예측이나 분류 작업에 특성 변수로 활용됨
- 머신러닝 알고리즘 성능 향상 : 변환된 저차원에서 학습할 경우 회귀, 분류, 클러스터링 등 알고리즘이 더 잘 작동함
2-1. 웨이블릿 변환
n차원 벡터 X = (x1, x2 ...... xn)를 다른 수치적 벡터 X'으로 변환 (X와 X'의 길이는 동일함)
- 원본 데이터의 길이를 변경하지는 않지만, 변환 과정에서 데이터를 압축하여 보이게하는 방식 (특정 웨이블릿 계수를 선택하여 데이터의 근사치를 유지)
- 사용자가 설정한 임계값보다 큰 웨이블릿 계수들만 유지하고 나머지 계수들은 전부 0으로 설정(모델이나 알고리즘에서 0은 계산에 포함하지 않으므로 결과적으로 데이터가 압축되는 효과)
- 데이터의 주요 특징을 보존하면서도 잡음을 제거하는 역할도 하므로 데이터의 정제과정에서 특히 유용함
2-2. 주성분 분석(PCA, Principal Components Analysis)
다차원 데이터 차원을 축소하는 가장 널리 사용되는 기법 중 하나
- n개의 속성을 가진 데이터에 대하여, 데이터를 표현하는 데 최적으로 사용될 수 있는 n차원 직교벡터(orthogonal vector)들 중에 k개를 선택하여 (k <= n) 감소된 차원의 데이터 공간을 생성하는 방식
주성분 분석 절차
- 표준화 : 입력 데이터를 표준화해 모든 속성이 같은 범위에 속하도록 하여 큰 범위를 갖는 속성들이 분석결과를 지나치게 지배하는 것을 방지
- 직교 벡터 계산 : 표준화된 데이터를 위한 기저를 제공하는 직교 벡터들을 계산, 이런 벡터를 주성분이라고 하며 입력 데이터는 이 주성분들의 선형 조합으로 표현됨
- 주성분 정렬 : 주성분들은 중요도의 내림차순으로 정렬, 첫 번째 주성분은 데이터의 가장 큰 분산을 캡처하고 다음 주성분들은 남은 분산 중 가장 큰 분산을 캡처
- 차원 축소 : 정렬된 주성분들 중 일부를 선택함으로써 데이터의 차원을 줄이고 데이터의 크기를 감소시킴
2-3. 회귀 모델
- 주어진 데이터의 근사치를 구하는데 사용
- 종속변수 y를 독립변수 x의 선형함수로 모델링 y= wx + b
- 기울기 또는 계수인 w와 절편 b는 추정치 사이의 오류를 최소화해주는 최소제곱법에 의해 구해짐
2-4. 로그 - 선형 모델
- 이산 다차원 확률분포의 근사치 계산에 사용되는 모델
- 이산 다차원 확률분포 : n개의 속성으로 표현되는 n차원에서 주어진 n개의 튜플 집합을 n차원 공간의 한 점으로 생각하여, 해당 공간 내에서의 확률 분포의 근사치를 구함 - 데이터 집합을 분석할 때 특히 유용하며 차원축소와 데이터 평활화에 적합한 방법을 제공
- 적은 공간을 차지하는 저차원의 점을 이용하여 고차원 데이터의 근사치를 구함 (고차원 데이터 처리 비용 완화)
- 고차원 공간은 표본 변동에 민감하지만, 로그 - 선형 모델을 이용한 저차원 공간의 평가는 변동에 덜 민감함
2-5. 요인분석
- 데이터를 단순화하고 변수들간 관계를 이해하며 잠재적 요인(변수)들을 찾는 기법
- 데이터에 하나 이상의 잠재적 변수가 존재한다는 가정하에 진행되며, 잠재 변수는 관찰된 데이터의 변동성을 설명하는 데 중요한 역할을 함
- 분석자는 관찰 가능한 변수들 사이의 관계를 모델링하여 이런 잠재 요인을 도출하고 데이터 내의 구조를 해석
2-6. 독립성분 분석 (ICA, Independent Components Analysis)
- 다변량 데이터 또는 신호를 구성하는, 통계적으로 독립된 하부 성분으로 분리하는 분석
- 데이터를 구성하는 성분들이 통계적으로 독립적이라는 가정 하에 진행 (각 성분의 정보가 다른 성분의 정보와 중복되지 않음을 의미)
- 독립 성분들은 비정규 분포를 따르며 성분들 사이의 독립성을 구별
- 독립적인 소스를 식별하고 분리하여 차원축소
- 성분들간 상호 독립성을 기반으로 하기에 PCA보다 더 깊은 데이터 분석이 가능함
2-7. 다차원 척도법
- 다양한 개체들 사이의 유사성이나 비유사성을 기반으로 이들을 공간상에 표현하는 통계적 분석 방법
- 개체들 사이의 관계를 2차원 또는 3차원 공간상에서 시각적으로 이해 가능
- 유사한 개체는 가까이, 비유사 개체는 서로 멀리 배치됨
- 개체간 근접성을 공간상에서 시각화 함으로써 연구자가 개체들 사이의 관계를 직관적으로 이해 가능
- 고차원 데이터를 2, 3차원으로 축소하여 표현함으로써 복잡한 데이터 구조를 쉽게 파악할 수 있음
2-8. 표본 추출
- N개의 튜플이 포함된 데이터 집합 D에서 대표적인 데이터 샘플(부분집합)을 선택
- 표본 추출의 목적은 전체 데이터 집합의 특성을 잘 대표하는 작은 집합을 구하여 분석의 효율성을 높이고 계산 비용을 줄이는 것
- 비복원 단순 무작위 표본, 복원 단순 무작위 표본, 집략 표본, 층화 표본 등이 있음
2-9. 히스토그램
- 데이터 분포의 근사치를 시각적으로 표현하는 데이터 축소 방법
- 데이터를 구간화하여 각 구간에 데이터가 얼마나 분포하는지를 나타냄으로써 데이터의 전반적 분포 패턴을 이해
- 희소 데이터, 밀집 데이터, 균일 데이터 등 다양한 유형의 데이터에도 적용 가능
- 단일 속성 뿐 아니라 다중 속성에 대한 히스토그램으로 확장도 가능
2-10. 군집화
- 비슷한 특성을 가진 데이터 튜플들을 객체로 간주하고 이들을 여러 군집으로 나누는 과정
- 같은 군집 내의 객체들은 서로 유사하며, 다른 군집의 객체들과는 유사하지 않음
- 유사성은 객체간의 거리를 계산하는 거리 함수를 사용하여 정의
- 군집의 품질은 클러스터의 지름으로 나타내며, 지름은 군집 내 객체들 간 최대 거리
- 각 군집의 중심간 거리는 유사성이 낮을수록 멀어짐