데이터 축소

빅데이터 관련 개념 정리

데이터 축소

은행털이 2024. 4. 21. 03:13

변수 선택

- 데이터의 종속변수에 가장 영향이 있을 만한 독립변수를 선정하는 방법

- 독립변수가 많은 모델일수록 종속변수를 잘 예측할 가능성이 높지만, 불필요한 변수는 오히려 모델을 악화시킴

- 데이터 정제 후 분석과정에서 좋은 모델을 구성하기 위해서는 변수 선택의 과정이 필수

필터 방법 : 독립변수 하나와 종속변수 하나씩 적합한 통계적 기법을 이용하여 상관이 있는 변수를 찾아내는 방법
래퍼 방법 : 독립변수들을 미리 정해놓고 예측분석 과정에서 예측과 분류에 기여하는 영향 변수만을 선정하는 방법
임베디드 방법 : 모델링 기법 자체에 변수선택 방법이 포함된 임베디드 방법

데이터 축소

방대한 양의 데이터를 대상으로 데이터를 분석하고 마이닝 기법을 적용한다면, 분석에 매우 많은 시간이 소요되어 비현실적이므로 데이터의 축소가 필요함

차원적 축소 : 데이터 인코딩 스키마를 적용하여 압축되거나 축소된 표현 제공
수치적 축소 : 모수적 모형이나 비모수적 모형을 이용한 데이터 대체
- 모수적 모형 : 모수의 특성을 활용하는 모형으로 모집단이 정규분포를 띤다는 가정하에 표본 통계량으로 모집단 통계량을 추정하는 방식
- 비모수적 모형 : 모수의 특성을 활용하지 않는 모형으로 군집화, 표본 추출, 히스토그램 등이 대표적인 예

-> 축소된 데이터 집합에 대한 분석 결과는 원본 데이터 집합의 분석 결과와 동일한 결과를 산출해야 함

1. 속성 부분집합 선택

- 데이터 집합에서 연관성이 낮거나 중복되는 속성(또는 특성, 차원)을 제거함으로써 데이터 집합의 크기를 효율적으로 줄이는 것

- 속성 부분집합 선택에서 주요 목표는 전체 속성에 가장 가까운 데이터 범주의 확률분포를 가지면서도, 사용하는 속성의 수는 최소화 하는 속성 집합을 찾는 것

시간 효율성 향상
- 너무많은 속성을 포함한 데이터 집합은 시간 효율성을 떨어뜨림
- 속성 부분집합으로 데이터 분석과정의 속도를 높임
분석 알고리즘 성능 개선
- 영향력이 적거나 중복적인 속성을 제거하여 분석 알고리즘의 혼동을 줄이고 결과의 품질을 향상
데이터 이해도 증가
- 필요하지않은 속성을 제거함으로써 속성에 대한 이해도가 증가하고 핵심적 특성을 명확하게 파악할 수 있음

최소속성집합 찾기

소모적 탐색법
- 가능한 모든 2^n개의 속성 조합을 탐색하여 최적의 조합을 찾는 방법
- n의 값에 따라 탐색할 조합의 수가 기하급수적으로 증가하므로 현실적으로 적용이 어려움
경험적 방법과 경험적 기법의 종류
- 검색 공간을 축소하여 탐색 비용을 줄이는 방법으로 매 회마다 최선으로 보이는 속성을 선택하는 Greedy방식을 사용함
- 눈앞의 문제에서 최적인 해를 찾아가면서 전역적으로 최적이 될 것을 기대하는 방법
- 최적 혹은 최악의 속성들은 서로 독립적이라고 가정하는 통계적 유의성 검정을 통해 결정

1. 단계적 전진 선택법 : 속성의 공집합으로 시작해서 최적의 속성들을 추가해 나가는 방법
2. 단계적 후진 제거법 : 속성의 전체집합으로 시작해서 최악의 속성들을 하나씩 제거하는 방법
3. 전진 선택법과 후진 선택법의 결합 : 각 단계마다 최선의 속성을 선택하고 최악의 선택을 제거하는 방법

2. 차원 축소

정보 유지 : 분석 대상이 되는 여러 변수의 정보를 최대한 보존하면서 변수의 개수를 줄임
분석 개선 : 다른 분석 과정의 전 단계로 사용되거나 분석 수행 후 결과를 개선하는 방법
시각화 : 고차원 데이터를 저차원으로 변환하여 시각적으로 이해하기 쉽도록 도움
비지도 학습법 : 직접 예측이나 분류 목적에 활용되지는 않고, 주로 비지도 학습방법으로 수행됨
후속 분석에 활용 : 축소된 차원은 이후의 예측이나 분류 작업에 특성 변수로 활용됨
머신러닝 알고리즘 성능 향상 : 변환된 저차원에서 학습할 경우 회귀, 분류, 클러스터링 등 알고리즘이 더 잘 작동함

2-1. 웨이블릿 변환

n차원 벡터 X = (x1, x2 ...... xn)를 다른 수치적 벡터 X'으로 변환 (X와 X'의 길이는 동일함)

- 원본 데이터의 길이를 변경하지는 않지만, 변환 과정에서 데이터를 압축하여 보이게하는 방식 (특정 웨이블릿 계수를 선택하여 데이터의 근사치를 유지)
- 사용자가 설정한 임계값보다 큰 웨이블릿 계수들만 유지하고 나머지 계수들은 전부 0으로 설정(모델이나 알고리즘에서 0은 계산에 포함하지 않으므로 결과적으로 데이터가 압축되는 효과)

- 데이터의 주요 특징을 보존하면서도 잡음을 제거하는 역할도 하므로 데이터의 정제과정에서 특히 유용함

2-2. 주성분 분석(PCA, Principal Components Analysis)

다차원 데이터 차원을 축소하는 가장 널리 사용되는 기법 중 하나

- n개의 속성을 가진 데이터에 대하여, 데이터를 표현하는 데 최적으로 사용될 수 있는 n차원 직교벡터(orthogonal vector)들 중에 k개를 선택하여 (k <= n) 감소된 차원의 데이터 공간을 생성하는 방식

주성분 분석 절차

표준화 : 입력 데이터를 표준화해 모든 속성이 같은 범위에 속하도록 하여 큰 범위를 갖는 속성들이 분석결과를 지나치게 지배하는 것을 방지
직교 벡터 계산 : 표준화된 데이터를 위한 기저를 제공하는 직교 벡터들을 계산, 이런 벡터를 주성분이라고 하며 입력 데이터는 이 주성분들의 선형 조합으로 표현됨
주성분 정렬 : 주성분들은 중요도의 내림차순으로 정렬, 첫 번째 주성분은 데이터의 가장 큰 분산을 캡처하고 다음 주성분들은 남은 분산 중 가장 큰 분산을 캡처
차원 축소 : 정렬된 주성분들 중 일부를 선택함으로써 데이터의 차원을 줄이고 데이터의 크기를 감소시킴

2-3. 회귀 모델

주어진 데이터의 근사치를 구하는데 사용
종속변수 y를 독립변수 x의 선형함수로 모델링 y= wx + b
기울기 또는 계수인 w와 절편 b는 추정치 사이의 오류를 최소화해주는 최소제곱법에 의해 구해짐

2-4. 로그 - 선형 모델

이산 다차원 확률분포의 근사치 계산에 사용되는 모델
- 이산 다차원 확률분포 : n개의 속성으로 표현되는 n차원에서 주어진 n개의 튜플 집합을 n차원 공간의 한 점으로 생각하여, 해당 공간 내에서의 확률 분포의 근사치를 구함
데이터 집합을 분석할 때 특히 유용하며 차원축소와 데이터 평활화에 적합한 방법을 제공
적은 공간을 차지하는 저차원의 점을 이용하여 고차원 데이터의 근사치를 구함 (고차원 데이터 처리 비용 완화)
고차원 공간은 표본 변동에 민감하지만, 로그 - 선형 모델을 이용한 저차원 공간의 평가는 변동에 덜 민감함

2-5. 요인분석

데이터를 단순화하고 변수들간 관계를 이해하며 잠재적 요인(변수)들을 찾는 기법
데이터에 하나 이상의 잠재적 변수가 존재한다는 가정하에 진행되며, 잠재 변수는 관찰된 데이터의 변동성을 설명하는 데 중요한 역할을 함
분석자는 관찰 가능한 변수들 사이의 관계를 모델링하여 이런 잠재 요인을 도출하고 데이터 내의 구조를 해석

2-6. 독립성분 분석 (ICA, Independent Components Analysis)

다변량 데이터 또는 신호를 구성하는, 통계적으로 독립된 하부 성분으로 분리하는 분석
데이터를 구성하는 성분들이 통계적으로 독립적이라는 가정 하에 진행 (각 성분의 정보가 다른 성분의 정보와 중복되지 않음을 의미)
독립 성분들은 비정규 분포를 따르며 성분들 사이의 독립성을 구별
독립적인 소스를 식별하고 분리하여 차원축소
성분들간 상호 독립성을 기반으로 하기에 PCA보다 더 깊은 데이터 분석이 가능함

2-7. 다차원 척도법

다양한 개체들 사이의 유사성이나 비유사성을 기반으로 이들을 공간상에 표현하는 통계적 분석 방법
개체들 사이의 관계를 2차원 또는 3차원 공간상에서 시각적으로 이해 가능
유사한 개체는 가까이, 비유사 개체는 서로 멀리 배치됨
개체간 근접성을 공간상에서 시각화 함으로써 연구자가 개체들 사이의 관계를 직관적으로 이해 가능
고차원 데이터를 2, 3차원으로 축소하여 표현함으로써 복잡한 데이터 구조를 쉽게 파악할 수 있음

2-8. 표본 추출

N개의 튜플이 포함된 데이터 집합 D에서 대표적인 데이터 샘플(부분집합)을 선택
표본 추출의 목적은 전체 데이터 집합의 특성을 잘 대표하는 작은 집합을 구하여 분석의 효율성을 높이고 계산 비용을 줄이는 것
비복원 단순 무작위 표본, 복원 단순 무작위 표본, 집략 표본, 층화 표본 등이 있음

2-9. 히스토그램

데이터 분포의 근사치를 시각적으로 표현하는 데이터 축소 방법
데이터를 구간화하여 각 구간에 데이터가 얼마나 분포하는지를 나타냄으로써 데이터의 전반적 분포 패턴을 이해
희소 데이터, 밀집 데이터, 균일 데이터 등 다양한 유형의 데이터에도 적용 가능
단일 속성 뿐 아니라 다중 속성에 대한 히스토그램으로 확장도 가능

2-10. 군집화

비슷한 특성을 가진 데이터 튜플들을 객체로 간주하고 이들을 여러 군집으로 나누는 과정
같은 군집 내의 객체들은 서로 유사하며, 다른 군집의 객체들과는 유사하지 않음
유사성은 객체간의 거리를 계산하는 거리 함수를 사용하여 정의
군집의 품질은 클러스터의 지름으로 나타내며, 지름은 군집 내 객체들 간 최대 거리
각 군집의 중심간 거리는 유사성이 낮을수록 멀어짐

'빅데이터 관련 개념 정리' 카테고리의 다른 글

분석 모형 설계 (2)	2024.06.13
추정과 검정 (0)	2024.04.22
데이터 통합 (2)	2024.04.21
데이터 정제 (0)	2024.04.20
데이터 전처리 (1)	2024.04.20

현재글데이터 축소

스나오오카미 시로코가 은행을 털기위한 라인업 블로그

빅데이터, 한빛아카데미, 운영체제, 데이터의 개념, JAVA 마스터, 운영체제론, 명품 운영체제 연습문제, 네트워킹, 연습문제, 네트워크, 따라하며 배우는 파이썬과 데이터과학 심화문제, 데이터의 종류, 명품 운영체제 연습문제 3장, IT CookBook JAVA 마스터, 데이터통신, Java, 명품 운영체제, 초연결 사회의 데이터통신과 네트워킹, 명품 운영체제 연습문제 2장, 따라하며 배우는 파이썬과 데이터과학,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

털?자

데이터 축소

변수 선택

데이터 축소

1. 속성 부분집합 선택

2. 차원 축소

2-1. 웨이블릿 변환

2-2. 주성분 분석(PCA, Principal Components Analysis)

2-3. 회귀 모델

2-4. 로그 - 선형 모델

2-5. 요인분석

2-6. 독립성분 분석 (ICA, Independent Components Analysis)

2-7. 다차원 척도법

2-8. 표본 추출

2-9. 히스토그램

2-10. 군집화

'빅데이터 관련 개념 정리' 카테고리의 다른 글

'빅데이터 관련 개념 정리'의 다른글

티스토리툴바

데이터 축소

변수 선택

데이터 축소

1. 속성 부분집합 선택

2. 차원 축소

2-1. 웨이블릿 변환

2-2. 주성분 분석(PCA, Principal Components Analysis)

2-3. 회귀 모델

2-4. 로그 - 선형 모델

2-5. 요인분석

2-6. 독립성분 분석 (ICA, Independent Components Analysis)

2-7. 다차원 척도법

2-8. 표본 추출

2-9. 히스토그램

2-10. 군집화

'빅데이터 관련 개념 정리' 카테고리의 다른 글

'빅데이터 관련 개념 정리'의 다른글

관련글

티스토리툴바