2024/04/21 3

표본 추출

모집단, 표본, 표본추출의 주요 용어 전수조사 - 연구의 관심이 되는 전체 집단(모집단)을 전부 조사하는 방법 - 비용과 시간적 이유로 사용하기 힘들고, 국가 통계조사에서 일부 사용함 표본조사 - 모집단 내에서 일부만 조사하여 전체 모집단을 추정하는 조사 - 대부분의 조사에서 사용 모집단 - 조사의 관심이 되는 전체 집단 - 모집단의 정의는 명확하고 구체적이어야 함 (OO시 OO동의 20대 남성과 같이) 표본 - 모집단에서 일부만 샘플링하여 실제 조사한 대상 모수 - 모집단으로부터 계산된 모든 값 - 전수조사를 하지 않는 이상 알 수 없는 미지수 - 자료수, 모평균, 모표준편차, 모분산 통계량 - 샘플링한 표본으로부터 계산된 모든 값 - 일반적으로 통계랑을 가지고 모수를 추정함 - 자료수, 표본평균, 표..

카테고리 없음 2024.04.21

데이터 축소

변수 선택 - 데이터의 종속변수에 가장 영향이 있을 만한 독립변수를 선정하는 방법 - 독립변수가 많은 모델일수록 종속변수를 잘 예측할 가능성이 높지만, 불필요한 변수는 오히려 모델을 악화시킴 - 데이터 정제 후 분석과정에서 좋은 모델을 구성하기 위해서는 변수 선택의 과정이 필수 필터 방법 : 독립변수 하나와 종속변수 하나씩 적합한 통계적 기법을 이용하여 상관이 있는 변수를 찾아내는 방법 래퍼 방법 : 독립변수들을 미리 정해놓고 예측분석 과정에서 예측과 분류에 기여하는 영향 변수만을 선정하는 방법 임베디드 방법 : 모델링 기법 자체에 변수선택 방법이 포함된 임베디드 방법 데이터 축소 방대한 양의 데이터를 대상으로 데이터를 분석하고 마이닝 기법을 적용한다면, 분석에 매우 많은 시간이 소요되어 비현실적이므로 ..

데이터 통합

데이터 통합 여러 데이터 저장소로부터 온 데이터를 합치는 과정으로 향상된 데이터 품질, 효율성, 통찰력, 더 나은 의사 결정 및 경쟁 우위를 제공하는 분석에 중요함 데이터 원천, 데이터 소스 : 데이터베이스, 데이터 큐브, 플랫파일 등 다양한 형태로 존재 데이터 웨어하우스 : 다수의 원천 데이터부터 하나의 통일된 데이터 저장소로 결합시키는 통합 작업이 필요한 데이터 분석 작업 데이터 마이닝 : 대용량의 데이터 집단에서 특정 정보를 추출하기 위한 처리 과정 데이터 통합과정에서 동일한 의미의 개체들이 서로 다르게 표현되어 있을 경우 이를 일치시켜야 하는데 이 문제를 개체식별문제 라고 하며 이를 해결하기 위해 다양한 기술과 방법이 사용됨 개체식별문제 - 메타데이터 활용 메타데이터 : 각 속성의 이름과 의미, ..