일반적인 데이터의 특징
구분 | 정량적 데이터 | 정성적 데이터 |
형태 | 정형, 반정형 | 비정형 |
특징 | 속성(attribute)가 모여 객체를 구성 | 객체 하나에 함의 된 정보가 포함됨 데이터 세트가 아닌, 하나의 데이터가 수집 데이터로 객체화 |
구성 | 수치, 도형, 기호 등 | 언어, 문자 등 |
저장 형태 | 데이터베이스, 스프레드시트 | 파일, 웹 |
소스 위치 | 내부 시스템 | 외부 시스템 |
1. 정량적 데이터 수집 방법
수집 방법 | 특징 |
면접 조사 | 연구자가 대상자와 직접적 상호작용을 통해 필요한 자료를 수집, 기록 |
전화 / 우편 / FAX / E-Mail 조사 | 질문지를 대상자들에게 전화 / 우편 / FAX / E-mail로 보내어 수집 |
온라인 조사 | 네트워크, 인터넷 등 컴퓨터가 연결된 상태에서 이루어지는 조사 |
CTL(Central Location Test) 조사 | 다양한 대상자들이 밀집되는 상점가 등에 조사 장소를 설치해 간단하게 조사하는 방법 |
갱 서베이(Gang Survey) | 조사 대상 집단을 일정 장소에 모아서 조사를 진행하는 방법 |
2. 정성적 데이터 수집 방법
수집 방법 | 특징 |
FGI(Focus Group Interview) | 특정 이슈에 직접적으로 관련된 사람들로 토론 그룹을 형성하여 심층적 면접을 실시 |
심층 면접(In-depth Interview) | 1명의 대상자와 1대1 면접을 통해 심리를 파악하는 조사 |
델파이 조사(Delphi method) | 특정 주제에 대한 전문가 집단을 구성하여 이들에게 여러 의견을 수집 |
관찰조사(Shadowing) 동반 쇼핑(Town Watching) |
백화점, 마트 등에서 소비자가 쇼핑하는 행태를 직접 관찰하거나 지인을 가장하여 동반 쇼핑하며 관찰하는 조사 |
3. 데이터 형태 별 잠재 가치
형태 | 특징 | 잠재 가치 |
정형 데이터 | 내부 데이터의 특성상 현실적 가치가 상대적으로 낮아 활용측면에서 잠재적 가치는 낮음 | 하 |
반정형 데이터 | 데이터의 제공자가 선별해 제공하는 데이터로 잠재적 가치는 정형 데이터보다 높음 | 중 |
비정형 데이터 | 수집 주체에 의해 데이터에 대한 분석이 이미 선행되었기 때문에 목적론적 데이터 특징이 가장 잘 나타남 일단 수집이 가능하면 수집 주체에게는 가장 잠재적 가치가 높음 |
상 |
4. 데이터의 위치 별 수집 데이터 예시
- 내부 데이터 : 데이터 저장소가 내부 시스템에 있으며 외부 데이터와 달리 데이터 제공자와 상호 협약을 가진 의사소통이 가능함
분야 | 예시 |
서비스 | SCM, ERP, CRM, 포털, 인증 시스템, 거래 시스템 등 회사 내에서 이미 사용하고 있는 서비스의 데이터를 활용 |
네트워크 | 네트워크백본, 방화벽, 스위치, IPS, IDS 등 유해 트래픽이나 이상 접근을 탐지하여 남긴 로그 데이터를 활용 |
마케팅 | 마케팅 VOC 접수 데이터, 고객 포털 시스템에서 가져온 데이터로 마케팅적 분석에 활용 |
- 외부 데이터 : 데이터 저장소가 외부 시스템에 있으며 내부 데이터와 달리 데이터 제공자와 협약되지 않으면 상호 의사소통이 불가능함
분야 | 예시 |
소셜 | SNS, 커뮤니티, 게시판 서비스 |
네트워크 | 센서 데이터, 장비 간에 발생한 로그(M2MJ) M2M : 모든 사물에 센서 통신 기능을 부과하여 지능적으로 정보를 수집하여 상호전달하는 기술 |
4. 시간 관점에 따른 데이터의 분류
유형 | 설명 | 종류 |
실시간 데이터(Realtime) | 생성된 이후 수 초~ 수 분 이내에 처리되어야 의미가 발생하는 현재의 데이터(화재 경보기와 같이 실시간성이 중요한 데이터의 분석) | 센서 데이터 시스템 로그 네트워크 장비의 로그 알람 보안장비 로그 |
비 실시간 데이터 (Non-Realtime) |
생성된 데이터가 수 시간 또는 수 주 이후에 처리되어야 의미가 발생하는 과거의 데이터(대량으로 모인 데이터에서 상호 패턴 분석으로 정보를 발생) | 통계 웹 로그 구매 정보 서비스 로그 디지털 헬스케어 정보 |
5. 저장 형태에 따른 분류
유형 | 설명 |
파일 데이터 | 시스템 로그, 텍스트, 스프레드시트 등과 같이 파일 형식으로 파일 시스템에 저장되는 데이터 |
데이터베이스 데이터 | RDBMS, NoSQL, In-Memory 데이터베이스 등에 의해서 데이터의 종류나 성격에 따라 데이터베이스의 컬럼 또는 테이블에 저장된 데이터 |
콘텐츠 데이터 | 텍스트, 이미지, 오디오, 비디오 등과 같이 개별적으로 데이터 객체로 구분되는 미디어 데이터 |
스트림 데이터 | 센서 데이터, HTTP 트랜잭션 등과 같이 네트워크를 통해서 실시간으로 전송되는 데이터 |
6. 빅데이터 수집 기술 및 통합 제품
제품/기술 | 최초 개발 | 최초 공개 | 주요 기능 및 특징 |
Flume | Cloudera | 2010년 | 방대한 양의 이벤트 로그 수집 |
Scribe | 페이스북 | 2008년 | 분산 시스템 로그 수집 서버 |
Chukwa | 야후 | 2008년 | 분산 시스템의 로그 수집 및 모니터링 |
SQOOP | 아파치 | 2009년 | RDBMS와 NoSQL간의 데이터 연동 |
Kafka | 2010년 | 분산 시스템에서 메시지 전송 및 수집 | |
OpenRefine | 구글 | 2010년 | 대용량 데이터의 정제 |
JSON | D.Crockford | - | XML과 비슷한 데이터 정형화 방식 |
BSON | - | - | JSON의 바이너리 형태 |
Thrift | 페이스북 | 2007년 | 비정형 데이터의 정형화 및 관리 |
Protocol Buffers | 구글 | 2008년 | 오픈소스인 직렬화 라이브러리 |
Avro | 아파치 | 2009년 | 이기종 간 데이터 교환 및 직렬화 |
'빅데이터 관련 개념 정리' 카테고리의 다른 글
데이터 품질 관리 (0) | 2024.04.19 |
---|---|
데이터 변환 기술 (1) | 2024.04.19 |
데이터 수집 프로세스 (1) | 2024.04.19 |
데이터 분석 기획 (0) | 2024.04.19 |
빅데이터의 개념 (0) | 2024.04.18 |