교재 : <데이터마이닝, 장영재, 김현중, 조형준 지음, 방송통신대학원출판문화원>
★ 빅데이터 : 시각화. 실시간 데이터를 수집하는 수집 속도가 중요한다.
★ 빅데이터 분석 : 모형화 (계산, 연산 등..)
ㆍ데이터과학
- 데이터 분석에 국한되지 않고, IT 기술의 접목을 통해서 데이터 크기, 형태에 상관없이 데이터의 가치를 찾는 능력을 의미한다.
- 통계적인 사고와 이해는 필수적인 요소이다.
ㆍ데이터 과학의 발전
- 데이터 과학의 발전은 IT 기술이 밑거름이 되어 발전되었다.
- 데이터 웨어하우스 구축과 더불어 능력있는 데이터 분석가와 더불어 새로운 데이터 분석 방법이 필요한다. (데이터마이닝의 등장 배경)
> 데이터 웨어하우스 : (필요없는 데이터도 포함된)수많은 데이터 중에 필요로 하는 데이터를 모은 것들.
ㆍ데이터마이닝
- 데이터마이닝은 대용량의 데이터 속에 존재하는 관계, 패턴, 규칙 등을 탐색하고, 모형화함으로써 유용한 지식을 추출하는 과정.
ㆍ데이터마이닝의 관련분야
- KDD (Knowledge Discovery in Database) : DB 안에서의 지식 발견 과정을 말한다.
- 기계학습 : 입력된 자료를 바탕으로 기계(컴퓨터)가 판단을 할 수 있는 방법
- 패턴인식 : 빅데이터에서 일정한 패턴을 찾아가는 과정
- 통계학 : 데이터마이닝에서 활용되는 모형은 이미 통계학의 유연한 함수에서 추정한다.
ㆍ지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)
- 변수들 중에 하나의 변수를 선택하여 학습하면 비지도 학습 = 모두가 독립변수이면 -> 모형화 X
- 변수들 중에 하나를 Y로 설정하여 학습하면 지도 학습 = Y를 종속변수로 사용한다면 -> 모형화 가능
- 지도학습 : 분류분석, 예측분석으로 크게 나뉘어진다.
- 비지도학습 : 군집분석, 연관분석, 가중치 결정으로 크게 나뉘어진다.
ㆍ데이터마이닝의 수행 단계
- 목적결정 -> 데이터 수집 -> 데이터 탐색, 정제 -> 마이닝 방법 결정 -> 모형 선택 -> 성능평가 -> 적용
- 모형 선택에서 데이터를 훈련 데이터와 검증 데이터로 나누어 사용한다.
> 100개의 데이터를 사용한다면 그 중 50개를 훈련 데이터로 사용하여 모형을 만들고, 나머지 50개로 검증을 진행한다.