데이터 마이닝
데이터 마이닝(data mining)은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정이다.
데이터 마이닝 | 머신러닝 |
데이터에서 패턴을 찾아서 정보를 획득함 | |
데이터에서 정보를 획득하는 것에 중점 | 정보를 찾을 수 있는 알고리즘에 집중 |
비즈니스 이해 단계 | 모델링 단계 |
데이터 분석 방법론 (Crisp-DM)
- CRISP-DM(Cross Industry Standard Process for Data Mining) 방법론은 전 세계에서 가장 많이 사용되는 데이터마이닝 표준 방법론이다.
- 데이터 마이닝의 수행방법론
- CRISP-DM의 절차는 6단계로 구성되어 있는데 각 화살표에 따른 종속관계 및 순서는 엄격하지 않다.
1 단계) 비즈니스 이해
- 데이터 마이닝에서 무엇을 얻고자 하는 지 탐색하는 단계
- 데이터 마이닝 작업에 대한 사업적 이유를 파악함으로써 자원을 소비하기 전에 모든 사람이 협의를 이루고, 향후의 변경을 최소화
- 비즈니스 이해 관계를 소홀히하는 경우 : 프로젝트가 방향성을 잃고, 엉뚱한 결과물을 내놓거나, 자원을 헛되이 소비하고, 최악의 경우 처음부터 재시작을 해야하는 경우가 발생할 수도 있다.
비즈니스 이해 단계의 세부 프로세스
|
2 단계) 데이터 이해
- 마이닝에 사용 가능한 데이터를 자세히 살펴보고, 데이터의 품질을 확인하는 단계
- 모든 데이터 분석은 데이터에 기반한 의사결정이라는 목표를 가지고 있다. EDA단계를 충실히 수행함으로써 AI모델의 효율성을 올리고, 결과에 대한 근거를 만들 수 있다.
- EDA단계를 소홀히 한 경우 : 결정의 신뢰도에 문제가 생길 수 있음.
- 따라서 가급적 모든 데이터 변수에 대해 시각적 그리고 통계적으로 변수를 선택하는 습관을 가질 필요가 있다.
데이터 이해 단계의 세부 프로세스
|
3 단계) 데이터 준비
- 데이터 마이닝에서 가장 중요하면서 시간이 많이 걸리는 단계로 모델리의 대상이 되는 데이터를 준비하는 단계
- Feature Engineering이라고 불리우는 단계에 해당함.
- 흔히 생각하는 것과 다르게 머신러닝 알고리즘의 "하이퍼 파라미터 튜닝(HyperParameter Tuning)"보다 모델 성능에 많은 영향을 미치는 단계로, 통계적으로 전체 데이터 분석과정의 80%을 이 과정에 소모한다고 할 수 있음.
데이터 준비 단계의 세부 프로세스
|
4 단계) 모델링(Modeling)
- 앞서의 단계에서 준비한 데이터를 분석해서 비즈니스 문제점에 대한 해결 방법을 만드는 단계
모델링 단계의 세부 프로세스
|
5 단계) 평가(Evaluation)
- 프로젝트 초기에 설정된 비즈니스 성공기준을 사용하여 작업의 결과를 평가하는 단계
- 이 평가 단계는 모델링 평가 단계와는 다르며, 모델링 평가가 데이터 마이닝 성공기준에 대한 평가였다면, 평가 단계의 평가는 비즈니스 목표에 대한 평가이다.
- 이 단계의 결정에 따라 실제 업무에 적용할 지 아니면 다시 모델링 단계를 수행할 지 결정하게 된다.
평가 단계의 세부 프로세스
|
6 단계) 적용(Deployment)
- 프로젝트를 통해 얻은 결과를 조직 내의 프로세스에 적용하는 단계
- 조직의 변화 및 계획을 세우고, 의사결정에 사용하는 단계
적용 단계의 세부 프로세스
|
이렇게 6단계를 거쳐서 만들어진 모델은 한번 만들어지면 그것으로 끝이 아니라, 다시 6단계를 순환하며 점점 발전해 나가게 된다.
'AI' 카테고리의 다른 글
AI의 이해 - 3. AI 업무적용 프로세스 (0) | 2021.12.26 |
---|---|
AI의 이해 - 2. 딥러닝 (0) | 2021.12.25 |
AI의 이해 - 1. AI, 머신러닝 (0) | 2021.12.22 |