본문 바로가기

AI

AI사례실습 - 0. 데이터 마이닝, 분석방법론(Crisp-DM)

데이터 마이닝  

데이터 마이닝(data mining)은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정이다. 

데이터 마이닝 머신러닝
데이터에서 패턴을 찾아서 정보를 획득함
데이터에서 정보를 획득하는 것에 중점 정보를 찾을 수 있는 알고리즘에 집중
비즈니스 이해 단계 모델링 단계

 

데이터 분석 방법론 (Crisp-DM)

  • CRISP-DM(Cross Industry Standard Process for Data Mining) 방법론은 전 세계에서 가장 많이 사용되는 데이터마이닝 표준 방법론이다.
  • 데이터 마이닝의 수행방법론
  • CRISP-DM의 절차는 6단계로 구성되어 있는데 각 화살표에 따른 종속관계 및 순서는 엄격하지 않다.

 

1 단계) 비즈니스 이해

  • 데이터 마이닝에서 무엇을 얻고자 하는 지 탐색하는 단계
  • 데이터 마이닝 작업에 대한 사업적 이유를 파악함으로써 자원을 소비하기 전에 모든 사람이 협의를 이루고, 향후의 변경을 최소화
  • 비즈니스 이해 관계를 소홀히하는 경우 : 프로젝트가 방향성을 잃고, 엉뚱한 결과물을 내놓거나, 자원을 헛되이 소비하고, 최악의 경우 처음부터 재시작을 해야하는 경우가 발생할 수도 있다.
비즈니스 이해 단계의 세부 프로세스
  1. 비즈니스 목표 결정
  2. 현재 상황 평가
  3. 데이터 마이닝 목적 결정
  4. 프로젝트 계획 수립

 

2 단계) 데이터 이해

  • 마이닝에 사용 가능한 데이터를 자세히 살펴보고, 데이터의 품질을 확인하는 단계
  • 모든 데이터 분석은 데이터에 기반한 의사결정이라는 목표를 가지고 있다. EDA단계를 충실히 수행함으로써 AI모델의 효율성을 올리고, 결과에 대한 근거를 만들 수 있다. 
  • EDA단계를 소홀히 한 경우 : 결정의 신뢰도에 문제가 생길 수 있음.
  • 따라서 가급적 모든 데이터 변수에 대해 시각적 그리고 통계적으로 변수를 선택하는 습관을 가질 필요가 있다.
데이터 이해 단계의 세부 프로세스
  1. 초기 데이터 수집
  2. 데이터 설명
  3. 데이터 탐색(EDA) => 신뢰도
  4. 데이터 품질 확인

 

3 단계) 데이터 준비

  • 데이터 마이닝에서 가장 중요하면서 시간이 많이 걸리는 단계로 모델리의 대상이 되는 데이터를 준비하는 단계
  • Feature Engineering이라고 불리우는 단계에 해당함.
  • 흔히 생각하는 것과 다르게 머신러닝 알고리즘의 "하이퍼 파라미터 튜닝(HyperParameter Tuning)"보다 모델 성능에 많은 영향을 미치는 단계로, 통계적으로 전체 데이터 분석과정의 80%을 이 과정에 소모한다고 할 수 있음.
데이터 준비 단계의 세부 프로세스
  1. 데이터 선택
  2. 데이터 정리
  3. 새 데이터 구축
  4. 데이터 통합

 

4 단계) 모델링(Modeling)

  • 앞서의 단계에서 준비한 데이터를 분석해서 비즈니스 문제점에 대한 해결 방법을 만드는 단계
모델링 단계의 세부 프로세스
  1. 모델링 기법 선택 :
    • 변수가 범주형인지 수치형인지 분류형인지 회귀형인지에 따라 적합한 모델을 결정
  2. 테스트 설계
  3. 모델 작성
  4. 모델 평가 :
    • 모델 성능 평가 방법, 해석 방법, 배포 용이성, 처리 시간 등으로 모델을 평가할 방법을 정의

 

5 단계) 평가(Evaluation)

  • 프로젝트 초기에 설정된 비즈니스 성공기준을 사용하여 작업의 결과를 평가하는 단계
  • 이 평가 단계는 모델링 평가 단계와는 다르며, 모델링 평가가 데이터 마이닝 성공기준에 대한 평가였다면, 평가 단계의 평가는 비즈니스 목표에 대한 평가이다.
  • 이 단계의 결정에 따라 실제 업무에 적용할 지 아니면 다시 모델링 단계를 수행할 지 결정하게 된다.
평가 단계의 세부 프로세스
  1. 결과 평가
  2. 프로세스 검토
  3. 다음 단계 결정

 

6 단계) 적용(Deployment)

  • 프로젝트를 통해 얻은 결과를 조직 내의 프로세스에 적용하는 단계
  • 조직의 변화 및 계획을 세우고, 의사결정에 사용하는 단계
적용 단계의 세부 프로세스
  1. 배포 계획
  2. 모니터링 및 유지보수 계획
  3. 최종 보고서 생성
  4. 최종 프로젝트 검토

 

이렇게 6단계를 거쳐서 만들어진 모델은 한번 만들어지면 그것으로 끝이 아니라, 다시 6단계를 순환하며 점점 발전해 나가게 된다.

'AI' 카테고리의 다른 글

AI의 이해 - 3. AI 업무적용 프로세스  (0) 2021.12.26
AI의 이해 - 2. 딥러닝  (0) 2021.12.25
AI의 이해 - 1. AI, 머신러닝  (0) 2021.12.22