티스토리 뷰

데이터 과학 (Data Science)

활용 사례

  • 사기 탐지 (Fraud Detection)
  • 유통 경로 최적화
  • 자동차 운전 습관을 통한 보험료 책정

정의

  • 컴퓨터를 활용하여 데이터를 분석하고 현실의 문제를 해결하는 작업

발전 방향

  1. 기술 통계 및 분석 (Descriptive Analytics) : 기술, 보고, 현상 설명
  2. 전통적 통계 분석 (Diagnositc Analytics) : 과거를 통해 현상의 원인, 이유를 분석
  3. 예측 분석 (Predictive Analytics) : 미래를 예측, 의사결정 지원 (머신러닝 등)
  4. Prescriptive Analytics : 예측을 통해 행동을 결정 (자율주행, 알파고 등)

목표

  1. 더 나은 의사결정 지원 (Decision Making)
  2. 수익화 (Monetization)

 

머신러닝 (Machine Learning) 알아보기

빅데이터 분석

  • 그로스 해킹 : 프로그래밍을 포함한 기술 분석을 통한 마케팅
  • 상관관계 (Correlation)

통계 분석

  • 현실세계에 대한 이해, 해석 (Explanation & Interpreting real world)
  • 적은 데이터로 전체를 가정한 가설의 유의성에 초점

머신러닝

  • 예측, 패턴 분석 (Prediction & Pattern Analysis)
  • 많은 데이터를 통해 모형의 정확도를 높이는데 초점

 

머신러닝 정의와 역사

  • 컴퓨터가 데이터로부터 스스로 학습을 할 수 있도록 프로그래밍하는 과학적인 활동
  • 과학적 활동 : 현실의 문제를 가설 → 검증 → 검증의 반복을 통해 해결

 

머신러닝의 목적과 원리

머신러닝이 필요한 상황

  1. 사람의 손으로 긴 규칙을 유지 및 관리가 필요할 때
  2. 전통적인 접근방식이 활용되지 않을 때
  3. 새로운 데이터를 적용해야 할 때 (적응적)

전통적 접근 방법

  • 문제 파악 및 정의 → 규칙 작성 → 평가 → 서비스 도입
    • 평가에 에러가 확인되면 문제에 반영하여 위의 절차를 사람의 리소스를 투자하여 반복

머신러닝 접근 방법

  • 문제 파악 및 정의 → ( 머신러닝 모델 학습 → 평가 → 서비스 도입 → 데이터 업데이트 )
    • 데이터 업데이트가 자동화됨

 

데이터 과학자 Data Sceientist

요구 실무 능력

  • 프로그래밍 스킬
  • 수학 & 통계학 지식
  • 도메인 전문성

머신러닝 업무 프로세스

문제 파악 및 정의

  1. 비즈니스 문제 파악
  2. 머신러닝 문제로 전환
  3. 머신러닝 도입 필요성/가능성 체크
  4. 도입에 따른 효과검증 설계

데이터 준비

  1. 가능한 다양하고 많은 데이터 확보
  2. 머신러닝을 도입할 시스템 설계
  3. 데이터 분석 및 이해 - Understanding (이해)
  4. 데이터 분석 및 이해 - Preprocessing (raw data 가공처리)
  5. 데이터 분석 및 이해 - Exploring (탐색적 데이터 분석 EDA)
  6. Feature Engineering
  7. 학습, 검증, 테스트 데이터셋 생성

모델 구축 & 평가

  1. 사용할 모델/알고리즘 선택
  2. 실무적 제약사항 고려
  3. 하이퍼파라미터 설정
  4. 모델 학습
  5. 모델 평가

결과 공유

  1. 코드 배포 (Productionize)
  2. 보고서 작성, 결과 정리 및 발표

모니터링 및 서비스 도입

  1. 모델의 성능 지속적으로 tracking
  2. 효과검증 결과 tracking
  3. 지속적인 유지·보수 계획/실행

 

머신러닝 핵심 개념

Feature (요인, 변수)

  • 데이터를 컴퓨터가 이해할 수 있도록 수치 또는 디지털로 표현/표상한 것
  • 머신러닝에서 사용
<다른 분야에서 쓰이는 동의어>
- 독립변수 / 설명변수
- 예측인자
- Input (인풋)
- Attribute
  • Target : 예측 목표
  • Model : 실제의 무엇을 더 작게 추상화된 형태로 표현한 것, 모형 또는 본보기
  • 머신러닝 모델 : 어떤 문제를 해결하기 위해 수립한 가설을 논리적, 수학적 함수식으로 표현한 것
  • 알고리즘 : 입력된 자료를 바탕으로 원하는 결과를 유도하기 위해 일련의 논리적인 순서와 절차를 규칙화한 것

머신러닝 알고리즘

  • 모델 : 문제 해결 함수식
  • 알고리즘 : 함수식을 만들어내는 절차, 규칙
  • Loss, Cost, Error : 예측 목표로부터 예측 결과의 오차
  • Learning: 예측 목표로부터 예측 결과의 오차를 최소화하는 함수식을 찾아내는 과정

 

머신러닝 학습 유형

supervised learning

  • Classification (분류) : 범주를 예측
  • Regrssion (회귀) : 숫자를 예측

unsupervised learning

  • Clustering (군집화) : 유사그룹끼리 군집

 

머신러닝 모델 구축과 평가

적절한 머신러닝 모델 & 알고리즘을 선택하여 모델을 구축하고 평가

세부 프로세스

  • 모델 & 알고리즘 선택
  • 실무적 제약사항 고려한 모델 적합
  • 하이퍼파라미터 설정
  • 모델 학습
  • 모델 평가

회귀 (Regression)

  • 실제 값과 예측 값의 차이
  • 오차(Loss/Cost/Error)를 통해 모델 성능 평가

분류 (Classification)

  • 실제 범주 (actual)과 예측 범주 (predicted)의 일치 정도(Loss/Cost/Error)를 통해 모델 성능 평가

 

 

 

엘리스 《비전공자를 위한 머신러닝》을 듣고 이해한 바를 정리한 것으로 사실과 다른 부분이 있을 수 있습니다.

댓글