티스토리 뷰
데이터 과학 (Data Science)
활용 사례
- 사기 탐지 (Fraud Detection)
- 유통 경로 최적화
- 자동차 운전 습관을 통한 보험료 책정
정의
- 컴퓨터를 활용하여 데이터를 분석하고 현실의 문제를 해결하는 작업
발전 방향
- 기술 통계 및 분석 (Descriptive Analytics) : 기술, 보고, 현상 설명
- 전통적 통계 분석 (Diagnositc Analytics) : 과거를 통해 현상의 원인, 이유를 분석
- 예측 분석 (Predictive Analytics) : 미래를 예측, 의사결정 지원 (머신러닝 등)
- Prescriptive Analytics : 예측을 통해 행동을 결정 (자율주행, 알파고 등)
목표
- 더 나은 의사결정 지원 (Decision Making)
- 수익화 (Monetization)
머신러닝 (Machine Learning) 알아보기
빅데이터 분석
- 그로스 해킹 : 프로그래밍을 포함한 기술 분석을 통한 마케팅
- 상관관계 (Correlation)
통계 분석
- 현실세계에 대한 이해, 해석 (Explanation & Interpreting real world)
- 적은 데이터로 전체를 가정한 가설의 유의성에 초점
머신러닝
- 예측, 패턴 분석 (Prediction & Pattern Analysis)
- 많은 데이터를 통해 모형의 정확도를 높이는데 초점
머신러닝 정의와 역사
- 컴퓨터가 데이터로부터 스스로 학습을 할 수 있도록 프로그래밍하는 과학적인 활동
- 과학적 활동 : 현실의 문제를 가설 → 검증 → 검증의 반복을 통해 해결
머신러닝의 목적과 원리
머신러닝이 필요한 상황
- 사람의 손으로 긴 규칙을 유지 및 관리가 필요할 때
- 전통적인 접근방식이 활용되지 않을 때
- 새로운 데이터를 적용해야 할 때 (적응적)
전통적 접근 방법
- 문제 파악 및 정의 → 규칙 작성 → 평가 → 서비스 도입
- 평가에 에러가 확인되면 문제에 반영하여 위의 절차를 사람의 리소스를 투자하여 반복
머신러닝 접근 방법
- 문제 파악 및 정의 → ( 머신러닝 모델 학습 → 평가 → 서비스 도입 → 데이터 업데이트 )
- 데이터 업데이트가 자동화됨
데이터 과학자 Data Sceientist
요구 실무 능력
- 프로그래밍 스킬
- 수학 & 통계학 지식
- 도메인 전문성
머신러닝 업무 프로세스
문제 파악 및 정의
- 비즈니스 문제 파악
- 머신러닝 문제로 전환
- 머신러닝 도입 필요성/가능성 체크
- 도입에 따른 효과검증 설계
데이터 준비
- 가능한 다양하고 많은 데이터 확보
- 머신러닝을 도입할 시스템 설계
- 데이터 분석 및 이해 - Understanding (이해)
- 데이터 분석 및 이해 - Preprocessing (raw data 가공처리)
- 데이터 분석 및 이해 - Exploring (탐색적 데이터 분석 EDA)
- Feature Engineering
- 학습, 검증, 테스트 데이터셋 생성
모델 구축 & 평가
- 사용할 모델/알고리즘 선택
- 실무적 제약사항 고려
- 하이퍼파라미터 설정
- 모델 학습
- 모델 평가
결과 공유
- 코드 배포 (Productionize)
- 보고서 작성, 결과 정리 및 발표
모니터링 및 서비스 도입
- 모델의 성능 지속적으로 tracking
- 효과검증 결과 tracking
- 지속적인 유지·보수 계획/실행
머신러닝 핵심 개념
Feature (요인, 변수)
- 데이터를 컴퓨터가 이해할 수 있도록 수치 또는 디지털로 표현/표상한 것
- 머신러닝에서 사용
<다른 분야에서 쓰이는 동의어>
- 독립변수 / 설명변수
- 예측인자
- Input (인풋)
- Attribute
- Target : 예측 목표
- Model : 실제의 무엇을 더 작게 추상화된 형태로 표현한 것, 모형 또는 본보기
- 머신러닝 모델 : 어떤 문제를 해결하기 위해 수립한 가설을 논리적, 수학적 함수식으로 표현한 것
- 알고리즘 : 입력된 자료를 바탕으로 원하는 결과를 유도하기 위해 일련의 논리적인 순서와 절차를 규칙화한 것
머신러닝 알고리즘
- 모델 : 문제 해결 함수식
- 알고리즘 : 함수식을 만들어내는 절차, 규칙
- Loss, Cost, Error : 예측 목표로부터 예측 결과의 오차
- Learning: 예측 목표로부터 예측 결과의 오차를 최소화하는 함수식을 찾아내는 과정
머신러닝 학습 유형
supervised learning
- Classification (분류) : 범주를 예측
- Regrssion (회귀) : 숫자를 예측
unsupervised learning
- Clustering (군집화) : 유사그룹끼리 군집
머신러닝 모델 구축과 평가
적절한 머신러닝 모델 & 알고리즘을 선택하여 모델을 구축하고 평가
세부 프로세스
- 모델 & 알고리즘 선택
- 실무적 제약사항 고려한 모델 적합
- 하이퍼파라미터 설정
- 모델 학습
- 모델 평가
회귀 (Regression)
- 실제 값과 예측 값의 차이
- 오차(Loss/Cost/Error)를 통해 모델 성능 평가
분류 (Classification)
- 실제 범주 (actual)과 예측 범주 (predicted)의 일치 정도(Loss/Cost/Error)를 통해 모델 성능 평가
엘리스 《비전공자를 위한 머신러닝》을 듣고 이해한 바를 정리한 것으로 사실과 다른 부분이 있을 수 있습니다.
'Learn > AI, Data' 카테고리의 다른 글
[머신러닝] 머신러닝 기초 - Numpy (0) | 2022.02.14 |
---|---|
[Conda / Jupyter] 미니콘다 (miniconda) 설치 & Jupyter Notebook CLI 로 R 설치하기 (0) | 2022.01.27 |
[Jupyter] R 한글 출력이 안 되는 경우 locale 변경 (+ IRkernel) (0) | 2021.09.25 |
댓글