데이터 과학자가 되기 위한 로드맵

이 글은 GeeksforGeeks의 데이터 과학자 되는 법 - 완벽 로드맵(How to Become Data Scientist – A Complete Roadmap)을 번역 및 편집한 글입니다. (관련된 다른 내용을 부분적으로 추가하기도 하였습니다.)

번역은 데이터 과학 분야에서 통용되는 방식으로 최대한 충실하게 하였으나,
각 개념을 표현할 때는 원어(영어)가 그대로 사용되는 경우가 많아 함께 병기하는 방식을 택하였습니다.
좀 더 상세한 내용은 원문을 참고해 주세요.

먼저, 데이터 과학자에게는 다음 네 영역에서의 지식이나 능력이 모두 요구됩니다.

도메인 지식(Domain Knowledge)

수학

컴퓨터 과학

의사소통 능력

산업 영역이나 회사 성격 등에 따라 데이터 과학자가 하는 역할이 상당히 상이할 뿐만 아니라,
데이터로부터 유의미한 함의(insight)를 도출해 내기 위해서는 도메인 지식이 매우 중요한 역할을 합니다.
대용량의 여러 형태의 데이터를 다루고 분석하기 위해서는 수학과 컴퓨터 과학에 대한 능력도 필수적입니다.
또한 다양한 부서나 사람들과 협업을 해야하기 때문에 의사소통 능력도 요구됩니다.

이렇듯 다양한 영역에서의 능력이 요구되는
데이터 과학자가 되기 위해서는 어떤 순서대로 공부를 하면 좋을까요?

데이터 과학자가 되기 위해 필요한 지식이나 능력을 쌓기 위한 공부 순서

데이터 과학자를 준비하고 계신 분이라면 데이터 과학자가 되기 위해서는 어떤 부분에서 준비가 더 필요한지 확인하는 체크리스트로도 활용해 보세요.

1) 수학

Part 1

선형 대수학(Linear Algebra)
해석 기하학(Analytic Geometry)
행렬(Matrix)
벡터 미적분(Vector Calculus)
최적화(Optimization)

Part 2

회귀(Regression)
차원 축소(Dimensionality Reduction)
밀도 추정(Density Estimation)
분류(Classification)

2) 확률

확률 입문(Introduction to Probability)
1D 랜덤 변수(1D Random Variable)
랜덤 변수 기능(The function of One Random Variable)
결합 확률 분포(Joint Probability Distribution)
이산 분포(Discrete Distribution)
- 이항(Binomial) 분포
- 베르누이(Bernoulli) 분포
- 기하(Geometric) 분포 등
연속 분포(Continuous Distribution)
- 균일(Uniform) 분포
- 지수(Exponential) 분포
- 감마(Gamma) 분포
정규 분포(Normal Distribution)

3) 통계

통계 입문(Introduction to Statistics)
데이터 기술(Data Description)
무작위 샘플(Random Samples)
샘플링 분포(Sampling Distribution)
매개변수 추정(Parameter Estimation)
가설 검정(Hypotheses Testing)
분산 분석(ANOVA)
신뢰성 공학(Reliability Engineering)
확률 과정(Stochastic Process)
컴퓨터 시뮬레이션(Computer Simulation)
실험 설계(Design of Experiments)
단순 선형 회귀(Simple Linear Regression)
상관관계(Correlation)
다중 회귀(Multiple Regression)
비모수 통계(Nonparametric Statistics)
- 부호 검정(Sign Test)
- 윌콕슨 부호순위 검정(The Wilcoxon Signed-Rank Test)
- 윌콕슨 순위합 검정(The Wilcoxon Rank Sum Test)
- 크루스칼-왈리스 검정(The Kruskal-Wallis Test)
통계 품질 관리(Statistical Quality Control)
그래프 기초(Basics of Graphs)
베이지안 통계(Bayesian Statistics)

4) 프로그래밍

파이썬

파이썬 기초
넘파이(Numpy) 라이브러리
판다스(Pandas) 라이브러리
맷플롯립(Matplotlib) 라이브러리
씨본(Seaborn) 라이브러리 등

데이터 베이스

SQL
- MySQL, PostgreSQL 등
NoSQL: 몽고DB(MongoDB) 등

기타

데이터 구조(Data Structure)
- 시간 복잡성(Time Complexity)
웹 스크래핑(Web Scraping)
API
리눅스(Linux)
깃(Git)
도커(Docker)

5) 기계 학습(Machine Learning, ML)

입문

모델 작동 원리
기본적인 데이터 탐색(Basic Data Exploration)
첫 ML 모델
모델 검증(Model Validation)
과소적합과 과(대)적합(Underfitting and Overfitting)
트리 기반 모델: 랜덤 포레스트(Random Forest) 모델
사이킷런(scikit-learn) 라이브러리

중급

결측치(Missing Values) 처리
범주형 변수(Categorical Variables) 처리
파이프라인(Pipelines)
교차 검증(Cross-Validation)
트리 기반 앙상블 부스팅 모델: 엑스지부스트(XGBoost), 라이트지비엠(LightGBM) 모델
데이터 누출(Data Leakage)

6) 딥 러닝(Deep Learning)

인공 신경망(Artificial Neural Network)
합성곱 신경망(Convolutional Neural Network)
순환 신경망(Recurrent Neural Network)
텐서플로우(TensorFlow) 라이브러리
케라스(Keras) 라이브러리
파이토치(PyTorch) 라이브러리
단일 뉴런(A Single Neuron)
심층 신경망(Deep Neural Network)
확률적 경사하강법(Stochastic Gradient Descent)
과(대)적합과 과소적합(Overfitting and Underfitting)
드롭아웃 배치 정규화(Dropout Batch Normalization)
이진 분류(Binary Classification)

7) 특성 공학(Feature Engineering)

기준 모델(Baseline Model)
범주형 인코딩(Categorical Encodings)
특성 생성(Feature Generation)
특성 선택(Feature Selection)

8) 자연어 처리(Natural Language Processing, NLP)

텍스트 분류(Text Classification)
- 감성 분석(Sentiment Analysis)
단어 벡터(Word Vectors)
임베딩(Embedding)

9) 데이터 시각화 도구

엑셀 매크로(Excel VBA)
비즈니스 인텔리전스(Business Intelligence, BI)
- 태블로(Tableau)
- 파워 BI(Power BI)
- 구글 데이터 스튜디오(Google Data Studio)
- 메타베이스(Metabase)
- QlikView
- Qlik Sense

10) 배포(Deployment)

마이크로소프트 애저(Microsoft Azure)
헤로쿠(Heroku)
구글 클라우드 플랫폼(Google Cloud Platform)
플라스크(Flask)
장고(DJango)

11) 기타

도메인 지식
의사소통 능력
강화 학습
다른 사례 연구:
- Netflix사의 데이터 과학
- Flipkart사의 데이터 과학
- 신용 카드 사기 탐지 프로젝트
- 영화 추천 프로젝트 등

12) 계속 연습하기

위 내용을 그림으로 나타내면 다음과 같습니다.

Data Science Roadmap