AI/데이터 직무분석 : 데이터 사이언티스트
데이터 사이언티스트가 하는 일, 요구 역량, 취업 로드맵 등 직무에 대해 자세히 안내해드리겠습니다.
데이터 사이언티스트 를 소개합니다.
데이터 사이언티스트는 머신러닝, 딥러닝 기술을 활용한 실험을 통해 비즈니스 문제를 해결하는 전문가입니다. 데이터 사이언티스트의 목표는 데이터를 활용하여 비즈니스를 더 좋고, 더 스마트하고, 더 빠르게 만드는 것입니다. 매출 예측, 프로세스 개선, 현명한 결정 등 다양한 업무를 수행합니다.
이번 글은 데이터 사이언티스트 직무를 자세히 안내해 드리겠습니다.
Share Value, Grow Together
데이터 사이언티스트 의 하는 일을 소개합니다.
출처 : Data Science Project Flow for Startups
1. 비즈니스 문제 이해
- 데이터 과학 팀은 이해관계자와 협력하여 비즈니스 문제와 목표를 정의합니다.
2. 데이터 탐색
- 데이터의 특성과 품질을 이해하기 위해 데이터를 탐색하고 조사합니다.
3. 데이터 처리 및 분석
- 분석 및 모델링에 적합하도록 데이터를 정리, 변환, 처리, 분석합니다.
4. 모델 개발 및 평가
- 모델을 개발하고 모델의 성능을 평가하여 개선이 필요한 영역을 식별합니다.
5. 모델 배포, 모니터링 및 유지 관리
- 모델의 성능을 모니터링하고 결과의 정확성과 신뢰성에 영향을 미칠 수 있는 문제를 식별합니다.
[이해를 돕기 위해 아래 참고자료를 읽어보시면 좋습니다]
복잡하고 어려운 음식 배달 과제, 데이터 사이언스로 극복하다
데이터 사이언티스트 는 어떤 고민을 할까요?
- 비즈니스 문제를 해결하기 위해 어떻게 아키텍처를 어떻게 설계해야 할까?
- 비즈니스 문제를 해결하기 위한 적합한 모델은 어떤 것일까?
- 데이터 품질을 높이기 위해서는 어떻게 해야 할까?
- 모델의 품질을 더 높이려면 어떻게 해야 할까?
- 지속해서 품질을 높이기 위해 어떻게 데이터 거버넌스를 확립해야 할까?
- ML/DL 프로젝트에 관하여 문서화, 버전 관리를 어떻게 해야 할까?
- 데이터 실험을 통해 얻은 통찰을 이해 관계자에게 어떻게 스토리텔링을 할까?
- 데이터 중심의 문화를 어떻게 확산시킬 수 있을까?
[이해를 돕기 위해 아래 참고자료를 읽어보시면 좋습니다]
모든 데이터 과학자가 상위 1%가 되기 위해 알아야 할 15가지 주요 사항
데이터 사이언티스트 취업하기 위해 필요한 역량
출처 : 당근 팀 Data Scientist, Decision 채용공고
최근 채용 플랫폼 데이터 사이언티스트 채용공고 분석을 분석하여 경험, 기술, 지식을 도출하였습니다. 산업, 도메인 별 데이터 사이언티스트의 필요한 기술, 기술스택이 세분화되는 점을 참고해주세요.
산업, 도메인에 따라 데이터, 모델, 데이터와 모델의 품질을 높이기 위해 활용하는 기술이 달라 요구하는 역량이 달라집니다
Project(경험)
- ML/DL 기술 활용하여 비즈니스 문제를 해결한 경험
- ML/DL 모델 개발 후 상용 프로덕트/솔루션/서비스를 배포한 경험
Skill(기술)
- [환경구축] 데이터 실험을 위한 환경 및 시스템 구축할 수 있는 역량
- [환경구축] AWS, GCP, Azure 등 환경 및 시스템 구축을 위한 클라우드 서비스 활용 역량
- [데이터 처리] 다양한 Raw Data 정제 및 데이터 구조(Feature) 정의할 수 있는 역량
- [ETL/ELT] ETL파이프라인을 개발 및 운영할 수 있는 역량
- [데이터분석] 통계 기술을 활용하여 실험-가설 검증할 수 있는 역량
- [데이터분석] 데이터 패턴을 파악할 수 있는 역량
- [모델개발] 학술 논문을 검색-이해- 모델 구현-프로젝트에 적용할 수 있는 역량
- [모델개발] 비즈니스 주요 지표를 개선할 수 있는 모델을 개발할 수 있는 역량
- [모델개발] 데이터 품질 향상 및 Fine Tuning 등을 통해 모델 성능을 개선할 수 있는 역량
- [최적화] 프로세스를 자동화 및 최적화 할 수 있는 역량
- [스토리텔링] 레포팅 및 스토리텔링 역량
knowledge(지식)
- 머신러닝, 딥러닝에 관한 지식
- 수학, 통계에 관한 지식
- 대용량 데이터 분산 처리에 관한 지식
- Computer Science에 관한 지식
- 코드 품질 향상에 관한 지식
데이터 사이언티스트가 되기 위해 알아야 할 것이 너무 많습니다.
데이터 사이언티스트에게 필요한 지식의 범위가 넓고, 생성되는 속도가 빨라서 모든 것을 공부한다고 생각하지 말라고 합니다. 하지만 머신러닝, 딥러닝 알고리즘 원리와 특성은 반드시 알아야 한다고 합니다.
[이해를 돕기 위해 아래 참고자료를 읽어보시면 좋습니다]
데이터사이언티스트가 되려면 무엇을 준비해야 할까요?
데이터 사이언티스트 가 되기 위한 로드맵을 소개합니다.
수학/통계
- 선형대수학, 미적분학, 확률, 통계 등
프로그래밍
- 언어 : Python 등
데이터 탐색 및 전처리
- 데이터 조작 : Numpy(Python), Pandas 등
- 데이터 시각화 : Matplotlib, Seaborn 등
- 탐색적 데이터 분석(EDA)
- Feature Engineering
머신러닝(Machine Learning)
- 라이브러리 및 프레임워크 : Scikit-learn 등
- 지도 학습 알고리즘
- 비지도 학습 알고리즘
- 강화 학습 알고리즘
- 모델 평가 및 검증
딥러닝
- 라이브러리 및 프레임워크 : TensorFlow, Keras, PyTorch 등
- 신경망의 이해
- 다양한 딥러닝 알고리즘 학습
빅데이터 기술
- 빅데이터 병렬(분산)처리 기술 : Hadoop, Spark 등
- NoSQL : MongoDB, Cassandra, HBase 등
데이터 시각화
- 대시보드 : Tableau, Power BI 등
- 레포팅
- 스토리텔링
데이터 도메인 지식
- 데이터 과학 분야 최신 동향 지식
- 산업별 도메인 지식
데이터 사이언티스트 가 되기 위해 제대로 성장하고 싶다면!?
데이터 사이언티스트 직무에 관심이 있다면 모두의연구소 아이펠 데이터 사이언티스트 과정에 관심 가져주세요. ‘1,095일 동안 현업 AI 연구원, 데이터 사이언티스트 와 함께 기획부터 끝까지’ 필수 역량에 맞추어 교육 프로그램을 제대로 만들었습니다.
세상에 아직 인식하지 못한 문제를 정의하고 해결하여, 조금 더 나은 환경을 만들어주시는 데이터 사이언티스트 분들 너무 대단합니다. 긴 글 읽어주셔서 감사합니다!