빅데이터 관련 직업들
아직은 정착되지 않은 다양한 빅데이터 직군과 업무 수행 범위 및 이와 관련된 직업에는 어떤 종류들이 있고, 어떤 일들을 하는 것인지? 어떠한 역량을 필요로 하는지? 등에 대하여 살펴보려고 합니다.
빅데이터 시대의 시작
21세기에 들어서 본격적인 빅데이터 시대가 되었습니다. 인터넷과 월드 웹의 등장, 더 나아가서 디지털 저장 매체의 가격 하락은 빅데이터의 역사에서 큰 혁명이었습니다.
2005년, 웹 2.0 시대에는 HTML식 웹 페이지를 SQL 기반 백엔드 데이터베이스에 결합함으로써 가능했습니다. 2006년 개발된 “하둡”은 빅데이터 세트 저장 및 분석 전용 오픈소스 프레임워크인데요~ 음성, 동영상, 텍스트 등의 비정형 데이터도 관리할 수 있었습니다. 이로써 진정한 빅데이터 시대를 맞게 되었습니다.
2010년 구글 회장 에릭 슈미트가 학회에서 한 말
인류가 문명을 이룬 후 2003년까지 생산했던 만큼의 데이터가 요즘은 불과 2일 만에 만들어지고 있다.
2011년 매킨지 보고서
2018년이 되면 미국은 데이터 과학자 14만~19만 명이 모자라게 될 것으로 예측 빅데이터의 진정한 힘이 그 모습을 드러내기 전에 사생활, 보안, 지식재산권 문제 해결 촉구
1926년 천재 과학자 니콜라 테슬라(1856~1943)의 “콜리어스 매거진”과의 인터뷰 내용
무선 통신 기술의 발전으로 전 지구는 하나의 거대한 두뇌로 변모할 것입니다. 지구상의 모든 것은 생생하고 율동적인 전체를 이루는 부분들이 될 것입니다. 이 두뇌 속에서 길을 찾는 데 필요한 기기는 지금 사용하는 전화기만큼이나 단순하고, 조끼 주머니에 넣을 수 있을 만큼 작은 것이 될 것입니다.
테슬라는 100여년 전에 이미 빅데이터, (사물)인터넷, 스마트폰의 존재를 예견했던 것 같습니다. 전기 자동차 회사인 테슬라의 회사명이 니콜라 테슬라의 이름을 기리기 위해 지어졌다고 합니다. 왜 그렇게 지었는지 이해가 되는 것 같습니다.
데이터 직군의 다양성
데이터 직군은 다양한 포지션이 있습니다. 이해를 돕기 위해 개발자와 기획자의 성향을 예로 설명을 드리면 아래 그림과 같이 나누어 보는 것도 도움이 될 것 같습니다.
[출처] 코드스테이츠 블로그
데이터 직군의 업무 수행 범위
다양한 업무를 수행하는 데이터 직군은 서비스 준비를 위한 데이터를 획득하는 단계부터 서비스를 배포하는 과정까지 수행하게 됩니다. 과정별 수행하게 되는 업무는 회사마다 차이는 있지만 대부분 아래와 같은 업무를 수행합니다.
[출처] 코드스테이츠 블로그
빅데이터와 관련된 직업들
그럼 이러한 빅데이터를 다루는 직업에는 어떤 종류들이 있고, 어떤 일들을 하는 것인지? 어떠한 역량을 필요로 하는지? 등에 대하여 알아보려고 합니다.
빅데이터 분야 유망 직업 리스트
빅데이터 분야 안에는 어떤 직무들이 있을까요?
빅데이터라는 단어가 의미하듯!! 빅데이터라고 부르는 범위는 정말 넓습니다. 데이터 수집, 분석, 이용, 인사이트 도출까지의 단계를 생각하면 당연한 듯 합니다. 그래서 빅데이터 분야 속 직무를 완전하게 구분 짓는 것 또한 어렵다고 생각됩니다.
정말 다양한 산업에서 빅데이터를 활용하려는 니즈가 있는 점도 빅데이터 직무를 구분 짓기 어렵게 만드는 것이기도 합니다. 업종에 따른 데이터를 활용하려는 방식이 다르고 이것이 데이터 직무의 차이를 유발하기 때문입니다.
이제는 어느 정도 직무 구분에 합의되어 가는 부분이 있는 것 같습니다. 아래와 같이 3가지 직무로 구분하는 것이 대표적인 구분이 된 것 같습니다.
데이터 엔지니어, 데이터 분석가, 데이터 과학자가 대표적으로 구분 되는 빅데이터 직무입니다.
위와 같은 구분 방식에는 각각의 경계가 모호한 부분이 있긴 하지만, 이런 구분 방식을 사람들이 많이 이용하고 있고 이 개념을 이해하면 데이터 분야 자체를 이해하는데 도움이 될 것 같습니다.
인공지능도 빅데이터를 떼놓고 얘기할 수 없지만, 일반적으로는 빅데이터 직무로 포함을 시키지 않기에 참고용으로 그림 자료에만 표기하도록 하겠습니다.
빅데이터 분야 직무 공통적으로 필요한 중요한 역량 중 하나는 의사 소통 능력이라고 할 수 있습니다. 업무를 진행함에 있어 늘 순탄하리란 법은 없고 연관 부서나 팀과의 공동 작업이 기본입니다. 때론 난관에 부딪혔을 때 슬기롭게 해결하기 위해 반드시 필요한 역량이라고 말할 수 있습니다.
데이터 관리를 담당하는 데이터 엔지니어(Data Engineer)
데이터 관리
- 데이터 수집, 저장, 유지, 보수 등
- 입수한 데이터를 잘 활용할 수 있도록 처리 및 저장
- 용도에 맞게 변환하여 전달 하는 것
- 데이터 분석가, 데이터 사이언티스트 등이 데이터를 사용하는 데 필요한 것 지원
- 데이터 시스템(하둡, 맵리듀스 등)에 대한 이해 필요
- 관계형 데이터베이스, SQL처럼 데이터의 저장과 추출 방식에 대해서도 잘 알아야 함
필요 역량
- 리눅스에 대한 이해
- 리눅스 환경에 익숙하면 유리합니다.
- 회사에서 사용하는 프로그램에 대한 충분한 이해
- AWS, GCP, Azure 등 퍼블릭 클라우드 이용하여 빅데이터 처리하는 경우도 많습니다.
- 분산 시스템에 대한 이해
- 빅데이터 시스템은 근본이 분산 시스템이기 때문에
- 분산 시스템을 구성하는 기본적인 이론을 이해하고 있는 것이 좋습니다.
- 신입에게 필수는 아닙니다.
- SQL
- 표준 SQL을 이해하고 잘 다룰수록 도움이 됩니다.
- 성능 분석과 최적화
- 빅데이터 규모의 인프라를 구축하기에 많은 비용이 들기 때문에
- 적정 수준의 장비로 최적의 성능을 발휘할 수 있는 방법을 아는 것은 큰 이점입니다.
데이터를 통해 인사이트를 도출하고자 하는 데이터 분석가(Data Analyst)
데이터 분석
- 데이터 엔지니어가 생성한 자료로 데이터 분석
- 회사/조직의 목적이 정해지면 그 목적을 달성하기 위한 방법 생성을 돕기 위해 데이터 분석
- 데이터 분석 종류 중 서술적 분석에 초점을 맞추고 있는 직무
- 보통 비즈니스나 서비스를 이용하는 사용자 분석이나 서비스의 효율성 분석
- 기업의 새로운 제품, 서비스 개발 시
- 어떤 데이터를 수집할 것인지? 정의
- 비즈니스 주요 지표 정의 후 분석
- 다른 구성원들이 인사이트를 쉽게 파악할 수 있도록 시각화
필요 역량
- 통계학적 지식 많이 필요
- 데이터 속의 패턴을 찾고 그것이 정말 신뢰할 수 있는 수준인지? 아닌지? 판단이 필요하기 때문에
- SQL 활용 능력
- 파이썬, R 등 코딩 능력
- 잘 정의된 SQL 테이블로 분석하지만, 여러가지 조건으로 인해
- SQL로 모두 처리할 수 없는 경우 직접 데이터를 처리해야 할 수도 있기 때문에
- 파이썬이나 R 을 사용해서 전처리 할 수도 있습니다.
- 데이터 시각화
- 가장 중요한 역량 중 하나
- 시각화는 보통 데이터를 그래프 형태로 바꾸어 표현하는 것
- 어떤 데이터를 디자인 적으로 얼마나 잘 표현하느냐에 따라 이를 활용하는 사람이 데이터를 받아들이는 방식이 달라집니다.
- 도메인에 대한 이해(어떤 일을 하나요?)
- 나도 시작할 수 있을까?
데이터를 통해 미래를 예측하고자 하는 데이터 과학자(Data Scientist)
데이터를 통해 가치 발굴(미래를 예측하는데 노력)
- 데이터 엔지니어가 저장/변환한 데이터를 이용한 서비스나 기능을 개발
- 데이터 간 발견된 패턴을 바당으로 미래를 예측하는데 주력
- 흔히 머신러닝, 딥러닝 기술을 활용
- 데이터 분석 종류 중 예측적 분석을 주로 수행하는 직무
- 보통 머신러닝을 이용한 예측 분석의 의미를 많이 나타냄
필요 역량
- 다양한 역량이 필요
- 기본적으로 딥러닝(DL, Deep Learning), 머신러닝(ML, Machime Learning) 분야에 대한 지식
- 데이터 분석을 위한 통계, 수학적 지식, 데이터 전처리 및 모델링을 위한 코딩 능력
- 해당 분야에 대한 비즈니스 도메인 지식 등
- 하드 스킬(업무 수행을 위한 기술적 역량)
- 수학/통계학에서 연구된 핵심 개념 적용 능력
- 데이터와 업무 성격에 따라 파라미터 조정, 신경망 구조 변경 등에 투입 시간을 줄이는 감각
- 적절한 모델 선택과 때에 따라 이를 변형 및 재구성할 수 있는 능력
- 소프트 스킬(의사 소통 방식 및 기타)
- 문제 정의 및 인식을 통한 비즈니스 인사이트 도출
- 소속 기업의 도메인 지식
- 커뮤니케이션 능력
- 학습 능력
- 지적 호기심
빅데이터 직무 나눌 수 있지만, 모두 섭렵하려는 마음 가짐이 좋은 듯!!
빅데이터 직무의 가장 대표적인 데이터 엔지니어, 데이터 분석가, 데이터 과학자에 대해 간단히 알아보았습니다. 데이터 분석가와 데이터 과학자의 차이가 미묘하다는 생각도 듭니다. 이 두 가지 직무가 서로 중첩되는 부분이 있어서 서로 상대방의 업무 수행을 해도 불가능하지 않을 것 같다는 생각도 듭니다.
이처럼 직무 구분이 칼로 무 자르듯이 명확하게 구분되지 않을 때는 모든 분야를 섭렵하고자 하는 열정과 도전 정신이 있어야 빅데이터 분야의 업무를 능숙하게 다루는 인재가 되지 않을까 생각해 봅니다.
데이터 과학자의 필요 역량 중에 데이터 분석, 머신러닝, 딥러닝과 관련된 내용을 공부하고 싶다면, 저희 모두의 연구소 아이펠 과정(온라인)에 잘 준비되어 있습니다. 관심이 있으시다면 아래 링크 참조하시면 좋겠습니다. 감사합니다.