올해 마지막 서두르세요! 현업 데이터 사이언티스트가 만든 유일한 과정 마감임박
#빅데이터 

빅데이터(Big Data) – 빅데이터, 정의, 특징, 활용 사례

빅데이터(Big data)의 정의, 등장배경, 특징, 데이터가 필요한 이유, 활용 사례로 빅데이터에 대해 자세한 내용을 확인해보세요.

2022-09-04 | 박성돈

빅데이터란?

“빅데이터”란 단어가 주는 직관적인 느낌은 “아주아주 많고 방대한 데이터”라고 느껴집니다. “Why? 이런 단어로 표현했을까?” 하는 궁금증이 생깁니다. 구글 검색 엔진을 통해 “빅데이터” 검색을 해보면 아래와 같이 나열할 수 있을 것 같습니다.

  • 기존의 데이터 처리방법으로는 감당하기 힘들 정도로 방대한 분량의 데이터
  • 데이터 하나하나가 모여 의미와 가치가 있는 단위로 묶인 데이터 덩어리
  • “빅데이터 프로세싱(Big data processing)”을 포함하여 일컫는 말
  • 대용량 데이터가 뭉친 형태를 일컫는 말

 

빅데이터의 다양한 정의

  • 위키피디아

    데이터 베이스 등 기존의 데이터 처리 응용 소프트웨어(data-processing application software)로는 수집 · 저장 · 분석 · 처리하기 어려울 정도로 방대한 양의 데이터를 의미

  • 국가정보화전략위원회

    대용량 데이터를 활용, 분석하여 가치있는 정보를 추출하고, 생성된 지식을 바탕으로 능동적으로 대응하거나 변화를 예측하기 위한 정보화 기술

  • 삼성경제연구소

    기존의 관리 및 분석 체계로는 감당할 수 없을 정도의 거대한 데이터의 집합

  • 맥킨지(Mckinsey)

    기존 시스템의 데이터 수집, 저장, 관리, 분석 역량을 넘어서는 데이터셋(Dataset, 1개 단위로 취급하는 데이터의 집합) 규모로 빅데이터의 분량 기준은 산업 분야에 따라 상대적이며 앞으로도 계속 변화될 것

 

위와 같이 빅데이터는 바라보는 관점에 따라 다양하게 정의되고 있습니다. “빅데이터” 단어에서 떠오르는 직관적인 의미보다 상당히 다양한 정의를 담고 있는 단어라고 생각됩니다.

위 내용들을 바탕으로 정리해 보면,

“기존의 데이터베이스 관리 도구, 관리 시스템의 능력을 넘어 대량의 정형, 비정형 데이터 세트, 이를 포함한 데이터로 부터 분석하여 의미있는 가치를 추출하고 결과를 분석하는 기술”이라고 정리할 수 있습니다.

 

정형 데이터(Structured data)

  • 일반적으로 수치 만으로 파악이 쉬운 데이터들
  • 예를들면 age : 25, weight : 65 등

비정형 데이터(Unstructured data)

  • 정해진 규칙이 없어서 값의 의미를 쉽게 파악하기 힘든 데이터들
  • 예를들면 텍스트, 음성, 영상 등

 

의미를 파악하기 힘든 비정형 데이터가 빅데이터를 더욱 활발하게 연구하는데 한 몫을 하게되는데요, 그동안은 의미를 분석하기 힘들었던 대용량의 비정형 데이터를 분석함으로써 새로운 인사이트(Insight)를 얻게 되기 때문이었습니다.

 

빅데이터라고 부를 수 있는 크기는?

데이터 양이 얼마 정도의 크기(용량)부터 빅데이터라고 부를 수 있을까요?
일반적인 핸드폰에서 찍은 사진의 크기가 3MB(메가바이트) 정도라고 가정하다면, 1,000장의 사진은 3,000MB, 즉 3GB(기가바이트)정도가 됩니다. 이 정도면 빅데이터라고 할 수 있을까요?
“내가 바로 빅데이터야!!”라고 말할 수 있을 정도의 크기는 수십 TB(테라바이트)에서 PB(페타바이트)는 되어야 한다고 합니다.
어느 정도의 크기인지 감이 잘 안오시지요~~
1PB는 100GB 용량의 핸드폰이 10,000대 분량이라고 하면 이해하시는데 도움이 될 듯 합니다. 이렇게 일반적으로 생각할 수 없는 정도의 크기가 빅데이터라고 생각하면 되겠습니다.

 

빅데이터 등장 배경

1990년 이후 인터넷이 전세계로 확장되면서 정형/비정형 데이터들이 방대한 양으로 발생하며서 “정보 홍수” , “정보화 시대”라는 개념들이 등장하였고, 2007년 스마트폰의 탄생이 영향을 미쳤습니다. 특히 모바일의 확산은 많은 정보를 만들게 해줬고 빅데이터 개념을 좀 더 빠르게 발전시켰습니다.

아울러 컴퓨터 성능의 증대, 데이터 저장장치의 비용 감소는 빅데이터 발전을 앞당겼습니다. 메모리 저장 비용의 하락, 정보를 저장하고 관리하는 클라우팅 컴퓨팅 기술의 확산, 데이터를 쉽고 싸게 이용할 수 있는 분산파일시스템의 개발 등도 큰 요인이 되었습니다.

  • 기술 발전에 따른 데이터 저장, 처리 비용의 감소
  • 실시간 서비스, SNS 서비스 등으로 디지털 정보량의 기하급수적 증가
  • 기존의 데이터 저장, 관리, 분석, 기법의 한계

위와 같이 기존 데이터베이스 저장, 관리, 분석, 처리에 Software, Hardware 적인 한계가 있어 테라(Tera) 단위의 데이터 세트들을 위한 패러다임도 변화하게 되었습니다.(아래 그림 참조)

빅데이터 패러다임 변화

출처 : http://banker.kfb.or.kr/webzine/mobile/section.php?idx=78&PublishDate=201809&sub_idx=1546

 

생활 속의 빅데이터

오늘날의 데이터는 자산, 자본, 돈이라고 말합니다. 이떤 이는 경쟁력을 좌우할 21세기 원유라고도 합니다. 원유는 정제 과정을 거쳐 석유나 휘발유가 되기도 하지만 플라스틱, 의약품 원료, 섬유류로도 재탄생합니다. 이처럼 데이터는 여러 분석 과정을 거치면서 전혀 의도하지 않았던 정보도 만들어주기에 원유에 비유된다고 합니다.

  • 데이터를 알면 수백 년 전 기록을 바탕으로 미래를 예측할 수도 있다.
  • 역사적 데이터를 기반으로 한 과거 기상 데이터는 향후 몇 십년 내 지진이나 화산 폭발과 같은 예측에 도움을 줄 수 있다.
  • 심야버스(올빼미) 노선도나 심야 로켓배송, 카드사나 보험사의 고객 맞춤형 상품 출시 등

이처럼 빅데이터는 좀 더 편리한 생활을 누리는데 도움을 주고 있습니다.

 

빅데이터의 양면성

빅데이터는 정치, 사회, 경제, 과학 기술 등 전 영역에 걸쳐 사회와 인류에게 가치 있는 정보를 제공할 가능성을 제시하며 그 중요성이 주목받고 있습니다. 하지만 빅데이터의 문제점은 바로 사생활 침해와 보안 측면에 자리하고 있습니다. 빅데이터는 수많은 개인 정보의 집합입니다. 그렇기에 빅데이터를 수집, 분석할 때 개인들의 사적인 정보까지 수집하여 관리하는 모습이 될 수도 있습니다. 그리고 그렇게 모은 데이터가 보안 문제로 유출된다면, 이 역시 거의 모든 사람의 정보가 유출되는 것이기에 큰 문제가 될 수 있습니다.

현명한 ‘빅데이터’와 사생활을 침해하는 ‘빅브라더’는 동전의 양면입니다. 빅데이터의 성공적인 활용은 개인정보침해에 대한 대책이 얼마나 잘 수립되어 있는가에 달려있다고 해도 과언이 아닙니다. 빅데이터 시대를 맞이하여 새로운 사업기회를 포착함과 동시에 정보보안리스크에 대한 대책마련에도 힘써야 할 것입니다.

 

빅데이터의 특징

💡 3V : 규모(Volume), 다양성(Variety), 속도(Velocity)

💡 5V : 규모(Volume), 다양성(Variety), 속도(Velocity), 정확성(Veracity), 가치(Value)

  • 규모(Volume)
    기술, ICT 발전 ▶ 디지털 정보량 급증 ▶ 제타바이트(ZB) 시대 진입
  • 다양성(Variety)
    텍스트 외 음성, 영상 등 비정형 데이터 종류 증가
  • 속도(Velocity)
    IoT, 실시간 정보 증가 ▶ 데이터 생성 및 이동 증가 ▶ 실시간 데이터 처리 분석 위한 속도의 중요성
  • 정확성(Veracity)
    방대한 데이터의 질이 데이터 분석 정확도에 영향을 미침
  • 가치(Value)
    빅데이터가 추구하는 것이 바로 가치. 빅데이터 분석 ▶ 통찰력 제공 ▶ 기업의 현실문제 해결에 도움

 

데이터가 필요한 이유

정보를 담고 있고, 새롭고 가치 있는 의미를 담은 정보를 재가공할 수 있어 4차 산업혁명의 대표 기술로 등장합니다.

근대사에서는 제한된 양의 데이터라도 가장 어려운 도전과제에 대한 해결책을 찾아내는 통찰력을 제공하는데 기여했습니다. 비석이나 파피루스 두루마리, 계몽책자, 인쇄물 등에 기록되었는지에 관계 없이 데이터와 데이터의 보편성 및 중요성은 경제 성장 및 인류 발전의 주요 원동력이었습니다. 21세기에는 이러한 과정이 급속하게 가속화되고 있습니다. 데이터의 양은 더 많아지지만 데이터 저장 비용이 급감하면서 데이터 과학자들은 새로운 기술로 개발된 첨단 도구로 무장하여 다량의 데이터에서 중요한 통찰력을 얻고 있습니다. 데이터를 처리하는 기술이 점점 다양화되면서 그러한 기술의 영향도 더욱 커지고 있고 기회도 더 많아지고 있습니다.

 

빅데이터를 활용한 사례들

출처 : https://www.elec4.co.kr/article/articleView.asp?idx=15220

 

페이팔, 사기 막기 위해 딥러닝 도입

갈수록 증가하고 있는 온라인 쇼핑몰 사기수법을 분석 및 예방하기 위해 딥러닝(Deep learning)을 도입했습니다.

딥러닝은 머신러닝(Machine learning)이나 인공지능(Artificial Intelligence)에 대한 또 다른 접근 방법입니다. 구글, 페이스북, 마이크로소프트 등 꾸준히 연구하고 있는 분야이기도 합니다.

페이팔은 사기방지 전문가와 함께 ‘탐정이 하는 것과 같은 방법론(Detectivelike Methodology)’을 적용할 수 있게 했습니다. 이로 인해 페이팔은 전 세계에서 이뤄지고 있는 온라인 결제에서 발견된 수만 개의 잠재적 특징을 분석해 특정 사기유형과 비교하거나 사기방식을 탐지하고 다양한 유사수법을 파악할 수 있게 됐습니다.

 

MLB, NFL에 빼앗긴 시장 되찾기 위해 빅데이터 도입

MLB(Major League Baseball)는 1950년대까지만 해도 가장 인기 있는 스포츠였습니다. 하지만 TV의 등작 이후 NFL(National Football League)의 등장으로 시청률, 스폰서쉽, 구단용품 판매 등에서 NFL에 시장을 빼앗겼으며, 야구팬의 고령화와 시청자수 감소로 대책 마련이 필요했습니다.

MLB는 2015년부터 투구, 타구, 선수들의 움직임을 모두 포착하는 스탯캐스트(Statcast) 시스템을 30개 구장 모두에 설치하고 공의 궤적을 추적할 수 있는 레이더 장비업체인 트랙맨(Trackman)과 영상 장비 업체 카이론 히고(ChyronHego)와 협력했습니다.

트랙맨(Trackman)에서 들여온 도플러 효과를 이용한 레이더 카메라로 공의 궤적을 분석하고, 카이론히고(ChyronHego)의 카메라는 모든 선수들을 1초당 30개의 사진으로 찍어 움직임을 추적하고 분석할 수 있었습니다. 도플러 효과란 레이더 카메라가 전파를 발송하면 날아오는 공으로 인해 반사전파의 진동수가 증가하는데, 진동수 변화로 속도와 궤적을 측정하는 것을 말합니다.

MLB는 이 스탯캐스트 시스템을 통해 모든 경기 이닝마다 투수의 피칭, 타자의 배팅, 타구에 대한 수비수들의 움직임 등을 추적하고 기록했습니다. 축적된 기록은 세밀한 통계 분석을 가능하게 해 야구의 흥미를 배가시켰고, 그 흐름은 과학적 통계로 야구를 분석해 의미 있는 인사이트를 찾아내는 것에 초점을 맞출 수 있게 됐습니다. 투구 분석뿐만 아니라 타구와 선수의 움직임을 모두 처리한 데이터양은 경기당 3 TB ~ 7 TB에 이른다고 합니다.

스탯캐스트 시스템은 투구의 속도와 궤적, 공의 회전 방향부터 투수의 보폭과 자세를 보고 타자가 예측하는 속도와 어떻게 다른 지까지 분석할 수 있습니다.

MLB의 빅데이터 도입은 데이터 분석을 통해 고객 만족 실현에 있었으며, 이외에 다양한 채널을 통한 야구 중계, 게임, 마케팅, 스포츠 교육 등 다양한 분야에 활용할 수 있음을 보여주고 있습니다.

 

GE(General Electric)

SW 및 데이터 분석 기업으로 전환을 선언한 GE는 자사에서 생산 중인 비행기 엔진 (Genx)에 센서를 부착했습니다. 그리고 이 센서로부터 수집된 빅데이터를 자사의 클라우드 인공지능 플랫폼인 ‘프리딕스(Predi x)’에서 분석합니다. 이를 통해 실시간 엔진상태 점검, 정비 시기 알림 제공, 비행경로 관리, 비행시간 단축 및 연료절감 등 항공기 유지보수 비용 감소와 안전보장 서비스를 고객(항공사 등)에게 제공하고 있습니다.

 

금융권

빅데이터를 활용해 새로운 비즈니스 아이템을 발굴하는 대표 분야로 금융권을 들 수 있습니다. 국내 은행 및 카드사들은 빅데이터 분석을 통해 고객의 연령, 성별대 별로 라이프 스타일을 파악하고 각각의 관심사에 맞는 금융상품을 설계해 출시하고 있습니다. 보험사들도 마찬가지입니다. 그간의 보험 사례 빅데이터를 분석해 임산부나 어린 자녀를 둔 부모가 사고를 적게 낸다는 사실을 발견하고 관련 상품개발에 응용했습니다.

이처럼 다양한 분야에서 고객의 니즈에 맞는 상품을 개발, 보완, 출시하기 위해 빅데이터를 수집, 활용, 분석하여 가치있는 의미를 추출하여 능동적으로 대응하고 있습니다. 이러한 빅데이터와 관련하여 자격증에 대한 관심도 증가하고 있습니다. 다양한 빅데이터 자격증 중에 취업에 도움이 되는 자격증은 어떠한 것들이 있는지 궁금하시다면 아래 링크를 참고 바랍니다.^_^~

 

취업에 도움이 되는 빅데이터 자격증 종류와 난이도가 궁금하다면?

4차 산업혁명 시대라고 불리는 요즘, 모든 분야에서 데이터 분석 및 활용 능력이 요구되고 있습니다. 그만큼 IT 업계에서도 수많은 데이터 전문가 인재 영입에 힘쓰고 있으며 취업준비생들 사이에서도 인기 직종으로 떠오르고 있습니다. 그렇다면 빅데이터 자격증 종류와 난이도에 대한 궁금증을 해결하는데 도움이 될 만한 글이 있어 링크를 남깁니다. 긴 글 읽어주셔서 감사합니다.

빅데이터 자격증 종류와 난이도가 궁금하다면? (빅데이터 분석기사 vs 데이터 분석 전문가 ADP 비교분석)

참고자료