#빅데이터 

빅데이터 분석 어떻게 시작하지? (with kaggle)

데이터 분석 정의, 빅데이터의 의미, 데이터 분석 과정에 대한 이해와 kaggle을 통해 비교적 쉽게 데이터 분석을 접근 할 수 있음을 알 수 있다!

2022-09-30 | 류한웅

빅 데이터 분석 어떻게 시작하지? (with kaggle)


데이터 분석이란 ?

데이터 분석 은 데이터 내에서, 유용한 정보를 발견하고 결론을 알리고 의사 결정에 도움을 주기 위해  데이터를 검사, 정리 , 변환 및  모델링 하는 프로세스 입니다!

 

무언가 엄청 복잡해 보입니다만… 일단은 “의사결정에 도움을 주는 유용한 정보를 데이터에서 얻어내는 과정”이라 이해를 하죠!

 

Big Data 분석은?

빅데이터 분석 또한 데이터 분석과 목표는 다르지 않습니다. 의사결정에 도움을 주는 유용한 정보를 빅데이터라는 것에서 얻어내는 과정” 이라고 볼 수 있죠!

그렇다면 빅데이터에 대한 이해 또한 필요할 것 같습니다! 😎

 

  • 필자가 생각 하는 빅데이터는 말그대로 엄청나게 많은 원시데이터(raw data)의 모음입니다. (원시 데이터는 특정 목적을 위해 처리되지 않은 데이터를 말합니다.)
  • 정의에 따라 조금 달라질 수 있으니 조금더 정확한 의미를 보고 싶다면 박성돈님의  관련 글을 읽어 보시는 것을 추천 드립니다.빅데이터, 정의, 특징, 활용 사례라는 글을 추천 드립니다!

 

위의 이야기를 종합해보자면~


빅 데이터 분석이란 다양한 소스(데이터를 얻어 오는 곳)에서 다양한 크기(테라바이트 – 제타바이트)의 정형, 반정형 및 비정형 데이터를 포함하는 매우 방대하고 다양한
원시 데이터들에 대해 고급 분석 기술을 사용하는 것입니다.

 

빅데이터 분석 비주얼출처 : stargarz.ai

빅데이터를 분석을 통하여 무엇을 할 수 있는가?

  • 빅데이터 분석을 통해 분석가, 연구자 및 비즈니스를 하는 사람들은 이전에는 액세스나 사용이 불가능했던 데이터를 사용하여 보다 나은 의사결정을 보다 빠르게 내릴 수 있습니다.
  • 조금더 자세히 이야기하자면, 기업들은 텍스트 분석, 머신 러닝, 예측 분석, 데이터 마이닝, 통계 및 자연어 처리 등의 고급 분석 기술을 사용함으로써 이전에는 사용되지 않던 데이터(사용하지 못하던) 소스와 독립적으로 기업이 가진 데이터와 함께 새로운 인사이트를 얻을 수 있습니다.

 

딱딱하게 이야기 한 것 같지만 결국 엄청나게 많은 데이터 셋을 다루기도 어렵고, 원시 데이터다 보니 특정 목적으로 가공되지도 않았습니다.그렇기 때문에, 다양한 분석기법을 통하여 빅데이터를 다루고, 그것을 통하여 새로운 유용한 정보나 인사이트, 혹은 예측이나 분류까지도 할 수 있습니다!

 


 

데이터 분석과정은?

데이터 분석 프로세스
출처 : https://yourfreetemplates.com

데이터 요구 사항 작성 (Data requirements)

데이터는 분석이 필요한 사람(비즈니스 관계자, 연구원 , 등)의 요구 사항에 따라 지정된 분석에 정보가 필요합니다!

예를 들어 특정 변수(예: 연령 및 소득)에 대한 것이나. 데이터는 숫자 또는 범주(예: 숫자에 대한 텍스트 레이블) 카테고리에 대한 정보들을 미리 작성하여 데이터 수집과정에서 용이하게 사용할 수 있습니다! 

데이터 수집 (Data collection)

데이터 요구사항에 맞춰서, 다양한 Source를 통하여 데이터를 수집합니다!

데이터 처리 (Data processing)

데이터를 처음 얻을 때 분석을 위해 처리하거나 구성해야 합니다.예를 들어, 여기에는 종종 스프레드시트나 통계 소프트웨어를 사용하여 추가 분석을 위해 데이터를 테이블 형식( 구조화된 데이터라고 합니다!)의 행과 열에 배치하는 것이 포함될 수 있습니다 . 

데이터 클리닝 (Data cleaning)

데이터 처리 과정을 거치고 난 후 데이터가 불완전하거나 중복되거나 오류가 포함될 수 있습니다.

데이터 정리 의 필요성은 데이터를 입력하고 저장하는 방식의 문제로 인해 발생합니다. 데이터 정리는 이러한 오류를 방지하고 수정하는 프로세스입니다.

일반적인 작업에는 레코드 일치, 데이터의 부정확성 식별, 기존 데이터의 전반적인 품질, 중복 제거 및 열 분할이 포함됩니다. 이러한데이터 문제는 다양한 분석 기법을 통해서도 식별할 수 있습니다.  

탐색적 데이터 분석 (Exploratory data analysis)

데이터가 정리되면 cleaning 되면 분석할 수 있습니다. 데이터 분석가는 다양한 기술을 적용 하여 얻은 데이터에  내재된 의미를 파악 하는 것이 탐색적 데이터 분석입니다!

데이터 내의 메시지와 관련하여 추가 통찰력을 얻기 위해 이미지 (그래프, 도표 등) 형식으로 데이터를 시각화 하여 검사 할 수 있는 기술이기도 합니다.

모델링 및 알고리즘 (Modeling or Algolithm)

변수 간의 관계를 식별하기 위해 수학 공식 또는 모델 (알고리즘)을 적용 시킬 수 있다.예를 들어 상관 관계나 인과관계를 사용 합니다.

특정 변수 간의 관계를 측정하는 방법 이 될 수도 있습니다. 예를들어 광고(독립 변수 X )이 판매 변화( 종속 변수 Y ) 에 대한 설명을 제공 하는지 여부를 모델링하는 데 사용될 수 있습니다 .

이러한 모델은 실제 알고리즘이나 인공지능 모델에 대입하여 우리가 빅데이터를 통해서 바로 보지못했던 데이터들의 인과관계를 얻어 새로운 인사이트를 얻을 수 있습니다!

 


Kaggle 이란?

데이터 분석 과정을 보았지만 이것들을 처음부터 모든 과정을 다 진행하기는 어렵습니다.. 😥 

그렇기 때문에 위 과정을 직접 해 볼 수 있고, 공부 할 수 있고, 경쟁하고 상금까지 벌 수 있는 Kaggle을 소개드리겠습니다!

kaggle 로고 이미지

캐글(Kaggle)은 2010년 설립된 데이터를 통한 예측 모델 및 분석을 경쟁하는 대회 플랫폼입니다!

기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 분석가, 과학자들이 이를 해결하기 위하여 데이터를 분석하고 모델을 만들어 경쟁합니다! (2017년 3월 구글에 인수되었습니다! )

왜 Kaggle이 좋은가?

어떤 기업에 방대한 양의 빅데이터가 쌓여있다고  생각해봅시다! .

기업에서 이 자료들을 바탕으로 필요한 정보 또는 알고리즘을 알아내기를 원하지만, 이를 분석할 전문가가 부족하거나 아예 없는 경우가 대부분입니다.

이때 바로 캐글이 힘을 발휘합니다!!  기업이 캐글에게 빅데이터를 제공해주면 Kaggle은 이를 온라인에 공개하여 세계 각지의 수많은 Data Scientist들이 이 문제를 팀이나 개인으로 해결할 수 있도록 연결해줍니다.

=> Kaggle을 이용

하여, 기업이 혹은 단체가 제공하는 데이터를 통하여 데이터 분석에 대한 공부를 할 수 있습니다.위의 빅 데이터 분석과정에서 데이터 요구사항, 데이터 수집과정을 Kaggle을 통해 생략을 하고, 다른 사람들의 데이터 분석 과정을 보면서 배울 수 도 있습니다.

 

필사를 통하여 캐글을 배울 수 있습니다!

캐글에 대한 더욱 자세한 내용은 데이터 과학 및 캐글 입문자를 위한 캐글 필사 알아보기 이 글을 읽으면 더 좋습니다!

 

캐글 (Kaggle)을 통하여 할 수 있는 것

1. 데이터 분석 / 예측
2. 데이터 분석 경험
3. 공모전(Competition)
4. 데이터 과학자의 지식 공유

 

세계는 지금 뛰어난 데이터 과학자를 원하고 있습니다. 하지만 그런 전문가를 찾기란 쉽지 않고 해결해야 하는 문제들은 쌓여만 가고 있습니다. 

또한 전문가를 채용한다고 해서 기업이 원하는 답을 얻을 수 있다는 보장도 없습니다. 

이런 상황에서 꾸준히 캐글을 통해 대회에 참여하고 기업에서 요구하는 문제들을 해결하면 여러분도 데이터 분야의 전문가로 거듭날 수 있을 것입니다. 🙂 


Kaggle 어려우면 어떡하지?

데이터 분석을 위해 Kaggle이 좋다는 것은 알겠는데… kaggle도 어렵다면?
모두의 연구소에서 진행되는 Aiffel 과정에는 Kaggel을 배울 수 있는 과정을 포함하고 있습니다!

 

Aiffel의 LMS(learning management system)을 이용한 학습

Aiffel의 DataTone

  • 데이터톤(Datathon)은 데이터(Data)와 마라톤(Marathon)의 합성어입니다!
  •  특정 주제에 대한 데이터를 활용해 개발자와 디자이너, 기획자 등이 팀을 이뤄 결과물을 만들어 내는 경연입니다!
  • 마라톤을 하듯 주어진 기간 안에 쉼 없이 결과물을 만들어 내야 해 데이터톤이라 부른다. 

aiffel-datatone-이미지

 

추가적으로 아이펠 과정에서 AI,통계 , 파이썬을 통한 데이터 분석을 배울수 있습니다!!

프로그램 소개

참고자료!

http://www.differencebetween.net/technology/difference-between-data-mining-and-data-science/
https://www.datacamp.com/blog/what-is-kaggle
https://en.wikipedia.org/wiki/Data_analysis
https://www.datacommunitydc.org/blog/2013/09/the-data-products-venn-diagram
https://modulabs.co.kr/blog/datathon/