#인공지능 

데이터 과학 및 캐글 입문자를 위한 캐글 필사 알아보기

캐글 입문자를 위해 캐글이 무엇인지 알아봅시다.

2022-09-11 | 전진환

목차

  • 캐글이란?
  • 캐글 등급
  • 캐글 필사란?
  • 캐글 필사를 하는 이유
  • 캐글 필사 커리큘럼 추천
  • 마무리
  • 출처

 


캐글 필사에 대해 알아보기 전에 먼저 캐글에 대해서 알아봅시다.

 

캐글(Kaggle)이란

2010년에 만들어진 “예측 모델 분석 대회 플랫폼”으로 기업과 단체에서 데이터와 해결과제 및 상금을 등록하면 개인 및 팀 단위의 데이터 과학을 연구하는 학생 및 과학자들이 문제를 해결하기 위해 도전합니다.

 

캐글은 2017년도에 Google이 인수하면서 더욱 화제가 되었습니다.
방대한 양의 실시간 처리가 가능한 데이터를 취급하는 공공기관 및 기업들은 본인들이 소유하고 있는 데이터를 원활하게 비즈니스에 활용할 수 있는 방법에 대해 끊임없이 연구하고 고민합니다.

그러나 데이터를 해석하고 분석할 수 있는 사람이 부족하기 때문에 캐글을 통해 문제해결을 시도 하려고 합니다.
캐글은 이뿐만 아니라 전세계에서 데이터 과학을 연구하는 사람들의 커뮤니티, 학생들을 위한 가이드, 현업에서 일하는 과학자들의 지침서와 같은 역할도 합니다.

 

캐글 등급

캐글에는 등급이 있습니다.

[ Kaggle 공식홈페이지 Tier 소개 ]

 

분야는 Competitions, Notebooks, Datasets, Discussion 총 4가지가 있으며 각 분야에서 얻을 수 있는 등급은 Novice, Contributor, Expert, Master, Grandmaster가 있습니다.

캐글은 보통 팀으로 진행합니다.
한정된 시간안에 혼자서 과제를 수행하는 것은 매우 비효율적이며 해야할게 굉장히 많기 때문입니다.
등급을 올리기 위해서는 메달과 조건을 만족해야 합니다.

특히 Grandmaster는 달성 조건이 매우 어렵습니다.
Grandmaster의 Competitions 조건을 보면 혼자서 참가하여 금메달 1개를 얻어야하는 것도 있습니다. 여기서 각 4개의 분야별로 등급을 올리기 위해서는 메달이 필요합니다. 메달 획득을 위한 조건은 다음과 같습니다.


[ Kaggle 공식홈페이지 Competition Medals 번역 ]


[ Kaggle 공식홈페이지 Notebook Medals 번역 ]


[ kaggle 공식홈페이지 Dataset Medals 번역 ]


[ kaggle 공식홈페이지 Discussion Medals 번역 ]

 

캐글 필사란?

캐글에서 오픈되어 있는 데이터와 코드를 참고하여 “코드를 필사하는 것”을 말합니다. 복사 붙여넣기가 아닌 손수 타이핑을 하여 코드를 입력하는 것입니다.


[ Kagglel 공식홈페이지 Discussion]

 

한땀한땀 타이핑하려면 아무래도 시간이 많이 걸리겠죠?
그만큼 여러분들의 피와 살이 될 것입니다. 😎

대표적으로 추천 및 메달의 개수가 많은 분들의 Code를 참고하면 되지만 아래 커리큘럼이 있으니 천천히 따라가셔도 좋습니다.

 

캐글 필사를 하는 이유

크게 몇 가지로 나눌 수 있습니다.

첫 번째
캐글 필사는 앞서 언급했듯이 코드에 익숙해지기 위함이 제일 크다고 생각합니다.
빠른속도로 도장깨기를 하는 것처럼 단순히 필사만 해서는 안되며 본인이 공부했던 알고리즘, 머신러닝, 딥러닝 이론 및 다양한 수학/통계 기법을 적용하여 숙달해야합니다.

여기서 주의할 점이 있습니다.
데이터분석을 처음 공부하는 학생이라면 최대한 많은 양의 코드 필사를 통해 코드를 손에 익히는 연습을 하고 데이터분석에 쓰이는 패키지 및 라이브러리와 코드에 익숙해지는 과정을 가집니다.
코드가 눈에 익숙해졌고 거부감이 줄어들었다면 직접 코드를 짜보는 연습을 해야합니다.

두 번째
한 개의 과제를 한 팀 것만 필사하지말고 다른 팀들이 진행한 것들도 필사해봅시다.
제가 공부했었던 주제들은 주로 복잡한 모델을 구현하여 만든 딥러닝 모델 보다는 데이터분석을 위한 머신러닝에 가까운 방법을 많이 사용했었습니다.
대신 전처리 단계에서 다양한 분석 방법을 적용했던 것을 참고했습니다.

같은 주제라도 전처리 단계에서 다양한 방법론을 적용한 팀들이 많이 있습니다. 결과도 상당히 다양하게 나오기 때문에 놀라운 결과를 확인하실 수 있습니다.

세 번째
마찬가지로 캐글도 스펙(Specification)이 되었습니다.
실제 기업에서 채용우대조건에 캐글 등급이 포함되어 있는 경우가 있습니다.
그래서 캐글은 데이터과학을 공부하는 사람들에게 본인을 어필하기 위한 훌륭한 커리어가 될 수 있습니다.

네 번째
Competitions에서는 팀들 간의 소통을 통해 결과를 실시간으로 공유하면서 모델의 성능을 더 끌어올릴 수 있는 방법을 고안합니다.
캐글의 Discussion을 통해 다른 팀과 끊임없이 소통하고 도전하고 선의의 경쟁을 통해 협업을 배울 수 있습니다.

 

캐글 필사 커리큘럼 추천

1. 캐글 그랜드 마스터 이유한님 커리큘럼 필사
2. 캐글 마스터 Will Koehrsen의 커널 필사
3. 커스텀 커리큘럼 만들기

데이터 과학을 공부하는 입문자들에게 추천하는 것이 있습니다.
바로 캐글 그랜드마스터 이유한님의 캐글필사 커리큘럼을 따라 해보는 것입니다.
이유한님이 필사를 진행하면서 설명을 해주는 유튜브 채널도 있으니 천천히 필사해보세요 👏


[ 캐글코리아 캐글 스터디 커널 커리쿨럼]

 

두번째는 캐글 마스터 Will Koehrsen의 커널을 필사하는 것입니다.
Competition에 들어가서 원하는 주제를 선택해서 필사를 진행해도 좋습니다.


[ Kaggle Will Koehrsen ]

 

다음으로 추천드리는 것은 직접 커리큘럼을 만들어서 해보는 것입니다.
본인이 평소에 하고 싶었던 주제와 도메인 그리고 관심있는 수학/통계학 기법을 활용한 노트북을 찾아서 진행하면 재미있습니다 🤣


[ 과거에 필자가 만들었던 캐글 필사 커리큘럼 ]

 

마무리

여기까지 데이터 과학 입문자들을 위한 캐글 필사에 대해서 알아보았습니다.
다음시간에는 직접 캐글을 필사해보는 방법에 대해서 간단하게 알아봅시다.
모두 다음시간에 만나요. ❤

 

출처