DLife Planet

[Kaggle] 데이터 과학? 캐글? 카글? Kaggle이란? 본문

Open Platforms

[Kaggle] 데이터 과학? 캐글? 카글? Kaggle이란?

Western_Gem 2020. 7. 9. 14:13
반응형

여러분 안녕하세요, 이것저것 쪼끔쪼끔 하고 싶은 건 참 많은 30살 디지털 노마드가 되고 싶은 디지털 크리에이터 WesternGem입니다. 

 

[ 캐글(Kaggle)?]

오늘 저는 데이터 과학, 예측 모델 및 분석 대회 플랫폼 Kaggle에 대해 여러분께 소개해 드리고자 합니다.

캐글(Kaggle)이라, 저는 개인적으로 데이터 과학을 전문적으로 하시는 사촌누나의 남편(매형)으로부터 한 5년 전쯤에 소개를 받았는데요. 대학생 시절 제가 했던 통계 프로젝트에 대해 소개해 드리자, 좀 더 전문성을 가진 데이터 과학자료들도 보고 참여해 보라는 권유를 받았습니다.

 

그 당시 꼬꼬마 대학생이었던 저에게 이 사이트에서 다루던 주제들은 너무 어렵고 막연해 보여서 넘어갔으나, 최근 핫해졌다는 소문을 듣고 뒤늦게 이 사이트의 대세에 합류하게 되었네요.

 

캐글(Kaggle)은 2010년 설립된 예측모델 및 분석 대회 플랫폼이다. 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁한다. 2017년 3월 구글에 인수되었다. -위키피디아 출처

 

공식 사이트의 주소입니다.

 

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

화면은 다음과 같이 나옵니다. 영어라 거부감을 느끼신다면??

 

완벽하진 않지만 조금 도움이 되는 한국어로 번역된 페이지가 나오네요. (근데 교열도 안되고 별로라 전 그냥 영어로 하겠습니다.)

 

상단의 Register를 클릭하시면 가입이 되며, 구글에 인수된 플랫폼이라 구글 로그인(AP - API가 무엇인지는 이후에 기술하고 링크를 남겨둘게요)로 구글 간편 가입이 가능해 가입도 매우 용이합니다. 가입 정책은 무료이며, 금전적 변화가 발생하는 시점은 이 플랫폼의 주 기능인 대회에 참여하고, 대회에 입상할 때라고 합니다.

로그인을 하면 위와 같은 화면이 나오며, 본인의 구글 닉네임 또는 가입 닉네임과, 간단히 자신의 수준을 보여주는 대시보드, 그리고 실시간으로 올라오는 프로젝트들이 나옵니다.

 

 

초보자(Novice)를 뜻하는 신분에서 등급이 올라가려면? 

Kaggle은 친절하게도 가이드를 줍니다.

 

1. bio를 추가하라고 하는데, bio는 클릭해보시면 알겠지만 간단한 글 추가로 보이며, biography(자기소개)로 보입니다. 

 

2. Location 지역을 알려달라고 하네요. Seoul이라고 검색하시면 간간하게 나옵니다.

 

3. Occupation 직무와, Organization 소속회사까지 쓰라고 하는데, Digital Creator at DLife Planet이라고 적어줍니다.

 

4. 전화번호 인증도 지역명 +82(KR)로 검색해서 넣고 010-****-****을 넣어서 입력해 줍니다. 

 

5. Run 1 kernal이 뜨는데 이 부분은 Notebook을 하나 새롭게 작성하라는 뜻으로 후에 제가 어떻게 하는지 나중에 본격적으로 Kaggle에서 활동을 더 많이 하게 되면, 간단한 튜토리얼을 올리겠습니다.

참고로 저 같은 경우는 현재 파이썬(Python)보다는 R을 선호하며, Python 같은 경우 향후에 저도 열심히 공부해서 올리도록 하겠습니다.

 

6. Make 1 competiton or task submission

하나의 대회를 만들라고 하는데, 아직 초보인 저에겐 너무 큰 과업이군요. 저 같은 경우 Hello this is my test submission. I'll send another one next time.이라는 문장과 함께 제출을 하였습니다. 자세히 보시면 다양한 초심자들을 위한 챌린지가 있고, 일부는 상금을 건 대회도 있습니다. 데이터 분석 프리랜서들에게도 좋은 기회가 될 거 같다는 생각도 막 드네요! (저도 언젠가는... 진짜 말 그대로 언젠가는...)

 

7. 1개 댓글(comment)과 투표(upvote)를 하라는군요. 들어가시면 나옵니다.  저 같은 경우는 https://www.kaggle.com/general/164795

에서 Hello 댓글을 하나 달고 upvote를 보았습니다.

 

튜토리얼 치고는 상당히 많은 일들을 요구하는군요.

이렇게 튜토리얼을 마치면 Novice 꼬리표는 사라지고,

Competitions Contributor, Datasets Contributor, Notebooks Contributor, Discussion Contributor 등 Compete에서 브론즈 메달을 수시로 따서 미션을 쟁취하라는 항목이 니옵니다.

 

이렇게 Compete 등의 미션들을 잘 수행하다 보면, 왼쪽의 Kaggle Grandmaster라는 지위를 얻게 되고, 더 많은 기업들과 사람들로부터 데이터 과학자로서의 능력(Job)에 대한 관심을 받게 됩니다!

즉, 아무 이득 없는 노력이 아닌, 국제적인 스펙 쌓기가 아닐까 생각됩니다. 온라인으로 돈버시는 프리랜서 데이터분석가 여러분! 취준생 여러분 여기에요 여기!

 

Kaggle Compete 스샷 사례, 상금들이 진짜 어마어마하네요! 수천만원이라니! 그만큼 전문성도 뛰어나야겠죠?

 

총평, 데이터 과학자로 성장하기에 정말 좋은 플랫폼이지만, 기존의 초고수 데이터 분석가 고인물들이 뛰어다니는 전쟁터라는 생각이 듭니다.

분명히 저는, 아래의 포부를 읽어보면, 과제를 하시는 학생들, 이제 막 데이터 과학을 회사에 도입하려는 회사의 사장님들, 그리고 실무에 데이터를 도입하시려는 직장인 분들과 같이 저와 비슷한 눈높이에 있으신 분의 입장을 대변한다고 했는데 말이죠. 

 

군인이 전쟁에 나가려면? 무기도 필요하지만, 훈련을 받아야겠죠? 네 그렇습니다. 그래서 다음 링크로는, 그런 초심자들에게 맞는 데이터 분석을 배워서 Kaggle에서 활동하는 지식의 기반을 다질 수 있는 전 세계적인 무료 데이터 분석 학습 사이트DataCamp에 대해 다루도록 하겠습니다.

 

선행 학습을 원하신다면 링크를 들어가 직접 해보세요. 사실 제 설명이 없어도 영어만 할줄 아신다면, 충분히 잘 하실 수 있다고 봅니다.

 

Learn R, Python & Data Science Online

Learn Data Science from the comfort of your browser, at your own pace with DataCamp's video tutorials & coding challenges on R, Python, Statistics & more.

www.datacamp.com

[IT Planet 콘텐츠 포부]

어떤 키워드를 쓸지, 어떤 주제를 다룰지에 대한 대략적인 계획 게시글을 작성한 이후 첫 콘텐츠를 올리며, 간단하게 저의 향후 포부를 먼저 말씀드리고자 합니다.

 

흔한 취준생들의 자기 소개(소설)에서 볼 법한 말이지만, 저는 어릴 적부터 줄곧 데이터 과학에 관심이 있었습니다. 고등학생 때는, 확률과 통계라는 과목을 단순 수능 공부 대상을 넘은 탐구의 대상이라 생각했습니다.경우의 수 와 이산 확률 등의 단원에 대해 직접 상황을 가정 해보는 취미도 있었죠. 이후, 재수를 할 때에도 그랬고, 저희 모교와 전공인 아주대학교 산업과학과에서 확률과 통계에 대한 수업을 들을 때도 저는 매 순간이 즐거웠습니다. 

 

대학을 졸업하고, 어떻게든 IT분야의 일을 하고 싶어서 취업을 하고 길고 긴 시간들이 지나고 보니 어느 덧 제가 직접 연구했던 자료들이 하나둘씩 쌓이게 되었고, 이 사회의 IT분야와 데이터 과학에 대한 관심도가 어린날 제가 생각했던 것 이상으로 빠르게 높아지고 있더군요.

 

그래서 감히 저는 앞으로, 데이터 과학에 대해 제 블로그에서 얕게 나마 다뤄볼까 해요. 물론, 이 분야를 깊이 있게 연구 중이신 순수 통계학 전공자 혹은 석박사 과정의 전문가들의 수준에 제가 감히 따라갈 수 있을지는 모르겠네요!  하지만, 과제를 하시는 학생들, 이제 막 데이터 과학을 회사에 도입하려는 회사의 사장님들, 그리고 실무에 데이터를 도입하시려는 직장인 분들과 같이 저와 비슷한 눈높이에 있으신 분의 입장을 대변하여, 최대한 쉽고 간단하며 믿을 수 있는 자료를 공유할 것을 약속 드릴게요!

 

그럼, 지금까지 WesternGem이었습니다. 긴 글을 읽어주셔서 감사합니다. 다음에 DataCamp에 대해 파해쳐보는 글로 다시 찾아오겠습니다.

반응형
Comments