筆者最近在Kaggle上開始學習如何透過Python進行資料分析的實作,因此想利用這幾個月的時間跟各位讀者分享學了甚麼,以及甚麼是Kaggle,初學者要如何在上面快速的學習與資料科學有關的內容。
這次我們先來講一下Kaggle到底是甚麼以及初學者要如何在上面快速的學習資料科學的應用好了,Kaggle是一個資料建模以及資料分析的競賽平台,成立於2010年,2017年的時候被Google公司收購,許多企業或研究單位會在上面放上各式各樣的資料,提供給加入這個平台的人,透過競賽的方式去分析這些資料並透過資料來去建模,以解決這些企業或研究單位所遇到的問題,Kaggle的目標其實很單純,其實就是”透過眾人的力量來去解決現階段所遇到的問題”,因為資料分析以及建模的作法非常的多元,研究單位或企業很難一開始就知道怎樣的做法能最好的解決目前所遇到的問題,所以透過競賽的方式能利用眾人的力量找到最佳的解決方法。
Kaggle的競賽一般可分為以下幾種:
- Featured:商業或研究的問題,獎金通常很高;
- Recruitment:提供面試的機會作為比賽的獎勵;
- Research:科學性及學術性較強的比賽,也會有一定的獎金,一般需要較強的領域和專業知識;
- Playground:提供公開的資料用於建模或演算法的嘗試,此類問題通常也比較有趣;
- Getting Started:主要是Kaggle會提供過去所舉辦過的競賽作為初學者剛踏入Kaggle這個平台的新手任務,幫助初學者熟悉這個平台;
- In Class:主要內容為學校教授機器學習課程的老師出作業的地方,也是一個適合初學者學習的地方
Kaggle參與競賽的方式:
- 選擇一個競賽項目
- 加入競賽後,充分了解競賽的內容以及目的
- 下載提供的資料集、透過這些資料產生模型
- 提交分析的結果作為評比
Kaggle的評分依據:
- Novice :註冊就算的初學小白
- Contributor :添加個人的資訊,並且進行了各種指定的動作,Novice跟Contributor兩個等級皆沒有考慮到使用者的比賽成績和社區聲望
- Expert :獲得兩枚競賽銅牌;5枚Kernel銅牌;以及50枚討論銅牌
- Master :獲得一枚競賽金牌,兩枚競賽銀牌;10枚Kernel銀牌;50枚討論銀牌以及總共200枚討論獎牌
- Grandmaster :獲得5枚競賽金牌,個人競賽金牌;15枚Kernel金牌;50枚討論金牌以及總共500枚討論獎牌。
競賽排名的依據:
Competitions |
0-99 teams |
100-249 teams |
250-999 teams |
1000+ teams |
Bronze(銅牌) |
前百分之40 |
前百分之40 |
前100名 |
前百分之10 |
Silver(銀牌) |
前百分之20 |
前百分之20 |
前50名 |
前百分之5 |
Gold(金牌) |
前百分之10 |
前10名 |
前十名+前千分之2*全部隊伍數目# |
前十名+前千分之2*全部隊伍數目# |
#如果一共有500支隊伍參賽,最後能得到金牌的人,一共有11支對伍(前十名+500*0.002)
Kernel獎牌: (使用者可以公開自己在競賽中所寫的程式碼在上面,供其他人投票)
Discussion獎牌:
筆者最近發現Kaggle有提供初學者手把手的學習資源,初學者可以進入這個網頁(https://www.kaggle.com/learn/overview),上面有許多資料科學常見的工具、機器學習、深度學習等課程,初學者可以先上去學習一陣子,再搭配一些案例的實作,應該可以幫助熟悉這個平台。
不過筆者覺得在Kaggle上一開始學習會遇到的最大問題,主要還是英文的能力,因為Kaggle是個全英文的平台,裡面所列的競賽內容及學習資源都是英文內容,如果英文閱讀能力不是太好的話,可能在學習上會遭遇一些困難,需要花點時間來去了解跟突破,好在其實網路上有許多厲害的玩家有把Kaggle上的一些操作流程用用中文說明,有興趣的讀者也可以參考筆者所提供的參考資料還對這個平台有更進一步的了解。
參考資源:
Kaggle的介紹:
- https://zh.wikipedia.org/wiki/Kaggle
- https://codertw.com/%E7%A8%8B%E5%BC%8F%E8%AA%9E%E8%A8%80/467622/
- http://zhouchen.tech/2018/06/06/kaggle%E5%85%A5%E9%97%A8%EF%BC%9A%E9%9B%B6%E7%BB%8F%E9%AA%8C%E8%80%85%E7%A2%B0%E5%88%B0%E7%9A%84%E9%97%AE%E9%A2%98/
初入Kaggle的練習:
- 鐵達尼號資料分析實作(乘客存活的預測)
- 鐵達尼號資料分析實作(中文內容)
留言列表