支持向量機(Support Vector Machine,SVM)是一種常見的機器學習演算法,主要用於監督式學習的二元分類問題。關於監督式學習是甚麼東西,可參考筆者過去寫的文章說明(https://reurl.cc/jDk4QD),SVM的基本想法是在數據點之間找到一條最優的超平面,如圖表 1的黃線,將不同類別的數據點分開,以達到分類的目的。
支持向量機(Support Vector Machine,SVM)是一種常見的機器學習演算法,主要用於監督式學習的二元分類問題。關於監督式學習是甚麼東西,可參考筆者過去寫的文章說明(https://reurl.cc/jDk4QD),SVM的基本想法是在數據點之間找到一條最優的超平面,如圖表 1的黃線,將不同類別的數據點分開,以達到分類的目的。
承襲筆者前陣子寫的文章,Kaggle資料科學學習歷程(二),筆者接著介紹如何利用Python進行初步的數據清洗。我們一般拿到一個資料,當初步了解資料的內容,以及挑出可能用於之後分析的變項後,我們一般會遇到資料可能有遺漏以及資料有極端值的情況,雖然不處理這些情況下,跑統計分析的時候可能跑得出來,但跑出來的結果也許會受到這兩項因素的影響,導致出現錯誤的結果,因此筆者將針對常見的處理方式以及如何利用Python來去處理做介紹。
承襲筆者前陣子寫的文章,資料科學學習歷程(一),筆者最近整理了一些網路資源,關於拿到一筆資料時,該進行那些基本的處理,讓資料之後能用於建置模型或更進一步的分析。這次的內容主要先以初步的數據探勘(步驟1-3)為主,筆者也整理了一些Python的實作語法供讀者參考,之後的文章也會進一步介紹如何利用Python進行初步的數據清洗。
筆者最近在Kaggle上開始學習如何透過Python進行資料分析的實作,因此想利用這幾個月的時間跟各位讀者分享學了甚麼,以及甚麼是Kaggle,初學者要如何在上面快速的學習與資料科學有關的內容。
這次我們先來講一下Kaggle到底是甚麼以及初學者要如何在上面快速的學習資料科學的應用好了,Kaggle是一個資料建模以及資料分析的競賽平台,成立於2010年,2017年的時候被Google公司收購,許多企業或研究單位會在上面放上各式各樣的資料,提供給加入這個平台的人,透過競賽的方式去分析這些資料並透過資料來去建模,以解決這些企業或研究單位所遇到的問題,Kaggle的目標其實很單純,其實就是”透過眾人的力量來去解決現階段所遇到的問題”,因為資料分析以及建模的作法非常的多元,研究單位或企業很難一開始就知道怎樣的做法能最好的解決目前所遇到的問題,所以透過競賽的方式能利用眾人的力量找到最佳的解決方法。
上班族最關心的莫過於升遷與獎金,而每年或每季的考核決定了員工的未來,這不僅員工關心,主管或老闆也非常頭痛。但是,大家回想一下自己公司的考核,是否常有以下的毛病?
1.使用紙本評分表或EXCEL進行管理,怎麼催都有人不交,統計起來也費時費力…
前二篇「用SPSS來作RFM行銷分析」主要偏重技術面,本篇改用商業問題解決的應用角度來談RFM。
首先談一個常見的概念,許多行業有「80%收入來自20%的客戶」的特性,所以在作銷售預測時,透過購買量的記錄,來辨別未來重要客戶,便成為理所當然的事。
在LOL的征戰中,助攻是一個容易被忽略的數字,如果細心一點你會發現,兩邊隊伍有時都是5次擊殺,但一邊可能只有3次助攻,而另一邊卻有8次助攻,這裡邊潛藏的意義可能是巨大的。試想一下,什麼會造成兩方助攻數的巨大差異呢?擊殺數是很清楚的,只要個人操作夠好,單殺對手,甚至會戰收頭都會比對方優異。但助攻則不一樣,我認為兩個因素可能會造成該隊伍助攻比較多,一是隊友支援夠快,團隊意識高,這樣的話比較容易多出一些助攻數,另外一點就是角色有團控技或AOE傷害,這樣的角色要賺助攻也相對是容易的。當然助攻多的隊伍,經濟也會比較好,因為助攻是會產生額外的經濟收入的,所以這次的研究就是想探討助攻對於隊伍最後的勝負有多大的影響力呢??
這次我收集LPL大陸區春季聯賽共100場比賽資料,我收集了兩個時間的的隊伍KDA以及最後勝負的資料,兩個時間點分別是比賽20分鐘以及賽末點,資料型態如下:
S5賽季到了,G社對版本做了大改動,包括餘燼附魔的改動,造成了坦克聯盟的崛起,到處都是硬梆梆的英雄在亂跑。還有小龍的BUFF變得很強,五龍之後幾乎天下無敵,造成大家拼命的在小龍處廝殺搶鬥,精彩無比。在這樣的版本下,怎樣的戰術會更能制勝呢?這篇做了點小研究提供大家參考。
最近又再研究出國玩樂的事情,這次想自己買機票訂住宿試試看,不要每次都跟團。有一個網站http://www.ezfly.com/,裡面有很多訂購機票的相關訊息,相信許多人都知道,但我第一次研究,發現買機票是一件複雜的工程,有好多不同的航空公司,也有好多種機票種類,看的頭有點暈暈的,因此我想做點小研究,看看出國搭哪個航空公司的飛機最好。
在前二篇「市場調查與地理資訊的完美搭配」系統文章中,已經介紹了利用PowerMap展示了市場調查資料,並且show了一支挪威啤酒銷售的影片。今天再進一步告訴大家,如果你的資料是日日月月在產生,甚至是分分秒秒也在產生時,如何將這麼龐大的資料在PowerMap展示呢?
先把所有資料平均嗎?錯
在上一篇「市場調查與地理資訊的完美搭配──建立一份客戶地圖」文章中,介紹了利用Power Map展示了市場調查資料的分析結果。對行銷人員或企劃人員來說,好不容易蒐集了許多產品資料,花了許多時間分析,如果不能給決策者一個震憾的展示,豈不功虧一簣?
在商圈的市場分析(Market Analysis)領域有一個項目叫立地條件分析,目的是為了讓投資者對該地區有所瞭解,並評估該區是否為合適設店地點。它衡量某地區的交通條件、產業結構、家戶消費、人口組成、成長沿革、重要設施等,這是屬於客觀的「時」、「地」、「物」方面的調查。接著,必須再輔以消費者需求、客層分析、廠商意願、競爭者調查等「人」、「事」方面的市場調查,結合二者方能完成一份完整的可行性評估。
很多人都會想在FB上分享圖文,長期以來我非常好奇怎樣的圖文會最吸引人按讚呢?因此我做了一個小研究。首先我到國內許多大品牌的粉絲團上去研究他們所分享的圖文,我發現,這些品牌分享的圖文大多如下圖型式,先是品牌的MARK,然後會有一小段文字說明介紹,下方再放上一張圖片(當然這也是受限於FB的格式),因此我想針對這樣的圖文做點分析。另外由於我希望我的小研究比較FOCUS,因此我這次的調查都鎖定有賣商品的品牌來作分析,也就是說大多數的圖文都是商品介紹,我認為同類型的圖文做比較誤差會比較小。
跟平面或媒體廣告比較來,直銷行銷(Direct Marketing;DM)是直接有感的行銷方式。
奧美直效行銷公司國際副總裁維頓博德先生定義:直效行銷就是運用任何的行銷傳播活動(廣告、公關、促銷),將目標對象界定在“個人”的基礎上,與之開展一對一的直接關係。
大家有常常在網路商城購物嗎??網路購物既便宜而且很多商品都可以送貨到家,實在是越來越普遍的趨勢。我平常都用PCHOME的平台購物,但是今天突發奇想,想說乾脆比較一下不同商城的商品價格,看看哪個商城才是最便宜的,所以我找了三個比較熟知的商城來比較,包括YAHOO超級商城,MOMO購物以及我最常用的PCHOME商城。我又擔心說在不同種類的商品上不同商城可能會有自己的優勢,所以我分成四個大的層面來調查,包括美妝、家電、筆電、日用品(原本還想多做一個食品,進行時發現食品有很多複雜的促銷,不太好比較價格),我每個層面都隨機抽10種商品調查價格,然後比較哪一個商城的商品最便宜或最貴,下面整理給大家: