為了因應Big Data巨量資料時代來臨,政府推動開放資料加值應用(Open Data),一方增進政府施政透明度、提升民眾生活品質,一方面也滿足產業界需求。初步已建置了一個開放資料平臺,依照主題及機關別,提供分類查詢。其中一個比較熱門的應用是:不動產買賣實價登錄批次資料

 

這個來由是內政部自10181日開始實施「房地產實價登錄」制度以來,陸續提供網頁及APP查詢,但僅限單筆查詢,如要取得所有data,必須向內政部申請購買。但配合資料開放政策,自10271日起,除了在實價查詢網站外,也可在上述平臺,免費下載當期新發布資料(每月1日或16日更新)。惟資料僅限當期發布內容,歷史資料仍需向內政部購買。

本文試著以102/12/1更新之當期資料,利用資料採礦之決策樹方法來分析房價的影響因素。首先,資料清理方面,交易標的有五類,由於土地、車位、建物為特殊標的,故僅選擇房地(土地+建物)房地(土地+建物)+車位」二類之1048筆進行分析,交易時間集中在10207~10210之間。

 

 

S1

 

在分析前,先以變數內容的關聯性,籂選出影響房價的關鍵因素,得出建物移轉總面積平方公尺(數值)、鄉鎮市區、土地區段位置或建物區門牌、建物型態、車位類別、交易標的等六個變數,但其中土地區段位置或建物區門牌因不具解釋意義,故以其餘五個變數輸入迴歸樹模型(Regression Tree),目標變數為總價(含車位)。

 

分析結果

如下圖所示,共得到六層的迴歸樹,第一層為鄉鎮市區,可見影響台北市房價的因素主要是行政區,這印證了Location, Loation, Location的不變法則,其後再依據各區的不同影響因素,長出不同的規則樹。

 

S2

 

 

以大安區為例,它的下層分類變數主要為建物型態,可區分為華廈(10層含以下有電梯)、住宅大樓(11層含以上有電梯)及其它三類,各類再依據建物移轉總面積,配適出迴歸式。

由規則二得知,大安區住宅大樓(11層含以上有電梯)是最有價值的,平均來說,每平方公尺達32.6萬,約一坪107.8萬。如果買一戶100坪,大約需要1億零394萬。同樣坪數,買華廈(10層含以下有電梯),要9633萬;其它型態的也要9523萬。

 

 

S3

 

規則一:

鄉鎮市區 = '大安區' and 建物型態 = '華廈(10層含以下有電梯)'

現有案例: 10

總價 = 31,641,000.048+299,785.413*(建物移轉總面積平方公尺-114.792)

 

規則二:

鄉鎮市區 = '大安區' and 建物型態 = '住宅大樓(11層含以上有電梯)'

現有案例: 12

總價 = 56,321,557.905+326,104.565*(建物移轉總面積平方公尺-184.548)

 

規則三:

鄉鎮市區 = '大安區' and 建物型態 not = '華廈(10層含以下有電梯)' and 建物型態 not = '住宅大樓(11層含以上有電梯)'

現有案例: 23

總價 = 34,227,997.729+273,611.246*(建物移轉總面積平方公尺-107.604)

 

模式評估

上述模式是以70%的訓練樣本得出,如再以其餘30%樣本,測試準確度。如下圖所示,估計值愈接近450者為佳,可見本模式在約4000萬以下的房子,有較佳的準確度。

 

 

S4  

arrow
arrow
    全站熱搜

    晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()