前次提到換尿布的偶然念頭,試著用相異矩陣來找尋速配的行銷組合。但是到底相似性要多大才能視為有用的組合呢?
我們如果去分析一個巨量的交易資料庫後,常常發現會被同時購買的組合太多了,有些是該行業的老鳥早知道的事,如土司和牛奶;有些則看起來沒什麼道理,如柳橙汁和玻璃清潔劑;當然也有些真正有效的情報,如尿布與啤酒。
以介紹幾個關聯指標,使我們面對無數組合商品,得以衡量其價值,才不會把愚人金當成真黃金。第一個是支持度(support),即每筆交易中同時包含A與B的交集機率。假設有一百萬筆交易資料,其中同時購買A與B的筆數為20萬筆,則A=>B的支持度為20%。這比例當然是愈高愈好,表示這種組合出現的機率愈高。寫成算式為:
Support (A ⇒B) = P(A ∩B)
第二個是信賴度(confidence),即在購買A的情況下,也買B的條件機率。如前述一百萬筆資料中,已知購買A的交易有20萬筆,而其中10萬筆也買B。則A=>B的信賴度為50%。
Confidence (A ⇒B) = P(B | A)
所以假設有下列十筆交易,若A則B的支持度為50%(5/10),信賴度為71%(5/7)。如此可以事先設定支持度及信賴度,以過瀘出合適的組合。
交易ID |
購買商品 |
1001 |
A、B |
1002 |
A、B、C |
1003 |
C、F |
1004 |
A、C、D |
1005 |
A、B、E、F |
1006 |
B、C、D、F |
1007 |
A、B、D |
1008 |
C、D、G |
1009 |
A、B、F |
1010 |
A、F、G |
另外一個指標是增益(lift)。增益能告訴我們,一條關聯規則在預測結果時能比隨機發生的機會好多少,也就是這個規則比隨機猜測的準確度增進量。以上述例子,若A則B規則的信賴度71%,而在所有交易中,購買B的比例為60%。那麼71%>66%,代表增益將大於1(71%/66%=1.076),即A與B是正關聯(positive associated),也就是預期結果比隨機發生好。白話一點就是說,B商品搭配A銷售,比單獨只銷售B的結果來得好。由計算方式可得知:
Lift (A ⇒B) = P(B | A) / P(B)
Lift < 1表示A的出現與B的出現是負相關; Lift > 1表示A的出現與B的出現是正相關。
因此,我們可以得知有些關聯規則是無用的,如高信賴低支持,即買A則買B的比例很高,但這種組合佔所有交易的比例很低。那麼對這種組合的行銷努力是不符成本的;又如高增益低支持,關連銷售比隨機賣來得好,但同樣地,這種組合佔所有交易的比例很低的話,也是無用。
所以回到主題,尿布與啤酒信賴度(confidence)或許很高,增益(lift)或許很強,但如果沒有支持度(support)為後盾,那麼再強的規則也不會引人興趣吧!