我們最常用的細分用戶方式是聚類分析。但是如果你針對某一個關鍵指標,找到在這個指標上差異最大的細分人群,可以試試用決策樹來細分用戶。
在近期的項目中,業(yè)務方提到了一個問題:因為內容的曝光量少,沒有很好的基礎數據作為推薦算法輸入,希望通過調研指導內容投放的冷啟動,知道要給哪些特征的用戶投放哪些內容。
針對這個問題如果只是單單分析一個特征的結果,可能會把一些重要的屬性組合淹沒在了特定人群中。比如舉一個不真實的例子,如果對用戶購買美妝產品行為進行分析,只看男女數據分析,我們會發(fā)現相比于女性,男性幾乎是不購買美妝產品的。但是如果針對性別進一步拆分年齡,我們會發(fā)現 95 后的男性也有較高的美妝購買行為,如果只看性別分析這個對美妝有高需求的特殊男性人群就會被忽視。
但是可以分析的用戶屬性很多,如果手動組合分析就非常的不方便。這個時候就可以用決策樹分析來解決這個問題。
決策樹是一種細分用戶的方式。不同于聚類細分用戶,決策樹細分用戶中有一個目標變量的概念。決策樹的細分目的就是通過逐層劃分不同解釋變量值獲得多屬性組合細分人群,使得細分人群在目標變量上表現區(qū)隔度盡可能的大。
解釋變量就是用戶特征,比如人口學、消費特征、用戶行為數據等。
目標變量則是我們調研中關心的核心指標。它有兩種類型,分別服務于兩種不同目的。
- 描述目的:在市場調研中目標變量一般是二分變量。比如在上述問題需求中,就是用戶對某個內容是否偏好,通過決策樹我們可以知道有哪些特征組合的用戶群體對產品偏好度高,哪些更低。
- 預測目的:這種情況下目標變量是類別變量。比如目標變量有四個值,分別代表 A\B\C\D 四個品牌,通過決策樹可以知道哪些特征組合的人群更偏好哪個品牌,可以輸出判別的規(guī)則作為預測模型。
決策樹算法中 CHAID 和 exhaustive CHAID 在結果的簡潔度和區(qū)隔度上表現都更好是最常用的算法。而 exhaustive CHAID 與 CHAID 區(qū)別在于計算了更多的組合情況,可能獲得更好的分割,但本質上兩者計算方式是統(tǒng)一的。因此本次就以 CHAID 為例進行具體介紹。
CHAID 算法又稱卡方自動交互檢測法。顧名思義,CHAID 就是自動對解釋變量和目標變量進行交叉分析并進行卡方檢驗,通過比較卡方檢驗顯著性程度來尋找最佳細分維度。然后在此基礎上繼續(xù)細分直到卡方不再顯著或達到數生成的條件限制。最終輸出的樹如下圖 1。
輸出的決策樹結果向我們傳達了兩個重要的信息:
- 樹結構與分組情況:從結果圖上可以看到某個節(jié)點會根據解釋變量不同的取值細分為多個節(jié)點。該節(jié)點叫做父節(jié)點,分節(jié)點叫做子節(jié)點。父節(jié)點和子節(jié)點構成了決策樹的結構。如果不再向下繼續(xù)劃分,則子節(jié)點稱為最終節(jié)點,即最后的分組。最后分組的屬性即為到達這個最終節(jié)點的所有子節(jié)點屬性交集
- 目標變量分布:每一個節(jié)點都會顯示目標變量分布。比如下圖中的節(jié)點一就表示一線城市的用戶中 73.5%都對這個權益感興趣。
△ 圖 1 決策樹結果示意
有的時候決策樹會過于龐大復雜,可以通過設置樹的層級數、父節(jié)點、子節(jié)點最小樣本數來修剪決策樹:如果決策樹達到樹最大層級限制則不往下細分;如果節(jié)點樣本達不到父節(jié)點數量要求則不往下繼續(xù)分割;如果節(jié)點樣本數達不到單個子節(jié)點的數量要求即與其它節(jié)點合并。
但是如果從決策樹圖中找哪些最終分組是對目標變量更感興趣的比較費勁。所以決策樹除了輸出決策樹圖之外還可以輸出目標類別收益表(比如內容偏好中將有偏好設為目標類別,示意見圖 2),收益表包含 4 個數:
- 節(jié)點:指的是分組在節(jié)點中的百分比
- 增益(收益):指的是分組目標類別樣本在整體目標類別樣本中的占比
- 響應:該節(jié)點中回答目標類別的人占該分組的比例
- 指數:增益/節(jié)點*100%,如果超過 100%說明該分組對目標類別的偏好高于平均
△ 圖 2 收益表示意
收益表將對目標類別偏好度從低到高進行排列,所以能很快找到哪些最終節(jié)點分組對目標類別偏好度高。比如上圖就顯示節(jié)點 5 是對目標變量最感興趣的人群。同時因為收益表還包含了節(jié)點百分比,所以可以知道這些分組在整體市場中的大小,用于判斷可以將哪些分組包含進來擴大目標人群范圍。比如上圖中雖然節(jié)點 5 是目標變量最感興趣的群體,但人數較少,在整體市場中只占到 7.1%。所以我們可以將節(jié)點 5、16、1、12 都作為目標群體,將市場覆蓋率提高到 37%。
1. 描述目的下如何操作
- 數據準備:每一行代表一個用戶樣本,數據包括目標變量和所有的解釋變量。
- 選擇決策樹:spss 分析à分類à樹
- 輸入變量:將目標標量(如用戶對內容偏好:偏好-不偏好)輸入到因變量中,解釋變量(如用戶屬性)輸入到自因變量中。因變量下方還有一個分類對話框,在其中將目標變量的偏好勾選作為目標值,該操作可以用于在后續(xù)輸出收益分析表。
- 選擇建樹方式(增長方式):默認選擇 CHAID
- 條件:可設置樹的最大層級、父節(jié)點和子節(jié)點的最小樣本數
- 輸出:輸出的統(tǒng)計量里面可以選擇輸出收益表和收益圖
△ 圖 3 描述目的決策樹面板操作說明
2. 預測目的下如何操作
如果是預測目的,前期計算設定操作與描述目的一致,但是還有模型風險估計和預測
- 驗證:如果是描述目的下,不需要進行這個步驟操作。如果是預測目的下,可選擇進行交叉驗證。SPSS 會將樣本分為多個樣本組分別進行決策樹計算并算出風險均值作為整體風險值。
- 保存:在保存按鈕中可以選擇輸出預測值和預測概率。預測概率會輸出每個用戶在因變量各個取值上的預測概率,預測值會輸出該用戶在因變量是預測概率最大的值。
△ 圖 4 預測目的下驗證和保存預測變量操作
如果分析的目的就是希望能找到在目標指標上盡量差異明顯的細分人群,決策樹是一種不錯的方式。如果是以聚類的方式細分,我們可以將目標指標作為其中一個細分輸入變量,但是因為聚類是為了讓用戶在空間的距離盡可能遠,目標指標可能并不是最重要的影響因素,所以最終的結果可能目標指標上用戶區(qū)分并不明顯。而決策樹的目的就是盡量在目標變量上拉開差距,所以細分結果上差異會更加明顯。所以決策樹經常被運用在市場產品、品牌來定位最核心的目標人群特征上。特別適合一開始業(yè)務方提出來的業(yè)務問題:特定內容應該給哪些用戶投放更加合適。
但是決策樹也有其局限和問題。
- 相比聚類細分,決策樹只能設定一個目標指標。如果希望在兩個指標上找到差異性較大的用戶就需要用聚類分析來實現。
- 無法控制分組數量,非常容易細分出十幾組甚至更多的分組。分組數量增加后描述和理解成本都會增加。在市場人群細分和定位問題中我們不關心所有的分組,只關心最重要的那幾組,所以分組多不會帶來問題。而如果需要對整個目標用戶進行細分和理解,聚類能控制分類數量,是更加合適的方法。
承擔因您的行為而導致的法律責任,
本站有權保留或刪除有爭議評論。
參與本評論即表明您已經閱讀并接受
上述條款。