POST TIME:2018-12-03 21:21
PMCAFF():最大互聯(lián)網(wǎng)產(chǎn)品社區(qū),是百度,騰訊,阿里等產(chǎn)品經(jīng)理的學(xué)習(xí)交流平臺。按期出品深度產(chǎn)品不雅觀察,互聯(lián)產(chǎn)品研究首選。
作者:項宇,網(wǎng)易發(fā)展部用戶研究員
有一個比方非常恰當:產(chǎn)品如同蓄水池,,用戶比如池中之水。池子中每時每刻都有新用戶源源不停地加入,也有一部分用戶選擇離開。
如果用戶流失超過新用戶的補給,且速度越來越快、規(guī)模越來越大時,產(chǎn)品如若不警惕,蓄水池遲早會干涸。
這是用戶流失研究的配景。產(chǎn)品階段差別,重心也會從拉新轉(zhuǎn)移到留存,對于一個成熟的產(chǎn)品和飽和的市場而言,獲取一個新用戶的成本可能是留住一個老用戶的數(shù)倍,流失率的降低也意味著營收的增加,在這種條件下,流失研究的價值是顯而易見的。
而研究流失用戶所面臨的主要問題,是如何衡量用戶流失的規(guī)模,重中之重是梳理清楚“流失用戶”和“流失率”的定義。或許你腦海中早已經(jīng)羅列好了幾點困惑:
為了給流失一個明確、又能符合產(chǎn)品特征的定義,而且相對準確地識別出可能流失的用戶,我們引入二元邏輯回歸作為定量流失研究的模型。
在模型中,我們將一段時間內(nèi)用戶的一系列行為特征數(shù)據(jù)(如在線天數(shù)、充值金額、積分等級、點擊次數(shù)……),代入二元邏輯回歸方程中,就可以計算出相應(yīng)的流失概率。
也可以用下圖數(shù)據(jù)采集與流失預(yù)測的時間窗口來理解這一過程。選擇產(chǎn)品中一部分老用戶,不雅觀察和收集他們在一個月內(nèi)的行為數(shù)據(jù)(深藍色部分),通過這些數(shù)據(jù),我們可以預(yù)測其在未來一段時間內(nèi)(紅色部分)的流失與留存情況。
在預(yù)測周期 1 內(nèi)出現(xiàn)但周期 2 未出現(xiàn)的,說明在周期 2 內(nèi)流失了,如果兩個周期內(nèi)都沒有出現(xiàn),那么可能在不雅觀察期內(nèi)就流失了,上述兩種都屬于流失;而周期 1 和周期 2 都有出現(xiàn)的用戶,則是留存用戶。
但是,在通過定量模型來研究流失的過程中,往往存在著幾個常見的誤區(qū):
一、數(shù)據(jù)僅為工具,產(chǎn)品理解貫穿始終
如何界定流失用戶,制止概念誤區(qū)
在構(gòu)建流失模型時,通常以月作為分析和數(shù)據(jù)提取的周期,好比在上圖時間窗口中,以連續(xù)一個月沒有使用算作流失。但這種簡單粗暴的劃分方法往往會帶來三方面的問題。
1、流失周期受用戶使用間隔決定,差別周期劃分影響用戶結(jié)構(gòu)比例
如果以 1 個月作為流失周期,那么十月出現(xiàn)但十一月沒有出現(xiàn)(藍色圓點代表出現(xiàn))的用戶在十一月流失了,而實際上,他在十二月又出現(xiàn)了,是一個回訪用戶(見回訪3),并沒有真實流失。
如果我們以 2 個月為周期,則“回訪3”的用戶在10~ 11 月, 12 月以后兩個周期內(nèi)都出現(xiàn)過,應(yīng)該是一個留存用戶。周期劃分對用戶流失界定有著直接影響。
2、如果簡單以一個月為周期進行用戶分類,回訪用戶過多(好比占總體15%),無法忽視且難以處理
無論以何種周期劃分,一定存在必然比例的回訪用戶,將回訪用戶作為缺失值、算作留存用戶或者作為流失用戶,均對模型準確率有較大影響。
3、流失周期劃分會影響模型的準確率與平衡性
如下表,以總樣本100w為例,別離以 4 周、 5 周、 6 周作為流失尺度,劃分出的流失和留存用戶是差別的,對應(yīng)的流失留存預(yù)測準確率也差別。
流失周期過短,流失預(yù)測的準確率低,因為定義為流失的用戶中有大量實際留存的用戶,只是其使用間隔長罷了(好比以 1 周沒登錄就算流失,但實際上很多留存用戶2~ 3 周才登錄一次,也被劃分成流失用戶);同時周期過短,定義為留存的用戶實際上后來也會流失。
因此,分歧理的周期造成預(yù)測準確率低且不服衡,我們需要不停嘗試周期劃分,在保證整體準確率的情況下尋求流失與留存準確率最佳的平衡點,才能更為準確地同時預(yù)測流失及留存情況。
如果流失準確率有90%但留存只有50%,那么雖然我們預(yù)測流失的用戶幾乎都是真正會流失的,但可能只識別出了總體用戶中一小部分流失用戶,還有大量流失用戶被劃分在了留存用戶中,導(dǎo)致留存準確率過低。
在這種情況下,選擇恰當?shù)亩x方法顯得至關(guān)重要。通過查閱資料,我們發(fā)現(xiàn)對流失比較經(jīng)典的定義是“一段時間內(nèi)未進行關(guān)鍵行為的用戶”,關(guān)鍵點在于如何界按時間周期(流失周期)和關(guān)鍵行為(流失行為)。