閱讀495 返回首頁    go 阿裏雲 go 技術社區[雲棲]


數據分析|微信紅包金額分配的秘密


0?wx_fmt=jpeg

最大的紅包被誰搶了?

微信新用戶?老用戶?

與使用“蘋果”有關嗎?


在幾次偶然的微信紅包領取活動中

謝宇教授提出

“金額可能並非完全隨機,而與用戶經曆有一定關聯”

為此我們進行多次實驗,得到一個有趣的結果



0?wx_fmt=gif

拚命搶紅包的你



◆ ◆ 

導讀


“微信紅包”是騰訊公司開發的社交軟件——微信的一個附加功能。它可以在一對一聊天當中發送,也可以在群聊中發送。在群聊當中,可以一次性發送多於1個的紅包,每個群成員可以領取至多1個,先領先得,發完為止(如果紅包數多於群成員數,則會有剩餘)。騰訊公司宣稱,在這一情況下,每個紅包的金額是隨機分配的;也即,在紅包數目足夠的情況下,每位群成員得到的金額的期望值相等。



◆ ◆ 

領紅包與教授共進午餐——引出的問題



北京大學-普林斯頓大學“當代中國社會”研討課7月11日-8月19日在北大舉辦,有12名北大本科生和15名普林斯頓大學本科生。作為課程的一個插曲,授課教師謝宇(普林斯頓大學教授、美國科學院院士)會不時地邀請一名學員共進午餐;邀請方式,就是在課程群中發放若幹紅包(紅包數目多於課程人數),學員自願領取,領到金額最高者與老師共進午餐。


這樣的活動進行若幹次之後,出現了一個有趣的現象:領到金額最高者絕大多數都是北大學生;此外,隻有兩位普林斯頓大學的學生領到過最高金額,這兩位的共同點是注冊微信賬號的時間都較早。針對這一現象,謝宇教授提出一個猜想:“參與者領到的紅包金額可能並非完全隨機,而是與用戶經曆(注冊賬號早晚)有一定的關聯”。因為大多數北大學生注冊微信賬號的時間較早,而大部分普林斯頓學生都是7月初抵達北京之後才注冊微信賬號。為此,謝宇教授在課程的微信群中做了若幹次重複實驗,並讓我對相關數據進行記錄和分析,試圖考察微信紅包金額與用戶經曆之間的關係。



◆ ◆ 

兩個變量:用戶經曆長短,是否使用“蘋果”



這些數據都來自於上述課程微信群中的紅包記錄。共進行了10次紅包領取活動,每次發放的總金額固定為5元,但是每次的紅包個數在27-32個之間。由於領取紅包的學生為27人,且在單次活動中並非每一個學生都會領取,因而每一次的紅包數目,相對於學生人數而言都是足夠的。每次紅包領取活動中每位參與者得到的金額,是我們所關注的因變量。經過標準化之後,這些金額彼此之間具有可比性,我們稱其為“標準化金額”,計量單位是人民幣分。而我們的核心解釋變量是用戶經曆,也就是從注冊微信賬號之日起至2016年8月1日這中間經曆的時間(計量單位為月)。此外,我們還將“領取紅包時是否使用的是蘋果設備”作為控製變量。這兩個解釋變量,我們通過調查表的方式獲得數據。


使用該微信群聊作為數據源有一個優勢在於,在這一群聊中,紅包領取活動的參與者的用戶經曆差異很大:最短的隻有0.5月,最長的有58.5月(其注冊賬號的時間已經接近騰訊公司推出微信軟件的時間)。這有助於我們發現其中可能存在的規律。(詳見表1.)


0?wx_fmt=jpeg


我們注意到,每次紅包領取活動中,發放的紅包數目都是過量的,也即存在尚未被領取的紅包。我們使用了一個簡單的假設檢驗,證明了未被領取的紅包與被領取的紅包在金額分布上沒有係統性差異,從而保證了之後的分析在這個意義上是無偏的。




◆ ◆ 

轉折點:約35個月

 

首先我們使用LOWESS方法繪製出領取到的“標準化金額”與用戶經曆之間的趨勢線,如下圖所示。由這條趨勢線可以看出,標準化金額與用戶經曆之間是一個先增後減的關係,大致以35個月為轉折點。轉折點之前,用戶經曆越長,領到的紅包金額傾向於變多;轉折點之後,用戶經曆越長,領到的紅包金額傾向於變少。


0?wx_fmt=jpeg


為了更為嚴格地驗證這種關係,我們做了回歸分析。在回歸模型中,用戶經曆以一次項和平方項的形式出現,而“是否使用蘋果設備”作為控製變量。我們分別使用普通最小二乘法和tau=0.25, 0.5, 0.75的分位數回歸對模型的參數進行了估計。得到的結果較為一致:無論是否加入控製變量,“用戶經曆”平方項的係數都顯著為負,而“用戶經曆”項的係數都顯著為正。也就是說,紅包金額與用戶經曆之間的關係可以用一個開口向下的拋物線去擬合。而在這8個回歸中,我們估算出的這條拋物線的對稱軸都落在31-38個月之間,與之前所說的轉折點在35個月附近也是吻合的。有趣的是,我們的結果還發現,“是否使用蘋果設備”對於領到的紅包金額沒有顯著影響,詳見下表。


0?wx_fmt=jpeg



◆ ◆ 

得到極端金額的可能性


以上分析關注的重點,是領到的紅包金額本身,而我們還想探究用戶經曆是否影響領到極端金額的可能性。所謂極端金額,我們定義:如果領到的標準化金額小於5分,則算作領到極端低值;如果領到的標準化金額大於或等於28分,則算作領到極端高值。我們使用了logistic回歸去分別估計用戶經曆對於出現這兩種情況的可能性的影響。結果表明,用戶經曆對於領到極端低值的可能性沒有顯著影響;但對於領到極端高值的可能性存在顯著性影響,而且影響的模式同樣是先增後減,可以擬合為一條開口向下的拋物線;轉折點的位置也落在35個月附近。(詳見表3.)


0?wx_fmt=jpeg


以上是對統計分析結果的簡單描述,對細節感興趣的讀者可以參看文末正式的統計報告。


◆ ◆ 

總結一下


總結起來,領取的紅包金額與用戶經曆之間存在先增後減的關係。對於使用微信賬號時間較短的用戶,其在紅包領取活動中得到的金額隨著其用戶經曆的增加而增加;但在經過一個拐點之後,隨著用戶經曆的增加,其在紅包領取活動中得到的金額會減少。這一拐點落在30-40個月之間(用戶經曆)。與此同時,得到極端高金額的可能性與用戶經曆之間也存在著同樣的關係和類似的拐點位置。但得到極端低金額的可能性與用戶經曆之間並無顯著關係。這些結果在加入了控製變量(是否使用蘋果設備)之後沒有受到影響。


因此,對於最近注冊微信的用戶和使用年限很長的微信用戶,其在紅包領取活動中得到的金額相對更低;而用戶經曆在30-40個月之間的用戶,平均而言其在紅包領取活動中得到的金額最高。


由此可以推測,在微信群聊中發放多個微信紅包的情形下,各個紅包的金額並非完全隨機分配。但是由於微信紅包背後的程序未知,所以我們隻能夠注意到這一現象;其原因可能需要從騰訊公司的程序設計中尋找。



附:正式統計報告



1.數據與變量


1.1  數據來源


我們使用的數據主要來自於上述的課程微信群中的紅包記錄。該群聊總共進行了10次紅包領取活動,每次發放的總金額固定為5元,但是每次的紅包個數在27-32個之間。由於領取紅包的學生為27人,且在單次活動中並非每一個學生都會領取,因而每一次的紅包數目相對於學生人數而言都是足夠的。為了得到用戶經曆等信息,我們使用調查表對27名學生進行了調查,采集了微信賬號、注冊時間和手機類型等信息。在每次活動中,每位參與者的表現作為一個觀測;通過這10次活動的記錄,我們總共得到了217個有效觀測。


1.2  變量


1.2.1  因變量

因變量為在每次活動中每位參與者得到的紅包金額。雖然每次活動的總金額都固定為5元,但是由於紅包數目有變化,因此在不同的活動中,每位參與者領取到金額的期望會有差異。為了消除這一差異帶來的偏誤,我們對領到的紅包金額做了標準化。標準化的方法如下。


0?wx_fmt=jpeg


其中yij為第i次活動中參與者j得到的金額,ni為第i次活動中的紅包個數revenueij代表標準化金額,是我們最終使用的因變量,其度量單位為人民幣分(1分=0.01元)。經過這樣的標準化,我們將每次活動中發放的紅包個數統一為了30個,也即每次活動中每個紅包的金額期望值為1/6元(約為16.667分);這樣,我們的217個觀測中的因變量具有可比性。


在後一階段的分析中,為了探求領取金額的極端值與用戶經曆之間可能存在的關係,我們使用了另外2個因變量:lower-tail和upper-tail,它們都是二分變量。


0?wx_fmt=png


1.2.2  解釋變量

核心解釋變量是用戶經曆experience,也即每個用戶從注冊微信賬號之日起至2016年8月1日所經曆的時間,以月作為度量單位,精度為0.5月。


由於微信賬號本身不能識別國籍(個人信息中的“所在地區”可以任意填寫),而所有學員微信綁定的手機號都是中國大陸的號碼,加之絕大多數紅包領取活動都在同一間教室進行,因而我們能夠考察到的唯一的可以對領取金額造成影響的解釋變量是手機類型。因此我們選擇手機類型作為控製變量iphone。它也是二分變量,如果使用iPhone或者iPad等蘋果產品參與領取紅包活動,則變量iphone=1;如果使用其它品牌的移動設備,則變量iphone=0。


1.2.3  變量的描述性統計

以上因變量與解釋變量的描述性統計結果參見表1。


1.3  一個說明


需要說明的問題是,由於在每一次紅包領取活動中,發放的紅包個數都是過量的,因此我們的217個觀測中沒有包含未領取的紅包。從表1中可以看出,217次觀測中的標準化領取金額為16.516分。在虛擬假設H0:“revenue的均值=16.667”之下做假設檢驗,得到,因此不能拒絕虛擬假設H0。我們有理由認為,領取的紅包與未領取的紅包在金額分布上沒有顯著的係統性差異,從而我們的觀測在這種意義上是無偏的。


2.統計分析結果


2.1  LOWESS結果


為了考察因變量(revenue)隨著核心解釋變量(experience)大致的變化趨勢,我們首先繪製了散點圖,並使用局部加權散點擬合方法(Locally Weighted Scatterplot Smoothing, LOWESS)添加了擬合曲線。其結果顯示在圖1中。


由擬合曲線可以看出,revenue與experience之間的關係可以大致以experience=35為界分為兩段:在分界點以左,revenue隨著experience遞增;在分界點以右,revenue隨著experience遞減。也即如果用戶使用時長小於35月,則用戶經曆越長,平均而言領取的金額數越高;如果用戶時長大於35月,則用戶經曆越長,平均而言領取的金額數越低。


2.2  回歸分析結果


LOWESS擬合的曲線顯示revenue與experience之間存在一個先增後減的凹函數關係,為了更為準確地研究這一關係,我們考慮添加平方項experience2,進行回歸分析。基本回歸的方程如下。


0?wx_fmt=jpeg


在該模型當中,我們隻考察experience及其平方項對於revenue的影響。

為了研究手機類型對revenue可能造成的幹擾,我們在第2個回歸模型中增加了控製變量iphone,模型如下。


0?wx_fmt=jpeg


表2的第(1)列和第(2)列分別顯示了使用最小二乘方法(OLS)對這兩個模型的回歸結果。Experience平方項的係數為負且在統計上顯著,experience項係數為正且在統計上顯著,控製變量iphone的加入沒有改變這一結果,且控製變量iphone的係數在統計上不顯著。這表明revenue與experience之間可能存在一個二次函數關係。根據平方項與一次項的係數,可以估算出由增轉為減的拐點位置在experience=33.91(回歸(1))或experience=34.28(回歸(2)),這與LOWESS的圖形也基本吻合。


為了進一步驗證這種二次函數關係,我們使用了分位數回歸方法(quantile regression),分別取tau=0.25,0.5,0.75。回歸結果顯示在表2的第(3)列至第(8)列。這6個分位數回歸的結果顯示,experience平方項係數為負且顯著,experience項係數為正且顯著,控製變量iphone的加入不改變它們係數的符號和顯著性,且iphone的係數本身不顯著。由平方項和一次項估算出的拐點位置依次為experience=36.33, 37.88, 30.90, 31.09, 33.17, 33.71。這與OLS的結果以及LOWESS的結果吻合。


2.3 對極端值的分析結果


以上分析主要針對各個解釋變量對於標準化領取金額的影響。下麵,我們想考察這些解釋變量是否會影響在紅包領取活動中得到極端金額的可能性。為此,我們引入了2個因變量:lower-tail和upper-tail,它們都是二分變量。如果標準化領取金額小於5分,則lower-tail取1,否則取0;如果標準化領取金額大於或等於28分,則upper-tail取1,否則取0。由於因變量為二分變量,我們使用了Logistic回歸方法;回歸結果中各解釋變量的係數代表了該變量對機會比率(odds ratio)的自然對數的邊際影響率。


表3的第(1)列和第(2)列顯示了以lower-tail為因變量的logistic回歸結果;可以發現,experience及其平方項的係數在統計上與0沒有顯著性差異,控製變量iphone的係數也不顯著。因此這些解釋變量對領到極端低值金額的可能性沒有顯著性影響。


表3的第(3)列和第(4)列顯示了以upper-tail為因變量的logistic回歸結果;可以發現,experience平方項的係數為負且顯著,experience項的係數為正且顯著。也即,在用戶經曆較短的時候,隨著experience的增加,在領取紅包活動中得到極端高金額的可能性會增加;但是在一個拐點之後,隨著experience增加,在領取紅包活動中得到極端高金額的可能性會減低。根據係數可以估算出這個拐點的位置是experience=32.60(回歸(3))或experience=32.07(回歸(4))。控製變量iphone的加入不改變這一結果,而且是否使用蘋果設備對於領到極端高金額的可能性沒有顯著的影響。



原文發布時間為:2016-09-30


本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-06-02 19:35:13

  上一篇:go  小紮曝Facebook北極數據中心圖片 最先進數據中心都建在哪?
  下一篇:go  為什麼宇宙的年齡是130億年,我們卻能看到470億光年遠?