使用ODPS進行拚車分析
前言
最近幾年以來出現的共享的士(Uber,Lyft,滴滴)給人們的出行帶來了極大的便利。隨著燒錢大戰的結束,中美市場大局已定,為了維持高估值(Uber 80 Billion $, 滴滴30 Billion $),縮減虧損,增長淨利潤,繼而進入上市流程,幾大公司都開始發掘盈利的規則。帶來的影響是,共享出行的用戶們發現:1)車越來越難打,價錢越來越高;2)使用拚車會大幅度增長時間損耗,而帶來的金錢節約卻並不明顯;3)司機發現盈利有限,真正願意開車的司機越來越少,滴滴公司正在慢慢的轉變成為一個的士信息服務平台。這與其做成讓用戶通過手機便捷,實惠出行的願景大相徑庭。我認為滴滴將Uber踢出局極其類似於當年穀歌離開的場景,當沒有競爭以後,其創新能力也大幅減退,最終會導致其自食其果。
我想說一個故事,作為這篇文章所要解決的的一個問題的引子。那天天氣炎熱,我正在公交等去高鐵站的公共汽車,由於太熱,我決定打一輛車,當我攔下來一輛車後跟司機說15塊錢到車站,司機答應了。而此時跟我同時等公交的另外一個陌生人也過來問我們要到哪裏去,當他得知目的地是火車站以後,表示也想搭車,這時候司機坐地起價要他加10塊錢。這位陌生人想想覺得可以,就加了10塊錢給他。設想一下,如果我在攔的士之前就知道這個陌生人也想去火車站,兩人決定一起打車最後的價錢是怎樣的結果?也許15-20塊錢就可以搞定問題,而不是最終的25塊。而事實上,如果大家都具有這樣的能力,我想對的士司機來說也可以增長盈利,因為更多的打車需求會讓他們的單數變多從而增加總的流水。
回到滴滴的話題,目前假設從阿裏巴巴西溪總部出發到杭州東站(路徑A),一個人打車的費用是100,那麼第二個人拚車也是到杭州東站附近(路徑B),這時候他可能需要付的價錢是90塊錢,也就是說總價190塊錢。大家是否認為司機會拿到這部分的差額呢?事實上,的士司機隻拿到了他們共享路程的費用((A /union B)* 20%),而不是((A + B) * 20%),如果A和B完全相等的話,那麼司機基本上不會拿到更多的錢,這部分多出來的利潤就被滴滴公司完全拿去了。 為什麼滴滴公司會這麼做而且敢這麼做呢?因為他們不但壟斷了共享車的平台,也壟斷了信息分享的平台,一個人在上車之前他是不知道另外一個人跟在類似的時間段去類似的地方的。如若這兩個人在上車前就已經知道了對方的目的地,並聯合起來打一輛車的話,那麼這個博弈的格局就完全不同了。我們寫此文的目的就是要分析真實世界中這樣的需求是否真實存在,值不值得我們投入精力去開發或者利用一個已有的信息平台讓有類似出行需求的人在按下滴滴打車”的按鈕前就找到對方,從而增加議價的權利。
本文使用的數據來自於Todd Scheider維護的紐約的士數據[1],在此文中隻分析Yellow Cab的數據,因為其時間跨度較長(2009-2016),同時覆蓋紐約市區的範圍也更廣(所有紐約5個大區)。使用的阿裏雲大數據的技術有:Tunnel,Sql,UDF,MapReduce,Graph和Quick BI。實驗機為阿裏雲的ECS最低配的機器。所有開發實驗工作均在公有雲上進行。本文的結構如下:第二節將介紹數據分析的技術細節,第三節為實驗結果分析,第四節為工作方向討論。
數據導入
首先我們將csv格式的數據使用Tunnel導入到ODPS表中,使用的表的schema如下:
使用的Tunnel導入的script如下:
這樣我們得到的數據一共有:698,211,833條數據。
數據清洗和圖生成
引用
[1] https://github.com/toddwschneider/nyc-taxi-data
最後更新:2017-07-16 19:02:33