837
魔獸
爬下27萬共享單車數據,聊聊單車上的魔都
單車公司的各路消息變成貧瘠的融資圈最絢麗的新聞,不時刷著我的朋友圈,公司門口出了2個共享單車停放點,上班的路一夜間也被共享單車染成了紅黃色。
變化來的太突然,後知後覺的我注冊了幾個單車app,才想到這是個很有意義的東西,比如你可以任意地跨城旅行,今天在上海張江上班,明天在西安古城騎車,當然,旅行錦上添花,占正常人10%的生活時間就到頭了。這些車子更多是解決從地鐵到辦公室的15分鍾路程,如果每天節約15分鍾 * 2的時間,仔細算算一年能夠拯救1個星期的無聊時間呢。
一個基本麵
全上海單車有多少共享單車?好吧,show me the code,我爬了所有ofo和摩拜在上海的單車,去重後,理出超過27w輛摩拜單車,ofo則少很多,我覺得這基本是ofo單車沒裝GPS的問題(按常理,周圍ofo的車更多),當然仔細想想,25w這個數字既不多也不貴,2000w常駐人口隻有1%數量的摩拜單車,把全上海的單車按500塊錢算也不一定換得湯臣一品的一套房子。
把上海的淩晨摩拜的所有單車畫出來,一副星光閃耀的地圖展現在麵前:
基本模型
根據長時間的數據監控發現,大部分人都隻騎很短的路,12小時裏走600米 - 700米的車是最多的(我計算了直線距離,真實距離估計1km多點),騎行5km以上的人非常寥寥,因此大致上,單車是城市局部的微交通,所有單車根據短距出行的需求隨波逐流。
此時我的腦海裏浮現出一個模型,半壺熱水導入半壺冷水,最後總會變成均勻的溫水,熱水瓶就是單車的投放車,每輛車走的很短 ,但可能以每天1km的速度向外圍擴散,日積月累的擴散效應應該還是很大的。單車的投放可能是不均勻的,但最終會趨於一種平衡。
當然,也有一些特例,比如黃浦江應該就是一個保溫的熱水瓶膽, 黃浦江在市區,橋、隧道、地鐵都是不通自行車的,唯一可行的也許就是去碼頭坐船(不過特地去16鋪碼頭看了看,還真有好多人帶共享單車過江的),如果浦西投放了10w自行車,浦東沒有,那長期來說浦東浦西的供需關係就是不等價的。早些時間,有公眾號在網上po出這個自行車的對比分布圖,浦東某單車投放和浦西形成了巨大的對比。
黃浦江是屏障,鐵路是屏障,更重要的是跨距離的衛星城,也許,摩拜單車作為新生事物,並沒有成熟到可以刻畫全上海的人口流動,因此我爬取了上海所有的公交線路和站點,以此刻畫經年累月裏,城市各個部分的連接關係,可以看出公交車的網絡內部致密,連接稀疏,鬆江、金山、嘉定新城已經變成了離開市區的衛星城,在市區投放單車,自發去衛星城的人應該非常寥寥。
哪裏需要更多的共享單車
摩拜單車的一個報告說,人們的出行基本都圍繞地鐵展開。我以地鐵站1km畫圈,地鐵一公裏覆蓋圈基本涵蓋內環裏的核心城市,確實因此,63%的摩拜單車都被圈到了裏麵:
當然,這個結論還沒啥用,隻是說地鐵和單車關係很大。
好在俺手上還有一份地鐵的數據,以某個星期一的數據為例,我統計了每個站點進出站的總和,很快我們能發現個基本麵:
和房價分布比較一致,2號線也是上海交通的中流抵柱,尤其是虹橋火車站、北新涇、中山公園、南京西路、人民廣場、陸家嘴,1號線老大哥,也很熱鬧,尤其是莘莊和徐家匯、人民廣場和火車站,九號線的泗涇和九亭也不可小視,漕河涇的白領好多住在那。
然後,我們統計每個地鐵站500米內圈到的自行車的數量,咱們把進出站人數和自行車數量做個比例,那基本就算出供需關係了,下圖,我們用點的大小代表地鐵人流,顏色用來表示人均保有的自行車數量,又藍又大的點,可能就是單車公司需要去優化自行車投放的,如南京西路、莘莊、徐涇、共富新村、泗涇、九亭這些站點。
剛才的圖,我們從地鐵站為維度去區分流量,我想,還有一種途徑,就是根據版塊來看待投放的問題,我們假設習大大的“房子是用來住的,不是用來投資的”,忽略群租房一類的特殊情況,版塊內的居住人口,大致等於這個版塊包含的戶數(有多少套房子)* 3,因此用鏈家的數據計算版塊內總戶數,基本可以代表每個版塊夜間的常駐人口,隻要我們配合淩晨的單車存量,基本可以刻畫第二天一早的單車供需關係。
你發現,三林、江橋、顧村、金山都是蓄積人口的大戶,但是郊區麵積也大,真正適合刻畫人多人少的,還是按照戶數 / 版塊麵積算人口密度比較合適,你發現環市中心是最密集的部分,包括了甘泉/宜川、光新、曲陽這些地方,如下:
因此,人均保有單車,更準確的說是每天早晨從家出發的路程的單車供需關係如下:
人均保有單車率 = 這個版塊的單車數 / 這個片區的小區戶數 ,我們會發現漕河涇、外灘、張江、五角場和金橋比率很大。
當然,我們關注的不是哪裏單車多而是哪裏單車缺,顯示深紅色的表明,這個版塊早上是缺乏共享單車的,當然,這個單車很缺的地方可能人也很少,我們以5萬戶為界限,刪掉人口很少的版塊,此刻我們發現,普陀區的甘泉/宜川版塊、 閘北區的彭浦版塊、奉賢區的南橋版塊、浦東的周浦、浦江版塊,這些都是比較缺共享單車的,這也許值得單車公司去優化布局。
從這份數據裏,我們還可以推測單車公司的投放策略,隻要看今天係統中新捕獲的單車分布,亮點代表在一個地方疊加了許多單車,這種分布,應是自然過程無法形成的。從昨天看,單車公司在流量最大的2號線的某幾個站點附近投的單車。
單車的數據非常之簡單,經度緯度時間id,而且還不是連續的軌跡,但還是反應了一些問題。當然,我覺得共享單車最重要的不是今天我們討論的怎麼投放車子,而是變成一麵數據的鏡子,反射出社會的別的層麵的問題。
原文發布時間為:2017-04-11
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號
最後更新:2017-05-17 13:34:43