閱讀382 返回首頁    go iPhone_iPad_Mac_apple


他去數了紐約街道上的口香糖漬,竟發現一道貧富鴻溝


0?wx_fmt=png


數據分析師沃克·哈裏森(Walker Harrison)用數據分析的方法統計研究了紐約街道上的口香糖漬與收入水平的關係。

當嘴裏的口香糖嚼到無味時,你會選擇用紙包起來扔掉,還是直接吐到路麵上?在紐約,街道路麵上的口香糖漬表明,總會有人會選擇第二種懶惰又缺少公德心的行為。數據分析師沃克·哈裏森(Walker Harrison)用數據分析的方法統計研究了紐約街道上的口香糖漬與收入水平的關係,現隨地吐口香糖的人,可能不僅素質低,而且還比較窮。  


布滿口香糖漬的紐約街道


當嘴裏的口香糖嚼到沒味的時候,你通常有兩種選擇:要麼做一個文明市民,把口香糖用紙包起來,再丟進垃圾箱;要麼不在乎什麼素質,直接把黏黏的口香糖吐到地上,粘到桌子下麵或牆壁上。大部分人可能這兩種都幹過。

在美國紐約,隨處吐口香糖這種懶惰又缺少公德的行為,在過去的數十年間幾乎隨處可見。城市中幾乎每一寸人行道上都布滿了黑色斑點,它們代表著每一枚被緩慢而擁擠的行人踩入地麵的口香糖。

下麵三張圖片可以幫助你回憶起那些惱人的口香糖漬。葛萊美西公園被稱為美國“最美的私人公園”,隻有附近繳納年費的住戶才擁有公園的鑰匙,公眾一般不允許入內。但即便如此,公園的路麵上依然有一些口香糖漬。不過,如果和大中央車站地區的路麵對比,葛萊美西公園的口香糖漬隻能算小巫見大巫了。

0?wx_fmt=jpeg

從左到右分別是紐約大中央車站、聯合廣場、葛萊美西公園的路麵


紐約的路麵怎麼會有這麼多嚼過的口香糖?這有點讓人難以置信。這些口香糖不僅沒有扔進垃圾箱,而且也沒有粘到某個倒黴蛋的鞋底而被帶走。它們就這樣長久地被留在了城市的道路上。

大量的行人長年累月行走在這片人行道上,這種日積月累的增量會使得任何在一開始不太可能的事情最終變成現實。所以,即便我們僅僅假設一百萬人裏麵隻有一人會把口香糖吐到地麵上,五年的總量也是驚人的。而這也讓人行道成了我們現在看到的樣子。

我們試著模擬了一下這個過程,假設每周兩百萬行人穿過一片平地,隻有百萬分之一的人會在這裏留下痕跡,那麼在五年之中,路麵上的口香糖漬就會像下麵這個動圖所顯示的這樣(其中痕跡的位置和半徑都是隨機設定的):

0?wx_fmt=gif


在260周(5年)的模擬試驗中,一共產生了54個口香糖痕跡。我們又做了幾百次相同的模擬試驗,其中有95次模擬都產生了40以上個口香糖漬。也許我們的“實驗地點”隻是一個虛擬的地理位置,但它仍然具有現實意義:在紐約,幾十個商業區的客流量要遠比我們假設的多。

比口香糖漬的普遍性更有趣的,則是它們的分布特征:哪些地區分布密集、哪些地區稀疏?在哪裏會出現這種不平衡?為什麼會這樣呢?


我們真的去數了這些口香糖漬!


我們遇到的第一個難題就是選擇樣本。在時刻變化的城市地形地貌中,我們需要選擇具有一定連貫性的實驗對象:最好是能找到一條足夠長的人行道,然後觀察口香糖漬的數量隨著穿過的社區的不同,而產生的變化——比如一條橫穿城市的公園大街(Park Avenue)。

0?wx_fmt=jpeg


公園大街有著象征富貴的悠久曆史,多年來,已經成為“舊貴”(old money)的代名詞。雖然如今很多其他街區也開始變得富有,但根據一項2014年的街區富裕程度排行,公園大街橫穿曼哈頓地區平均家庭收入最富有的兩個街區Lenox Hill和Carnegie Hill,百年來依然是財富最聚集的地區。

我們現在將根據街道上的口香糖漬數量來評價街區。但本著統計學家的精神,我們不會統計公園大街上的每一寸街道,而是選擇有代表性的樣本進行抽樣。考慮到人行道上鋪設的方磚都是同樣大小且遵循著相同的規律,我們選擇了係統抽樣(systematic sampling)的方法。我們真的去數了這些口香糖漬!

每塊方磚大約都是5英尺見方。通常人行道的寬度是3到4塊磚。其中,靠近路邊的一行,一般會覆蓋一些植被或者寵物的糞便;而靠近建築物的一行,則是為了區分店家的私有區域與公共區域。所以,中間的一兩排才是我們的抽樣樣本。

0?wx_fmt=gif

大部分街區都被分成幾列,這方便了我們進行抽樣統計


但需要注意的是,並非全部方磚都有相同的大小,有些很小,有些已經出現巨大裂縫,還有些為了好看,選擇了用對角方格花紋來裝飾。這就意味著有些口香糖漬的數目隻能從稍小的麵積中統計,因此各社區間的樣本量大小也可能有所不同。

更糟的是,由於方磚是不同材料製成的,有些地方的口香糖漬根本無法統計:無色方磚上隻需要找黑點就可以,但有些材料(比如某種水泥和石子混合材料的方磚)的目的,就是“用來在主要交通繁忙區域掩蓋口香糖漬”。幹(ling)得(ren)漂(zhua)亮(kuang)!下麵是三張不同材料方磚的照片:

0?wx_fmt=jpeg

辨別口香糖漬的難度從左到右依次是:容易、困難、非常困難


要如何克服這些困難呢?這就要在采集樣本時候盡可能的標準化——多大的、顏色多深的點可以認定為口香糖漬,並且祈禱最終發現的規律特征不會受到數據采集的誤差所影響過大。雖然數據搜集的過程存在一些不嚴謹的地方,但當樣本量足夠大,靠著從大量數據中發現的明顯差異,這些不足並不會影響我們的發現。


街區交叉口和商業區有更多的口香糖漬


下圖是第17街區一直到130街區的口香糖漬統計結果。淡藍色的線代表每條街平均每塊方磚上口香糖漬的點數變化;深藍色的平滑線則是計算了每條街區以及它南北各兩條街區,共五條街區的平均值。


0?wx_fmt=jpeg


深藍色代表的這條近似函數曲線,使我們模型的數據變化不那麼突兀,分散了淺藍色折現的峰值水平。當統計了超過五英裏的口香糖漬後,你除了感覺自己快要發瘋外,還會注意到一些事情:每個街區的最後一塊方磚上,也就是兩條街道交叉口的方磚上,口香糖漬總是比其他地方多。

在統計過程中還發現一些規律,雖然它們可能無法用數據表現出來:在靠近垃圾桶,報箱及公交站牌的地方,口香糖漬都會多起來。而不平整的路麵則不容易留下口香糖漬,至於是因為口香糖不容易粘在不平整表麵,還是容易脫落,還是不容易被發現,還不能確定。

另一項更大更重要的發現是商業區(大致為60號街道南部或者120號街道北部)要比住宅區口香糖漬多。這一趨勢與日常感覺一致:有店麵的街道產生更多垃圾,更多行人經過,比起家裏人們也傾向於在這些街道上“放飛自我”。


每多一個口香糖漬,街區的人均年收入就少2萬美元


商業區的髒亂差使得原本就很微妙的趨勢更模煳不清。商業區口香糖漬數量的激增是一個重要發現,但從口香糖漬的整體上看,這個發現也容易讓我們忽略其他有趣的點。例如,第28大道和公園大街的交叉口與第124大道與公園大街的交叉口無論在地理上還是社會經濟地位上都天差地別,但因為都是商業區,就使得每方磚上的口香糖漬數量都達到40,這不利於我們通過人行道上的情況來觀察差別。

所以,引入人均收入作交叉分析是個辦法。下麵我們來看看公園大街上第60大道到第120大道之間的傳統住宅區。美國人口普查局公布的地區人均收入調查是以某個街區為核心,統計其周圍覆蓋的數千人的情況,這組數據對於我們的研究是相對精確的,兩組數據結合後,趨勢如下:


0?wx_fmt=jpeg


結果可能和你預想的一致:在比較富裕的Upper East Side街上隻有少數口香糖漬;而在相對不富裕的街區,例如,第96大道以北,口香糖漬大量出現。甚至還有與收入相稱的微趨勢:第70大道以人均年收入10萬美元領跑臨近街區,口香糖漬也大幅回落;第93、94大道上較低的口香糖漬總數也反應了這一地區人均年收入16萬6621美元領跑的事實。

當我們把地理因素拋棄掉,僅僅考慮街區的口香糖漬數量和人均收入的時候,我們可以更清楚的看到他們之間的關係:


0?wx_fmt=jpeg


這兩項數據的相關係數達到了-0.78,已經達到了一個強線性負相關的水平。圖上趨勢線的斜率為-0.0000465,即每增加一個口香糖漬意味著人均收入減少2萬美元。

僅看這張圖的話,我們可能輕易下這樣的結論:第96大道上的高淨值人群要比窮人更幹淨也更文明。這可能正確,畢竟收入4位數的人比起收入7位數的人更可能隨地吐口香糖。

然而影響因素不止收入這麼簡單。路過街區的行人並不隻有住在附近的居民。根據破窗理論,在原本就已經有很多口香糖漬的街區,人們更可能跟著隨地吐。另外,在那些有製服門衛的街區做這種事也比較有公德風險。再加上高淨值人群不是在家就是在辦公室要麼就是在車裏,他們缺少機會製造這些口香糖漬。

最後,口香糖漬的區別不僅在於吐口香糖的比例,也包括清理的比例。即使人行道的建設是公共開銷,但養護費用則是由附近居民承擔的。Lenox Hill的這些富人為了保持他們所在街區的高端形象會定期花費數千元請專業清潔工人來把口香糖鏟掉。East Harlem區的窮人恐怕既不想、也付不起人行道的清理費用。這些人也許作為清潔工去過Lenox Hill多次。

原文發布時間為:2017-03-31

本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-05-19 14:08:09

  上一篇:go  《JAVA8開發指南》第二章采用Lambda表達式(一)
  下一篇:go  《Mybatis官方文檔》 – 動態 SQL