閱讀996 返回首頁    go 阿裏雲 go 技術社區[雲棲]


穀歌街景照片的另一種用途:預測總統大選結果


0?wx_fmt=jpeg

摘要下次你沿著一座美國城市的道路開行 15 分鍾,如果看到的三廂轎車數量多於皮卡,那麼民主黨候選人就有很有可能在總統大選中拿下此地。

俗話說:“人靠衣裝馬靠鞍”。可見,穿戴裝束和出行座駕等顯而易見的外在特征,常會提供判斷他人社會地位和風格品味的信息。最近,來自斯坦福大學等美國高校的一組研究人員,把這種 “以貌取人” 的技術玩到了一個新高度,隻不過他們的分析單位是社區而非個人。按照這些研究者通過分析穀歌街景照片得出的結論,下次你在正常時間段沿著一座美國城市的道路開行 15 分鍾,如果看到的三廂轎車數量多於皮卡,那麼民主黨候選人有近九成概率在總統大選中拿下此地。

美國是一個生活在汽車輪子上的國家。統計數據顯示,超過九成美國家庭擁有至少一輛汽車。而美國人對汽車的選擇,往往是綜合考慮家庭需要、個人偏好和經濟能力的結果,這其中蘊含著豐富的經濟社會信息。利用 “深度學習” (deep learning)技術,研究者們為計算機練就出了一副從穀歌街景照片中抓取和識別汽車信息的火眼金睛。他們指出,通過讓學會了識別技術的計算機分析穀歌街景照片上汽車的品牌、型號和出廠年份等信息,不用前往現場打聽,就能判斷出某個美國社區的收入、種族、教育和投票偏好等重要特征。

為了展開分析,研究者們收集了穀歌街景項目在 200 個美國城市中所拍攝的五千萬幅照片,其中包含約兩千二百萬輛汽車的圖像,覆蓋了這些城市中近三分之一的汽車。利用 “深度學習” 技術,研究者們訓練計算機對這些汽車的品牌、型號、出廠年份、外形門類和排量等特征做出判斷,並將穀歌街景照片上的每輛汽車歸置到 2657 個互不重疊的組別當中。這些組別幾乎覆蓋了 1990 年以來所有在美國街道上行駛過的汽車。

0?wx_fmt=jpeg

基於上述信息,研究者們係統分析了車輛情況與美國社區人口、經濟與政治特征之間的聯係。統計結果顯示,“車如其人” 這種說法,的確頗有實證根基。例如,與許多人的印象一致,亞裔居民比例較高的美國社區,本田和豐田等亞洲品牌的汽車比例也較高。克萊斯勒、別克和通用旗下的奧茲莫爾比等品牌的汽車,更多地出現在非裔美國人社區中。而皮卡和大眾、阿斯頓馬丁等品牌汽車雲集的社區,其居民則往往以白人為主。

不僅如此,車輛特征還可以幫助我們識別美國社區的其他許多情況。例如,在堅定的民主黨選區,三廂轎車是無可撼動的主流車型;而在堅定的共和黨選區,街上的主流車型則往往是各類皮卡。通過與美國人口調查局旗下 “美國社區調查”(American Community Survey)項目所收集的數據進行比對,研究者們發現,利用各種汽車特征識別某個社區平均水平和教育程度,準確程度也相當令人滿意。

與在大規模抽樣基礎上通過問卷或訪談收集數據的傳統調研方式相比,使用汽車特征來判斷社區基本情況,至少具有四個顯著優勢。首先,這種新的調查方法主要依賴電腦進行計算、分析和判斷,可以大大節省人工、提高效率。通過 “深度學習”,研究者們開發的電腦程序隻需 0.2 秒時間就能在 2657 個組別中為穀歌街景照片上的汽車找到最合適的歸宿,項目組僅用兩周就完成了對全部五千萬張照片的識別工作。即便某位超常聰慧的專家能在 10 秒鍾內將一輛汽車準確歸入 2657 個組別中的某一組,他不吃不喝地連續工作,也無法在 15 年內完成這項任務。

由此帶來的另外兩個好處,在於節約經費和提高數據的時效性。上文提到的 “美國社區調查” 是美國聯邦政府的一個國家級項目,采用入戶詢問的方式采集關於美國社區的各類人口結構信息,每年需要花費十億美元,而實際情況發生的變化可能需要長達五年時間才能在數據中顯示出來。采用基於汽車信息的新研究方法,一個研究團隊依靠自己的力量就能獲得質量比較可靠的類似數據;而隨著無人駕駛技術的普及,包含汽車信息的街景照片將會越來越頻繁地更新——目前,特拉斯汽車每天所拍攝的照片數量,就可高達五千萬張。

更為重要的是,人們在回答問題時,可能對自己的收入狀況、教育水平和政治偏好進行有意無意的偽裝,而對汽車的選擇是難以偽裝的。因此,采用汽車特征這類穩定的外在信息對社區基本情況進行判斷,受到幹擾的可能性往往更低。

需要指出,“戶均一車” 是美國的特征,而汽車對於其他國家民眾的意義或許與對美國人的意義並不相同;因此,這套通過車輛特征識別社區情況的方法,未必可以直接推廣到美國之外。然而,這套方法背後那種利用大數據中結構化信息識別區域特征的思路,卻能夠為學術研究者和政策製定者提供許多啟發。

當然,如果你不想活得這麼較真兒,下次和小夥伴們在電腦前科學瀏覽美國城市的穀歌街景照片時,能夠在默默數完皮卡後以老司機般的淡定嫻熟悠悠說出此地是否曾被特朗普拿下,想必也是極好的。

原文發布時間為:2017-03-22

本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-05-22 15:03:37

  上一篇:go  小白學數據 | 28張小抄表大放送:Python,R,大數據,機器學習
  下一篇:go  深度學習論文閱讀路線圖