閱讀495 返回首頁    go 阿裏雲 go 技術社區[雲棲]


我發現我的數據被操縱了……


image


索引的完整性不再是決定搜索結果質量的唯一因素。用戶感興趣的搜索結果常常淹沒在“垃圾結果”中。

---- 引自Sergey Brin 和Larry Page的《解剖穀歌搜索原理》(1998年4月版)

當前,我們正目睹著一場數據被濫用的大劇。限製數據濫用並且努力解決偏見數據和問題數據,正成為解決科技對社會基石產生影響的重要條件。

簡而言之,我認為大家應該重新考慮,安全、公平到底意味著什麼。本文從三個方向告訴我們,在數據驅動的世界中,我們的數據有可能被如何情況操縱。

操縱數據的原罪者-穀歌

1998年,兩個斯坦福畢業生決心著手解決主流搜索引擎存在的問題。

Sergey Brin 和 Larry Page合作撰寫了一篇論文,描述他們的網頁排序算法是怎樣解決搜索結果中垃圾網頁過多的問題。他們的想法意義非凡,如今被人們認為是Google公司創立的基石。但是這一想法並未阻止人們不斷擾亂自己的網絡係統。事實上,穀歌的崛起不過增加了搜索引擎進一步優化的難度。

image


時光流轉到2003年,當賓夕法尼亞參議員 Rick Santorum 公開將同性戀類比人獸交和戀童癖時,毋庸置疑,LGBT群體被激怒了。媒體Dan Savage唿籲他的讀者們做點什麼以記住這醜陋的時刻。其中一位粉絲創建了一個以Santorum的名字和“肛交”一詞聯合命名的網站。令這位參議員不寒而栗的是,無數公眾參與了將網站鏈接推送到搜索引擎首條的行動中。

這種眾包形式的搜索引擎優化行為被稱作“穀歌爆炸”,一種媒體炒作形式,旨在幹擾數據和信息環境。

image
媒體炒作和網絡失真信息(封麵),2017年3月,Jim Cooke繪製的插圖

媒體炒作並不新穎。正如許多人所知,宣傳和社交媒體營銷的界線通常是模煳的。除此以外,那些通過點讚、評論和訂閱量等公共信號宣傳產品特點的公司都熟知,任何被創造的係統都將成為娛樂、利益、政治、意識形態和權力遊戲的舞台。甚至連國會現在都在為此鬥爭。

而除了這些已經發生的,我們還正在麵臨哪些數據被操縱的情況,以及該如何應對。

image


騙過網絡係統

如同搜索引擎,社交媒體為公眾引入了一個全新的炒作目標,吸引了從社交媒體營銷號到國家行為發言人的各類人群。幹擾Twitter熱門話題或者Facebook新聞動態成為許多人的一種嗜好。任何人隻要5美金,幾乎在所有主要網站上都能輕而易舉的買到關注者,點讚數和評論量。背後的經濟和政治動機顯而易見,但除了這些勢力強大的水軍,還有一大群人毫無目標的參與著網絡攻擊。

例如,自Rick Astley的歌曲《Never Gonna Give You Up》推出時隔20年後,有這麼一群人決定幫他再登歌曲排行榜首。這樣做的目的並不是幫Rick Astley賺錢(盡管有此效果)。正如4chan等其他網站創造出的表情包,僅僅是為了娛樂。但通過這樣的方式,大量觀眾學會了如何讓某些信息被病毒式傳播或者其他的幹擾網絡係統的方法。換句話說,他們學會了如何獲得注意力。通過這些行為,他們開發出了一套能夠造成嚴重後果的炒作策略。


image
一個炒作Rick Astley的例子

像“披薩門”這類的事件並非偶然,這是一群網絡村民尋找愚弄信息係統的產物。(編者注,披薩門是去年美國大選期間發生的陰謀論,懷疑希拉裏競選經理被曝出的電子郵件中包含利用一係列餐廳進行人販子生意的暗語。這個陰謀論已經數次被反駁和攻破,包括警察部門。)他們創造了許多被稱做“馬甲”的跨平台網絡虛假賬戶,這些賬戶巧妙的影響媒體和其他勢力團體,引發他們對精心設定的問題、博文和網絡視頻的關注。這種事件的編造並不是為了讓媒體信以為真,而是讓這些媒體傻傻的通過大量自有宣傳渠道否定它。這樣就產生了“反向效應”,如此那些不相信媒體的人認定這其中必有一些陰謀論,從而鼓勵一些人自發調查。

image


接著就有鋪天蓋地的評論要求“打開窗口”——或者說增加公共討論話題的尺度。媒體們被騙去散播問題事件。更有甚者,推薦引擎會被用於向問題事件的被動接受者推送更多相關內容。再舉個例子, 研究員Joan Donovan主要研究白人至上主義,工作之餘,她打開Amazon,Netflix, 或是YouTube,沒有一個網站不向她推薦消費新納粹主義音樂、視頻和其他周邊。一些激進分子也知道如何變本加厲製造問題。不用觸犯Twitter的任何保護機製,那些人可以想方設法利用公司廣告內容放大白人優越主義思想,引發關注社會公平群體的憤怒。

總體來說,這些伎倆是對算法係統的手動攻擊,但我們都知道,攻擊的方法一直在變化,不在僅僅是手動。而現在,一切即將再次改變。

脆弱的訓練集

訓練機器學習係統需要數據,而且是海量數據。盡管目前已經建成了一批標準化語料庫,計算機科研人員、初創企業和大公司對於新的、差異化的數據的需求依然有增無減。

首當其衝的問題就是所有數據都帶有偏見。從總體上看,人和社會的偏見反映得最為明顯。以當下很紅的數據集ImageNet為例,人類根據形狀進行分類的速度高於根據顏色;受此影響,數據集最終會包含一些奇形怪狀的人造物體。

image
深度神經網絡中的認知心理學:形狀偏見的個案研究,2017年6月29日

在應對社會偏見時,局麵會變得更加混亂無章。Latanya Sweeney在穀歌上搜索自己的姓名時驚訝地發現,有廣告邀請她查詢自己是否有犯罪記錄。作為一名好奇寶寶式的計算機科學家,她決定在係統上跑一批常見的白人名字和黑人名字,看看哪些名字會招來廣告。不出所料,招來這種刑事類產品的都是黑人名字。這並不是因為穀歌知道怎樣看名字下菜碟,而是因為搜索用戶在搜索黑人姓名時,點擊刑事類廣告的幾率更高。穀歌學到了美國人的種族歧視,並“發揚光大”,最終影響了全部用戶。

image
A和C顯示的是針對兩個人各自姓名出現的廣告,B和D表明該廣告暗示存在犯罪前科所根據的是姓名類型,而非就是此人的檔案。

**不論是對人進行分類的數據還是由人進行分類的數據,隻要想以此為基礎建立係統,其中那些虛虛實實明明暗暗的文化偏見都將成為巨大的挑戰。
**
不過還有一項新的挑戰正在日漸成型:散布在不同網絡中的人群和國家行為者。他們在社交網絡上興風作浪,搜索引擎對於相應數據的關注度卻與日俱增,而各家公司正是用這些數據來訓練、改進各自係統的。

舉個例子,假設用Reddit和Twitter的數據來做訓練。這些公司在API上表現的非常大方,計算機科學家們長期以來也從這裏抓取了大量數據來訓練各種模型,試圖理解自然語言、圍繞鏈接開發源語言、以及追蹤社會模式。他們訓練各種模型來檢測抑鬱症、為新聞排序、並參與到會話當中。忽略了這些數據從一開始就不具有代表性這一個重要的點,絕大多數用著這些API工程師都相信他們可以清潔抓到的數據、並去除所有的問題內容。我向你保證,沒門兒。

不論刪除多少特定的subreddits、推文種類,亦或是忽略包含問題詞語的內容,這些都不會讓你在那些誠心找茬的人麵前占據先機。

我眼睜睜地看著無數人或者組織用盡各種方式想要混淆公共數據,大公司的係統也在他們的目標範圍之列。他們試圖通過低空飛行避開雷達監管。如果你沒有準備好相應的係統,從戰略層麵去應對這些早有準備繞開你精心製定的計劃的人,你簡直不堪一擊。這與意外或自然內容無關,甚至也牽扯不到帶有文化偏見的數據。這是那些試圖揣測你意圖的人故意施展手段,將特意炮製的內容注入到係統當中。

如果你想要理解這到底是什麼意思,不妨想想Nicolas Papernot和他的同時去年發表的實驗。為了深入掌握計算機圖像算法的弱點,他們決定改變停止標誌的圖形外觀,即使底層神經網絡會將之解讀為放行標誌,在肉眼看來它依然代表停止。想想對於汽車來說這意味著什麼。如果分類標準能夠如此輕易地任人魚肉,這項技術還能得到廣泛應用嗎?

image
《攻擊機器黑匣子實用教程》,2017年3月19日。研究人員改變了第一行的圖像,以誤導神經網絡,並導致了最後一行的錯誤解讀。然而人的肉眼是看不出改動之處的。


迄今為止,針對機器學習模型展開的最成功的數據注入攻擊發生在研究領域;但我們也發現越來越多的人試圖在主流係統中製造混亂。他們目前還沒得手,但僅憑這一點我們絕不能否認他們的學習和試探在不斷升級。

打造技術抗體

數十年來,眾多公司都沒把這些安全漏洞當回事,直到係統被突破的消息一次又一次的登上頭條。在應對這個新問題上,我們還要重蹈覆轍嗎?

如果你正在構建數據驅動式的係統,你從現在就要開始考慮數據會以怎樣的方式、被誰汙染,以實現何種目的。

測試文化在這個技術行業中已經失去了生存的土壤。這個鍋社交媒體是逃不開的。15年前,的靈光乍現之下,我們一頭紮向了“永久公開測試”的文化。我們邀請公眾成為我們的質保工程師。但是內部QA遠比找BUG要複雜,它需要將對抗思維融入到設計和研發過程中。當搞破壞的人就隱藏在公眾之中時,請大家位係統找漏洞的效果就不盡如意了。進一步來說,當前不論是誰在一沒動機、二沒渠道的情況下,都沒法在私下裏告知我們問題所在。有些記者會找到瞞天過海的方法,把係統變成新納粹主義的廣告,借此來嘲笑我們;也隻有此時我們才會注意到問題所在。然而盡管如此,更多包藏禍心的行動者開始和我們的數據玩兒起來放長線釣大魚的遊戲。為什麼在魔高一丈之前,我們不搶先道高一尺呢?

樂觀的看,作為應急措施,很多研究人員都將在機器學習係統的高級研發中融入了對抗思維。

以生成性對抗網絡(GANs)為例。那些對此不太熟悉的人可以這樣理解:你手上有兩個無人監督的機器學習算法-前者負責為具有評估功能的後者生成內容。前者試圖騙後者接受“錯誤”信息。這樣操作旨在找到模型和數據隱空間之間的界限。我們需要更多這樣的研發項目-隨著真正的對抗思維直接融入到模型搭建過程中,測試文化在研究領域也走到了盡頭。


但這些研究的作用非常有限。我們需要積極主動、目標明確地構建相應文化,開展對抗測試、評估,並將之融入研發過程。我們需要構建分析方法,評估我們使用的數據集中的偏見。我們還需要開發相應的工具來監督係統的運轉情況,這方麵需要的精力毫不遜於模型最初的搭建階段。我的同事Matt Goerzen認為除此之外,我們還需要有策略地邀請白帽子中的牛人介入到我們的係統之中,幫助我們查漏補缺。

技術行業已經不再是一群極客的狂歡,不再僅僅是想要做點不一樣的事情那麼簡單。它是經濟和信息世界的重要基石。

隻需要想想我們要構建怎樣的世界,這種好日子已經一去不複返了。我們必須從戰略層麵認真思考,他人想要以何種方式操縱係統為非作歹。

原文發布時間為:2017-10-16
作者:danah boyd
編譯:糖竹子、白丁、Aileen
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“大數據文摘”微信公眾號

最後更新:2017-10-17 16:33:31

  上一篇:go  Breakthrough in Alibaba Cloud Computing Capabilities - BigBench Reaches 100 TB World Record
  下一篇:go  U盤出現未格式化提示時文件恢複教程