閱讀668 返回首頁    go 機器人


哥倫比亞教授周以真:人工智能恐慌以及大數據威脅反思

大數據文摘記者:魏子敏

大數據和人工智能正無可置疑地為全行業和我們的生活帶來了翻天覆地的變化,在10月11日2017杭州·雲棲大會的主論壇上,不同於全場眾多追捧褒揚之聲,來自哥倫比亞大學的周以真教授則針對大數據和人工智能可能帶來的威脅進行了反思。她提出,數據會給我們帶來很多好處,但是如果不負責任濫用數據和算法,會帶來可怕的結果。

“我要給大家敲一個警鍾,我們在使用數據過程當中不負責任的話,會有什麼樣的後果。”她用FATES(命運)這個比喻的縮寫來講述了怎樣有責任的使用數據,F是代表公平,A是可靠,T是透明,E是有道德,S是代表安全。演講中周以真教授同時提出了一些引人思考的問題:使用不負責任的數據導致的偏見算法和嚴重後果,到底應該由誰負責?個人和阿裏巴巴這樣的企業應該用什麼樣的態度對待數據?以及我們該如何用科技本身保證科技的公平透明?

周以真現任哥倫比亞大學數據科學研究院主任,定義了計算思維。

哥倫比亞教授周以真在2017杭州雲棲大會主論壇的演講《Data for Good:Scary AI and Other Dangers with Big Data(大數據的好處:可怕的人工智能以及大數據的威脅)》

以下為周以真相關演講的速記,在不改變原意的情況下有刪改。

數據能夠帶來什麼樣的好處,我這裏分兩方麵來說。

第一方麵,我們要有責任的使用數據。

第二方麵,我們要用數據來應對社會巨大的問題,比如說能源、環境、教育、氣侯變化等等這些重大的人類命題。

但是今天我隻是會去談有責任的使用數據這一個方麵,因為我們所有人都是在使用數據,我們在使用數據的目的,都是為了應對社會的挑戰。我演講的目的,給大家敲一個警鍾,我們在使用數據過程當中不負責任的話,會有什麼樣的後果。

我想用FATES(命運)這個比喻的縮寫來去講一下怎麼有責任的使用,F是代表公平,A是可靠,T是透明,E是有道德,S是代表安全。

有偏見的數據導致的問題,誰該負責任?

首先來看一下數據,我在給大家分享之前,先非常簡單的講一下典型的算法和模式,我們在用大數據為原料,進行大數據計算的時候,涉及到的一些算法和模型。我們知道機器學習和形成一種模型,有這個模型,我可以再輸入新的數據,這個新的數據,經過這個模型之後,有可能產生新的結果,之後我們可以來判斷和預計,這個用戶有可能采購哪些商品。

我們知道數據和算法都可能是有偏見的,那麼如果數據和算法是有偏見的話,那麼我們的這個模型可能也會有偏見,那麼我們的結果也會有偏見的。讓我們來看一個實例,那麼這是幾年前我們看到兩個小偷,在美國的法官用了這種算法來決定判斷量刑過程當中是否恰當,我們看到這些自主研發的算法,在法官當中廣為流行的算法,用於幫助法官去判斷這些量刑。

我發現他們對於黑人和白人量刑的結果是不同的,其實結果還不僅僅於此,我們在算法當中有一些什麼樣的問題,這個算法本身是有偏見的,而且哈佛大學學者研究出來,這些算法有可能是可以判斷的,又可能是錯誤的,但不可能兩者兼具,實際上是不可能去判斷這個風險的分數。

第二個例子,這是我的這些同事做的項目,我的這些同事研究了在Google上的廣告,他們發現這些高薪的工作機會更多的會向男性網民展現,女性網民看到這些高薪的招聘廣告機會會比較少,我們覺得這是不公平的。現在我們就要去思考,這個模型是否是公正的,這些分類是否是公正的,我們怎麼樣來確保,這個案例就引發了另外一個問題,那就是可靠性。

說到底,出現問題的時候,我們應該怪誰呢?

好像這個問題很難找出一個好的答案,但是我們要有擔當,我們在IT界,我們是發明這些算法的人,我們是使用數據的人,我們是產生和收集這些數據的人,並且生成這些結果的人,我們要有擔當。

如果你是一家企業,那麼如果你是一個有責任的企業,你應該做什麼,你首先可以把政策進行公布,你的隱私政策進行公布,而且你要遵守這些政策,如果有人違規的話,違反了這個政策,你就要去修補你的這個漏洞。

我和的同事在微軟研究院所做的,我們會看一下在人們遵守這個公共政策的規模和程度是如何。這涉及到我們編程的語言,我們做成數據地圖,這個數據地圖每天晚上在微軟進行運行,幫我們找到我們政策上的漏洞,所以自動化可以在這方麵幫助我們,讓我們負起責任來,讓我們對於我們發布的政策負起責任來。

152層的DNN如何保障其透明度?

第三個關鍵詞是透明度。

透明度現在是一個很大的問題,特別是我們涉及到這些深層的神經網絡的時候,我們是否應該對這個結果予以信任,我們為什麼要對這個結果予以信任呢,我們都不知道怎麼樣來運作的,從這個科學的角度來說,我們其實並不了解他們是如何來工作的,那這樣的話,就會引起一些問題。

在給大家舉例子之前,首先給大家介紹一下,我們最大的DNN(音),這是152層的DNN,那麼它是獲得了2015年的Image.net的競賽獎項,這裏麵我們可以看到這裏的DNN一共有152層,大家問為什麼是要152層,事實上我們不知道為什麼是152層,結果就是如此,對於科學家來講,我們不僅僅滿足於這個答案,我們看這個DNN在什麼情況下會出錯。

這個例子看出來,我們為什麼使用這個DNN的時候,做圖象識別的時候,要小心,這是一段視頻,在這個視頻當中,我們可以看到,我們在駕駛車輛,我們開車的時候,可以看到有一個車速限速度的標誌,在右側可以看到,在右邊是停止的Stop的牌子,在左邊是塗鴉的限速45英裏的牌子,這個DNN識別到在右側Stop的圖像。它認為有了這個塗鴉的限速牌,不認為這是一個限速牌,在開車不到一秒的時間裏麵,我們可以看到後麵駕駛的車輛,開得很近的時候,發現塗鴉的這個標牌也是Stop的標牌,但是看見的時候已經太遲了,他覺得這個時候要刹車已經來不及了,這時候就有可能發生撞車的事故。

現在不光是熊貓、猴子,還有剛才我們所提的這樣一些例子,這個就是大家可以看到的,如果我們對於這個DNN怎樣工作的原理不清楚的話,就會潛在的造成一些威脅。

我們再來看一個例子。我們可以看到奧巴馬在同樣一個音軌,同樣的話,用四種語音語段發出來,這是一個Youtube上麵比較好玩的事情。對於這樣一個音頻流,你可以知道任何人都可以模擬任何人的發音,這樣就會產生威脅。

阿裏巴巴這樣的大公司應該怎麼做?

這不單會產生技術問題,也不是寫論文的問題,應該說這是一個實實在在的,對於大公司,比方說像阿裏巴巴這樣的大公司,正在努力致力於研究解決的這樣一些問題。歐盟也有這樣的政策,2018年所有大的公司,都要遵守這樣的一個有關於數據方麵的問題的法規章程,不然的話,你就會被罰款或者說有4%這樣的營業收入就要來交營業罰款。

這裏有四個標準,一個是可訪問的權利,一個是可忘卻的權力,一個是數據的可攜帶性,還有可解釋的權利,2017年到2018年之間,科學家正在致力於了解深度學習到底是怎麼樣來進行工作的,要能夠解釋得清,這是一個倫理的問題。

這裏麵我們可以看到,這裏是一個列車的問題,我們可以看到這裏麵一輛列車開過來,扳這裏有一個選擇,到底是通過扳道,是往上麵的通道走還是往下麵的通道走,下麵可能是小孩子或者說肥胖的人,不管是把道路往哪個方向搬,這都會牽涉到倫理方麵的難題。那麼現在有了我們這個自動駕駛車,必須要做這樣的決定,比方說在碰到類似情況的時候,這個車應該做什麼樣的決斷。比方說在右邊有一個行人,但是這個人比方說在人行道上麵也有其他的人,這個車躲避的話,到底是躲避誰,撞上什麼,這是很難下的決定。

這是一個假新聞的問題,那麼假新聞現在也在美國到處肆虐,這裏應該說假新聞泛濫,造成了很多的問題,我們大家看到微軟有這樣一個例子,一個聊天機器人,叫做小兵,這個聊天機器人是如此的流行,以至於在美國,我們有一點嫉妒,你們中國有這樣的很好的聊天機器人,在美國還沒有這麼好的聊天機器人,去年微軟也有了這麼一個聊天機器人。

我們在24小時之內,不得不把這個聊天機器人關閉了,為什麼呢?因為我們看到由於互聯網之間有一些陰暗麵的存在,很快我們發現聊天機器人被誘導,引導說一些很不好聽的話題,這裏麵我們才認識到互聯網,這裏麵也有一些快速傳播的不良信息,我們要非常重視倫理道德,我們在設計的時候就要注意,而不是在運用的時候。

還有一個例子是關於安全和保密的事情,例如天貓精靈,在你家或者車裏,很容易被黑客侵入,所以物聯網這樣的平台,如果說連到互聯網這樣任何的物品,很容易被壞人所侵入,這樣就會造成一些影響。

如何用科技保證科技本身的公平透明?

回過頭來再看一下縮寫拚出的詞,FATEC代表公平、透明等等,在這方麵,科技能夠做哪些工作呢?

我們可以看到剛才所說的,應該要產出各種可能性,有各種各樣的模式模板,所以我們要讓第三方別人能夠來檢查我們這樣的一些產品,同樣的道理,比如說給他們提供這樣一些資料和數據,我和我的兩個同事也寫過一篇論文,大家有興趣的話,也可以閱讀一下,比方說你的數據誰在掌握,我們現在有很多這樣的科技公司,可以看到這樣一些科技公司都是盡量在確保想要把人工智能、數據往好的方麵運用。

比如說亞馬遜、深度思考,包括蘋果、IBM、Google、臉書等等機構,現在都有更多的機構和個人,都加入進來人工智能能夠造福人類,但是我們在科技界應該承擔這樣的責任,能夠確保往好的方麵來發展,我們現在也有一些新的問題。

我們現在已經對機器人有相關的立法,對人工智能是否也要立法,那麼人工智能是不是也要進行很好的管製,包括這樣一些平台,包括一些使用,人工智能的這樣一些管道,是否也應該進行管製呢,如果要管製的話,是由誰來管製呢,我們是否要有一個消費者保護,有一個保險,還有比方說一些經濟上麵的獎勵,以避免這樣一些人工智能不良的應用。

包括我們所有的產品是否需要有一個授權許可,公司是否也需要有這樣一個委員會專門來進行檢查和審核。所以我們對於這個數據有一個負責任的態度來使用,才能夠物盡其用,謝謝。

*速記和照片由主辦方提供

大數據文摘x稀牛學院

AI精品钜惠課程

人工智能的數據基礎

金牌數學講師

直播互動學習

助教全程輔導

以科研+工程的獨特視角,帶你搞定人工智能中所需的數學理論,

入門與進階AI/DL領域的推薦課程!

最後更新:2017-10-12 15:00:19

  上一篇:go 人工智能掀起各地英語競賽熱潮,廈門6對雙胞胎同場競技
  下一篇:go 人工智能代第一黑馬從86跌到7,主力瘋狂加倉20億,翻倍行情啟動!