香港中文大學湯曉鷗教授：人工智能讓天下沒有難吹的牛！

授權轉載自網易智能

責任編輯：唐姝_NABJS5165

阿裏講“讓天下沒有難做的生意”，做人工智能是講“讓天下沒有難吹的牛”。

中國科學院深圳先進技術研究院副院長、香港中文大學教授湯曉鷗教授在杭州雲棲大會發表題目為《人工智能的雲中漫步》的演講。

湯曉鷗教授表示，總結起來做人工智能的跟阿裏的理念其實相似，阿裏講“讓天下沒有難做的生意”，做人工智能是講“讓天下沒有難吹的牛”。

他還分享了商湯科技在計算機視覺方麵的研究成果，比如如何分辨雲和雪和地麵的物體，用人工智能、圖像識別技術，可以做的比人更精準，他舉例到，十一的時候很多人去旅遊、去登山，山上可以看到半山腰有些雲，登到山上以後發現進到雲裏就變成霧了，拍照就不太清晰，我們有個算法可以幫你把霧去掉。

湯曉鷗還介紹了目前有關城市大腦的應用實踐。

1、人臉識別已經可以做到沒有任何人工配合的情況下實時的識別人物、抓捕犯人，在廣州、深圳、重慶等幾十個城市都已經開始幫助公安解決了大量的案件，抓了很多犯人。

2、人群，現在可以在上海外灘這樣的公共場合，實時判斷每一個點的人群的密度、人數，進來多少人，出去多少人，還有人流有沒有逆行等特殊情況，這樣可以防止踩踏事件。

3、視頻結構化，可以把視頻裏麵所有的人、車、非機動車、自行車檢測、追蹤，識別出來屬性，比如這個人穿什麼衣服，男的女的，多大年齡，車什麼牌子，哪年生產的，這些東西都從視頻處理成文本文件，你可以進行對應物體的快速搜索。

*以下為湯曉鷗教授演講實錄：

今天我講的題目是《人工智能的雲中漫步》。人工智能其實我也聽了很多人講，我自己也講了很多，我覺得總結起來做人工智能的跟阿裏的理念其實非常相似。阿裏是講“讓天下沒有難做的生意”，做人工智能的是講“讓天下沒有難吹的牛”：）。

這兩天大會聽大家講了半天人工智能，講了半天的雲，一直到今天為止，一直到現在為止，我們其實一直沒有看到真正的雲，現在我給大家看一下。

這是高分一號衛星拍的雲圖。其實我們發射衛星拍攝這些圖像，是為了分析地麵上的情況。高分一號拍出來的圖，有雲有雪，遮蓋了地貌，如何分辨雲和雪和地麵的物體，我們用人工智能、圖像識別技術，可以做的比人更精準。大家可以看到褐色的是雪，白色的雲，綠色的是物體。我們識別的這些雲以後，還能用算法把這些雲去掉了，這樣衛星就可以識別雲下麵的東西。

十一的時候我想很多人去旅遊、去登山，山上可以看到半山腰有些雲，登到山上以後發現進到雲裏就變成霧了，拍照就不太清晰，我們有個算法可以幫你把霧去掉。還有你航拍的時候，有一些雲、霧，我們也可以用算法實時的在視頻裏把它去掉。

大家想我們杭州好像很少有霧霾，這個跟杭州有什麼關係？確實也沒什麼關係，當年做的時候，是專門給北京做的，給北京量身定製的，奧運會時直接把霧去掉了，藍天白雲的，我們把這個叫商湯藍。

這個算法，這個應用我們已經把它做到微博相機上成為產品了，去年就已經上線了。

如果這麼一直講下去，阿裏的人可能急了，我們是阿裏雲，不是阿裏氣象局。當然，我們講的是虛擬雲，雲計算，我們其實在不知不覺間已經生活在雲中間了，我們生活在物理雲下麵，實際上我們也生活在虛擬雲上麵。今天就給大家講你是如何在雲上生活一天的，大概要講8個小時。

一開始，早上起來要化妝。就是拿著手機可以當鏡子，可以做美顏，換衣服，用各種特效效果看一整天該穿什麼。這個化妝下來大概的時間從8點開始的，最後結束了以後，就到9點了，一般女孩的話大概也確實需要一個小時化妝，最後通過美顏、增強現實（AR）這些特效，不知道為什麼最後這張圖成兔女郎了。

然後接著這些AR技術還可以應用在其它的場景上，比如社交場景應用，你們現在看到的這些拍照APP，直播APP，有很多AR特效，其實絕大部分都是基於我們提供的人工智能技術，比如人臉的106點和最新的240點的追蹤分析，是我們定義的行業標準。

我們不但做人臉、手勢識別，現在已經做到三維的SLAM特效了，大家可能看過這種特效，遊戲裏麵可以把虛擬物體加到這個現實世界裏麵，但是以前看的都是在一台很強的計算機上算出來的，現在我們這個是在手機端，手機上實時算出來，這是非常難的事情。

還有你剛才為什麼花了一個小時換衣服呢？要一件一件換，不合適換另一件，很麻煩。我們實際上可以用計算機幫你換衣服，計算機生成衣服。這個用什麼做的呢？用基於自然語言處理的圖像圖像生成技術，比如說我要一隻小鳥，有白色的胸脯，灰色的頭部，就生成這樣的小鳥；再要一隻紅色的小鳥，黑色的翅膀，就再對應生成出來圖像。這都是計算機自動的根據你的語言描述生成的，或者是花也一樣，可以生成一些不同的花。

更實用的應用是什麼呢？是衣服。我可以說我想穿一件淺藍色的連衣裙就換成淺藍色的連衣裙，或者黑色無袖外套就給你換上了，這樣換衣服的速度非常快，幾分鍾就完事了。

十點鍾要出門了。出門走路的時候，可能沒有什麼感覺，但實際上每個城市裏，剛才講都有幾十萬台甚至百萬台相機，這些相機做的事情是把人、車，物體都檢測、識別、分析出來。

今天講了很多關於城市大腦的問題。

我們要解決這些問題還是需要核心技術，來一樣一樣完成這些任務。首先我們人臉識別，已經可以做到沒有任何人工配合的情況下實時的識別人物、抓捕犯人，在廣州、深圳、重慶等幾十個城市都已經開始幫助公安解決了大量的案件，抓了很多犯人。

人群，我們可以在上海外灘這樣的公共場合，實時判斷每一個點的人群的密度、人數，進來多少人，出去多少人，還有人流有沒有逆行等特殊情況，這樣可以防止踩踏事件。

再就是視頻結構化，可以把視頻裏麵所有的人、車、非機動車、自行車檢測、追蹤，識別出來屬性，比如這個人穿什麼衣服，男的女的，多大年齡，車什麼牌子，哪年生產的，這些東西都從視頻處理成文本文件，你可以進行對應物體的快速搜索。

所以其實你在走在路上的時候，所有的這些信息都是可以記錄下來的。所以以後如果做壞事會越來越難。大家如果現在還有什麼事沒做趕緊做，以後再做相對會困難很多了。

12點鍾大家可能出去跟朋友玩了。拍一些自拍照，其實拍的時候，就是用了我們的一些視頻處理的技術，比如把一個手機拍照拍成單反的效果，這也是我們做的技術，先拍照後聚焦，拍完點什麼地方就聚焦到什麼地方。另外在拍之前，我就想看看單反預覽效果是什麼樣子的，所以這時候你在動的時候，效果就要顯示出來，這就是要實時視頻級的處理。視頻上能夠實時把深度信息算出來，預覽做出來。這些技術已經在OPPO R9S和R11用了很長時間了，包括裏麵的人臉技術都是使用我們的技術支持。

還有手機上可以做一些智能相冊的特效、處理。計算機識別你的照片內容，然後根據內容打標簽、分類管理。

這些特效，大家現在手機上可能節日期間也會用到一些這些應用，比如把卡通圖片裏的臉換成自己小孩的臉。但是我給你演示這些是我們十年前做的，我們十年前已經做到這個效果了，當然那個時候是在計算機上做出來的，現在把這些技術可以做到手機上了。

我們跟小米合作做了小米智能相冊，跟華為合作做了華為智能相冊，跟微博合作，把大V的照片管理做起來。

兩點多鍾，你照完相了，吃完飯回來，對照片想處理，做一些新的藝術化的濾鏡。

感覺我們公司的人基本不幹活，整天在玩手機。

處理出來這些特效，這是在圖像上做成的特效，其實這是我們兩年前做的工作，現在滿大街都是。我們現在又做了新的工作，是視頻上實時也可以做出特效，而且可以做出各種特效。

4點鍾，大家可以出去玩一玩，可以做一些體育運動了，大家可以想像一下，我們公司4點鍾就下班了，開始去玩了。

這個就是我們在實時的把人體的整個結構都能跟蹤出來，大家可能覺得這個不是什麼新鮮事，因為幾年前Kinect體感攝像頭就能做的，但是原來是一個昂貴的特殊設備做的，設備有兩個攝像頭還有激光投影，我們是用一個幾塊錢的單個webcam，可以實時做這件事情，所以這個應用可以在各種的智能家居、自動駕駛，各種地方做到實用。

再往下用這些技術還可以做體育運動的分析。昨天講到奧委會跟阿裏合作，我們也在跟國家體育總局做合作。這個大家可以看到我們用智能分析的方法跟蹤運動員的動作。然後也可以幫助運動員做康複的訓練。所以昨天奧委會朋友講，奧運會要做到更高、更快、更強、更聰明，那其實我現在給你講的，就是如何做到更聰明。

同時我們可以用跟蹤的算法，然後把整個畫麵分析清楚，用自然語言描述視頻裏運動員到底在幹什麼。

然後大家下班的時候要坐車回家了。這時候可以乘坐由我們自動駕駛技術支持的汽車。自動駕駛裏麵我們做了六個大的方向，三十幾項技術，目前跟全球前五大車企其中一個頂級的廠商進行合作。

下麵看一下刷臉支付場景，因為你下班了，總是要買東西的。可以用刷臉支付，阿裏無人店可以用這些技術。還有一些門禁係統，酒店，機場等等應用，所有這些地方其實現都在用我們做的人臉識別技術，現在的準確率從當年第一次超過人眼睛極限的時候，從97.5%，到99.15%，到99.55%，一直做到萬分之一，十萬分之一，百萬分之一，今天我們早就做到億分之一，實際上已經達到了八位數密碼的精度，可以做各種應用了。

到了晚上，這個視頻裏，我們分析人的運動方向。這些對整個分析視頻的結構也是非常重要的技術。

我們綜合前麵這些技術，可以把整個這個視頻場景分析全部做出來。可以看到左下角會講你在什麼地方，什麼樣的活動，每個人是哪一個人，哪一個演員，穿的什麼衣服，後麵有什麼物體，騎的什麼摩托車，所有這些結構化都可以做出來，大家網上看到很多公司用這兩段視頻結果演示做宣傳，這個原創是我們做的，視頻分析演示也是我們做的。這是《歡樂頌》，本來想做一個更新的，想用《我的前半生》，後來一想我的前半生也快過去了，還是做《歡樂頌》了。

剛才很多是我們已經落地的產品，是由我們的400多家合作廠商真正落地來用了的。下麵還有一些新的技術突破，明天就可以馬上用出去，就是因為這些新的技術突破，才繼續推動做出來新的應用。

首先講運動監測。還是回到奧運會這個應用，實際上我們可以在體育的視頻裏麵把這些射門的鏡頭提取出來，兩個小時的比賽可以很快縮到幾分鍾，可以完全自動做的。

或者田徑比賽，真的很漫長的，但是精彩的鏡頭，百米、跳高那幾個鏡頭，就是那幾塊，我們可以自動的識別提取出來，同時你也可以進行描述，要求怎麼樣提取出來，你感興趣的部分。

然後還可以進行搜索。比如你要搜索音樂表演的視頻，戰爭場麵的視頻，都可以自動搜索出來。

或者你要想做電影自動理解。比如可以明白這個鏡頭到底是災難的鏡頭還是浪漫的鏡頭，用我們前麵說的技術來分析整個場景到底是什麼樣的，紅線代表浪漫的，藍色是災難的，實時分析鏡頭。或者說他們在吵架還是浪漫的鏡頭。都可以實時分析出來。

可以用自然語言來描述來搜索電影的場景。就是你可以說一段話，它就把那一段鏡頭的場景把它給搜出來，同時把所有人，物體和各種東西都檢測出來。

還有對體育場景進行分析，就是說可以直接對運動視頻進行描述，自動用自然語言描述到底發生了什麼事情，這個時候其實我們就不需要播音員了，機器自動分析運動場景做什麼，直接給大家講解，就像一個專業播音員一樣。

還有圖像的分割，以前大家講圖像分割都是前景和背景分開，現在做的分割是不但把前景和背景分開，而且還可以像素級地把前景的每一個物體分開，前麵有很多跳舞的，每一個人都標注出來，每一個物體，和背景都分割開來，就可以做很多很多各種各樣的特效。

還有就是判斷兩個人的關係，如果你在網上放了照片，我們根據你這兩個人的姿勢和兩個人的表情，分析出來你們兩個人的關係。這個有什麼用呢？比如說你跟一個很有錢的人照相，分析的結果是很友好，說明你認識有錢人這樣可能你的可信度就增高了，我就可以把錢借給你了，可以做征信的一個維度。

還有我小孩的照片，他女朋友比較多，想知道哪個是他真正的女朋友，可以分析識別一下，後來發現每一個都是，他跟我一樣對每一個都很專一。

我給學生發了一些比較難處理的關係的照片，比如銘銘6個月的時候跟他第一個女朋友的照片，第一個關係分析的還可以，第二個也分析出來了。後麵兩張照片就難多了，最後基本上搞不清楚他在幹什麼了，當然最後這張的這種探索精神還是值得敬佩的。

我們以前在微軟的時候，出去玩的時候照了照片，我也拿過來讓機器分析，這是我的兩個同事照的我們在九寨溝的照片，機器分析出來的結果不明白真正的含義是什麼？（這兩個男同事的背影合影）實際的含義是我們在演繹《斷背山》這個電影。下麵這幾張就更難的讓機器分析了。一個人的背影還好，兩個人也可以理解，出來三個人的背影，機器就煳塗了，到四個人的時候可更煳塗了，五個人就更接受不了了。所以這種對機器來說很難理解，對我們來說，我們是很開心的可以笑出來。我想在這裏，提出一個新研究課題，提出一個挑戰吧，就叫XO Challenge吧，就是我們怎麼能讓機器笑？就是你怎麼能讓機器識別一張圖像是搞笑的，我們人可以分辨，機器能不能做到？我希望我們研究人員以後可以試試，看看我們是不是能夠讓機器看到這些圖像，也會會心一笑。

最後我用一個我們研究的例子來講一下原創的難度，我剛才講的每一個技術其實都不是那麼簡單的，都不是說一拍腦袋一下就做出來的，有非常多的事情要做的，這個例子是圖像超分辨率增強，就是我們怎麼把一張圖放的很大，能夠恢複的很清晰。這是美國的一個電影，FBI在抓人。最後他抓到一張很模煳的圖像圖像放大做成清晰的圖像，當時覺得FBI很厲害，非常棒。我們用傳統的技術也試圖把這個圖像恢複一下。當時希望把小圖恢複成這樣，用傳統算法做了最大的努力，最後的結果是這樣，所以我們很不滿意。

這個應用有什麼用處呢？實際上是把可以進行圖像、視頻放大，可以把普通的電視信號變成4K的高清信號，8K的高清信號，這是我們最新做出來的結果，可以看到如果直接放大是很模煳的，現在用新的結果基本上達到高清的效果，已經達到實用的階段。

在日本有個工作叫WAIFU2X，他們用我們的技術做了演示，就是把太太（二次元妹子）放大兩倍，然後用這個圖，最後的效果非常清晰。

超分辨率這個工作是很重要的，因為有很多場合有應用。所以穀歌、推特也對這個非常重視，他們在2016年連著發四篇文章做這個工作。按照以往，大家可能都是跟著穀歌後麵做，而我們不是，我們發表了全球第一篇用深度學習超分辨率文章，那是2014年，早於穀歌兩年，2015年又發了一篇，2016年兩篇，2017發了三篇，我們不但是做的最早的，第一個做的，而且也是目前做的最好的。所以是穀歌在跟著我們做！

做這一項工作要想做成功，牽扯的工作是非常多的，有各種各樣的技術，涉及到十幾篇幾十篇的文章才能做到現在的效果。

所以現在我們已經可以做到實用，在街頭上拍的照片，模煳照片可以真正看到罪犯的樣子。

而且已經給深圳的公安用了，公安用手機可以拍人的照片，很模煳的圖像可以在庫裏搜索，實時抓捕罪犯。

經過我們的努力，所有這些加一起，從原來這個效果現在可以做到這個效果了。

所以每一項工作後麵都有大量的工作需要做的，都有大量的頂級文章。我們不是剛剛這幾年人工智能熱了才開始做的，而是十五六年的積累，04年到08年我們統計了一下在兩個頂級的會議上，我們一個實驗室發了57篇論文，而MIT全校是51篇，伯克利大學是33篇，牛津大學是45篇；我們十幾年在頂級會議文章數量上一直是在全球領先的。在過去兩年，三個頂級會議上我們統計了數據，微軟最多是發了124篇，CMU是86篇，我們排第三是76篇，是亞洲唯一的進入前十名的。所以我們是有這種強大的人才和經驗的積累，才做出剛才這些真正落地的產品。

在2011年到2013年深度學習剛剛開始的時候，這兩個頂級會議上，29篇文章我們占了14篇，全球的一半，這裏麵16項技術，都是我們第一個真正成功的把深度學習應用到這些技術領域。

所以我們是深度學習的原創技術公司，是真正做平台的，和臉書的Torch、穀歌的TensorFlow一樣，我們做了自己的原創平台Parrots，來在這上麵開發我們深度學習相關的技術。

7月份的時候，我很榮幸作為國際期刊IJCV主編，召集了夏威夷IJCV Night晚宴會議，計算機視覺領域很多頂級學者都參加了我們的這個晚宴。我們在馬上10月份，在威尼斯的ICCV大會上會再開一次這樣的國際頂級學者的·聚會，歡迎大家過來參加。

最後，大家看一下這一頁上的這些圖像的一個共同的點是什麼？米開朗基羅、貝多芬、梵高、喬布斯、蘭博基尼的設計首席設計師，這些人有一個共同特點，其實就是兩個字：原創。中國最缺的就是原創，我們現在做的就是原創，做原創是非常難的一件事情，但是不做原創一個國家是永遠也發展不起來的。

我們在做電影分析的時候，看到這些老的電影，《上甘嶺》《英雄兒女》《小兵張嘎》，我們團隊的120個博士很像當年《上甘嶺》上最後一個加強連，一個博士的加強連。但是以我們這一個加強連的兵力看起來很強大，但是對手是穀歌、微軟、IBM這樣強大的對手，我們是需要援軍的，需要炮火支援，用《英雄兒女》裏麵王成的一句話，就是向我開炮，我們這代人好好努力，我相信我們下一代人，小兵湯嘎們就會比上一代的小兵張嘎的生活過的更好。謝謝大家！

精品課程推薦

大數據文摘x稀牛學院

人工智能的數學基礎

金牌數學講師

直播互動學習

助教全程輔導

1門課程，帶你掃平所有學習障礙，快速進階！

超值早鳥優惠，限時搶購中~

最後更新：2017-10-16 13:09:45

香港中文大學湯曉鷗教授：人工智能讓天下沒有難吹的牛！

上一篇：人工智能在99％企業都失敗了，AI如何實現“民主化”？

下一篇：人工智能生態技術架構

相關內容

熱門內容

最新內容

香港中文大學湯曉鷗教授：人工智能讓天下沒有難吹的牛！

上一篇： 人工智能在99％企業都失敗了，AI如何實現“民主化”？

下一篇： 人工智能生態技術架構

相關內容

熱門內容

最新內容

上一篇：人工智能在99％企業都失敗了，AI如何實現“民主化”？

下一篇：人工智能生態技術架構