927
機器人
湯曉鷗教授:人工智能讓天下沒有難吹的牛
10月12日,中國科學院深圳先進技術研究院副院長、香港中文大學教授湯曉鷗教授在杭州雲棲大會發表題目為《人工智能的雲中漫步》的演講。
他表示,總結起來做人工智能的跟阿裏的理念其實相似,阿裏講“讓天下沒有難做的生意”,做人工智能是講“讓天下沒有難吹的牛”。
他還分享了商湯科技在計算機視覺方麵的研究成果,比如如何分辨雲和雪和地麵的物體,用人工智能、圖像識別技術,可以做的比人更精準,他舉例到,十一的時候很多人去旅遊、去登山,山上可以看到半山腰有些雲,登到山上以後發現進到雲裏就變成霧了,拍照就不太清晰,我們有個算法可以幫你把霧去掉。
湯曉鷗還介紹了目前有關城市大腦的應用實踐。
1、人臉識別已經可以做到沒有任何人工配合的情況下實時地識別人物、抓捕犯人,在廣州、深圳、重慶等幾十個城市都已經開始幫助公安解決了大量的案件,抓了很多犯人。
2、人群,現在可以在上海外灘這樣的公共場合,實時判斷每一個點的人群的密度、人數,進來多少人,出去多少人,還有人流有沒有逆行等特殊情況,這樣可以防止踩踏事件。
3、視頻結構化,可以把視頻裏麵所有的人、車、非機動車、自行車檢測、追蹤,識別出來屬性,比如這個人穿什麼衣服,男的女的,多大年齡,車什麼牌子,哪年生產的,這些東西都從視頻處理成文本文件,你可以進行對應物體的快速搜索。
以下是湯曉鷗教授演講實錄:
我先幫大會發一個通知,今天午飯取消了,改下午茶了,大家不著急, 慢慢聽吧。
非常感謝阿裏的邀請,尤其是做壓軸演講,我跟阿裏說太客氣了,壓軸這麼重要的演講應該馬總做,我做個簡單的開場演講就差不多了,後來他們堅持我在午飯時間做壓軸。
另外他們還告訴我說今天有大概一千萬人在網上看直播,所以我非常緊張,我就做了個一百頁的PPT,我想十萬人一頁也對得起觀眾了,但是組委會就非常緊張,一直問我說40分鍾講一百頁,會不會超時,我就跟他們保證說,放心吧,一定會的。昨天奧委會的客人講到奧運要更快更高更強,那雲棲大會的特點就是要更長。
前些時候我跟馬化騰還有一些學者在清華做了一次對話,我當時當著馬化騰先生的麵提了一些意見。今天我到了阿裏這裏,我想我也不會客氣的,作為學者,我們就是要敢於提意見。所以當時我敢於當麵給Pony(馬化騰)提意見,今天(到了阿裏這)我就準備在背後再給Pony提一些意見(此處玩笑,請勿當真)。
現在言歸正傳,今天我講的題目是《人工智能的雲中漫步》。人工智能其實我也聽了很多人講,我自己也講了很多,我覺得總結起來做人工智能的跟阿裏的理念其實非常相似。阿裏是講“讓天下沒有難做的生意”,做人工智能的是講“讓天下沒有難吹的牛”。
一開始,早上起來要化妝。就是拿著手機可以當鏡子,可以做美顏,換衣服,用各種特效效果看一整天該穿什麼。這個化妝下來大概的時間從8點開始的,最後結束了以後,就到9點了,一般女孩的話大概也確實需要一個小時化妝,最後通過美顏、增強現實(AR)這些特效,不知道為什麼最後這張圖成兔女郎了。
然後接著這些AR技術還可以應用在其它的場景上,比如社交場景應用,你們現在看到的這些拍照APP,直播APP,有很多AR特效,其實絕大部分都是基於我們提供的人工智能技術,比如人臉的106點和最新的240點的追蹤分析,是我們定義的行業標準。
我們不但做人臉、手勢識別,現在已經做到三維的SLAM特效了,大家可能看過這種特效,遊戲裏麵可以把虛擬物體加到這個現實世界裏麵,但是以前看的都是在一台很強的計算機上算出來的,現在我們這個是在手機端,手機上實時算出來,這是非常難的事情。
十點鍾要出門了。出門走路的時候,可能沒有什麼感覺,但實際上每個城市裏,剛才講都有幾十萬台甚至百萬台相機,這些相機做的事情是把人、車,物體都檢測、識別、分析出來。
今天講了很多關於城市大腦的問題。
我們要解決這些問題還是需要核心技術,來一樣一樣完成這些任務。首先我們人臉識別,已經可以做到沒有任何人工配合的情況下實時地識別人物、抓捕犯人,在廣州、深圳、重慶等幾十個城市都已經開始幫助公安解決了大量的案件,抓了很多犯人。
人群,我們可以在上海外灘這樣的公共場合,實時判斷每一個點的人群的密度、人數,進來多少人,出去多少人,還有人流有沒有逆行等特殊情況,這樣可以防止踩踏事件。
再就是視頻結構化,可以把視頻裏麵所有的人、車、非機動車、自行車檢測、追蹤,識別出來屬性,比如這個人穿什麼衣服,男的女的,多大年齡,車什麼牌子,哪年生產的,這些東西都從視頻處理成文本文件,你可以進行對應物體的快速搜索。
所以其實你在走在路上的時候,所有的這些信息都是可以記錄下來的。所以以後如果做壞事會越來越難。大家如果現在還有什麼事沒做趕緊做,以後再做相對會困難很多了。
12點鍾大家可能出去跟朋友玩了。拍一些自拍照,其實拍的時候,就是用了我們的一些視頻處理的技術,比如把一個手機拍照拍成單反的效果,這也是我們做的技術,先拍照後聚焦,拍完點什麼地方就聚焦到什麼地方。另外在拍之前,我就想看看單反預覽效果是什麼樣子的,所以這時候你在動的時候,效果就要顯示出來,這就是要實時視頻級的處理。視頻上能夠實時把深度信息算出來,預覽做出來。這些技術已經在OPPO R9S和R11用了很長時間了,包括裏麵的人臉技術都是使用我們的技術支持。
還有手機上可以做一些智能相冊的特效、處理。計算機識別你的照片內容,然後根據內容打標簽、分類管理。
這些特效,大家現在手機上可能節日期間也會用到一些這些應用,比如把卡通圖片裏的臉換成自己小孩的臉。但是我給你演示這些是我們十年前做的,我們十年前已經做到這個效果了,當然那個時候是在計算機上做出來的,現在把這些技術可以做到手機上了。
我們跟小米合作做了小米智能相冊,跟華為合作做了華為智能相冊,跟微博合作,把大V的照片管理做起來。
兩點多鍾,你照完相了,吃完飯回來,對照片想處理,做一些新的藝術化的濾鏡。
感覺我們公司的人基本不幹活,整天在玩手機。
處理出來這些特效,這是在圖像上做成的特效,其實這是我們兩年前做的工作,現在滿大街都是。我們現在又做了新的工作,是視頻上實時也可以做出特效,而且可以做出各種特效。
4點鍾,大家可以出去玩一玩,可以做一些體育運動了,大家可以想像一下,我們公司4點鍾就下班了,開始去玩了。
同時我們可以用跟蹤的算法,然後把整個畫麵分析清楚,用自然語言描述視頻裏運動員到底在幹什麼。
然後大家下班的時候要坐車回家了。這時候可以乘坐由我們自動駕駛技術支持的汽車。自動駕駛裏麵我們做了六個大的方向,三十幾項技術,目前跟全球前五大車企其中一個頂級的廠商進行合作。
到了晚上,這個視頻裏,我們分析人的運動方向。這些對整個分析視頻的結構也是非常重要的技術。
剛才很多是我們已經落地的產品,是由我們的400多家合作廠商真正落地來用了的。下麵還有一些新的技術突破,明天就可以馬上用出去,就是因為這些新的技術突破,才繼續推動做出來新的應用。
首先講運動監測。還是回到奧運會這個應用,實際上我們可以在體育的視頻裏麵把這些射門的鏡頭提取出來,兩個小時的比賽可以很快縮到幾分鍾,可以完全自動做的。
或者田徑比賽,真的很漫長的,但是精彩的鏡頭,百米、跳高那幾個鏡頭,就是那幾塊,我們可以自動的識別提取出來,同時你也可以進行描述,要求怎麼樣提取出來,你感興趣的部分。
然後還可以進行搜索。比如你要搜索音樂表演的視頻,戰爭場麵的視頻,都可以自動搜索出來。
或者你要想做電影自動理解。比如可以明白這個鏡頭到底是災難的鏡頭還是浪漫的鏡頭,用我們前麵說的技術來分析整個場景到底是什麼樣的,紅線代表浪漫的,藍色是災難的,實時分析鏡頭。或者說他們在吵架還是浪漫的鏡頭。都可以實時分析出來。
還有圖像的分割,以前大家講圖像分割都是前景和背景分開,現在做的分割是不但把前景和背景分開,而且還可以像素級地把前景的每一個物體分開,前麵有很多跳舞的,每一個人都標注出來,每一個物體,和背景都分割開來,就可以做很多很多各種各樣的特效。
還有就是判斷兩個人的關係,如果你在網上放了照片,我們根據你這兩個人的姿勢和兩個人的表情,分析出來你們兩個人的關係。這個有什麼用呢?比如說你跟一個很有錢的人照相,分析的結果是很友好,說明你認識有錢人這樣可能你的可信度就增高了,我就可以把錢借給你了,可以做征信的一個維度。
最後我用一個我們研究的例子來講一下原創的難度,我剛才講的每一個技術其實都不是那麼簡單的,都不是說一拍腦袋一下就做出來的,有非常多的事情要做的,這個例子是圖像超分辨率增強,就是我們怎麼把一張圖放的很大,能夠恢複的很清晰。這是美國的一個電影,FBI在抓人。最後他抓到一張很模煳的圖像圖像放大做成清晰的圖像,當時覺得FBI很厲害,非常棒。我們用傳統的技術也試圖把這個圖像恢複一下。當時希望把小圖恢複成這樣,用傳統算法做了最大的努力,最後的結果是這樣,所以我們很不滿意。
這個應用有什麼用處呢?實際上是把可以進行圖像、視頻放大,可以把普通的電視信號變成4K的高清信號,8K的高清信號,這是我們最新做出來的結果,可以看到如果直接放大是很模煳的,現在用新的結果基本上達到高清的效果,已經達到實用的階段。
在日本有個工作叫WAIFU2X,他們用我們的技術做了演示,就是把太太(二次元妹子)放大兩倍,然後用這個圖,最後的效果非常清晰。
超分辨率這個工作是很重要的,因為有很多場合有應用。所以穀歌、推特也對這個非常重視,他們在2016年連著發四篇文章做這個工作。按照以往,大家可能都是跟著穀歌後麵做,而我們不是,我們發表了全球第一篇用深度學習超分辨率文章,那是2014年,早於穀歌兩年,2015年又發了一篇,2016年兩篇,2017發了三篇,我們不但是做的最早的,第一個做的,而且也是目前做的最好的。所以是穀歌在跟著我們做!
做這一項工作要想做成功,牽扯的工作是非常多的,有各種各樣的技術,涉及到十幾篇幾十篇的文章才能做到現在的效果。
所以現在我們已經可以做到實用,在街頭上拍的照片,模煳照片可以真正看到罪犯的樣子。
而且已經給深圳的公安用了,公安用手機可以拍人的照片,很模煳的圖像可以在庫裏搜索,實時抓捕罪犯。
經過我們的努力,所有這些加一起,從原來這個效果現在可以做到這個效果了。
在2011年到2013年深度學習剛剛開始的時候,這兩個頂級會議上,29篇文章我們占了14篇,全球的一半,這裏麵16項技術,都是我們第一個真正成功的把深度學習應用到這些技術領域。
所以我們是深度學習的原創技術公司,是真正做平台的,和臉書的Torch、穀歌的TensorFlow一樣,我們做了自己的原創平台Parrots,來在這上麵開發我們深度學習相關的技術。
7月份的時候,我很榮幸作為國際期刊IJCV主編,召集了夏威夷IJCV Night晚宴會議,計算機視覺領域很多頂級學者都參加了我們的這個晚宴。我們在馬上10月份,在威尼斯的ICCV大會上會再開一次這樣的國際頂級學者的·聚會,歡迎大家過來參加。
最後,大家看一下這一頁上的這些圖像的一個共同的點是什麼?米開朗基羅、貝多芬、梵高、喬布斯、蘭博基尼的設計首席設計師,這些人有一個共同特點,其實就是兩個字:原創。中國最缺的就是原創,我們現在做的就是原創,做原創是非常難的一件事情,但是不做原創一個國家是永遠也發展不起來的。
來源:商湯科技
最後更新:2017-10-23 09:50:51