238
機器人
施水才:人工智能的投資機會有這些
2017年5月21日-22日,由中國人工智能學會和中文信息學會聯合舉辦的2017全球人工智能技術大會在北京國家會議中心召開,中國中文信息學會副理事長,拓爾思總裁施水才先生是本屆大會程序委員會主席之一,這是中國人工智能界對拓爾思和施總在AI領域所做工作的高度認可。
拓爾思是中國第一個以文本檢索和挖掘為核心進行IPO的企業,施總以《從大知識到大數據——NLP領域的投資機會》為題在會議上發表了精彩演講。其精彩觀點贏得了與會聽眾的高度認可:
單獨談人工智能意義不大,ABC融合是必須的
NLP是人工智能皇冠上的明珠
僅有深度學習是不夠的,知識圖譜也很重要
應用場景是變現的核心
人工智能是“人工+智能”,特別是對於類似智能客服等領域
以下是演講實錄:
大家下午好!今天我報告的題目是“從大數據到大知識——自然語言處理領域的投資機會”。其實搞投資也是挺苦逼的事,我最近才開始學習,投資的活很專業,沒有常人想象的那麼風光。我今天講的題目有四個方麵,第一是對AI時代的看法,第二、NLP是AI皇冠上的明珠,第三、我們的AI之路及ABC融合的想法,第四、NLP領域的投資方向。
前麵的不用講了,我們不太願意談人工智能,但是不得不談,因為大家都在談。包括我們開複同學,前不久搞了一篇很高點擊量的自媒體文章《我不是李開複,我是人工智能》。從投資的方向上來看,2016年麥肯錫的報告顯示,AI方麵的投資到2025年會到一千多億美金。大家也可以看到,現在大的巨頭們在AI領域的優勢比較大,但是不是有他們,我們就沒事幹了?也不一定,這些巨頭有數據,有人才,有雲的基礎設施,我們很難在通用人工智能領域跟他們競爭。但是,還有別的很多地方和領域是可以做的。AI為什麼這麼火爆?昨天大會上也談到大數據、深度學習、高計算力等,本次大會第一個巔峰論壇非常好,但是我後來看了一下,6位嘉賓全是搞視覺的,沒有我們搞自然語言的,是不是搞自然語言太難了?還是說搞自然語言的人不好意思上去?大數據,深度學習,高的計算能力,導致了現在很多領域的突破,特別是感知領域。但是不是說有足夠的數據和計算能力就完了?這就涉及從大數據到大知識,昨天有一位嘉賓說深度學習,讓計算機達到5歲孩子的水平。如果想要達到更高怎麼辦?人工智能從計算到感知的技術(如圖像、語音)現在已經取得了非常大的突破,但是認知這一塊還是很難的,比如說認知領域的自然語言處理。
為什麼說NLP是人工智能皇冠上的明珠呢?我們國家在語言文字信息處理方麵誕生了三家上市公司,從上市的順序來說,最早是漢王,做模式識別,後來的科大訊飛做語音識別,然後是拓爾思的信息檢索和文本挖掘。最近5年和語音相關的投資非常大,除了科大訊飛以外,還有雲知聲等等,這兩年視覺領域的投資非常熱,甚至於昨天的主持人還搞了一家這樣的公司,我說可不可以投點?他說不行了,計算所不同意。但實際上我建議大家做投資要慎重,為什麼這麼說?現在技術的門檻已經變低了,這些東西已經基本成熟,關鍵是要找到應用場景。如果沒有這個應用場景,變現就非常困難。而且這些公司基本上很貴,大家的目標都是獨角獸,我們投資就要投資未來。
為什麼說前沿的機會在NLP相關領域呢?我們看了一下國外調研公司的數據,最值得關注的100家AI公司中,25%的項目和自然語言直接或者間接相關。從另外一個角度,福布斯TOP50AI公司的融資中,16.2%的資金投向了NLP直接或者間接相關的領域,所以這個領域大有可為。我們投資很多時候是跟風的,都跟著美國跑,可以看出一些趨勢。另外,從商業的視角來看,很多具有重要影響的技術和自然語言直接或者間接相關。為什麼說是AI皇冠上的明珠呢?微軟前不久提出一個口號是“自然語言是人工智能皇冠上的明珠”,現在我們中文信息處理界一致認為這個口號恰如其分。
從技術上來說,如何從識別到理解,圖像要能夠認出來,要靠人臉比對這些東西。自然語言主要是解決理解的問題,這方麵還是非常難的。傳統的NLP技術現在也在用深度學習,根據我們自己的實踐,把傳統的方法加上深度學習的技術以後,如分類、聚類、熱點詞抽取等等,這些都提高了5到10個百分點,在實踐中非常有用。另外,深度學習很多方法,像神經網絡、循環神經網絡、遞歸神經網絡、卷積神經網絡等,都有自己的用途。
在NLP領域集大成的焦點應用,就是BOTS,它是人工智能的聊天機器人,或者虛擬助理。為什麼這些大公司拚命在這個領域競爭呢?它是NLP技術的集大成。昨天微軟黃學東的演示中,有幾個例子非常好,表現出微軟在這方麵確實有自己領先的地方。穀歌,蘋果,一直到微軟小冰,Facebook等等,都是競爭的焦點。
如何提升人工智能的應用效果?也有很多學問。昨天談到強人工智能,我覺得強和弱的說法我不太讚同,強和弱是相對的,我們更加強調的是通用的還是垂直的。另外,從投資的角度來說,NLP支持認知計算圍繞三大領域,一個是交流,第二是決策,第三是發現。從應用場景來說,可能是智能的搜索引擎,還有智能的投顧等等。從市場空間來說,當然是很大的,不用講了。
我簡單介紹下NLP領域相關典型的項目。這個是alphasense,裏麵大量使用了自然語言處理的技術。還有美國一家公司,Dataminr,分析社交媒體的數據,和其他數據進行結合,為投資者采取行動。前幾年我們有一個組織叫SMP,我們經常討論未來用社交網絡炒股行不行?我在五道口金融學院經常問老師,我說智能投顧能不能搞?他們說都是騙子,這是某個基金大佬講的。我昨天又問馬衛華,他也不可置否。主要的問題是什麼呢?要看市場是否有效,證券市場是無效還是有效?這個特別重要。我們也看了很多智能投顧的項目,我們也特別想投資這些項目,但是非常謹慎。還有一個是KENSHO,也是跟智能投顧有關的應用,大家可以上網去查這些公司的資料。
下麵講一講我們自己的AI之路。我從大學裏出來創業,對學術和產業的認知感受頗多,挺難的。我們1993年的時候搞了一個叫全文檢索,就是搜索引擎背後最重要的技術。後來成立公司,開始創業。2000年的時候我們開始做自然語言處理方麵的東西,大家覺得這個領域發展太慢,市場空間太小,認知度太低。我們對標的公司想買我們,是英國的一家公司,這家公司後來120億美金賣給了惠普。他們當時要買我們,3000萬美金,我當時覺得挺好了,心也動了一下,但是覺得賣了幹嘛去呢?不知道該幹什麼,就沒賣,自己搞,後來我們也在創業板上市了。那個時候我們鼓吹大數據,其實不是鼓吹,我們做非結構化數據處理,當然就是大數據重要的組成部分。現在人工智能時代來了,我們要為大數據加點東西,我們叫“大數據+AI”。我們做AI的時候,回顧曆史,最早是1990年,1990年的時候我們學校和國防科工委成立了人工智能實驗室,當時參會的人很多,我記得錢學森發言,說“人工智能是人腦和手的延伸”。我們很興奮,國防科工委給我們提供了很多基礎設施,20部軍線,免費使用,結果搞了三年以後失敗了,人工智能的三次浪潮,我們就算一次,那個時候還是規則和專家係統的思路,沒有大數據,計算力也不行。
對於人工智能我有幾點看法,對產業界來說,單獨談人工智能,意義不是很大,因為它是屬於賦能的。在現在實際的環境中,最近有一篇文章,講到ABC融合是必須的,對比一下IBM,雖然人工智能搞得很早,其智慧地球的理念領先業界多少年,但是為什麼最近業績不好呢?可以看穀歌、Facebook、亞馬遜,他們有數據和雲的基礎設施支撐,所以他們發展得更好。人工智能的投資和前幾年的大數據差不多,最近我們要發布一個“北京軟件名人榜”,我現在還不能說,因為還要經過北京市相關領導的審批。有一點是可以說的,現在人工智能的熱度已經上升為第二位,第一位還是大數據。我參加過太多大數據的論壇,我總結就是“錢多,人少,估值高,不掙錢”。我更加傾向於垂直的,行業性的,能互動的AI。剛才有一位嘉賓說到智能客服,如果這個智能客服跟人工係統不能結合的話,這個智能客服一定是不好的,必須要有人在參與。核心是應用場景,對於某些應用領域,光有大數據還不行,還得有知識,甚至是大知識。
麵向用戶提供人工智能的服務能力,不僅在於AI技術的領先,還要有雲和數據的支撐。我們這麼多年在文本挖掘和知識圖譜領域也做了一些工作,也有相應的積累,我們推出了新一代的產品,叫TRS DL-CKM,已經用在很多領域,比如專利自動審查,國家專利局是我們最大的客戶,中國已經被稱為“專利大國”。但是我們的專利很水,通過我們的智能審查係統,可以發現這些冒牌專利。像數據新聞,機器人寫作,我們跟很多新聞單位用機器人來寫文章,已經實現了,很多地方已經在用,還有互聯網作品的保護等等。還有一個例子是金融的風險預警監控,大量地用到了AI技術。我們提出了“冒煙指數”,就是森林要著火了,才冒煙。這個係統在今年國家打擊互聯網金融非法集資中起到了很好的作用,另外,我們做了一個水晶球的東西,主要是用於國家安全部門,因為時間關係,不多講了。
最後談一下投資的建議,第一,垂直,或者是行業的;第二,一定要有應用場景;第三,跟大數據和雲服務結合;第四,關注NLP和知識圖譜的投資。目前,拓爾思直接投資大概10億,我們發起和參與了6支基金,目前關注的投資方向主要是人工智能、大數據、工業互聯網、機器人領域的早期和長期的項目。我們的優勢,第一是廣泛的項目源。第二,專業背景,可以起到戰略投資者的作用。我一見到創業者,就特別同情他們,我對搞技術的人天然有一種同情感,他們有的時候真講不好,不懂市場。第三,穩健可靠的投資風格。第四,要有退出渠道,可以通過相關上市公司實現並購退出。
最後更新:2017-08-23 10:57:24