閱讀664 返回首頁    go 阿裏雲 go 技術社區[雲棲]


清華大學馬少平教授:那些年,我們做過的AI……

馬少平老師的這篇,寫得真心好。人工智能不是玄學,作為實踐者一路走來,都是踏踏實實,在具體的工程中,無數的坑踩過來。今天AI潮起,必然還會潮落。每一次的盛夏,都不可避免一次寒冬。有一種觀點認為AI冬天不會再來,這是我不認同的。隻有踏踏實實的實踐者,才能不管冬夏,都能堅定地走下去,不斷開創。如Hinton,如馬老。


——來自文因互聯CEO鮑捷的朋友圈





最近,有不同人問了我同一個問題:是什麼淵源,走上了人工智能這條路。說實話,別說是人工智能,就連進入計算機行業,都完全是陰差陽錯的結果,並不是我的主動選擇。


1977年,文革結束後,突然傳來消息,要恢複高考了,當時我還在讀高中,對於怎麼填報誌願,一概不知。班主任老師的意見是,什麼專業你自己選,學校一定要報清華北大。我問這兩所學校的差別,老師說,北大偏文理,清華偏理工。我想了想,覺得自己喜歡理工,就選擇了清華,但是還是不知道選擇什麼專業,在那個小縣城裏,沒有任何資料可供參考。剛好在本地的報紙上刊登了一些學校的專業目錄,在清華大學欄目下,我看到了“自動控製”四個字,雖然不知道自動控製是幹什麼,但憑感覺是個自己喜歡的專業,於是就報了這個專業。


高考結束後,有一天突然收到了被清華大學電子工程係錄取的通知書,這電子工程係是幹什麼的一概不知,中學的老師也沒有人知道。剛好一個老師在北京工作的親戚來探親,他是文革前畢業的大學生,老師很熱心的幫我谘詢。這位親戚看完錄取通知書後,很神秘的對我說:這是一個保密專業,就沒有任何下文了。


來到學校報到後,才知道我讀的就是電子工程係的自動控製專業,此外還有計算機和無線電兩個專業。1979年,電子工程係更名為計算機係,而原來的無線電係則從四川綿陽搬回北京,更名為電子工程係。


而當時我們教研組的一些老師,張鈸老師、林饒瑞老師、石純一老師、黃昌寧老師等,則從更早的時候,就在探討開拓新的研究方向,並選擇了人工智能,從1978年就開始招收人工智能方向的研究生,1979年在我係本科中開設人工智能導論課,由林堯瑞老師主講。我就是在那個課上首次接觸了人工智能,印象中教材是一本油印的教材,內容包括至少現在在大多數人工智能教材中還會講的A*算法、α-β剪枝算法、定理證明等。之後又開設了lisp語言課,由陸玉昌老師主講,做過的作業包括八皇後問題等。最後的考試有多個題目可選,我選擇了使用α-β剪枝算法實現五子棋下棋程序,雖然水平並不高,但也可以下棋了。這應該是我最早實現的人工智能程序,而α-β剪枝算法正是IBM的深藍所采用的基本算法框架。


1982年本科畢業後,我繼續在清華讀碩士,研究方向是有關汽車自動駕駛的,也就是現在火熱的無人車,論文題目為“汽車行駛的計算機實時控製及性能函數對係統參數靈敏度的計算”。當然那個時候受各種條件的限製,做的還比較簡單,我的論文中隻實現了左右轉彎、躲避固定障礙物等的簡單控製。實驗室購買了一輛二手的日本車,經改裝後作為實驗用車,在實際測試時為了觀察汽車軌跡是否合理,在車上裝了一桶水,通過一個水管流水,記錄車的運行軌跡,計算機用的是TRS-80,用的是basic編程語言。


1984年碩士畢業留校後,我開始從事專家係統構建方麵的研究工作,和研究生一起,先後實現了好幾個專家係統,包括貨船積載專家係統、火車編組站調度專家係統和某軍事設備故障診斷專家係統等,還申請了一個863項目,機器人故障診斷係統。做專家係統的關鍵是整理專家知識,為了能跟專家對話,需要花費很多時間學習相關的領域知識,基本上可以稱得上半個專家了。比如為了做火車編組站調度專家係統,自學了很多編組站調度方麵的書籍,多次去山海關火車站向調度人員請教、學習,到後來,我們也基本可以勝任調度員的工作了,隻是做的不如專業調度員快,但我們做的方案基本被對方所認可。掌握了相關知識後,進一步總結整理知識,最後實現的專家係統,可以達到專業調度員的水平,並且速度要快的多,極大的減輕了調度人員的工作強度,提高了工作效率。


我做的最成功的一個專家係統是90年代中期為某企業做的一個市場調查報告自動生成專家係統,是我們係為該企業做的一個信息化係統的一個組成部分。根據以往企業撰寫的市場調查報告,總結了若幹模板和寫作知識,根據企業收集的市場數據,自動完成市場調查報告。為了使得報告內容看起來更加自然和富有變化,我們總結了很多寫作知識,所完成的報告,基本可以達到人的水平。該專家係統,結合我們係為該企業做的信息化係統,可以用語音的形式播報市場調查報告,並配合語音的進度,自動在計算機屏幕上,顯示各種圖表等,相關的同步信息,也是由專家係統自動生成的。


從1992年,我又開始從事漢字識別方麵的研究工作,選擇了被認為難度最大的脫機手寫體漢字識別,也就是對寫在紙上、經掃描得到的漢字圖象做識別。1994年我在職攻讀博士學位,研究方向就是有關脫機手寫體漢字識別方麵的。在單字漢字識別研究的基礎上,我們組最早研究了漢字識別後處理方法,也就是說,在單個漢字識別的基礎上,利用漢字在句中的上下文關係,自動糾正識別結果,提高識別率。在一次863組織的漢字識別評測現場,我們的係統以句子為單位,先是顯示單字識別結果,再顯示後處理後的結果。限於當時的技術水平,又加上評測用的漢字寫的不是很工整,識別結果錯誤很多,以至於很多句子看不懂,但是經後處理後,大多數識別錯誤的漢字得以糾正,人看懂已經完全沒有問題了。當後處理結果顯示出來後,我還清楚的記得,現場觀眾一片嘩然的叫好聲。


大概在1997年前後,突然有幾個公司宣布要做《四庫全書》數字化的工作,有的公司還在人民大會堂搶先召開新聞發布會,試圖搶占先機。這些公司完全沒有想到這件事情的難度,試圖采取人工錄入的方式,完成《四庫全書》的數字化工作,最終導致失敗,隻有采用了我們的漢字識別技術的書同文公司最終取得了成功,完成了《四庫全書》全部的數字化工作,這也是我一生中可以保留下來的一件有意義的工作。


《四庫全書》數字化難度在哪裏呢?為什麼用人工錄入方式的嚐試均以失敗告終呢?《四庫全書》共收錄古籍3503種、79337卷、裝訂成36000餘冊,含有約8億個漢字。台灣曾經出版過影印版,在頁麵縮小到原來頁麵的四分之一後,全套書總重量仍然達到了2.5噸的重量,可以想象這套書有多少。這麼大的量,又是繁體字,錄入也好,校對也好,都帶來了極大的難度。而以漢字識別為基礎的數字化方案,從識別到校對,可以提供一套切實可行的解決方案,最終曆時兩年時間,終於完成了《四庫全書》的全部數字化工作。這其中也遇到了幾個技術難題,比如缺少訓練用樣本等,為此我們提出了一種樣本生成技術解決訓練樣本少的問題,並提出了一種增量式學習方法,實現了邊訓練邊識別,可以滾動式地構建古籍識別係統,這對古籍數字化是一個非常重要的技術。可惜在報教育部獎時,被某權威人士認為是“現有技術的簡單應用”而落選。


在做《四庫全書》數字化的過程中,接觸到了信息檢索,當時互聯網開始普及,google也剛剛成立不久,意識到搜索引擎在將來的網絡化社會將是一個十分重要的工具。在經過一番調研之後,決定將小組的工作轉向搜索引擎相關技術的研究。在黃昌寧老師的建議下,我們先從參加TREC評測開始(TREC是信息檢索領域的一個著名的會議,以各種評測聞名),一方麵可以通過參加評測獲得數據,另一方麵也可以相對快速地檢驗我們的研究成果,和國際上優秀團隊一決高低。經過大約兩年的學習、研究,小組於2002年首次參加TREC評測,就獲得了一項第一名,這也是TREC舉辦以來,亞洲參加評測單位首次獲得第一名,在此之前亞洲最好成績是第4。從此一發不可收拾,小組連續10年每年都至少有一個第一名。也正是由於有了這樣的成績,從2007年開始,和搜狗公司共建清華大學-搜狗公司搜索技術聯合實驗室,雙方合作9年,就搜索引擎技術共同開展合作研究,並於2016年將聯合實驗室升級為天工智能計算研究院,為此搜狗公司捐贈了1.8億人民幣用於研究院的建設。這期間雙方不僅在國際頂級會議和期刊上聯合發表了多篇論文,大多數研究成果還用於搜狗搜索引擎中,有效的提升了搜狗搜索引擎的性能。


這麼多年來,在人工智能的若幹個方向上做了一些研究,看似是些不同的方向,但是相互之間也是有很多關聯的,很多基礎知識是通用的。比如在漢字識別後處理中,我們就引入了專家係統中的黑板模型,將多種不同的知識融入到漢字識別後處理,有效提高了後處理的性能。在做信息檢索研究時,尤其是初期,很多漢字識別中用到的機器學習方法,也起到了非常重要的作用。


回首往事,一直艱難地走在人工智能之路上,在人工智能的寒冬期,多少誘惑不為所動,因為看好人工智能的未來;在今天人工智能的火熱期,更要保持冷靜的頭腦,因為人工智能還遠遠沒有達到人們所期望的那樣,還有很長的路要走。努力吧,路在前方!

-END-

本文來源於"中國人工智能學會",原文發表時間" 2017-05-05 "

最後更新:2017-05-22 12:01:20

  上一篇:go  《Groovy官方文檔》Groovy開發套件-使用集合
  下一篇:go  sshuttle:一個使用ssh的基於VPN的透明代理