842
技術社區[雲棲]
數學之美 係列二十 -自然語言處理的教父 馬庫斯
我們在前麵的係列中介紹和提到了一些年輕有為的科學家,邁克爾·柯林斯,艾裏克·布萊爾,大衛·雅讓斯基,拉納帕提等等,他們都出自賓夕法尼亞計算機係米奇·馬庫斯(Mitch Marcus)名下。就像許多武俠小說中描寫的,弟子都成了各派的掌門,師傅一定了不得。的確,馬庫斯雖然作為第一作者發表的論文並不多,但是從很多角度上講,他可以說是自然語言處理領域的教父。馬庫斯教授長期當任賓夕法尼亞大學計算機係主任,直到他在幾年前從 AT&T 找到皮耶爾替代他為止。作為一個管理者,馬庫斯顯示出在自然處理和計算機科學方麵的卓識的遠見。在指導博士生時,馬庫斯發現語料庫在自然語言處理中的重要性。馬庫斯嘔心瀝血,花了十幾年工夫建立了一係列標準的語料庫,提供給全世界的學者使用。這套被稱為 LDC 的語料庫,是當今全世界自然語言處理的所有學者都使用的工具。我們在以前的係列中講到,當今的自然語言處理幾乎都是使用給予統計的方法。要做統計,就需要大量有代表性的數據。利用這些數據開發一個自然語言處理係統的過程,可以統稱為訓練。比如,我們要訓練一個漢語分詞係統,我們需要一些已經分好詞的中文句子。當然這些句子需要有代表性。如果想知道一個分詞係統的準確性,我們也需要一些人工分好詞的句子進行測試。這些人工處理好的文字數據庫,成為語料庫(corpus)。如果每個研究室都人工建立幾個語料庫,不僅浪費時間精力,而且發表文章時,數據沒有可比性。因此,馬庫斯想到了建立一係列標準的語料庫為全世界的學者用。他利用自己的影響力讓美國自然科學基金會和 DARPA 出錢立項,聯絡的多所大學和研究機構,建立的數百個標準的語料庫。其中最著名的是 PennTree
Bank 的語料庫。PennTree Bank 覆蓋多種語言(包括中文)。每一種語言,它有幾十萬到幾百萬字的有代表性的句子,每個句子都有的詞性標注,語法分析樹等等。LDC 語料庫如今已成為全世界自然語言處理科學家共用的數據庫。如今,在自然語言處理方麵發表論文,幾乎都要提供基於 LDC 語料庫的測試結果。
馬庫斯給予他的博士生研究自己感興趣的課題的自由,這是他之所以桃李滿天下的原因。馬庫斯對幾乎所有的自然語言處理領域有獨到的見解。和許多教授讓博士生去做他拿到基金的項目,馬庫斯讓博士生提出自己有興趣的課題,或者用他已有的經費支持學生,或者為他們的項目區申請經費。馬庫斯高屋建瓴,能夠很快的判斷一個研究方向是否正確,省去了博士生很多 try-and-error 的時間。因此他的學生有些很快地拿到的博士學位。
作為係主任,馬庫斯在專業設置方麵顯示出卓識的遠見。我有幸和他在同一個校務顧問委員會任職,一起討論計算機係的研究方向。馬庫斯在幾年前互聯網很熱門、很多大學開始互聯網研究時,看到 bioinformatics (生物信息學)的重要性,在賓夕法利亞大學設置這個專業,並且在其他大學還沒有意識到時,開始招聘這方麵的教授。馬庫斯還建議一些相關領域的教授,包括後來的係主任皮耶爾把一部分精力轉到生物信息學方麵。馬庫斯同時向他擔任顧問的其他一些大學提出同樣的建議。等到網絡泡沫破裂以後,很多大學的計算機係開始向生物信息學轉向,但是發現已經很難找到這些方麵好的教授了。我覺得,當今中國的大學,最需要的就是馬庫斯這樣卓有遠見的管理者。
過幾天我又要和馬庫斯一起開顧問委員會的會議了,不知道這次他對計算機科學的發展有什麼見解。
最後更新:2017-04-02 00:06:27