院士梅宏：真正的大數據應用體現在數據挖掘的深度

0?wx_fmt=jpeg

2016 CCF大數據與計算智能大賽於2016年9月24日在中國·北京梅地亞中心酒店開幕。

北京理工大學副校長，中國科學院院士梅宏在會上做了《大數據與數據驅動的智慧》的演講，探索了大數據帶來的挑戰和可能的應用。梅宏認為，目前來講，大數據還在炒作的階段，真正的大數據應用應該體現在數據挖掘的深度。在演講的梅宏最後提出：當自演化的軟件能夠讓機器自己改代碼的時候，才是真正的類腦智能。

大數據文摘為您帶來一手演講實錄，以下為梅宏院士演講全文：

*根據主辦方提供的速記整理，在不改變原意的情況下，部分有刪改。

◆ ◆ ◆

我今天的題目叫做大數據與數據驅動的智慧，首先我大概分成四個部分，談談我對大數據的認識，我想講四個部分，第一個談談對大數據的認識，第二個大數據給我們帶來什麼挑戰，第三個大數據應用，最後結合我們的主題講講數據和智能的關係，主要談我的理解。

◆ ◆ ◆

認識大數據

所謂大數據，它是我們信息化到一定階段之後，必然出現的一個現象（自然現象），主要是由於信息技術不斷的成本化，不斷的廉價化，以及互聯網及其延伸出來的，帶來的信息技術無處不在的應用所帶來的自然現象。

基本上有幾個主要的驅動力：

一個是摩爾定律所驅動的指數增長模式；

第二個是我們技術低成本化驅動的萬物的數字化；

第三個就是寬帶移動泛在互聯驅動的人機物廣聯連接，以及最後大規模的匯聚。

實際上大數據正在帶來我們新的一撥數據化的浪潮，信息化的第三撥浪潮3.0。

如果我們回顧來看我們的過去的話，我們大體上能夠看到兩個明顯的階段的劃分，一個是在從PC機開始進入市場以來，應該說帶來了信息化的第一撥浪潮，這個浪潮差不多到90年代中期，這個時候的主要特征是單機應用為特征的數字化特征，我們主要完成簡單的工作上最核心業務的數字化的工作，以PC機為主。

在過去的20年，90年代中期到現在，以聯網應用為特征的網絡化出現數據大集中，開始全國範圍內的大聯網等等，各個企業甚至走向企業全球，現在我們正在進入新的階段，這個以數據的深度挖掘和融合應用為特征的智慧化，或者智慧化的現象。

到底什麼是大數據，這兩個定義從兩個角度來談：

一個從技術上來講，我們的技術供給能力不足所麵臨的對象他稱之為大數據，第二是從數據特征講的數據，這是兩個數據的定義。

◆ ◆ ◆

應對大數據

大數據帶來的是什麼，我覺得最重要的東西可能帶來的是思維模式的變化，如果回顧來看看我們過去，基本上定義這不一定是大家都能夠接受，但是能夠去查的話，定義出現所謂的大數據是在上個世紀的時候，97年的時候，SGI的首席科學家曾經用了這個詞，他講了數據提到大數據，特別強調從技術的視角來看，所謂的難獲取，難預測，難處理，難組織四個難題。而從商業視角與大數據時代這本書的發行，開始探討大數據在商業裏麵的應用，特別強調了幾個很重要的特征，從隨機樣本到群體數據等這麼一個變化。

這是我們經常講的大數據的價值和意義，大體上分成幾個方麵。

一個通過大數據，我們能夠認識複雜係統的新思維，促進經濟轉型，提升國家綜合能力保障國家安全，提升政府的治理能力以及服務民生服務社會的能力。

這是我在幾個場合講的一個我對當前數據狀況的一個認識，以及個人的一些見解，時間關係我不會詳細的說，我覺得目前來講，大數據開始還在炒作的階段，至少到我們中國炒作的熱潮還沒有過去，所以我們相對於國外的炒作，國外開始進入我們還滯後了3到5年，真正的大數據應用應該體現在數據挖掘的深度。

原因有三點：首先有我們對數據認識不到位的原因，還有在當今的情況下一宣傳大家都很熱，成為了獲取資源的途徑。不聊大數據就拿不到項目，這也是一個很重要的原因；

第二個是大數據投入過熱，資源浪費比較明顯，這方麵的投入特別是數據中心的投入為典型；

第三個就是我們認為大數據的理論和技術都還處於發展的早期，所以我們定義已經有了共識，但是對它的核心觀點和命題還是有很多爭議的，比如說大和小，到底怎麼來定義，關聯和因果的辯證性，所有都講關聯不求因果的嗎，所有的數字化的東西相對於客觀世界而言也僅僅是一個抽樣而已，不管是它的時間密度，空間密度到底有多大。第二是不是有通用的技術體係也不太敏感，從我們做計算領域研究的人來講，總是希望能夠為數據的處理方式提供一種手段。數據科學的理論基礎還沒有，比如說傳統的統計方法，他有一個數據統計的基礎在本，我們是不是就用統計，用深度學習，還有沒有其他更好的理論上的突破，這個應用了相對超前理論和技術的發展，這樣使得很多數據分析的結論基本上缺少因果，缺少理論知識，都是用靠關聯關係建立起來的。有時候這個使用還是需要適當審慎的。最後一個大數據這個現象可能會長期的存在，對我們計算能力的挑戰也是永恒的。

我順便舉兩個曆史上大人物說過的話，這是過高的估計了當時的計算。

一個是IBM當時的首席認為世界上是由幾台計算機就夠了，這個大家經常當成他的笑話來說，比爾蓋茨也說640K的內存就差不多了，我想數據的增長會遠遠的超出我們處理能力的增長，所以我們很多的數據是做不到的。比如說2016年美國存儲軟件供應商發布的，剛才我看有人給我發一個他們做的冷數據存儲，冷數據你還處理過，但有的數據你碰都沒碰把它存儲起來，這個對我們的挑戰也是很大的。我們把一個地球搞清楚，把科學搞清楚，很多數據我估計真的到宇宙發生變化的時候也未必能夠完全處理清楚。

第二個數據帶來的挑戰，我是把它分成兩大類，一類下麵這類有大數據的管理，主要指的計算機的技術，講計算機類的技術，第二是大數據的分析方法，怎麼樣有理論方法去分析它，講這兩個。大體上有這麼幾個東西。管理上一個是數據庫管理係統，麵臨一係列的挑戰，我們傳統的關係型關係庫追求數據的一致，係統的高性能。沒有預先定義的模式使得一致性難以支持，高性能也難以實現。數據庫傳統發展的理念也開始完全由一個通用的數據庫開始追求領域通用，這是一部分。

這是數據的管理本身，那麼數據的處理，怎麼處理，由於單台計算設備不管性能有多高，它也不可能把數據處理完，所以說並行處理就成為不二的選擇，因為數據量太大了。要並行處理就麵臨不同數據的需求，比如說批處理，流處理，圖處理，當然一係列的東西大家都在嚐試，也可能不存在通用的數據處理方法，或者數據處理平台能夠適應所有類型的數據，是不是能夠做到，現在目前來看也沒有。

一種可能的途徑，比如說能不能通過軟件的定義的方式，我們能夠把各種能力集中到一起，然後在上麵透過不同的數據處理的需求，定義出不同的平台，也就是說我要實現這種平台把它柔和到一起的這種可定製性，可剪裁性能不能做到。還有雲計算中心，現在越來越多的大數據依托於雲計算中心。

第二部分大數據的分析方法，可能和數學分析方法更緊密的相關，怎麼能夠把我們理論方法體係建立起來，在不同領域進行應用。

我們大數據分析麵臨著一對挑戰：

一個是分析對象的改變，過去是預處理後數據我們現在是原始數據，以前是樣本數據，現在是全數據，以前是單源單模態數據，現在是多源多模態數據。就是分析對象發生了變化；

第二是分析的需求發生變化，我們需要更加準確的高精度分析，還有複雜關聯的深層特征，還有大規模的複雜關聯；

第三個變化分析模型能力的變化，我們需要追求從表達力受限的低維數據，到高信息量的高維數據，還有弱表達力的簡單模型到強表達力的複雜模型，目前來看，我們很多的大數據分析方法都主要是可視化的展現，統計分析，機器學習的技術；

再一個大數據可能在這種情況下，計算機領域也探討了很多，現在的以通用性考慮為主的IT體係很難滿足大數據的需求，有必要考慮對整個IT架構進行革命性的重構。

◆ ◆ ◆

應用大數據

第三應用大數據有一些成功的案例我就不細說了，我做了一個分類，一類是互聯網類的，這主要是指公共平台的，物聯網類主要是有助的，做的各種傳感器，組織業務是指每一個企業機構他們自己內部的以結構化數據為核心的融合的各種各樣的組織業務的數據。還有一個科學實驗的數據，大體分成這樣幾個。大家可以看到這幾類數據都有很多成功的案例，在這我也不細講了。

0?wx_fmt=jpeg

大數據應用，大家基本上認為有三個層次。

一個首先第一個層次隻是關注到底當前發生了什麼，把發展的態勢曲線給你描述出來，呈現發展的曆程；

第二是預測，能夠在當前分析的基礎之上，預測它未來可能會發生什麼，呈現事物發展的這麼一個趨勢。比如說流感的預測，奧斯卡的預測大概都屬於這類；

第三類就是所謂的指導性，指導性的就當前的態勢，如果你做一個動作，會產生什麼後果，這就便於當前的態勢要做出決策，不僅是預測未來怎麼樣，而是做一個動作以後，做一個決策以後，會不會影響未來的結果。

所以從當前來看我以為當前的大數據應用呈現這麼幾個特點：

一個從應用層次上講，應該說描述性，預測性的應用還是比較多的，真正的指導性的應用偏少；

第二從數據源的角度，基於單一數據源的數據偏多，基於多態數據源偏少，有什麼數據整什麼數據，包括今天發布了很多題目，數據擺在這你找去，根據我的應用需求，我把各種數據柔到一塊這種應用也偏少，有時候前幾年看了很多競賽題目都不錯，真正呈現大數據分析的非常讓你眼睛一亮的這種特征的東西還是偏少，他沒有應用需求。

怎麼根據我的要求找這種數據，這種應用偏少，當然對數據研究缺少數據源也是很重要的理論。從需求導向，也是根據我到底有什麼問題，在問題裏麵我想解決什麼問題，我提出解決方案，這樣的應用這種構建模型的應用也偏少，因此從這個意義上講，我以為大數據應用還僅僅在於初級階段，這也就是我剛才我講的，我們從現在開始，也許我們正在進入信息化的第三撥浪潮，這個階段會持續多少年，我不知道，但我樂觀的估計，大膽的揣測一下我相信應該有十幾，二十年，這也有一個依據，這個依據我在報告的時候也會講一個東西，經濟學上有一個傳播理論，每一個傳播大概是50年左右，包括早期的蒸汽機引領了50年，汽車也引領了50年，我們真正的信息領域引領這50年是從上個世紀50年代，以微電子網絡才開始，所以信息技術已經發展了幾十年了，真正在經濟裏麵占據主要的驅動力，也就從90年代開始，大家算算90年加50，我們可以到2014年所以在未來的20多年大體上還是IT的天下。

◆ ◆ ◆

數據和智能

最後講講數據和智能，我們談的最多的是數據驅動的智能時代正在到來，我們來回顧一下人工智能，人工智能這個詞早期有非常明確的定義，他有它的做法，人工智能到現在為止也正在接受第三個高潮，早期的人工智能都是硬編碼，所謂的智能都是程序，就是高級程序設計，通過高級的編成方法，後來長期的發展還是走的基於規則的智能，實際上就是基於邏輯的，構建一個規則庫，構建一個事實庫，加上邏輯推理，當時人工智能裏麵也很長時間受到批評，認為人工智能沒有產生什麼實際的效果，實際上有一批人工智能還是不錯的，就是專家係統，專家係統真正解決了很多當時存在的問題。

我覺得現在當前我們正在走的這撥人工智能，它和過去的做法是不一樣的，這是數據驅動的智能，它是利用機器學習，統計分析的方法從數據中自己向上發現規律，前期先構建規則，規則驅動它不太一樣，走的這樣一個途徑，今年最熱的就是阿爾法狗，在最難的棋內戰勝了人類，當時網上炒的很多很多，很多專家也沒出來說話，所以如果我說這個事情對於人類的威脅，我牙根就不認為它有什麼威脅，他永遠是為做事的，大家想想過去每次技術進步，就把我們人類的勞動減少多少，機械把我們的體力勞動減少多少，不過就是計算把我們的智力勞動，很多煩瑣的勞動把它減少了，他離人工智能還遠的很。

最後談到一些若幹概念，當前關於智能或者叫做人工智能，有很多提法，人工智能是最早的，一直在談，我一直認為人工智能是有它當初嚴格的定義的，過去人工智能做的東西，現在我們寫的人工智能技術，前沿技術我真的不認為所謂人工智能前沿技術是什麼，有人曾經用過機器智能，這個走的路徑應該說是一種結合，但更多的還是基於規則的多一點。

現在也有人稱之為數據智能，我們叫做計算智能，李老師也談到了，是有一個狹義的定義的，神經網演化計算，曾經用過的詞，我們為什麼用這個東西呢，我個人還是覺得數據驅動的智能，最終呈現智能的方式，還是算出來的。實際上本質上是把人的智能的問題，把它轉化成計算的問題，這個計算的問題要麼是邏輯推理算的，有一個規則去驅動的，要麼是通過數據處理的方式從數據裏麵弄的實際上它本身還不算是智能，所以我們為什麼想選擇智能，我覺得這也挺好，我覺得站在計算領域的角度總希望用這個角度來說話，我講大數據的時候我曾經說過，我說大數據能夠出現是因為計算智能要解決它還得靠計算智能，甚至你說你可能有一個模型的方法出來能夠用量級的計算，但不管有多大的量級，沒有計算機，你人靠手算是永遠算不出來的，所以還得靠工具克服，因此還是計算問題，我們更傾向於把它叫做計算所產生的智能，當然是基於數據所產生的智能。

第二個問題是機器計算機真的能擁有人的智能嗎？

在座的大部分都知道，它不可能，現在又有一個說法，類人智能和類腦智能，我們現在國家在搞腦計劃，有內腦計算，我們現在的機器是沒有智能的，它是把人看成一個黑客，互聯網上提一個問題都有，這個智能是像人一樣，感知相對容易，認知且難且難，所以我覺得內腦智能應該是什麼，我們真的把人的科學上的人腦的科學上的東西搞清楚了，然後模擬這個東西做一套東西，我覺得這叫內腦智能，給你一個行為，好像他能解決問題，隻不過是靠計算機強大的計算能力，把一個所謂的這種問題變成了一個數據處理的問題，計算的問題而已。所以我覺得類人智能發展大體分成三個層次，第一個是傳統的人工智能走的路，一個軟件加上一個知識庫，在上麵做推理，這是一種。第二種如果說我們能夠形成一個自演化的知識庫，要靠數據的方式解決，我從數據裏麵能夠不能不斷的凝練一些東西出來，知識庫能夠自己去增長能不能做到這一點，我想如果能夠做到這個，就能夠形成第二層次的智能，這個東西要從我們數據匯集裏麵得到想要的結果。

我想第三個層次，能不能自演化的軟件，加上自演化的過程，大家知道我們現在所有的軟件，一旦寫好以後，編譯結束以後是改不了的，自演化的軟件能夠機器自己改代碼可能嗎？現在肯定是不可能的，但我們也嚐試，比如說用數據的方法來改它有大量的軟件片斷存在，我能不能在某種特定的環境之下，解決軟件的一些行為的改變，這是一個夢，這個夢是計算機科學家長期的夢，過去軟件智能化就是想解決這個問題，但實際上沒有做成，那是走的規則方式未來這個如果能夠解決，我覺得類腦智能就更像，機器能夠改代碼，現在我們組織一個團隊想嚐試這個事情。

機器自己能夠改代碼，我想在我有生之年看不到了，從我本意來講也不希望這個情況出現。如果真的這個情況出現了，世界就大亂了，好，謝謝。

----------

啟動儀式上，各行業大咖發布了來自各創新企業與科研機構的11道高質量大數據與人工智能創新賽題，涉及智能電網、搜索廣告、O2O營銷、輿情分析、監控識別、計算廣告、無人駕駛、市場預測、LBS營銷、氣候預測等多個熱門方向，將為圖像處理、自然語言處理、用戶畫像、推薦係統等領域提供大量來自真實場景的問題與數據。

原文發布時間為：2016-09-26

本文來自雲棲社區合作夥伴“大數據文摘”，了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新：2017-06-05 15:32:24

院士梅宏：真正的大數據應用體現在數據挖掘的深度

上一篇：他是現代計算機科學的鼻祖，編程界的上帝

下一篇：重磅長文|提高深度學習性能的四種方式

相關內容

熱門內容

最新內容

院士梅宏：真正的大數據應用體現在數據挖掘的深度

上一篇： 他是現代計算機科學的鼻祖，編程界的上帝

下一篇： 重磅長文|提高深度學習性能的四種方式

相關內容

熱門內容

最新內容

上一篇：他是現代計算機科學的鼻祖，編程界的上帝

下一篇：重磅長文|提高深度學習性能的四種方式