閱讀904 返回首頁    go 阿裏雲 go 技術社區[雲棲]


CRA簡報:計算研究與數據科學的新興領域


0?wx_fmt=jpeg

我們收集、處理、分析和使用大量數據的能力對社會的各個方麵都產生了深遠的影響。這種轉變導致了新興學科數據科學的出現。諸多領域對數據科學的興趣呈現爆炸式的增長,包括社會科學、自然科學和物理學等領域,涉及空前的規模和多樣性的數據,通過集聚大量的操作和行為的信息來產生新的服務或收入來源的產業以及需要利用數據更好地造福社會的政府、社會服務和非營利機構。


這一新興學科依賴於數學和統計建模,計算思維和方法,數據表示和管理和被研究領域專業知識的新的融合。雖然計算領域已經提供了許多支持數據科學的應用原則、工具和技術和諸多案例,計算機科學界也有機會作出新的研究進一步推動該領域的發展。此外,學界也有義務製定數據科學應用的發展指導方針。 

包括統計,數學,社會科學,自然科學和計算機科學等在內的多個領域為數據科學的誕生奠定了一套強大的基礎。事實上,傳統的計算機科學研究的各個方麵都在數據科學的發展中起到了作用。放眼未來,數據科學也將引領全新的計算研究。


  • 從數據管理的角度來看,數據科學需要在如何獲取,存儲和訪問數據方麵有更深的理解和表現,對數據世係、數據質量、質量保證、數據集成、存儲、隱私和安全都需要有更深入的思考。傳統獲取和存儲數據的方式在處理告訴或敏感的數據時可能不能奏效。


  • 從計算的角度來看,非常大的數據量,非常高的數據速率,和非常大的用戶數都需要的新的係統和新的算法。新的係統架構可以適應數據異質性和不規則的結構,這些在數據訪問和通信中也必要的。從算法的角度,我們需要有線性算法,在線算法,支持實時數據流,和概率和隨機的方法來應對數據的規模和數據中的噪聲。


  • 此外,許多經典的統計假設和機器學習技術不適合目前的數據科學的需求。數據越是自然來源的越有可能是有偏見的、不完整和高度異質性。時間跨度長且來源廣泛的數據的拚接會導致自動采集的數據和不一致從而帶來係統錯誤給建模方麵帶來了深遠的挑戰,也給新的統計方法和機器學習算法帶來機遇。即使對於“小數據”,新的應對數據異質性和數據采集偏倚的方法也是需要的。雖然預測建模至關重要,但是許多數據科學也涉及決策以及根據行動的變化做出推理的能力。此外,理解維度災難,過擬合和複雜設置下的因果關係也是關鍵的。


  • 數據規模和異質性的挑戰也從根本上改變用戶如何與數據和模型相互作用:如何將數據可視化,支持數據科學模型結果的理解和解釋需要什麼算法,如何做出決策,以及如何獲得和整合用戶反饋。人機交互和可視化分析將需要更緊密的整合數據科學模型和算法。自然語言處理,語音,計算機視覺和其他人機通信模式的新案例也將隨之出現。


  • 由於數據科學係統往往被嵌入在需求和分布不斷變化的操作係統中,支持整個數據科學的生命周期是很重要的。確保管道的各個方麵的魯棒性是重要的。我們需要開發新的軟件工程和計算機編程的最優化方法。此外,古董數據儲存的時間往往比最初計劃使用更長,所以數據長期的維護和管理也必須得到解決。


以上的研究課題,以及許多其他的研究課題,都需要對係統、計算和機器智能方麵的基礎研究。


此外,像在許多其他領域的同行那樣,計算研究人員日益成為科學數據的用戶,正如許多計算機科學的分支那樣(包括計算機體係結構、網絡、軟件工程、視覺、機器人、教育和用戶建模),日益數據驅動化。保障價值和重複性方麵我們需要借鑒之前的經驗方法,包括適當的數據管理、嚴格的係統建模、測量和分析,以及對結果的呈現和解讀的完整方法。訓練所有的計算研究人員掌握基本數據科學技能已經正變得越來越重要。


讓我們把眼光放得更遠,數據科學為工業界、學術界和政府之間的理論和應用研究的創造性合作提供了新的機會。除了讚助研究,行業合作夥伴還可以提供有價值的見解,諸如在實際問題、數據獲取,驗證理論在規模數據或自然數據應用的能力以及以互補的方式尋求解決方案方麵。學術界,反過來,可以提供創新的解決方案和軟件,新的算法和替代方法的原則性分析。學術界也可以培養訓練有素的數據科學骨幹,滿足行業的需求,並幫助合作夥伴探索尖端研究。這些合作夥伴關係也將有助於揭示數據科學的政策問題,相關的偏見,數據隱私,知識產權,使用適當性和監管問題。開放數據的提議和開源軟件運動特別適合於數據科學,並將幫助使得其實現商業化和發揮影響。總之,工業,學術和政府數據科學的合作將有助於推動相互協作的新的模型。


最後,雖然數據科學提供了通過提高數據利用率以提高科學研究和決策許多新的機會,這些使用也帶來了新的挑戰。產生的數據語境及其使用的應用程序對數據科學的準確、公平和倫理要求也十分重要。這些數據科學的相關工作需要在計算機科學的亞領域間以及和計算機科學的多學科之間的合作。無論是學科內的和跨學科的技能都需要互相學習和支持。數據的產生和收集變得無處不在,數據所有權的概念也在發展,許多法律和政策問題將需要在此境況下被重新的考量。


為了了解如何符合倫理和負責任的使用和共享數據,計算機科學家需要協同領域的科學家、政策製定者和倫理學家以理解相關的風險和假設。例如,當回答有關個人和社會的問題(例如,在教育,經濟政策和治安)時了解數據科學背後的社會科學是很重要的。這些重要的問題包括隱私,公平和透明度。為了更好地參與和服務於數據科學相關的新興政策的探討,數據科學計算研究人員需要開發能夠兼顧道德、公平和責任的新的方法。


總之,計算研究界迎來了一個在定義和塑造新興的數據科學領域的獨特機遇。與統計人員,數學家,社會科學家,數據分析師和結構科學家和學科專家一道,計算機科學家可以發展新的基礎理論,算法原則以及建立數據科學基石的係統。計算研究協也將致力於支持計算專業人員和其他人員為數據科學研究道德和責任的發展作出貢獻。

原文發布時間為:2017-01-23


本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-05-25 09:02:27

  上一篇:go  利用 Scikit Learn的Python數據預處理實戰指南
  下一篇:go  百餘名人辭世,剛過去的2016是被詛咒的一年嗎?MIT數據分析預測這隻是個開始……