大數據獨角獸Palantir之核心技術探秘
Palantir源起
B2B大數據
企業級Google
▼
Palantir(中文名帕蘭提爾,源於《指環王》中可穿越時空、洞悉世間一切的水晶球Palantír)被譽為矽穀最神秘的大數據獨角獸企業,短短幾年內躋身百億俱樂部,成為全球估值排名第四的初創公司。它的主要客戶隻在美劇和好萊塢裏出現,如美國聯邦調查局(FBI)、美國中央情報局(CIA)、美國國家安全局(NSA)、美國軍隊和各級反恐機構,當然還有如JPMorgan這樣的華爾街金融大鱷等等。關於Palantir的傳奇故事很多,CIA通過他家的大數據技術追蹤到本拉登;創始人Alex Karp師從德國的Jürgen Habermas(研究西方馬克思主義)獲得哲學博士,熱衷中國氣功和太極;幫多家銀行揭露旁氏騙局挽回數十億損失,幫助摩根大通解決欺詐交易和黑客攻擊問題,每年節約數億美元;公司創始人和投資人(號稱“矽穀黑幫”)由海軍陸戰隊員隨時保護以防不測;產品隻賣美國及其盟友國;與棱鏡門有說不清楚的關係等…這些花邊新聞不是本文的關注點,本文重點從大數據技術角度來揭密Palantir的B2B大數據王國。
如果說穀歌是互聯網大數據的霸主(我在前文《從Tensorflow看穀歌的雲端人工智能戰略》有詳細解讀),那麼Palantir的目標就是未來企業級大數據霸主,做企業和政府領域的Google。為什麼這樣講?從技術角度來分析,這是大數據發展的必然趨勢,互聯網上的數據多半是UGC用戶產生內容,或是如電商平台這種某細分領域的獨立生態數據,而真正的大數據金礦還在眾多大型企業和政府機構的服務器集群中沉睡。比如一個國家的情報部門和各部、各局信息中心,無不是掌握著成千上萬關鍵領域的大數據,包括各種業務數據、監控數據、DNA樣本、語音視頻圖片、地圖時空數據等(當然前提是信息化程度及其發達,就像我們的稅務係統一樣,而不是房產登記係統),麵對如此海量、多源、異構而且高關聯性、複雜性、動態性大數據,如果沒有快速的大數據分析技術和工具支持,那隻能是望數興歎。而Palantir的大數據技術和產品就是專門針對大型企業和政府機構需求而生(與互聯網公司的大數據技術有較大不同),其官方主頁上的自我定位也很準確:“Palantir’s mission is to solve the most important problems for the world’s most important institutions.”。企業級大數據玩家當然政府和金融是最具數權的兩個領域,所以Palantir研發的平台級大數據產品隻有兩個版本:Palantir Gotham(服務政府事務,警務、軍隊、各級軍事安全客戶)和Palantir Metropolis(服務金融、法律及其它客戶)。如果說穀歌、亞馬遜、Facebook等互聯網巨頭整合的是B2C大數據,那麼Palantir整合的就是B2B大數據,多數企業和政府機構對大數據的應用還處於起步和探索階段,互聯網下或關鍵領域內網、專網中結合私有雲技術的B2B大數據分析是大數據時代發展的必然,而且應用潛力和價值更為巨大,穀歌旗下DeepMind公司開始跟大型醫院和衛生部門合作就是最好的注解,互聯網巨頭以其已有的大數據技術優勢,其業務觸角正在向傳統行業延伸。
圖1. Palantir官方主頁的服務宗旨
Palantir產品技術體係
軍事、金融和警務
大數據案例分析
▼
網上有個段子,雖然真假不能確認,但卻能從中看出Palantir的發跡史:“美國911之後,CIA等部門忙於調查各種線索。Stanford的幾個教授以公開的海量信息為輸入,利用大數據處理技術建立關於人物關係的網絡,最後鎖定了一批疑似人,並迅速將結果發布出去,使得CIA等部門大為震驚,因為教授們的結果與CIA花人力物力大量偵查和審訊的結果很近似,讓CIA們誤以為教授們有牽連,迅速飛到Stanford找教授們問話。從此,“人腦+電腦“來分析複雜問題並輔助反恐成為可能”,Palantir正是在這一大背景下誕生和發跡的。目前Palantir有兩大核心產品,Palantir Gotham和Palantir Metropolis,前者主要服務於國防安全和政府管理領域,後者主要服務於金融領域。兩大產品體係下轄十多種解決方案,如反欺詐(Anti Fraud)、網絡安全(Cyber Security)、國防安全(Defense)、內部威脅(Insider Threat)、危機應對(Crisis Response)、保險分析(Insurance Analytics)、案例管理(Case Management)、疾病控製(Disease Response)、智能化決策(Intelligence)等。兩個產品線的核心技術是服務客戶整理、分析、利用不同來源的結構化和非結構化數據,創造一種人腦決策和計算機智能共生的大數據分析環境及工具係統,人腦和大數據分析互補,提升客戶的決策洞察力。Palantir在大數據江湖上最傳奇的戰績,一是幫多家銀行追回納斯達克前主席麥道夫龐氏騙局的數十億美金,二是幫助奧巴馬政府追捕到本拉登。下麵我們以軍事、金融、警務三個方麵的案例來對其產品的服務內容和技術體係進行初步探索和分析:
(1)以軍事國防解決方案為例。其核心目標是將多個軍事情報領域的海量數據進行融合和關聯分析,轉化為可操作的決策指揮能力,多情報領域數據的集成和融合是要解決的關鍵問題,包括非結構化和結構化數據流,如鏈接圖,電子表格,電話,文檔,網絡數據,傳感器數據,甚至動態視頻、圖像等。Palantir提供了一個基於本體映射的全量多模態數據融合和協同挖掘分析大數據支撐框架,可以對在地理、空間上分散的人、裝備、環境、事件等進行大規模實時關聯和因果分析,以指導複雜戰場環境下的軍事行動。這些大數據技術已被美國軍方廣泛運用於戰場態勢分析和預測,如定位伊拉克戰場可能存在的炸彈或地雷位置,幫助美軍在巴格達規劃一條被襲概率最小的路徑,或者分析亞丁灣海盜活動的熱點區域。這些分析整合了美軍等多方原本孤立的數據源(如軍事情報部門和陸海空、海軍陸戰隊等組織機構的數據),通過Palantir基於本體的大數據融合技術,無縫整合多源異構數據和進行分析模型協同,包括各類數據模型、安全模型和本體對象的管理,其全量數據分析和知識管理能跟蹤每一個數據和模型的讀,寫和編輯、保存,以積累戰場空間的決策知識。基於通用的大數據融合和可視化分析平台,使指揮人員和調度人員能在單一係統內解決所有問題,包括敵人的活動情報分析(情報報告,事件行為等),關聯分析(背景、關聯、跟蹤、反應等)和預判決策等功能。下麵幾個圖(圖2-4)是Palantir 為美國軍隊提供的軟件功能界麵,從其中的功能和數據元素我們可以看出Palantir 的大數據分析技術已經深入美國核心情報軍事機構,幫助其實現作戰打擊鏈的全局決策支持,從分析情報、打擊目標,再將軍事行動中獲得的新情報與現有大數據進行融合更新,極大提高了情報分析和指揮決策能力。
圖2. 國防部和海軍的一個聯席分析功能界麵,對其艦船、飛機、情報文本和相關戰場環境資源做了融合和關聯,在統一視圖裏麵進行管控,技術實現上把上述現實資源通過本體論映射為各類事件、實體、對象及其關係。
圖3. 阿富汗戰場的融合分析功能界麵,對各個區域的各類事件(武裝襲擊、爆炸、綁架等)進行了大規模關聯分析,通過大規模數據可視化鑽取和查詢,可以找出事件之間的因果關係鏈。
圖4. 戰場空間感知態勢圖,戰場環境下各類資源和事件總體態勢分析,GIS/GPS/衛星圖像整合各類數據圖層的管理
(2)以金融欺詐解決方案為例。Palantir憑借其為政府服務的影響力,在2010年摩根大通成為它的首批非政府客戶。後來Palantir幫多家銀行追回納斯達克前主席麥道夫龐氏騙局的數十億美金,名聲大振,其出色的大數據技術獲得華爾街金融大鱷們的認可,目前許多銀行、保險、對衝基金,包括美國證券交易委員會都在使用Palantir的產品和技術。反欺詐是金融領域的一項關鍵業務,信用評級、風險管理、關聯交易、洗錢、逃稅等都涉及此項分析內容。而金融是信息化程度極高的行業,擁有海量的相關數據。Palantir的Metropolis平台可將許多孤立的金融環境數據匯集到統一分析係統,通過回歸關聯建模、頻繁項分析和知識圖譜、社交網絡等機器學習和大數據可視化技術挖掘出有價值的信息。下麵圖5-6是Palantir金融版功能界麵。
圖5. Palantir金融版Metropolis平台功能界麵圖
圖6. 通過關聯交易、知識圖譜、社交網絡和頻繁項等機器學習技術建立的金融反欺詐分析視圖
(3)以警務預測解決方案為例。Palantir通過與美國各州的警隊合作,將遍布在城市及鄉鎮各處卡口、警車上的攝像頭拍下的照片及視頻入庫存儲,與警方的人口數據庫、犯罪數據庫、DNA數據庫等進行深度融合,提取出如車牌號碼、人臉、DNA及體態等關鍵信息,這些信息雖然繁瑣且表麵看起來關聯性不強,但其間卻蘊藏著各式各樣的關係(強、弱;直接、間接等),聯係之間更是隱藏著深層的信息。通過大規模數據可視化交互技術可將數據間有價值的關聯關係深度挖掘出來,形成完整的證據鏈條,為警方節約大量的人力和時間,而且通過間接關聯分析,一定程度上能解決線索中斷的問題。通過預測性警務模型分析曆史犯罪數據,還能計算出最有可能在警察下一次執勤時發生犯罪活動的地點。2011年,美國海關的一名情報人員在墨西哥被一群毒販射殺,美國警方隨即展開名為Operation Fallen Hero的行動,利用Palantir大數據技術,在浩瀚的人物、地點以及事件等等元素中間建立複雜的關係鏈,同時融合聯邦探員自身掌握的信息,如大毒梟們,及其下線的融資渠道以及運毒路線,通過對與本案相關多源數據關聯的可視化展現、交互分析,將分散隱蔽的證據、信息進行有效銜接,同時篩選排除幹擾信息,將證據鏈完整呈現。最終通過資金往來以及人際關係網絡分析理清了關鍵人物以及關鍵聯係,並確定了主要嫌疑犯,逮捕了600多名毒販和大批毒品武器。
圖7. 傳統的嫌疑人關係網及證據鏈分析示意圖,白板、便簽是標配
圖8. Palantir係統鎖定嫌疑人分析功能界麵,通過整合各類人員信息,包括地址、郵件、電話、交易、消費、旅行等各類數據;事件、對象關係網絡可視化,來分析各類人員信息和事件之間的關聯關係,構造完整的證據鏈條。
通過上述三個解決方案的初步業務和技術分析,Palantir的核心技術關鍵詞可見一斑。一是敏捷大數據架構,構建了數據融合和可視化基礎大數據分析架構,在數據規模可擴展性基礎上,兼顧分析實時性和靈活性;二是全量的數據融合和關聯存儲,通過本體論抽象出各類數據資源的關係進行映射存儲和關聯索引設計;三是分析模型的動態組合和快速定製,針對不同分析場景可以快速組建分析模型;四是麵向人機共生的大數據可視化技術,構造全局分析鏈,把人腦決策和數據可視化探索進行深度融合。下麵我們分別對這幾個方麵的核心技術進行探索和解讀。
Palantir架構設計
敏捷大數據架構
的優美實現
▼
如果AI時代穀歌的DeepMind是互聯網的大腦(B2C-AI),那麼Palantir很可能就是企業巨頭和政府領域的AI大腦(B2B-AI)。Palantir的核心技術可以說是構建了一種“大數據分析的基礎設施”,這套大數據基礎設施一定是敏捷靈活的,能否催生智能還看核心技術的演進。Palantir大數據架構從數據融合、應用建模和可視化決策三個層麵為客戶提供各種敏捷數據分析平台和係統,基於海量數據的融合和分析,可以曝光恐怖分子的網絡,計算戰場環境下的安全駕駛路線,探索犯罪分布和追索嫌疑人,還能跟蹤致命病毒的爆發路徑等。這一切的實現都是基於其敏捷大數據架構(Scale, Speed, Agility)。我在前文《說說敏捷大數據》和《大數據應用從小做起?談微服務和大數據架構》中對敏捷大數據給出了初步定義:“敏捷大數據是基於數據科學的迭代性本質,利用高效構件化和微服務化技術,對大數據架構和關鍵組件等進行服務化設計,實現多粒度數據的融合處理和計算模型的標準化配置和管理,從而能根據特定分析需求快速搭建原型係統,快速迭代大數據分析結果,快速將原型轉化為生產係統,提升大數據分析效率和數據決策價值”。敏捷大數據的核心要素遵從SFV原則(Small,Fast,Validation,SFV):一是小、二是快、三是證,小的業務分析目標切入,快速出原型快速迭代,證明有效之後再擴張。
從Palantir的技術組件和功能分析來看,通過其數據融合和本體抽象映射,以及模型組合和可視化等技術,應該說初步實現了敏捷大數據分析目標,雖然關鍵技術方麵跟我的前述提法有些許差別。下麵從大數據架構角度解讀幾個關鍵的技術點:從圖10的Palantir大數據物理架構設計圖可以看出,其核心是圍繞全量的數據融合和關聯存儲,通過本體論抽象出各類數據資源的關係進行映射存儲和關聯索引,設計實現參考了全文搜索的思想,不過是在多源、異構、多模態條件下的全文索引和搜索,裏麵涵蓋了複雜的動態本體論,以及對現實對象和實體的轉換、映射和關聯等操作,相比互聯網搜索引擎的索引技術,進行了深度擴展。另外,Palantir采用了clusterable數據存儲技術如Phoenix係統,支持PB級規模數據擴展。從底層的數據整合,數據管道的定製,以及自定義的分析指標和用戶界麵,都被整合進一套可視化的向導式的大數據分析平台。還設計了revdb可跟蹤任何本體資源的動態變化,以支持動態模型分析和實時決策。
圖9. Palantir大數據係統技術架構設計圖
Palantir通過適配器和係統API,將多源異構數據表示為統一的模型(Model),也就是數據動態本體的融合實現,作為分析的基本數據單元,模型是源數據集的行和列轉化為現實世界中實體的概念對象,任何可用數據描述的現實世界對象都可以作為模型。模型之間可以多重組合,構成更大的模型,以支持複雜的計算。Palantir係統在初始化時需要配置分析目標所需的模型類型及其相關屬性。同樣,Document作為實際的數據+分析單元,是一種動態數據流,可以不斷迭代並作為新的分析模型輸入,而且簡單的Document可以組合為更複雜的Document,而Metrics可對模型Model進行各種計算。通過Model、Metrics和Document三種係統對象進行關聯分析操作,簡單的Model被作為更複雜Model的構建塊,簡單的Document被作為更複雜的Document構建塊,基於動態本體的支持,可以讓分析人員構建和分析任意現實數據和對象,針對數據科學的迭代本質,可以讓分析人員不斷轉變分析邏輯,驗證新假設,並將新發現交給決策者,決策者重新製定新關注點,並向分析者提出新問題。最後通過這種迭代式、交互式、可視化大數據分析技術(如圖11)進行切實的輔助決策支持。可以看出,上述Palantir係統設計的各種元素及其設計思想,極其符合敏捷大數據架構特征,可以說是一種敏捷大數據架構的優美實現。
圖10. Palantir大數據可視化功能界麵圖
Palantir大數據融合
本體論與全量數據的
無縫融合索引設計
▼
Palantir敏捷大數據的設計實現,采用現實世界的本體抽象理論方法,基於現實對象和實體的數據映射模型,動態本體是由來自多個數據源的數據(包括結構化數據如日誌文件,電子表格和表格;和非結構化數據,如電子郵件,文檔,圖像和視頻等。)進行轉換和集成,從原始存儲格式轉化為數據實體對象和相關的屬性(類似於數據倉庫的數據集市模型,如雪花和星型模式),實體及其關聯關係代表了現實世界中的人、物、事件、時空等對象屬性以及它們之間的連接。因為現實世界的對象屬性時刻在變化,所以這些模型也是需要能隨時間變化的,動態本體設計就是基於這一核心思想,並對各類數據源的自動添加,刪除,修改及其映射等操作進行了簡化。這種動態本體數據模型設計,極大簡化和標準化了數據集成和大數據融合過程。
如何對現實世界進行本體設計和實現是Palantir最為基礎的核心技術,先看看什麼叫本體論:“Ontology(本體論)一詞是由17世紀的德國經院學者郭克蘭紐(Goclenius,1547-1628)首先提出。在古希臘羅馬哲學中,本體論的研究主要是探究世界的本原或基質。各派哲學家力圖把世界的存在歸結為某種物質的、精神的實體或某個抽象原則。巴門尼德提出了唯一不變的本原“存在”,使關於存在的研究成為這一時期的主題。亞裏士多德認為哲學研究的主要對象是實體,而實體或本體的問題是關於本質、共相和個體事物的問題。他認為研究實體或本體的哲學是高於其他一切科學的第一哲學。從此,本體論的研究轉入探討本質與現象、共相與殊相、一般與個別等的關係。本體論(ontology)是哲學概念,它是研究存在的本質的哲學問題。但近幾十年裏,這個詞被應用到計算機界,並在人工智能、計算機語言以及數據庫理論中扮演著越來越重要的作用。”—來源於百度百科。
圖11. 基因本體示意圖
十年前,我做文本分類挖掘時了解過“本體”這一概念,當時覺得太虛幻並未在意。當我看到Palantir創始人Alex Karp師從德國的Jürgen Habermas獲得哲學博士,再看他家產品的設計理念,才恍然大悟,也許這個本體論在計算機的世界裏,真是能反應現實世界的知識結構及其關聯關係呢?雖然Karp是個哲學博士,但看來他是深諳計算機知識工程本質的,通過現實世界數據的本體設計,再加上以人為中心的大數據分析理念,成就了Palantir讓美國軍方和金融大鱷認可的核心技術和產品,再次說明了讓大數據應用落地並產生價值具有一定挑戰性(當然前提是他家產品確實是得到高度的認可,而不是虛假的營銷和包裝),數據建模好做可視化也能做,但怎麼和決策深度融合,怎麼讓客戶易於理解使用,比傳統MIS係統要難很多。Palantir的無縫數據融合技術關鍵在於本體數據模型的靈活性,動態性,而且要能反映人、事、物和環境的關聯關係及因果聯係,這是大數據技術麵臨的核心挑戰。Palantir通過本體設計、模型組合和類似數據集市等設計方法和技術,實現了各領域的智能分析,比如財務分析,基本數據類型和本體模型包括金融工具,日期,投資組合,指數和策略等,金融研究人員的思考、經驗、談論和推理等內容作為本體數據的衍生,構成類似數據集市的大的領域本體。在其它軍事、網絡分析產品中,設計思路和方法類似。本體數據類型包括了人、地點、事物和事件所有關係及其相關屬性,而這正是我們人腦中思考表達世界的方式,突出人在分析過程中與現實世界數據的交互能力(human-driven analysis),再結合可視化技術,通過這種數據融合分析過程,我們就更容易在大數據中找尋具有特殊意義和決策價值的信息。
Palantir大數據計算
多維關聯挖掘與
全鏈因果分析視圖
▼
基於本體論模型的海量數據融合和關聯索引設計,是Palantir大數據計算的基礎。而機器學習算法和強大的數據掃描及分析引擎(可以同時掃描多個數據庫)是其大數據計算的關鍵技術。針對現實環境中大數據多源、異構、海量等特征,傳統的計算模型難以直接處理。一般來講,數據計算層需滿足主流大數據處理框架的各種計算模型與方法實現,如基於雲計算並行框架,來實現基於Hadoop批處理、Storm流處理、Spark內存處理的高效數據挖掘與機器學習。而且要支持MapReduce、Storm、Spark等多種計算模式下的多種數據挖掘模型與方法。Palantir的數據計算層網上公開資料不多,具體基於那些機器學習模型實現的信息很有限,總體看來其應用的機器學習算法並不太多,其核心是全麵的數據融合,關聯索引和可視化分析。但其設計思想還是可以大概梳理出來,Palantir的數據計算層主要通過資源管理器進行實現,包括模型和數據兩個層麵的資源:一是用於分析模型資源的統一管理。資源管理器允許分析人員定義和應用一係列過濾器,快速進行各類分析模型的組合和構建。子模型的結果可以建立快照和保存,並用於組合更大的分析任務模型。二是用於數據本體資源的管理,數據本體作為一個靈活的映射為圖形對象及其關係的真實世界實體,如“人”和“組織”的相關特征,以及它們之間的連接,需要集成許多不同種類的多源異構數據資源,並通過數據庫索引技術把各級數據本體及其屬性、相互聯係等融合成有機整體,以供可視化全證據鏈分析。
圖12. Palantir大數據計算與關聯分析功能界麵圖
分析人員可以利用機器學習、統計和數學符號庫對各類模型進行計算和構建,簡單的模型可以作為構建更複雜模型的基礎,而更為精巧複雜的分析行為就是一個流線型、模塊化的過程。Palantir創建的分析模型以一種被稱為Document的形式進行存儲,模型可以分享,鏈接和重組,而且可以加入工作流程中進行迭代分析。通過Model、Document和Metric的組合和連接,構建模型組合和關聯分析的整個分析鏈條,並在可視化界麵上進行互動操作和多視角關聯分析。通過這種數據計算建模方式,基於數據融合本體模型和以人為中心的數據可視化技術,實現快速查詢,快速迭代和分析協同,將整個過程的相關碎片信息匯集到Palantir係統,建立關聯聯係,分析因果關係,最終構建一套強大的通用大數據分析平台。
Palantir大數據可視化
決策導向與人機共生
的分析環境
▼
大數據分析工具固然重要,但是人的判斷更重要,機器智能隻能是輔助決策(特別是重要的決策)。通過大規模機器學習,可以獲得領域專家或決策者關注的價值規律信息,但應用要落地,就必須對挖掘分析結果進行直觀理解和形成輔助決策知識,傳統的人機交互方式對大數據可視化決策來講還不夠,大數據可視化互動操作(鑽取、多層次、多視角)、對基於GPS/GIS/衛星圖像的大規模空間網絡和附加數據圖層可視化、動態數據流軌跡和鏈路可視化等技術都需要深入研究。Palantir的產品把海量多源、異構數據的融合和機器學習算法引擎整合得很優美,處處體現了敏捷大數據設計思想。但更為出彩的設計還是它的可視化技術,Palantir提出了一種人機共生的可視化大數據交互探索分析理念,這裏我再加了決策導向,為什麼要人機共生,當然是更好地服務於決策,Palantir的本體數據模型設計同樣是想幫助人們更好地理解現實世界的各類實體、對象及其聯係。
圖13. Palantir大數據可視化交互界麵圖
我們都知道,大數據不僅數量龐大而且可能動態變化,大數據環境下普通用戶如何才能理解和使用好分析工具很關鍵,甚至很多用戶對自身的分析需求都不知道的情況下。Palantir不隻是做數據整合和把分析結果擺出來就完事了,而是把初步分析結果呈現給用戶,讓用戶深度參與後續的探索過程,從而發現各種信息之間的聯係,幫助用戶尋找的深層分析需求和數據之間的深度關聯,整個過程是不斷迭代和優化的,最終提高用戶的決策能力。要讓用戶搞清楚這一個過程,多種維度的可視化技術十分關鍵,當然Palantir的數據本體模型設計,在一定程度上降低了用戶對數據的理解難度,相比分類、聚類、預測、神經網絡及其複雜參數項等概念來講,現實數據和實體、屬性、事件、關係等進行映射,一般人還是可以理解。Palantir的探索式、交互式可視化界麵采用了豐富的大數據可視化組件,各類表格,散點圖、地圖、網絡圖、熱點圖、曲線圖等可視化圖表結合本體屬性、事件、對象、關係的快速展示和流暢交互,為用戶提供了一個大數據主題分析相關的全盤可視化視角,而且其功能隨著數據源或分析條件變化可以動態調整和實時響應,下圖是Palantir典型的可視化圖表。
圖14 Palantir大數據可視化典型圖表
總結與啟示
▼
最後做個小結,本文對大數據獨角獸企業Palantir的核心技術進行了初步探索和解讀,從企業應用和各級地方政府大數據應用的了解情況看,我們與美國在大數據領域的關鍵技術研究方麵還存有較大差距。正是因為Palantir這種明星公司可能有過度包裝宣傳的因素,所以本文從技術角度進行了分析,對其技術成熟度和技術先進性應該說有了一定理解和把握,包括其大數據架構、大數據融合(將所有的相關數據進行自動連接,構建相關數據鏈)和核心技術的設計思想、大數據計算和模型元素(Model-Metric-Document分析嵌套)組合以及以人為中心的可視化技術等內容。當然受限於核心技術資料的公開度,各項關鍵技術暫時無法做細致深入的解構。
多年前我和一位朋友就討論過一個問題,當然那時候還沒有大數據這個概念,當時我們在思考能否設計一個軟件,能整合和查詢大型企業所有相關數據,包括各種業務係統數據庫、全局信息環境下各類PC和各級服務器上的文本、圖片、視頻或公網的相關競爭情報數據等,後來確實出現過類似係統,叫企業搜索引擎,不過當時很多國內企業連單視圖或多維度報表都做不好,結構化數據都還不能高效管理,何來非結構數據的整合需求呢?想來也是太超前了,但大數據分析要有價值,散布於各類非結構化文件中的數據是不能忽視的。現在Palantir的B2B大數據業務就是在做這個事情,而且是做大做強了。所以說,要構建大型企業和政府機構的決策大腦,B2B的企業大數據分析繞不過去,散布於工位PC和服務器集群中的各類非結構化文件數據蘊含的價值,不比標準數據庫的價值小,各種數據報告、匯總報表、機要通知、應急預案等都不一定存數據庫裏。所以說,B2B大數據的應用價值不會比互聯網大數據應用價值小。Palantir的政府大數據係統、金融大數據係統、DeepMind的醫療大數據係統、通用電氣(GE)的工業大數據係統、華為的內部大數據係統等,都在向這個趨勢演化。
另外,大數據分析,一定麵臨數據多源異構、關聯性、動態性和不確定性等複雜多變的問題,Palantir的“人機共生”大數據分析理念值得我們學習,而且很可能會是將來AI時代最為重要的大數據應用模式。例如軍事情報分析和反欺詐分析,敵人或犯罪分子的應對手段也是在動態變化的,隻靠曆史數據分析是不夠的,而且最新動態信息跟不上的話,分析結果可能會造成嚴重誤導(就像豬的世界裏很難有屠場存檔記錄,還有最近幾年世界各國頻出黑天鵝事件,都說明大數據的動態、增量因素是我們必須考慮的),換句話說,大數據係統一定要解決動態、增量、反饋、決策這幾個關鍵問題,基於數據科學迭代本質,要把這幾個方麵串起來,形成完整的分析鏈和迭代分析環境,從某種程度上講就是類似Palantir的人機共生環境。采用Palantir產品設計的人腦決策和智能係統共生的分析方式,能夠對快速變化作出實時響應,大數據不僅僅是數據采集,分析和管理,更為重要的是領域業務、知識模型和本體抽象融合,把人的理解和決策,與機器智能的融合、計算、推理、實時迭代等能力強強聯合,是Palantir最為核心的大數據技術,另外Palantir做的不隻是產品,通過技術人員的現場服務,幫助分析人員理解融入人機共生的大數據分析環境,才能最大化大數據係統的決策價值。
總之,大數據和AI時代的基礎設施,除了互聯網界的穀歌、亞馬遜等巨頭之外,在傳統大型企業和政府領域還會有Palantir這樣的B2B大數據獨角獸,換句話說,Palantir代表了美國在線下大數據領域的核心競爭力(特別是結合空天技術的軍事、情報、公共安全大數據,是大數據時代國防和內外部安全的核心技術保障),互聯網畢竟還是虛擬空間,不能構建真實世界完整的數據視圖,軍事、金融、政務、交通、醫療等領域融合自身線下大數據,和線上數據的高效智能分析決策,才是未來國家大數據治理之根本。如此看來,人工智能時代,不管是B2C還是B2B大數據,核心技術的落後,其後果都是難以估量的。
原文發布時間為:2017-04-09
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號
最後更新:2017-05-19 13:32:42