借助數加,原來需要2-3天的單維度數據處理時間,目前僅需3-6小時,研發周期更短,產品需求符合度更高。
“在原來自建的環境裏進行一個維度的數據處理大約需要 2-3天時間,而使用數加平台處理相同數據隻需要 3-6 個小時。這些效率的提升可以縮短數據分析應用產品的研發周期,並能更好的提高這些產品的需求符合度。”-CTO 許鵬
關於江蘇佰騰
江蘇佰騰科技有限公司(以下簡稱“佰騰”)成立於2012年,是一家專業從事知識產權服務的高科技服務企業,國內知名的知識產權服務機構,江蘇省最大的民營知識產權綜合服務機構。佰騰科技以專利信息應用和專利谘詢服務為核心,麵向國內外用戶提供專利信息檢索、專利大數據應用開發、專利代理服務、專利預警分析、專利戰略研究、知識產權貫標輔導、知識產權管理、專利技術成果轉化交易等服務,為客戶提供知識產權、科技創新的整體解決方案。佰騰科技的專利信息檢索平台(專利探索者)已經持續研發了 10 年,是目前國內最知名的免費麵向公眾服務的大數據應用平台,為中國專利事業的發展做出了很多的突出貢獻。2014年起,佰騰實施“互聯網+專利”計劃,開發了國內首家專利電商平台—專利巴巴,使公司轉型為知識產權領域內的互聯網公司,並采用B2B、O2O線上線下相結合的模式為客戶提供全方位的、全流程的知識產權一體化服務。用互聯網的思維和技術來改造傳統的知識產權行業,在這個過程中,大數據技術的應用是佰騰科技最重要的手段之一。佰騰在專利信息應用上研究多年,一直致力於解決一個問題:讓專利信息應用變得大眾化。公司累計服務企業達120000多家,其中上市公司560多家。
挑戰
佰騰科技致力於為客戶提供最好的專利信息和技術創新服務。近年來,一些企業,特別是出口型企業開始慢慢認識到,不僅要在技術上做突圍,同時也要構築自己的專利壁壘,因此就一定需要創新。對企業來講,創新投入的費用非常大,因此要找捷徑,了解當前所在行業領域的技術發展程度,迫切需要找到技術的熱點和空白點,於是這也就成為了佰騰專利信息應用的新的課題,這就要求佰騰不能單純把專利信息的內容簡單地拆解出來,而是需要通過大數據挖掘、大數據應用進行分析。在大數據處理流程中,不僅僅使用專利數據進行數據挖掘,還會更多地引用期刊文獻、法律訴訟信息、企業信息,並將其整合。佰騰之前自建的數據平台已經不能滿足大數據挖掘和應用的需求,在以下方麵存在巨大的挑戰:
1.投入成本過高。“整個平台,自建投入費用過百萬,每年的維護也需要差不多十幾萬,投入非常大。”CTO許鵬講道。
2.海量數據處理的能力差,不滿足周期性的數據更新要求。“專利信息的大數據與其它領域的大數據不同,雖然全球專利信息的總量僅在 1.3 億多條,但是每條專利信息要分析獲取的數據維度目前就多達200多項,實際處理的數據量在100億多條級別,同時,針對各種客戶的不同需求,還要基於這些數據實現數百種的分析模型和方法,從中挖掘出專利信息的深層次價值。當前,專利大數據的業務已經非常複雜,數據業務場景從10年前的個位數增長到十位數,可用數據維度從30多項增加到200多項。”許鵬講道。佰騰不僅僅提供給用戶文本檢索功能,還有圖像檢索、特征檢索、關聯檢索,並將它們串起來,產生相應的報告;數據應用的深度也已經加大,數據維度的增加使數據處理量翻了數十倍,數據處理的能力已不再滿足周期性的數據更新。一開始能做到每個維度都更新,後來隨著數據維度的增加,處理不過來,有一些數據維度則會把更新的周期拉長。而且,在海量數據處理時,自建係統很多情況下在數據處理到80%的時候才會發現有問題,由於處理時間過長,當發現問題時隻能重新開始,浪費的時間非常多,數據的處理周期會成倍拉長。
3. 數據處理和數據應用瓶頸頻發。瓶頸主要存在以下3個方麵:
• 分布式抓取模型,維護成本大,資源利用率不高;
• 單點數據存儲結構,無法滿足大量的讀寫並發,降低了數據檢查和數據處理的速度;
• 索引數據和文本數據混合存儲,數據應用性能較差。
• 需要分析的數據維度比較多,因此處理環節非常多,數據處理流程異常複雜,流程編排完全靠手工,任務繁重,無法自動化編排。
4.專利大數據的深度挖掘越來越需要依賴新的數據挖掘技術,比如文本聚類、機器學習、圖像識別等,而佰騰不可能短時間內建立並擁有研發這些技術的專業團隊,迫切需要借助第三方的平台及工具支撐。
5.專利大數據的應用是一個實踐性非常強的領域,隨著客戶應用需求的不斷提升,佰騰需要不斷更新分析和展示數據結果的模型和方法,不僅有提升數據處理效率的問題,也有提升數據分析應用能力的問題。因此還需要數據平台具有可擴展性,可以快速響應不斷變化的客戶需求,而之前的平台有幾十個組件均需要維護,而每有一個新的客戶需求都需要重新做組件。
為什麼選擇阿裏雲數加
佰騰之前采用自建的數據平台進行大數據的處理和分析,如上所述,自建大數據基礎設施需要采購和維護大量硬件設備,部署和配置複雜的係統環境,需要耗費大量資源保證服務的持續、穩定運行,並且對於運維人員的要求會更高。而且,原有的數據框架平台已使用多年,技術比較落後,在性能和功能上存在很多瓶頸,已經不能很好的支撐新的大數據研發需求。雲服務最大的特點就是隻用使用服務,不需要關心底層技術架構、安全性、可靠性、穩定性等方麵的問題。而且,對於專利大數據處理業務來講,雲服務是整個業務係統依賴的重要基礎,能節省大量的基礎建設費用。而且,阿裏雲數加平台在國內大數據技術方麵處於領先地位,也是最早進行大數據雲化的平台,因此佰騰決定使用阿裏雲數加作為大數據平台。同時,也會根據自身業務的需求,對雲服務進行進一步的開發,形成最有利於自身業務發展的大數據分析應用平台。
解決方案及架構
隨著對專利信息維度挖掘的深入,佰騰對於信息挖掘的需求正在從“文字表述“向“邏輯概念”轉移,比如希望從專利信息中挖掘出技術概念並發現它們之間的關係,這樣就能幫助客戶更好的分析技術發展的趨勢和熱點。目前,佰騰正在推進專利信息深度挖掘技術的研發,借助數加平台的機器學習以及數據分析能力,為客戶提供更加精準、更加全麵、更個性化的專利大數據應用服務。基於阿裏雲的大數據平台技術架構如頁麵下方架構圖所示。整個平台按照數據業務處理過程中的職能對平台架構進行分層設計:
數據獲取層:負責從數據源拉取數據,檢驗數據的完整性。如圖中源數據處理組件所示,現在有1億3千多萬條專利數據,每周的更新量很大,要保證每周的數據都要拉取正確。
數據處理層:負責對原始數據進行數據維度的挖掘。現在200個數據維度,都通過這一層處理,將處理結果放到整體係統的核心—數據維度數據庫,主要通過數加平台的MaxCompute作為數據維度數據庫並通過Data IDE進行複雜的分布式大數據處理。此外,圖像信息存儲在OSS中,通過專利圖像處理標準化流程,用於後續的數據應用層的圖像索引引擎。
數據應用層:負責對數據維度進行各類索引以便應用。如圖所示包括全文引擎、圖像引擎等,還有關聯索引,用於檢索專利間的關係。最左邊的圖像引擎,和文本處理有些不同,但處理方式差不多。
數據服務層:負責對外提供統一的數據服務接口,保障服務質量。如圖所示大數據基礎服務平台所涵蓋的圖片服務、檢索服務、分析服務和資源服務。
數據管控層:在架構圖中未體現,貫穿上下各層,負責對整個數據平台進行運行監控。
此外,架構圖中間還有RDS,將用於展示的數據單獨拿出來,和索引分開,可以提高大數據應用的效率。
使用的阿裏雲數加產品有:
• 大規模計算服務(MaxCompute)
• 大數據開發套件(Data IDE)
• 機器學習
收益
1.成本大大降低。使用數加平台後,如上所述,無需基礎設施投入,按需付費,而且無需關注運維問題。據統計,目前佰騰整個數加平台的年消費不到原來自建係統年維護費用的1/5。2. 數加平台的 MaxCompute 解決了數據存儲量大的問題,保證了數據的安全性和完整性,數據存儲和處理效率有了大幅提升。“在原來自建的環境裏進行一個維度的數據處理大約需要 2-3天時間,而使用數加平台處理相同數據隻需要 3-6 個小時。這些效率的提升可以縮短數據分析應用產品的研發周期,並能更好的提高這些產品的需求符合度。”許鵬講道。
3. Data IDE的圖形化任務開發功能很好的解決了數據處理過程中流程標準化的問題,可以將任務托管後自動化執行,解放了開發人員雙手;分布式的框架結構解決了多任務的並發處理問題,提高了任務處理的速度,實現了數據價值的快速挖掘,避免了自建係統存在的諸多不穩定問題。
4. 上雲之後的大數據處理流程,比之前的流程簡單很多。所有流程都實現了自動化編排,一鍵式處理就可以完全編排,非常高效。新流程相比原來的具備以下優勢:更高效、更豐富的數據維度挖掘;減少人工介入,降低了成本;全流程、全自動化的數據處理;索引數據和文本數據分離處理,提高數據應用性能。
5.機器學習平台降低了算法的學習成本,也可利用既有的數據模型算法解決數據挖掘過程中的問題。
6. 目前佰騰已經將基礎數據處理和部分數據挖掘的任務放在阿裏雲數加平台上完成,然而更重要的是,阿裏雲數加一站式大數據平台還可以在文本數據挖掘、圖像數據識別、數據關聯分析等方麵給予佰騰更多的能力支撐,以助力佰騰在專利大數據分析應用領域繼續拓展業務並快速發展。
架構圖

最後更新:2017-04-13 18:01:33