閱讀681 返回首頁    go 魔獸


公眾趨勢預測__阿裏雲ET介紹-阿裏雲

點此谘詢顧問

互聯網是觸達用戶、感知公眾態勢的最有效方式。通過公眾趨勢分析,業務方可以第一時間傾聽用戶心聲,對正/負麵消息快速響應,並通過預判用戶群體對品牌和競品的喜好傾向,指導產品和服務的改進升級。

應用場景

  • 政務機關:踐行網上群眾路線,廣開言路,凝聚共識,提升服務效率和口碑。
  • 傳媒行業:發現事件熱點,梳理傳播脈絡,跟蹤欄目受眾的喜好傾向,鑒別新聞炒作。
  • 金融行業:商貸行業風險評估,P2P金融輿論風險評估,證券多空情緒波動與分析。
  • 地產行業:區塊樓盤質量口碑監測,分析潛在業主的喜好傾向,物業服務質量評估。
  • 教育行業:關注教育資源供需平衡,校園熱點事件預警,提高教育事業的滿意度。
  • 醫療行業:關注醫療資源供需平衡,醫患糾紛預警,提升醫療服務質量。
  • 旅遊行業:傾聽遊客反饋,預判旅遊出行趨勢和熱門程度,提升旅遊服務的體驗。
  • 企業品牌:分析消費者對品牌的認知和注意力遷移,關注競品分析,塑造品牌口碑。

係統架構

公眾趨勢預測1

公眾趨勢分析整體業務架構如上圖所示,底層采用成熟的商業化基礎組件,可以彈性調度資源,保障係統穩定運行。

公眾趨勢分析通過分布式爬蟲和神馬搜索引擎,可采集的源站類型多種多樣,包括:新聞門戶、論壇貼吧、博客社區、微博微信、資訊客戶端、RSS聚合、視頻站點等。此外,通過關聯業務方的數據接口,可以進一步整合站點瀏覽統計、資訊評論內容和消費點評內容等。

各類數據源進入公眾趨勢分析之後,經過去重去噪、正文萃取和自然語言處理,可以對輿情內容進行實時聚類分析、情感分析、熱詞提取、相似性分析和智能過濾,並且每一天離線計算全量輿情的聚類統計。

公眾趨勢分析既提供標準化的操作界麵,同時也提供相應的API接口用於擴展性開發,進行個性化定製和業務集成。

技術優勢

快速感知

公眾趨勢分析的采集模塊對於高優先級源站最快2分鍾獲取數據,常規源站平均10分鍾獲取數據。利用對等計算框架、多租戶隔離方案、多站點下載動態均衡技術、智能反爬策略動態調整等技術手段,結合上千台服務器的爬蟲能力,采集模塊可以保障數據在不被屏蔽的情況下及時快速獲取。

信息覆蓋全麵

通過自建爬蟲、神馬搜索引擎接口、微博推送以及其他關聯方的數據應用接口,可以對全網公開發布數據進行采集(千萬源站,每日更新約20億網頁),覆蓋各類網站、論壇、自媒體等。

特殊站點可直接在公眾趨勢分析中提交需求訂製,後台審核後將自動完成網頁的監控功能,保障信息渠道的全麵覆蓋。

算法精準高效

通過強大的機器學習算法、NLP自然語言處理算法、文本處理的協同處理,通過用戶參與模型訓練或者社會化標提供的數據語料,公眾趨勢分析已經實現以下指標:

  • 實時聚類最短在10ms即可一條信息與百萬級數據匹配。實時聚類抽樣準確率和離線聚類的準確率均在95%以上。
  • 情感分析的交叉驗證準確率在90%以上。
  • 分類算法正確率在1千條語料/分類的情況下,交叉判定準確率可達到98%以上。
  • 智能過濾算法在基於1萬條語料的前提下,準確率可達到80%以上。該算法可保障用戶隻看到希望看到的數據,而垃圾、廣告、幹擾信息均可通過智能過濾給排除掉。
  • 正文萃取算法進行百萬新聞文章萃取驗證的準確率可達到98%以上,論壇格式的內容正文萃取的準確率可達到90%以上。

海量信息智能化分析

公眾趨勢分析在文本相似性分析、自動聚類、自動分類和情感分析基礎上,建立多個輿情指標,根據輿情指標和輿情分類的結果綜合研判當前的宏觀輿情態勢。另外,通過各區域輿情對比功能,幫助用戶及時準確地把握宏觀輿情走勢。提供實時信息預警機製,可以將短時間內發生的突發熱點事件以及敏感新聞通過短信、郵件方式通知用戶,同時可以幫助用戶快速製作出關於相關輿情事件的統計簡報。

公眾趨勢分析提供傳播路徑分析、熱點事件分析、情感分析、熱詞雲、標簽分析、智能模版過濾。公眾趨勢分析通過應用ODPS及UDF自定義算法函數,可對輿情數據進行智能化的分析。以情感分析為例,我們以情感數量和全互聯網影響力模型為基礎,情感強弱作加權,附加中性輿情的偏離修正,達到輿情趨勢的準確判斷。例如,某個超級大V賬號的一條微博,可能比10個普通賬號發的10條微博所呈現的情感值更高。

全互聯網影響力評估模型和用戶打標輿情的數據,是為情感分析、智能分析作語料支撐的。用戶對輿情打標簽實質上是參與機器學習的模型訓練,從而對每一條輿情的重要程度/是否有效進行判斷,準確性不斷提高,並且參與模型訓練的過程完全自動化完成的,無需後台幹預。用戶使用時間越長,打標簽的輿情越多,則訓練出來的分析模型越準確。

一站式協同處理

處置功能豐富,包括數據標簽、事件管理、觀點、地點、標記、過濾、備注、自定義屬性等。

數據可整理為簡報資訊,通過PC端、無線端、郵件分享給他人,並且還可以由其他人參與互動,讓所有關心輿情的人隨時隨地一起協同起來。

多語種采集及分析

爬蟲采集能力理論上支持各種語言的抓取,通過在阿裏雲境外節點的部署,可實現對各類境外站點的采集監控。用戶僅需要向後台提交需要監控的站點,遵循當地監管部門的相應法律法規,即可進行采集。

多語種的算法分析方麵,規則引擎、情感分析、聚類分析、熱詞分析、智能分類、智能過濾等功能模塊目前支持19種語言,包括:中文、英語、俄語、法語、日語、韓語、西班牙語,德語、葡萄牙語、荷蘭語、意大利語,阿拉伯語、土耳其語、希伯來語、波蘭語、印地語、印尼語、越南語、泰語。

智能在線翻譯

結合阿裏巴巴集團國際站多年積累的技術成果,公眾趨勢分析可將非英文的文本實時在線翻譯為英文,並提供原始內容和翻譯內容雙向對比查看,從而方便對小語種的監控和分析。

開放API擴展能力

公眾趨勢分析定向開放API數據接口,合作夥伴可深度集成,為客戶量身打造“限量版”。開發者可以通過API數據接口進行:關鍵詞專題配置、關鍵詞配置、接收實時抓取數據、微博傳播路徑分析,後續還可以利用現有數據在BI多維分析產品和可視化產品中做進一步的分析。

公眾趨勢分析的各項功能采用模塊化設計,均可轉換為API方式。根據業務方的實際需求,對應的功能模塊可開放API調用。

點此谘詢顧問

最後更新:2016-11-23 16:04:15

  上一篇:go 直播實時轉寫__阿裏雲ET介紹-阿裏雲
  下一篇:go 智能客服__阿裏雲ET介紹-阿裏雲