681
魔獸
公眾趨勢預測__阿裏雲ET介紹-阿裏雲
互聯網是觸達用戶、感知公眾態勢的最有效方式。通過公眾趨勢分析,業務方可以第一時間傾聽用戶心聲,對正/負麵消息快速響應,並通過預判用戶群體對品牌和競品的喜好傾向,指導產品和服務的改進升級。
應用場景
- 政務機關:踐行網上群眾路線,廣開言路,凝聚共識,提升服務效率和口碑。
- 傳媒行業:發現事件熱點,梳理傳播脈絡,跟蹤欄目受眾的喜好傾向,鑒別新聞炒作。
- 金融行業:商貸行業風險評估,P2P金融輿論風險評估,證券多空情緒波動與分析。
- 地產行業:區塊樓盤質量口碑監測,分析潛在業主的喜好傾向,物業服務質量評估。
- 教育行業:關注教育資源供需平衡,校園熱點事件預警,提高教育事業的滿意度。
- 醫療行業:關注醫療資源供需平衡,醫患糾紛預警,提升醫療服務質量。
- 旅遊行業:傾聽遊客反饋,預判旅遊出行趨勢和熱門程度,提升旅遊服務的體驗。
- 企業品牌:分析消費者對品牌的認知和注意力遷移,關注競品分析,塑造品牌口碑。
係統架構
公眾趨勢分析整體業務架構如上圖所示,底層采用成熟的商業化基礎組件,可以彈性調度資源,保障係統穩定運行。
公眾趨勢分析通過分布式爬蟲和神馬搜索引擎,可采集的源站類型多種多樣,包括:新聞門戶、論壇貼吧、博客社區、微博微信、資訊客戶端、RSS聚合、視頻站點等。此外,通過關聯業務方的數據接口,可以進一步整合站點瀏覽統計、資訊評論內容和消費點評內容等。
各類數據源進入公眾趨勢分析之後,經過去重去噪、正文萃取和自然語言處理,可以對輿情內容進行實時聚類分析、情感分析、熱詞提取、相似性分析和智能過濾,並且每一天離線計算全量輿情的聚類統計。
公眾趨勢分析既提供標準化的操作界麵,同時也提供相應的API接口用於擴展性開發,進行個性化定製和業務集成。
技術優勢
快速感知
公眾趨勢分析的采集模塊對於高優先級源站最快2分鍾獲取數據,常規源站平均10分鍾獲取數據。利用對等計算框架、多租戶隔離方案、多站點下載動態均衡技術、智能反爬策略動態調整等技術手段,結合上千台服務器的爬蟲能力,采集模塊可以保障數據在不被屏蔽的情況下及時快速獲取。
信息覆蓋全麵
通過自建爬蟲、神馬搜索引擎接口、微博推送以及其他關聯方的數據應用接口,可以對全網公開發布數據進行采集(千萬源站,每日更新約20億網頁),覆蓋各類網站、論壇、自媒體等。
特殊站點可直接在公眾趨勢分析中提交需求訂製,後台審核後將自動完成網頁的監控功能,保障信息渠道的全麵覆蓋。
算法精準高效
通過強大的機器學習算法、NLP自然語言處理算法、文本處理的協同處理,通過用戶參與模型訓練或者社會化標提供的數據語料,公眾趨勢分析已經實現以下指標:
- 實時聚類最短在10ms即可一條信息與百萬級數據匹配。實時聚類抽樣準確率和離線聚類的準確率均在95%以上。
- 情感分析的交叉驗證準確率在90%以上。
- 分類算法正確率在1千條語料/分類的情況下,交叉判定準確率可達到98%以上。
- 智能過濾算法在基於1萬條語料的前提下,準確率可達到80%以上。該算法可保障用戶隻看到希望看到的數據,而垃圾、廣告、幹擾信息均可通過智能過濾給排除掉。
- 正文萃取算法進行百萬新聞文章萃取驗證的準確率可達到98%以上,論壇格式的內容正文萃取的準確率可達到90%以上。
海量信息智能化分析
公眾趨勢分析在文本相似性分析、自動聚類、自動分類和情感分析基礎上,建立多個輿情指標,根據輿情指標和輿情分類的結果綜合研判當前的宏觀輿情態勢。另外,通過各區域輿情對比功能,幫助用戶及時準確地把握宏觀輿情走勢。提供實時信息預警機製,可以將短時間內發生的突發熱點事件以及敏感新聞通過短信、郵件方式通知用戶,同時可以幫助用戶快速製作出關於相關輿情事件的統計簡報。
公眾趨勢分析提供傳播路徑分析、熱點事件分析、情感分析、熱詞雲、標簽分析、智能模版過濾。公眾趨勢分析通過應用ODPS及UDF自定義算法函數,可對輿情數據進行智能化的分析。以情感分析為例,我們以情感數量和全互聯網影響力模型為基礎,情感強弱作加權,附加中性輿情的偏離修正,達到輿情趨勢的準確判斷。例如,某個超級大V賬號的一條微博,可能比10個普通賬號發的10條微博所呈現的情感值更高。
全互聯網影響力評估模型和用戶打標輿情的數據,是為情感分析、智能分析作語料支撐的。用戶對輿情打標簽實質上是參與機器學習的模型訓練,從而對每一條輿情的重要程度/是否有效進行判斷,準確性不斷提高,並且參與模型訓練的過程完全自動化完成的,無需後台幹預。用戶使用時間越長,打標簽的輿情越多,則訓練出來的分析模型越準確。
一站式協同處理
處置功能豐富,包括數據標簽、事件管理、觀點、地點、標記、過濾、備注、自定義屬性等。
數據可整理為簡報資訊,通過PC端、無線端、郵件分享給他人,並且還可以由其他人參與互動,讓所有關心輿情的人隨時隨地一起協同起來。
多語種采集及分析
爬蟲采集能力理論上支持各種語言的抓取,通過在阿裏雲境外節點的部署,可實現對各類境外站點的采集監控。用戶僅需要向後台提交需要監控的站點,遵循當地監管部門的相應法律法規,即可進行采集。
多語種的算法分析方麵,規則引擎、情感分析、聚類分析、熱詞分析、智能分類、智能過濾等功能模塊目前支持19種語言,包括:中文、英語、俄語、法語、日語、韓語、西班牙語,德語、葡萄牙語、荷蘭語、意大利語,阿拉伯語、土耳其語、希伯來語、波蘭語、印地語、印尼語、越南語、泰語。
智能在線翻譯
結合阿裏巴巴集團國際站多年積累的技術成果,公眾趨勢分析可將非英文的文本實時在線翻譯為英文,並提供原始內容和翻譯內容雙向對比查看,從而方便對小語種的監控和分析。
開放API擴展能力
公眾趨勢分析定向開放API數據接口,合作夥伴可深度集成,為客戶量身打造“限量版”。開發者可以通過API數據接口進行:關鍵詞專題配置、關鍵詞配置、接收實時抓取數據、微博傳播路徑分析,後續還可以利用現有數據在BI多維分析產品和可視化產品中做進一步的分析。
公眾趨勢分析的各項功能采用模塊化設計,均可轉換為API方式。根據業務方的實際需求,對應的功能模塊可開放API調用。
最後更新:2016-11-23 16:04:15
上一篇:
直播實時轉寫__阿裏雲ET介紹-阿裏雲
下一篇:
智能客服__阿裏雲ET介紹-阿裏雲
角色管理__用戶及授權管理_安全指南_大數據計算服務-阿裏雲
查詢可配置的係統參數__其他接口_API_API 網關-阿裏雲
MapReduce 開發手冊__Hadoop_開發人員指南_E-MapReduce-阿裏雲
.NET SDK 環境準備__.NET SDK_TCP 接入(專業)_消息隊列 MQ-阿裏雲
直播截圖__使用手冊_視頻直播-阿裏雲
開發輔助工具(主題)__開發者工具_消息服務-阿裏雲
ALIYUN::RDS::DBInstanceSecurityIps__資源列表_資源編排-阿裏雲
傳統互聯網“雲上”征戰:阿裏雲越過穀歌躋身全球雲計算前三
獲取作業信息__SDK接口說明_Java版SDK_批量計算-阿裏雲
怎樣授權一個子用戶管理兩台指定的ECS實例___雲服務器(ECS)授權問題_授權常見問題_訪問控製-阿裏雲
相關內容
常見錯誤說明__附錄_大數據計算服務-阿裏雲
發送短信接口__API使用手冊_短信服務-阿裏雲
接口文檔__Android_安全組件教程_移動安全-阿裏雲
運營商錯誤碼(聯通)__常見問題_短信服務-阿裏雲
設置短信模板__使用手冊_短信服務-阿裏雲
OSS 權限問題及排查__常見錯誤及排除_最佳實踐_對象存儲 OSS-阿裏雲
消息通知__操作指南_批量計算-阿裏雲
設備端快速接入(MQTT)__快速開始_阿裏雲物聯網套件-阿裏雲
查詢API調用流量數據__API管理相關接口_API_API 網關-阿裏雲
使用STS訪問__JavaScript-SDK_SDK 參考_對象存儲 OSS-阿裏雲