大數據相關總結(待續)
“區塊鏈”、文本分析、hadoop、lucence
文本分析是說詞性分形,
分詞應該是搜索引擎中的分詞器 比如現在最常用的是ik 原來的是庖丁
需要做分詞索引:
eg:你幹嘛呢
你 , 幹嘛,呢
分析詞性和詞義還有詞頻,分詞一般就是中文麻煩點,英文簡單
lxh:
通過海量數據計算分析 可以提取出有用的數據關係模型 這些數據關係模型可以做推薦 可以計算用戶行為 可以做人物或者城市畫像等等
eg1:
拿到北京200w浮動車數據點 計算到北京的所有的道路網絡上 計算出每條道路的擁堵程度 車速 通行時間
eg2:
在電信做的工作就是拿到電信收集到的全國2e人的信令數據 計算分析 算出每個人工作在那裏 每天幾天上下班 加班多不多 下周二可能出現在那裏 平時喜歡做什麼 再比如每天地鐵站幾點開始擁堵 需要限流排隊 某個景點在每年的什麼時候出現高峰 高峰值大概什麼樣 預測規劃這樣的。
最後更新:2017-11-02 11:03:45