阅读551 返回首页    go 阿里云 go 技术社区[云栖]


大数据相关总结(待续)

“区块链”、文本分析、hadoop、lucence


文本分析是说词性分形,
分词应该是搜索引擎中的分词器  比如现在最常用的是ik  原来的是庖丁

需要做分词索引:
eg:你干嘛呢  
你 , 干嘛,呢

分析词性和词义还有词频,分词一般就是中文麻烦点,英文简单

lxh:
通过海量数据计算分析  可以提取出有用的数据关系模型  这些数据关系模型可以做推荐  可以计算用户行为  可以做人物或者城市画像等等
eg1:
 拿到北京200w浮动车数据点  计算到北京的所有的道路网络上  计算出每条道路的拥堵程度  车速  通行时间
eg2:
在电信做的工作就是拿到电信收集到的全国2e人的信令数据 计算分析  算出每个人工作在那里  每天几天上下班  加班多不多  下周二可能出现在那里 平时喜欢做什么  再比如每天地铁站几点开始拥堵  需要限流排队  某个景点在每年的什么时候出现高峰  高峰值大概什么样  预测规划这样的。

最后更新:2017-11-02 11:03:45

  上一篇:go  谈谈Python协程技术的演进
  下一篇:go  数据库的范式总结(待续)