閱讀727 返回首頁    go 阿裏雲 go 技術社區[雲棲]


開源大數據周刊-第66期

資訊:

  • Python超過R,成為數據科學和機器學習的最常用語言

    近期,數據挖掘資訊網站KDnuggets開展了一項調查,問題是“2016年和2017年,在數據分析、數據科學和機器學習工作中,你使用R、Python、兩者都用,還是其他工具?”。2017年Python生態係統已經超越了R,成為數據分析、數據科學和機器學習領域領先的平台,同時也在迅速吸引其他平台的用戶。

  • 解讀大數據產業:區域集聚發展格局逐步形成

    8月24日,中國電子信息產業發展研究院在工業和信息化部信軟司指導下發布了《中國大數據產業發展水平評估報告(2017年)》。作為《大數據產業發展規劃(2016—2020年)》頒布後的第一個年度大數據產業評估報告,為我國大數據產業健康發展和相關產業管理工作提供了有力支撐。

  • 報告 | 中國大數據應用發展報告精讀

    近日,中國管理科學學會大數據管理專委會、國務院發展研究中心產業互聯網課題組、社會科學文獻出版社共同舉辦的《大數據應用藍皮書:中國大數據應用發展報告No.1(2017)》發布會在北京舉行。本書是國內首本研究大數據應用的藍皮書。

技術

  • LinkedIn開源Kafka Cruise Control,旨在使Kafka實現大規模運維自動化!
    本文介紹Kafka Cruise Control的開發動機、一般用途和其在LinkedIn的用途、體係結構,以及開發它時麵臨的一些獨特挑戰。

  • 重磅開源KSQL:用於Apache Kafka的流數據SQL引擎
    Kafka的作者Neha Narkhede在Confluent上發表了一篇博文,介紹了Kafka新引入的KSQL引擎——一個基於流的SQL。推出KSQL是為了降低流式處理的門檻,為處理Kafka數據提供簡單而完整的可交互式SQL接口。KSQL目前可以支持多種流式操作,包括聚合(aggregate)、連接(join)、時間窗口(window)、會話(session),等等。

  • 使用KyBot優化Apache Kylin存儲
    Apache Kylin使用“空間換時間”極大提高了查詢效率,但“空間”也並非無限,因此,在保持查詢效率不變的前提下,減少存儲占用顯得尤為重要。本文介紹如何使用KyBot優化存儲資源。

  • HBase原理 – 所有Region切分的細節都在這裏了
    Region自動切分是HBase能夠擁有良好擴張性的最重要因素之一,也必然是所有分布式係統追求無限擴展性的一副良藥。這篇文章將會對這些細節進行基本的說明,一方麵可以讓大家對HBase中Region自動切分有更加深入的理解,另一方麵如果想實現類似的功能也可以參考HBase的實現方案。

歡迎入群技術交流!

_HBase_dingding

EMR_dingding

雲HBase微信交流群請加:g418615


版權聲明:信息都是來自互聯網,如果侵權,請聯係我們,我們負責刪除。

阿裏雲E-Mapreduce團隊出品

最後更新:2017-09-01 09:32:55

  上一篇:go  Alluxio 1.4版本的重要新特性介紹
  下一篇:go  你與高薪僅差一本Kotlin