727 阿里云技术社区[云栖]

开源大数据周刊-第66期

资讯：

Python超过R，成为数据科学和机器学习的最常用语言

近期，数据挖掘资讯网站KDnuggets开展了一项调查，问题是“2016年和2017年，在数据分析、数据科学和机器学习工作中，你使用R、Python、两者都用，还是其他工具?”。2017年Python生态系统已经超越了R，成为数据分析、数据科学和机器学习领域领先的平台，同时也在迅速吸引其他平台的用户。
解读大数据产业：区域集聚发展格局逐步形成

8月24日,中国电子信息产业发展研究院在工业和信息化部信软司指导下发布了《中国大数据产业发展水平评估报告(2017年)》。作为《大数据产业发展规划(2016—2020年)》颁布后的第一个年度大数据产业评估报告,为我国大数据产业健康发展和相关产业管理工作提供了有力支撑。
报告 | 中国大数据应用发展报告精读

近日，中国管理科学学会大数据管理专委会、国务院发展研究中心产业互联网课题组、社会科学文献出版社共同举办的《大数据应用蓝皮书：中国大数据应用发展报告No.1（2017）》发布会在北京举行。本书是国内首本研究大数据应用的蓝皮书。

LinkedIn开源Kafka Cruise Control，旨在使Kafka实现大规模运维自动化！
本文介绍Kafka Cruise Control的开发动机、一般用途和其在LinkedIn的用途、体系结构，以及开发它时面临的一些独特挑战。
重磅开源KSQL：用于Apache Kafka的流数据SQL引擎
Kafka的作者Neha Narkhede在Confluent上发表了一篇博文，介绍了Kafka新引入的KSQL引擎——一个基于流的SQL。推出KSQL是为了降低流式处理的门槛，为处理Kafka数据提供简单而完整的可交互式SQL接口。KSQL目前可以支持多种流式操作，包括聚合（aggregate）、连接（join）、时间窗口（window）、会话（session），等等。
使用KyBot优化Apache Kylin存储
Apache Kylin使用“空间换时间”极大提高了查询效率，但“空间”也并非无限，因此，在保持查询效率不变的前提下，减少存储占用显得尤为重要。本文介绍如何使用KyBot优化存储资源。
HBase原理 – 所有Region切分的细节都在这里了
Region自动切分是HBase能够拥有良好扩张性的最重要因素之一，也必然是所有分布式系统追求无限扩展性的一副良药。这篇文章将会对这些细节进行基本的说明，一方面可以让大家对HBase中Region自动切分有更加深入的理解，另一方面如果想实现类似的功能也可以参考HBase的实现方案。

云HBase微信交流群请加：g418615

阿里云E-Mapreduce团队出品

最后更新：2017-09-01 09:32:55