開源大數據周刊-第56期
阿裏雲E-Mapreduce實踐:
- 使用hadoop restful api實現對集群信息的統計 本文根據hadoop/spark的RESTful API,實現了對集群基本信息的統計功能,包括HDFS文件係統、job情況、資源隊列情況的統計。這些API隻提供了基礎的數據,具體的統計與分析,還需要基於這些基礎數據做一些簡單的開發。
資訊
-
全球因Hadoop服務器配置不當導致的數據泄露或達5120TB
網絡犯罪分子近期開始針對配置不當的 Hadoop Clusters 與 CouchDB 服務器展開攻擊活動。目前全球因Hadoop分布式文件係統(HDFS)配置不當導致的數據泄露或達 5,120 TB。
-
數夢工場7.5億A輪融資 三個維度構建「新型互聯網」
6月8日,數夢工場戰略暨A輪發布會在杭州舉行。數夢工場已獲得來自光大實業資本、阿裏巴巴等機構的7.5億元投資,目前公司估值超過10億美元。
技術
-
比較Apache Hadoop生態係統中不同的文件格式和存儲引擎的性能
這篇文章提出了在Apache Hadoop生態係統中對比一些當前流行的數據格式和可用的存儲引擎的性能:Apache Avro,Apache Parquet,Apache HBase和Apache Kudu空間效率,提取性能,分析掃描以及隨機數據查找等領域。這有助於理解它們中的每一個如何(何時)改善你的大數據工作負載的處理能力。
-
Apache Flink 1.3.0正式發布及其新功能介紹
2017年06月01日兒童節 Apache Flink 社區正式發布了 1.3.0 版本。此版本經曆了四個月的開發,共解決了680個issues。Apache Flink 1.3.0 是 1.x.y 版本線上的第四個主要版本,其 API 和其他 1.x.y 使用 @Public 注釋的API是兼容的。
-
擁有數據不再重要,懂得利用才是王道
大數據時代,手握海量數據已是企業常態。如何充分利用數據並對加以挖掘和利用才是贏在未來的王道。在與數百家企業協作的過程中,英特爾總結了如何通過人工智能、機器學習以及數據挖掘幫助企業通過數據獲得真正回報的最佳實踐。
-
Spark Shuffle過程分析:Map階段處理流程
本文結合具體代碼,詳細分析了Spark Shuffle過程中Map階段處理流程。
歡迎入群技術交流!
雲HBase微信交流群請加:g418615
版權聲明:
信息都是來自互聯網,如果侵權,請聯係我們,我們負責刪除。
阿裏雲E-Mapreduce團隊出品
最後更新:2017-06-09 10:01:41