開源大數據周刊-第53期
阿裏雲E-Mapreduce動態
- 雲HBase支持超過300g的容量,請提工單申請
- 雲HBase支持phoenix,phoenix支持海量數據的實時分析
資訊
雲計算大會召開-阿裏巴巴技術專家宋軍帶來關於Spark的分享 雲計算技術大會在北京召開,阿裏巴巴技術專家宋軍分享了題為《SparkSQL在ETL中的應用》的演講。宋軍表示,ETL主要有三個步驟:抽取、轉換、加載。首先讀取數據源,做清洗加工,整合處理,最終把這些數據存儲到目標存儲裏,對ETL要求滿足簡單易用、支持多種數據源、支持容錯處理、豐富的算子、複雜數據類型、計算快等多個因素。如何實現以上目標,宋軍從DataSource、豐富的算子 、Hive兼容、性能、雲上ETL 五個方麵作出解讀。
穀歌 HBaseCon West 2017 大數據研討會開幕在即,搞 Apache HBase 的開發者不可錯過 Apache HBase 是基於 Hadoop 框架和穀歌 Bigtable 技術建立起來的一款分布式、可拓展的開源數據庫實現。穀歌在博客中表示,得益於阿裏巴巴、蘋果、Facebook 和 Visa 等企業用戶的大力支持,目前 HBase 開源社區已經取得了顯著的發展,並正在建立起一套完善的大數據“生態係統”,其中的關鍵組件包括:Apache Phoenix、OpenTSDB、Apache Trafodion 以及 Apache Kylin 等。
技術
- HBase Phoenix助力海量數據實時分析phoenix滿足海量數據實時分析需求,通過建立索引在海量數據上查詢少量數據,並且基本實時返回; 支持做一些複雜的SQL操作,包括join,sub-query等;不適合於ETL,比如10T數據變為10T的數據。
- 構建VPN滿足雲下開發環境訪問雲HBase數據庫 當前雲HBase正在公測中,不少客戶在使用,在使用的過程中,一般開發同學在自己的電腦研發,需要在自己的電腦連接雲HBase服務,對於性能等需求要求不高。本文主要講述怎麼通過VPN、VPC等方式構建一個測試環境,以滿足開發的需求。
- HBase在阿裏搜索中的應用實踐 HBase作為淘寶全網索引構建以及在線機器學習平台的核心存儲係統,是阿裏搜索基礎架構的重要組成部分。本文我們將介紹HBase在阿裏搜索的曆史、規模,應用的場景以及在實際應用當中遇到的問題和優化。
- 開源大數據查詢分析引擎現狀 本文將會對Hive、Impala、Shark、Stinger和Presto這五類主流的開源大數據查詢分析引擎進行簡要介紹以及性能比較,最後進 行總結與展望。Hive、Impala、Shark、Stinger和Presto的進化圖譜如圖1所示。姑且一看。
- Kudu:一個融合低延遲寫入和高性能分析的存儲係統 Kudu 是一個基於 Raft 的分布式存儲係統,它致力於融合低延遲寫入和高性能分析這兩種場景,並且能很好的嵌入到 Hadoop 生態係統裏麵,跟其他係統譬如 Cloudera Impala,Apache Spark 等對接。
歡迎加入阿裏雲開源大數據交流釘釘群
- Hadoop交流群
- HBase交流群
版權聲明
信息都是來自互聯網,都給出了原文的鏈接,如果侵權,請聯係我們,我們負責刪除。
最後更新:2017-05-22 10:03:28