開源大數據周刊-第61期
EMR資訊:
- 在北京舉行的Strata Data 會議上,EMR團隊的木艮進行了《Hadoop遇到雲上對象存儲——實現原理、陷阱和性能優化》的主題分享
- EMR + ECS D1機型的數據高可靠方案進行中,8月底將會正式提供服務。
- EMR團隊將會在Hadoop上進行改造,支持阿裏雲的主子賬號的AK認證訪問Hadoop體係。
資訊
-
全球最頂級大數據盛會Strata Data Conference在北京成功落幕
2017年7月13-15日,全球最頂級大數據會議Strata Data Conference在京成功舉辦。Strata大會由O'Reilly Media和Cloudera聯合舉辦,被《福布斯》雜誌譽為“大數據運動的裏程碑”。
-
今日頭條用了短短5年時間,成為移動端新聞媒體的獨角獸,2016年末,完成10億美金D輪融資,估值近110億美元,成功擠入互聯網第二梯隊。如一句老話所說,世上沒有平白無故的成功,當了解了今日頭條如何打磨產品功能和交互設計後,筆者發現其成功是必然的,也是有跡可循的,這一切都源於自上而下的數據化思維。
-
本文對Hive、Impala、Shark、Stinger和Presto這五類主流的開源大數據查詢分析引擎進行簡要介紹以及性能比較,最後進 行總結與展望。
技術
-
同程旅遊 (LY.COM) 是一家專業的一站式旅遊預訂平台,提供近萬家景點門票、特價機票、出國旅遊、周邊遊、自駕遊及酒店預訂服務 ; 專業旅遊線路服務。全年公司服務人次超過 3 億。目前同程旅遊各個業務線,如:國內國際酒店,機票,火車票,會員,商業智能,分析等等都使用實時計算平台來構建實時類係統。
-
有讚使用storm已經有將近3年時間,穩定支撐著實時統計、數據同步、對賬、監控、風控等業務。訂單實時統計是其中一個典型的業務,對數據準確性、性能等方麵都有較高要求,也是上線時間最久的一個實時計算應用。通過訂單實時統計,描述使用storm時,遇到的準確性、性能、可靠性等方麵的問題。
-
Spark SQL中Join常用的幾種實現&version=12020810&nettype=WIFI&fontScale=100&pass_ticket=V8IOnv6s5CmLzg3%2BLufsCk7Nvuv9U4kPvGi8f5g0mzt%2BRne04RxdIpCXJZjtLgQC)
Join是SQL語句中的常用操作,良好的表結構能夠將數據分散在不同的表中,使其符合某種範式,減少表冗餘、更新容錯等。而建立表和表之間關係的最佳方式就是Join操作。
SparkSQL作為大數據領域的SQL實現,自然也對Join操作做了不少優化,今天主要看一下在SparkSQL中對於Join,常見的3種實現。 -
Yarn在Hadoop的生態係統中擔任了資源管理和任務調度的角色。在討論其構造器之前先簡單了解一下Yarn的架構。
歡迎入群技術交流!
雲HBase微信交流群請加:g418615
版權聲明:信息都是來自互聯網,如果侵權,請聯係我們,我們負責刪除。
阿裏雲E-Mapreduce團隊出品
最後更新:2017-07-21 17:32:26