開源大數據周刊-第52期
阿裏雲E-Mapreduce動態
- E-MapReduce調度功能添加重試機製 ## 資訊
-
重磅|MapD宣布開源:在多GPU服務器上二次查詢數十億條記錄的核心數據庫和代
全球人工智能:專注為AI開發者提供全球最新AI技術動態和社群交流。用戶來源包括:北大、清華、中科院、複旦、麻省理工、卡內基梅隆、斯坦福、哈佛、牛津、劍橋等世界名校的AI技術碩士、博士和教授;以及穀歌、騰訊、百度、臉譜、微軟、華為、阿裏、海康威視、滴滴、英偉達等全球名企的AI開發者和AI科學家。
-
實時離線融合在唯品會的進展:在實時技術、數據、業務中尋找平衡
本文根據薑偉華博士在數果智能新產品發布會“智能時代大數據實時分析技術 DaTalk”上的演講整理而來。
-
機器學習是人工智能(AI)的精髓。雖然這個概念已經可存在五十多年了,但是,最近才開始應用於工業。根據麥肯錫全球研究所(MGI)的報告,在德國,62%的工作崗位已經有至少30%的工作實現了自動化,與美國的水平相當。基於自然語言處理或視覺對象識別等等技術的AI實現這種自動化的核心推動者。
技術
-
利用yarn capacity scheduler在EMR集群上實現大集群的多租戶的集群資源隔離和quota限製
本文結合EMR集群,講述了如何利用yarn capacity scheduler在EMR集群上實現大集群的多租戶的集群資源quota限製與管控。
-
還記得筆者在上篇文章無意中挖的一個坑麼?如若不知,強烈建議看官先行閱讀前麵兩文-《SparkSQL – 有必要坐下來聊聊Join》和《BigData – Join中竟然也有謂詞下推!?》。第一篇文章主要分析了大數據領域Join的三種基礎算法以及各自的適用場景,第二篇文章在第一篇的基礎上進一步深入,討論了Join基礎算法的一種優化方案 – Runtime Filter,文章最後還引申地聊了聊謂詞下推技術。同時,在第二篇文章開頭,筆者引出了兩個問題,SQL執行引擎如何知曉參與Join的兩波數據集大小?衡量兩波數據集大小的是物理大小還是紀錄多少抑或兩者都有?這關係到SQL解析器如何正確選擇Join算法的問題。好了,這些就是這篇文章要為大家帶來的議題-基於代價優化(Cost-Based Optimization,簡稱CBO)。
-
使用CombineFileInputFormat來優化Hadoop小文件
我們都知道,HDFS設計是用來存儲海量數據的,特別適合存儲TB、PB量級別的數據。但是隨著時間的推移,HDFS上可能會存在大量的小文件,這裏說的小文件指的是文件大小遠遠小於一個HDFS塊(128MB)的大小;HDFS上存在大量的小文件至少會產生以下影響:消耗NameNode大量的內存延長MapReduce作業的總運行時間。
無監督學習是深度學習的聖杯。它的目的是希望能夠用極少量且不需要標注的數據訓練通用係統。本文將從無監督學習的基本概念開始再進一步簡述無監督學習的各個基礎算法及其優缺點。本文作者為專注機器人與視覺研究的 e-Lab 的研究者 Eugenio Culurciello。
歡迎加入阿裏雲開源大數據交流釘釘群
版權聲明
信息都是來自互聯網,都給出了原文的鏈接,如果侵權,請聯係我們,我們負責刪除。
最後更新:2017-05-12 02:57:18