開源大數據周刊-第60期
資訊
-
Spark 2.2.0 持續了半年的開發,近期發布了2.2.0版本,此版本是 2.x 版本線的第三個版本。在這個版本 Structured Streaming 的實驗性標記(experimental tag)已經被移除,這也意味著後麵的 2.2.x 之後就可以放心在線上使用了。除此之外,這個版本的主要集中點是係統的可用性和穩定性。關於 Apache Spark 2.2.0 的詳細新功能介紹請參見文章
-
網絡安全法正式實施前後,像一場寒流,席卷了整個大數據行業:數據接口公司可能會被直接關門,大數據營銷公司在法律上也出現了一些障礙。數據行業進入整肅期,而新的規則大家都沒頭緒,數據管理和數據交易方式都有待理順。
-
提到大數據可能有些令人生畏。在了解一定基本概念的基礎上,掌握其中一些關鍵術語也是至關重要的。本文介紹了25個基本的大數據術語,包括算法、分析、批量處理、內存計算、數據湖、Spark、Hadoop等。
技術
-
Spark Streaming是一套優秀的實時計算框架。其良好的可擴展性、高吞吐量以及容錯機製能夠滿足我們很多的場景應用。本篇結合作者的應用場景,介結了在使用Spark Streaming方麵的技術架構,並著重講解Spark Streaming兩種計算模型:無狀態和狀態計算模型以及該兩種模型的注意事項。接著介紹了Spark Streaming在監控方麵所做的一些事情,最後總結了Spark Streaming的優缺點。
-
本文主要從架構和業務的角度介紹下攜程信息安全團隊的數據平台建設之路,以及如何為業務和風控提供支持的。從早期以RabbitMQ和MySQL為核心的1.0架構到2.0架構的演進過程中,引入了Spark、Storm、Presto和Kafka等組件,並從數據采集、計算和任務調度等幾個方麵闡述了平台的痛點和解決方案。
-
微博廣告Hubble係統:秒級大規模分布式智能監控平台架構實踐
Hubble平台定位為微博廣告智能全景監控、數據透視和商業洞察係統,Hubble利用HDFS、Kafka、Spark等開源技術,提供了從機器、應用和業務等多個維度的監控到趨勢預測等智能化的功能,幫助廣告係統發現數據後麵最本質的東西。本文介紹了Hubble係統的設計原理及在智能全景監控實踐中的一些思考。
-
更新操作係統以及應用安全補丁或修補程序等係統維護操作是任何數據中心的常規操作。需要開展這種維護操作的Hadoop存儲節點DataNodes可能會脫機工作幾分鍾到幾個小時。按照Hadoop之前的設計HDFS可以處理DataNodes停止或下線。但是,同時在多個DataNode上進行任何非協同維護操作可能會導致臨時性的數據可用性問題。在Hadoop新版中,將會引入一個HDFS維護狀態,旨在克服滾動升級和下線功能存在的缺點,可以避免數據塊的不必要複製,並使計劃性維護活動更加無縫地進行
歡迎入群技術交流!
雲HBase微信交流群請加:g418615
版權聲明:信息都是來自互聯網,如果侵權,請聯係我們,我們負責刪除。
阿裏雲E-Mapreduce團隊出品
最後更新:2017-07-13 17:03:00