閱讀115 返回首頁    go 技術社區[雲棲]


我在Github上的flare-spark項目

Flare-Spark 介紹

我在自己的github上建了個flare-spark項目,本身是Apache Spark項目Master分支的鏡像。在Spark的基礎上,增加了flare子項目。

預計大多數改動都會增量添加到flare子項目裏,盡量不改變Spark本身的代碼。

新增的代碼都會在線下機器上編譯、運行成功之後再提交上來。

對於flare-spark項目的維護和新增邏輯如下圖:

新的代碼在線下編譯測試通過之後,提向develop分支,再以PR的形式merge到master主幹。
同時不定時從Apache Spark 的Master分支merge新的PR,pull的目標是臨時分支,待合進master後再刪除branch。


New Feature

目前的flare項目裏增加了ORCFile的讀取,代碼方麵加入了OrcfileRDD和一個FlareContext。ORCFile可以提供列裁剪和適當的過濾謂詞下推。

目前對於flare-spark項目的暢想,主要在Pig on Spark這個思路上。

有什麼問題和建議可以直接與我聯係,歡迎交流、溝通  :)


全文完  :)

最後更新:2017-04-03 12:56:23

  上一篇:go Memcached緩存大數據時對服務器內存、CPU的影響及其對硬件的配置需求
  下一篇:go c++學習筆記之類模板中的友元聲明