115
技術社區[雲棲]
我在Github上的flare-spark項目
Flare-Spark 介紹
我在自己的github上建了個flare-spark項目,本身是Apache Spark項目Master分支的鏡像。在Spark的基礎上,增加了flare子項目。
預計大多數改動都會增量添加到flare子項目裏,盡量不改變Spark本身的代碼。
新增的代碼都會在線下機器上編譯、運行成功之後再提交上來。
對於flare-spark項目的維護和新增邏輯如下圖:

新的代碼在線下編譯測試通過之後,提向develop分支,再以PR的形式merge到master主幹。
同時不定時從Apache Spark 的Master分支merge新的PR,pull的目標是臨時分支,待合進master後再刪除branch。
New Feature
目前的flare項目裏增加了ORCFile的讀取,代碼方麵加入了OrcfileRDD和一個FlareContext。ORCFile可以提供列裁剪和適當的過濾謂詞下推。
目前對於flare-spark項目的暢想,主要在Pig on Spark這個思路上。
有什麼問題和建議可以直接與我聯係,歡迎交流、溝通 :)
全文完 :)
最後更新:2017-04-03 12:56:23