阅读115 返回首页    go 阿里云 go 技术社区[云栖]


我在Github上的flare-spark项目

Flare-Spark 介绍

我在自己的github上建了个flare-spark项目,本身是Apache Spark项目Master分支的镜像。在Spark的基础上,增加了flare子项目。

预计大多数改动都会增量添加到flare子项目里,尽量不改变Spark本身的代码。

新增的代码都会在线下机器上编译、运行成功之后再提交上来。

对于flare-spark项目的维护和新增逻辑如下图:

新的代码在线下编译测试通过之后,提向develop分支,再以PR的形式merge到master主干。
同时不定时从Apache Spark 的Master分支merge新的PR,pull的目标是临时分支,待合进master后再删除branch。


New Feature

目前的flare项目里增加了ORCFile的读取,代码方面加入了OrcfileRDD和一个FlareContext。ORCFile可以提供列裁剪和适当的过滤谓词下推。

目前对于flare-spark项目的畅想,主要在Pig on Spark这个思路上。

有什么问题和建议可以直接与我联系,欢迎交流、沟通  :)


全文完  :)

最后更新:2017-04-03 12:56:23

  上一篇:go Memcached缓存大数据时对服务器内存、CPU的影响及其对硬件的配置需求
  下一篇:go c++学习笔记之类模板中的友元声明