阅读870 返回首页    go 阿里云 go 技术社区[云栖]


利用MaxCompute建立数据仓库的超强实战手册

       小源科技成立于2011年,是一家专注移动互联网领域的产品研发和运营的创业公司,我们秉承“点滴源泉,无际蓝海”的公司经营理念,坚信融入用户才能发现需求,专注一点才能做到极致,快速前进才能永葆领先,为用户所想才能实现价值。小源科技是智能短信概念的提出者和先行者,也是国内最大的情景短信平台运营商。目前包括三星及国内大部分知名手机厂商均采用了小源科技的信析宝智能短信SDK整体解决方案。公司团队主要成员来自金山、多玩、QUEST等国内外一流IT企业,拥有5-10年的丰富从业经验,擅长产品策划设计,安卓苹果服务端的跨平台开发,互联网运营和营销推广,数据挖掘和分析。

数据来源于SDK,因业务是2015年摸索的主营智能短信SDK;在2016年3月由来自阿里巴巴的某位大神作为部门总监成立数据部门,心中留着对阿里的满满滴爱,毫无保留的直接使用阿里云产品

话说,有些神奇的词比如:愿景,目标,战略,规划,方案,架构,接口,数据模型这些关键字会在所有公司各层次的人员之间;一个事情嘛得上级认可,下属认同,然后开展起来就更容易水到渠成。老板经常会问我你规划怎么做?有什么方案? 数据仓库的建设单单是一门技术,更是一门管理科学;三分技术,七分业务,十二分的管理 然后就有了下面的做事情前的规划:
6d9aff9b7ce2e73f2cb0cb2ac8df507cd9bbf86c


f7942c6e00db8c03c783503c8333ac50ba177ff8
数据现状:必须对数据现状有个大致的了解,好评估每日要处理多大的量以及按正常业务正常1-3年的数据处理量达到什么规模。
edcd42ac36ba854f30300447f4cf82bd67abe3f4
面临的问题:把数据和技术上的有的坑尽量找出,描述一下数据在技术上的难题;原有的数据是在hdfs上的一个文件,没有保留结构化的中间结果 导致数据使用的难度大大增加;数据结构是json规范 每个业务的json差异比较大有数据组json以及字段之间还有相关规则
a442997d9051cf3aa192cf68e164524d37a6b581

做一件大事得有规划,有方法论指导;因为领导指名点姓使用阿里云,因此完善自建平台的plan B就一字不提了
e7e7b2f16dd18e2f70e796ae26ee93f0d0aaad6c
常言道做大事要有对的人和对的方法,没有个方法论指导数据平台的建设就是耍流氓
9c9b4be7287b7eb0ce424ec00eafb4fd167a87a7
建楼房得有规划设计图好对项目有全局观,数据平台也少不了;因此做逻辑规划
25f78fa0bfed4c756b3dd86f9a5ad7f0704ebf79

数据逻辑分层:逻辑分层便于数据管理以及针对不用终端用户,体现在表前缀或者数据库的用户/数据库的物理隔离

Ods层:Operational Data Store 带日期或者增加stg层存储接口数据,与业务系统一致的结构和数据格式  数据处理完成释放,初步存放策略:接口数据不作保留拆分成功后清理

DW层: data warehouse ,以数据信息为基于 梳理企业的信息模型 保留细节数据 轻度汇总,累计去重用户保存在此层级 dw层轻度汇总 天数据保存1个月+当前月 累计按周 按月存放(分区为周一,月初1)

DmDataMart 它和需求息息相关多维模型层次,各类报表,对外使用数据  :永久保留

Dim:永久保存

 

 

245b2f42dd0953cf7c2259fd5af6c2fdc9abdffb
odps中落地实现的最终效果:任务管理通过逻辑分层-》主题-》具体的主题任务(以表名的形态存在)
7522743be60c828b9f2dbe235bd37e1941cd3d2f

对数据的流程以及与上下游系统之间的描述,实时数据采集实际实践中采用阿里云的日志服务结合Logtail获取日志文件的最新追加的内容并写入日主服务中,由日志服务间隔半小时投递到ODPS的ods层的数据表
bb311bf95ec4daa1d10992088928346317a12767
采用odps的数据同步底层实际是datax,将源系统数据按原数据格式导入odps表的当天分区(默认保留7天),便于数据的核对和一致性,然后使用sql任务将ods表整合转存到dw保存全量和清洗空置,保留历史快照等ETL操作
4423406764860acbb14129db4a267e63d528c645
模型规划需要有高度的概念描述公司经营业务过程中参与的主要的实体以及实体之间的关系;便于对公司业务的信息进行完整的梳理来支撑完整的数据仓库建模以及保证跨系统之间的一致性
03c01a9c78dca3f3ffb9229a5d37aa305d68daa6
结合业务需求以及公司业务信息为基础覆盖所有数据和现在阶段关键业绩指标的主题域模型,
1df9d963a06e24cc1ebc93635d42745201ccf5b0
规划是那么的重要,数据接入往往是分阶段完成的;经过前面的几个步骤对数据之间的关系有大体的能较清晰的了解依赖的数据源并制定相对应的系统调研计划深入了解
某个系统数据接入的方式(增加量条件或者全量,无备库数据的数据接入的时间)

c76a9fa478c18f2689799e2970fdffbe538d0da2
实现数据的可视化不仅让数据变得通俗易懂,还能更加直接的传递所表达的信息。在生活中,常遇到的数据一般都是具有标识系统的,这种标识系统不仅仅是方向性的,还有文字性的。如街头上的指路标志,不仅让你更加直观的获取信息,还能为了解决实际的需要。


1be75f89da1338cb19d3747cd559480249a1714c
使用BI报表中自带的数据产品一周内建立整个美观强大的经营分析系统,最终效果如下图所示
ebb471e2a5bf5becc295013a58d7c1ef06179a72
大部分数据分析师常用的技能是excel的透视图表,因此QuickBI报表的透视图表提供了一个web端的数据分析能力,只需要对数据集进行可视化拖拉操作即可完成数据的OLAP操作
1383552de98cd4facdac8db0862059b65c5fc0f1
 
 
 

最后更新:2017-06-14 14:02:12

  上一篇:go  交通大数据的发展现状与应用难点解决方案分析
  下一篇:go  1岁啦!看.STORE域名成了哪些行业的奶酪?