数仓治理的理念与部门不一致
我的治理方案:
- 休克疗法:先做数据网关,再配合应用生命周期和应用价值
- 缓慢疗法:面向业务线建立集市,逐步将之前的应用迁移到对应的集市,推广使用权和所有权的概念来申明模型表的归属
不考虑应用治理的问题,先做权限和模型治理,但是模型治理同样周期很长,2个Q产出的内容我实际上无法使用
我个人职业目标
做数据还是大型公司比较合适,才是这个职业真正创造价值的地方。所以希望每段工作经历都能帮助我向这个目标靠近
-
微易,做数据应用的过程当中,我掌握了大部分的相关技能;我感觉急需补充的点是,0到1的搭建数仓
-
政采云,数仓按照我的想法搭建的,我比较满意;随着这个小目标的达成,我搞清楚了中小型数仓是如何搭建的;所以,我想去了解更大规模数仓是如何搭建的。
-
大搜车,我已经想明白大型数仓的架构方式:
- 自下而上,集市->数仓
- 面向主题
一个是我想明白了如何迁移,二个是整个部门对数仓的规划和我的不一致,他们暂时没有考虑应用迁移的问题。
成为数仓方面的专家
数据技术层面的问题,我在微易基本都接触了,
日志采集、数据同步(数据漂移、增量改全量、缓慢变化维)、离线用的hive和spark,用azakan进行调度,实时用到了flink、数据服务(用presto提供数据查询服务)、数据挖掘用到了spark机器学习的包主要是用到kmeans聚类