规划
领域建模的方式设计一个数据中台
系统三要件:要素、关联、目标
数据中台的资源
原始资源
系统平台(菜单、页面、按钮)
角色(资源的管理员、资源的使用方)
用户(角色、资源的管理员、资源的使用方)
集群资源(CPU、内存、磁盘、时间片、队列)
数据(库、表、字段)
派生资源
质量监控(集群、任务、数据、模型)
调度任务(集群资源、数据、用户、执行实例、代码、)
模型(表、关联、指标)
生命周期(数据、任务)
数据中台的系统
资源系统 - 参考atlas类型系统
申报接口
- 项目,原始资源(必选)的组合
授权接口
- 角色授权
- 用户授权
鉴权接口
- 角色鉴权
- 用户鉴权,算法就是路径可达
任务系统 - 定义任务
调度系统
血缘hook
质量hook
资源hook
执行系统 - 执行调度,协调集群资源
参数解析器
执行器 - 从任务系统输入、从即席查询输入
元数据系统 - 定义数据
采集子系统
血缘子系统
质量子系统
计费系统 - 定义计费规则
申报 - 计费项(执行实例、 获取yarn资源信息)
建模系统 - 目标是指标
血缘子系统
质量子系统
元数据与模型的边界问题
- 认为模型对应表,定义模型就是定义表。此认知导致的问题是建模系统必须基于元数据系统构建
- 元数据质量与模型质量存在重叠的部分