2020-04-02开始

W1:20200402~20200405

学习材料

目标

sql贯穿我的9年java和4年数仓,在不同技术架构下的执行过程是不同的,其中原理也有差异,作为2个领域的专家,必须了解原理和性能调优

  1. 先了解mysql和hive的sql执行过程,即执行计划是怎么来的

    本周先把这个文章写出来

  2. 后续是sql方面的调优,mysql是索引和优化器,hive是mr优化和MapJoin优化器等

感悟

简历与面试

周报:完成进展

W2:20200407~20200412

目标

整理思路,按照各操作相关算法(JOIN/GROUP/DISTINCT等)、SQL历程(其中涉及到解析、优化,就需要关注CBO、RBO的区别)、索引原理等

按这个思路,sql原理就能比较精通,各种优化都能搞

– 其实这个P6程度应该都能搞懂。。。。

感悟

数据治理,包含元数据、数据质量(包含源头治理、质量监控、SLA协议)、数据集市(主题域和业务线、指标定义和层级)

W3:20200413~20200419

学习资料

  1. 美团技术文章-领域模型的实践
  2. 博客-网易flink-林小铂
  3. 分布式ID
  4. 美团技术文章-数据治理平台的建设与实践
  5. spark streaming与flink的比较
  6. flink学习资料大合集
  7. 宝藏-Spark VS Flink 下一代大数据计算引擎之争,谁主浮沉(上)

要求

  1. 熟练掌握Hadoop、Hive、Hbase、zookeeper、kafka等分布式框架;熟悉spark相关环境和工作原理
  2. 精通主流Oracle、mysql、MongoDB、redis、elasticsearch

目标

文章:flink与spark streaming的区别

感悟

维度建模和合理的分层能够解决业务在使用数仓中的遇到的问题吗?

数据治理和数据赋能的关系是啥?

自我介绍

突出每个阶段的重点

  1. 微易:数仓已经搭建完成,围绕埋点展开的,流量分析(spark)-> 画像(主题域的构建)-> 实时(flink)
  2. 政采云:0-1的搭建数仓,数仓分层分主题
  3. 大搜车:数据治理

W4:20200420~20200424

方向

背面试题!背面试题!背面试题!

Hadoop、Hive、Spark、Flink、Zookeeper、分布式

面试题

  1. Hadoop面试题
  2. Flink面试题1
  3. Flink面试题2
  4. 王知无

W5:20200426~20200430

学习资料

  1. 实时流处理系统反压机制 - 综述
  2. Flink如何优雅解决反压,涉及内存管理

W6:20200506~20200509

学习资料

  1. kafka常见面试题
  2. Flink 的2个使用场景,实时用户订单标签、用户页面复杂事件
  3. AssignerWithPeriodicWatermarks周期性地分配timestamp和生成watermark(可能依赖于元素或者纯粹基于处理时间)。watermark产生的事件间隔(每n毫秒)是通过ExecutionConfig.setAutoWatermarkInterval(...)来定义的,每当分配器的getCurrentWatermark()方法呗调用时,如果返回的watermark是非空并且大于上一个watermark的话,一个新的watermark将会被发射。 参考文章
  4. [flink的反压定位和解决<数据倾斜或应用性能问题>](https://juejin.im/post/5ddf8ca5f265da05ed0e2214)
  5. flink 面试助攻指南
  6. 2个博客: 云邪,林小铂
  7. 两阶段提交(2PC)及其在Flink Exactly-once中的应用

目标:本周看完面试助攻指南的问题

分布式

技术上主要是技术的深度与广度,分布式系统的稳定性(如,服务注册发现,限流,熔断,幂等,核对)。 知道中间件的原理,选型理由等

开发高并发系统时,有三把利器用来保护系统 :缓存、限流、降级

限流

https://juejin.im/post/5b3a25e46fb9a024fc284de4

限流算法:

  1. 固定窗口计数器

  2. 滑动窗口计数器

  3. 漏桶

  4. 令牌桶

第一阶段:团队单兵作战,每个人对接自己的业务,比如对接线索就无法从用户域的角度来组织数据

第二阶段:剥离应用支持团队和数仓建模团队,应用支持团队承接大量ETL任务,数仓建模团队从0到1开始搭建数仓,从物理模型和业务逻辑出发来构建星型模型

第三阶段:基于新模型

Java 线上问题排查

https://mp.weixin.qq.com/s/sGPqeAIO4JLdvLj_rtumlQ

体系化+可操作

W8:20200518~20200522

  1. 利用LineageLogger分析hive的字段血缘

  2. Apache 顶级项目atlas ,Hadoop集群管理工具ambari

  3. 数仓失败的6个原因

好好回顾了下。。其实那一年蚂蚁二面不过的那次,是我职业转型的上升期,如果对目标更明确一些我会准备的更充分点。。 这两年落入了数仓的迷惘期。。。浪费了时间。。

SQL on Hadoop使用到的技术

Shell 脚本获取进程pid的方法并杀掉

ps -ef | grep ods_m_disp_data | grep -v grep | awk '{print $2}' | xargs kill -9

git原理