数仓分享
如果无法正常显示,请先停止浏览器的去广告插件。
1. 2020
主题:数仓分享
时间:2020.03.14 21:00
2. 《木东居士》
⼀一个专注数据科学的公众号,分享数据相关的技术⼲干货、思考感悟和⼯工作经验
⽊木东居⼠士不不属于任何培训机构,分享嘉宾均是各个岗位上的资深⼯工程师,我们将不不定期
在公众号推送相关分享内容,你可以通过扫描如下⼆二维码关注我们,快来加⼊入我们吧!
3. 分享内容
技能⼲干货:
1、主题域的划分规则
2、数据集市与主题域如何衔接
3、数据治理理之数据标准化
4、数据中台之我⻅见
5、实时数仓是个什什么⻤鬼
6、传统数仓与互联⽹网数仓异同
参加⽅方式:
1. 添加好友
2. 通过后发送直播两个字
职业发展:
1、数据仓库的困境:善战者⽆无赫赫战功
2、除了了技术我⼀一⽆无所有
彩蛋:
1、SQLBoy的⾃自我救赎
01
4. 话题收集
02
5. 往期回顾
B站地址:https://www.bilibili.com/video/av63753220?from=search&seid=13345324830736133633
03
6. 技能⼲干货1:主题域的划分规则
主题域:将业务过程或者维度进⾏行行抽象的集合
特点:⾯面向分析、业务抽象的、通⽤用的、⻓长期维护
04
7. 技能⼲干货1:主题域的划分规则
05
8. 技能⼲干货2:数据集市与主题域如何衔接
06
9. 技能⼲干货2:数据集市与主题域如何衔接
数据集市的典型特征:跨业务场景(多主题混合)
07
10. 技能⼲干货3:数据治理理之数据标准化
08
11. 技能⼲干货3:数据治理理之数据标准化
09
12. 技能⼲干货3:数据治理理之数据标准化
标准化的程度:取决于你的业务复杂度、机器器资源、⼈人⼒力力资源,是需要综合考虑的
10
13. 技能⼲干货4:数据中台之我⻅见
摘录:数据中台是⼀一套可持续”让企业的数据⽤用起来“的机制,是⼀一种战略略选择和组织形式,是依据企业
特有的业务模式和组织架构,通过有形的产品和实施⽅方法论⽀支撑,构建的⼀一套持续不不断把数据变成资产
并服务于业务的机制。数据来源于业务,并反哺业务,不不断循环迭代,实现数据可⻅见、可⽤用、可运营。
数据中台:
组织+数据+服务+⽅方法论
数据仓库与数据中台:
数据仓库是中台的⼀一部分
11
14. 技能⼲干货5:实时数仓是个什什么⻤鬼
Data Source:数据源
Data Storage:数据存储
Real-time message ingestion:实时消息接收通道
Batch Processing:批处理理
Stream Processing:流处理理
Orchestration:调度
Analytical data store :分析数据存储
Analytics and reporting :分析与报告
12
15. 批处理理
数据存储:⼀一般主要分为两种,⽇日志和表,⽇日志主要是指⽤用户接⼝口⽇日志,⽤用户访问⽇日志,表主要是指业务库表,这
些业务库可能是关系型数据库如Mysql/Oracle/MSSQL,也可能是⾮非关系型数据如MongoDB/Redis/Hbase等
批处理理:主要使⽤用Hadoop Hive、Pig、Spark SQL等进⾏行行处理理
分析数据存储:⼀一般可以存在Hive表中,或者关系型和⾮非关系型数据库中
13
16. 流处理理
消息接收通道:⼀一般主要为各类型的IOT通道、Kafka等
流处理理:⽬目前主流的开源解决⽅方案是Storm、Spark Streaming、Flink等
分析数据存储:⼀一般存储在HBase上,也可以存在Hive上
14
17. 技能⼲干货6:传统数仓与互联⽹网数仓异同
传统数仓 互联⽹网数仓
理理论体系 范式+维度 维度
典型⾏行行业 电信、⾦金金融 电商、社交、出⾏行行、团购、搜索
技术栈 商⽤用数据库 开源社区Hadoop、Spark、Flink
数据类型 结构化 结构化+⾮非结构化
准确性 ⾼高 较⾼高
场景 经分/结算/⻛风控 经分/数分/推荐/画像/挖掘
需求迭代 ⽐比较规范 临时需求多,迭代速度快
加班 相对合理理 ⾮非常⾮非常⾮非常多
15
18. 职业发展1:数据仓库的困境,善战者⽆无赫赫战功
《孙⼦子兵法·⾏行行篇》:古之所谓善战者,胜于易易胜者也。故善战者之胜也, ⽆无奇胜,⽆无智名,⽆无勇功。
故其战胜不不忒,不不忒者,其所措必胜,胜已败者也。故善战者,⽴立于不不败之地,⽽而不不失敌之败也。
常⻅见的牢骚:
1、⽆无穷⽆无尽的临时需求,沦为取数⼯工具
2、没有含⾦金金量量,技术不不如算法,业务不不如分析
3、⽆无法衡量量产出
4、存在感低
5、向上突破难
16
19. 职业发展2:除了了技术我⼀一⽆无所有
17
20. 职业发展2:除了了技术我⼀一⽆无所有
费曼学习法:
1、确定学习⽬目标
2、模拟教学
3、回顾
4、简化
18
21. 彩蛋:SQLBoy的⾃自我救赎-视频号流量量扶持计划
我们希望每个⼈人都能有⾃自⼰己的品牌(IP),在打造品牌的过程中,懂得如何做运营,如何打磨内容,如何交流,
如何做社群维护,如何提升个⼈人形象,你不不⽌止会技术,其实你还可以做更更多。
19
22. THANK YOU FOR YOUR GUIDANCE.
谢谢