贝壳找房数据平台演进之路
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2. 贝壳找房数据平台演进之路
3. 自我介绍
2009年
毕业于
西南大学
2011-2013年
文思海辉
2009-2011年
安邦咨询
2017-2018年
滴滴出行
2013-2017年
京东金融
2018.7至今
贝壳
贝壳数据平台的设计
数据产品团队的搭建
4. 贝壳的业务与数据形态
业
务
商机
客
人
房
带看
签约
成交
重线下、低频的交易
数
据
数据类型较多
复杂度
线下化
延迟性
5. 贝壳都有哪些数据用户?
数据分析师
500+人
产品/运营
管理人员
业务人员
4500+ 3000+ 20W+
• 数据提供 • 策略孵化/制定 • 管理抓手 • 业务管理
• 探索分析 • 过程监控 • 决策依据 过程监控
• 报告输出 • 向上汇报 • 目标制定 • • 任务拆解 • 向上汇报
• 述职
6. 贝壳“数据业务”的组织形式
新房
二手
租赁
装修
贝家
城市侧
平台侧
经纪人 店东 圈经
城市总 省总 职能
分析供给
POC
消费层
数据供给
CA
…
业务
策略
产品 运营 管理
研发 算法 业务
分析供给
供给层
数据平台
数据仓库
BI
数据供给
DPM
DRD
7. 不同角色的数据应用场景与问题
用户
u
u
u
u
管理视角 平台、城市
管理层
作业视角 u
Ca/AE
u
店东/经纪人 u
u
产研视角
公司视角
BI/PM/
RD/职能
公司
困扰与问题
数据应用场景
区首、省总、城市总述职
OKR管理
绩效管理
.....
Ca作业数据赋能
城市职能数据赋能
市占率,健康度,门店分级
.....
u 通过数据分析优化迭代产品
u 周期性报告(日、周、月)
u 基于数据进行活动运营效果评估
.....
u
u
u
u
作业过程中是否由数据进行指导
数据资产的价值,(楼盘字典)
数据使用成本
.....
效率、易用、质量、成本为各类视角最突出的四大问题
数
据
使
用 管
理
抓
手
作
业
赋
能
数
据
分
析 系
统
对
接
数据
评估
效率 u 以城市为例,由于不同城市的组织、
人员、业务不同,城市自建数据库,
城市人员加工效率和运维成本更高
易用/
安全 u 根据调研,数据传播90%以上基本是
通过图片以群的形式传播,数据安全
无法保障,数据易用性不足
重复/
质量 u 业务线只能通过大数据获取数据,技
术能力获取较少,不断孵化出多种数
据产品,重复建设,导致数据出口多
成本
u 只有上线,很少下线,重复、无用的
数据量越来越多,计算、存储成本陡
增,数据价值无法精确衡量
8. 要解决的核心问题
提升城市数据使用效率:
城市加工效率
指标一致性、复用率
数据质量成本控制:
存储、计算资源使用率
数据质量提升
9. 解决思路
Setp1:提高用户获
取数据的效率 Setp2:解耦+整合
数据产品体系 线
上 数据查询 数据地图
数据可视化 数据开发
内容组装 数据服务
指标平台 数据治理
服务化 工作空间
基于KYLIN的产品 客户端+记事本
行
级
数
据
权
限
线
下
服务化
表
级
Setp3:提升底层服
务能力,数据资产化
Setp4:运营体系搭建
10. 产品解决方案
管理层\业务
职能\产研
同端
同源
内
容
组
装
驾驶舱
Ca赋能
阿记okr..
数据门户
报表
店东数据赋能..
基于指标、报表为数据源的数据门户配置
研发
表
Hive\mysql
Excel\csv...
数据采集
数据探索..
指标
基于指标为数据源的数据应用配置平台
交互
框架
数据接入
个性化分析
数据应用(app)
指标
分析师
内
容
创
作
分析场景应用
作业场景应用
经管场景应用
数据
配置
发布
应用
数据建模 数据可视化 数据指标 模型 报表 指标 提数
认证 探索
数据服务 数据质量
数据api 规则引擎
Sql建模
数据查询
其他语言
数据开发
数据地图
业务库 离线 数据资产
流量 实时 元数据
服务层:监控、质量、通知、保障服务、工单….
奥丁
生态
配
置
化
模
块
化
11. 原子,衍生+复合,构建指标体系
以往
指标数量8000+
现在
CASE:近7天北京链家带看量
• 重复建设:
CASE:近3天北京链家带看量
指标变更全链路传递
门户
报表 认证 数据
应用
衍生指标 认证 复合指标
CASE:近5天北京链家带看量
• 口径传递:指标口径更新无法得到全链路传递
• 开发周期长:只要是新指标均有开发时长
万级
组合
百级
开发
认证
公共
维度
原子
指标
Durid
基于KYLIN的指标构建
分层查询
Presto
kylin
12. 指标+交互框架5分钟创建数据应用
定义应用
选择交互框架
配置数据源 确定页面逻辑
数据视图
(数据的组织形
式) 视图依照
交互框架
进行配置
底栏式
应用元信息
抽屉式
TAB式
应用用户群体
九宫格
瀑布流
发布
到
奥丁小程
序
指标
….
指标产品
管理驾驶舱CASE:
定义驾驶舱
选择底栏式
选择指标
编辑交互逻辑
发布
13. •
•
•
下午看数据
想看历史要翻群
PDF\PPT漫天
以城市举例
过去
时效性 易用性 安全性
CA 职能 AE
日/周/月报
述职汇报
现在
准确性
CA
城市总..
职能
日/周/月报
作业数据核对
AE
述职汇报
城市总..
作业数据核对
….
业策/POC/职能
A
B
数据平台
C
D
上午8点
即用即拿
安全保障
奥丁数据门户,即用即拿
….
表报
制作
•
•
•
业策/POC/职能
手动
拆分
下载数据
各类数据源下载
加工
底表
本地
库
城市数据加工五个步骤,需每天人工操作
数据权限配置
每
一
天
制
作
一
次
可视化报告
数据建模
数据源接入
EXCEL
HIVE
MYSQL
制作一次,自动执行,且受奥丁服务保障
由散到整,去“数据孤岛”,抓住效率痛点与供给侧产生共鸣,提高供给侧数据建设效率,释放人力,下游体验提升
14. 平台产品对接,大数据能力复用
•
•
•
定制化开发
数据开发周期长
数据权限独立开发
过去
现在
发布
发布
测试
权限开发
指标开发 页面开发
指标设计 页面设计
定
制
化
开
发
流
嵌入
可视化报表、权限
指标开发
指标设计
需求/场景抽象
二手
数据可视化能力复用
页面可嵌入
数据权限灵活可配置
例如19年7月的CHO效能看板,用时2周上线,提效显著
定制化开发需
新房
•
•
•
装修
数据场景化应用(例如图灵)
ODIN能力复用
配
置
化
需求/场景抽象
…
新房
二手
装修
…
数据场景化应用(例如图灵)
可视化、权限、指标、监控等大数据能力复用,提高了业务线系统“数据相关”开发的效率,并受大数据统一服务
15. 构建一站式云上数据开发生态
一站式开发平台
数据采集
数据开发
数据API
增量/全量
文件类型存储
UDF
关系型数据库
关系型数据库
writer
redaer
文件类型存储
编辑器
workflow
大数据存储
大数据存储
系统/大数据
脚本管理
API开放
数据API
增删改查
机器学习
tensflow
算法管理
算法开发
6个底层基础服务能力
数据地图
数据安全
智能监控
数据质量
统一调度
统一权限
权限审批
多源元数据 风险预警 基线管理 规则引擎 溯源 数据探查 数据脱敏 监控报警 数据巡检 链路图 流程管理
数据血缘 风险审计 链路分析 质量评估 智能调度 权限审计
项目管理
16. 数据质量、数据成本可控
数据质量
数据成本
生命周期规则纳入规则引擎,存储治理产品化
通过认证链路解决数据准确、一致性问题
应
用
口径传递 30
数据全链路血缘 25
数仓
图(二)月自然增长 & 月自然净增(PB)
21.7 23
19.1
20
建立规则引擎,把控数据任务质量,巡检数据资产
15
….
22.7 22.1
18.9
13
21
生命周期自动删除
9.5 8.4
6.4
5.1 4.2 4.6 5.3 6.5 5.95.9
5
月自然增长(PB)
0
规则引擎
数据
倾斜
笛卡
尔积
异常
巡检
SQL
解析
11.4
10.8
10
8.3 7.7
20
24.6 25.6
22.3
23
16.9
表
认
证
生
命
周
期
报
表
认
证
指
标
认
证
17. 2018年至今产品建设过程-重要节点
奥丁第一次系统对接建模、权限能力,
第二次效率提升
CHO效能看板
天津、大连、第一批
11个城市释放了人力,
效率第三次提升
第一阶段城市试点,11城
ODIN2.0
ODIN1.0版本
数据接入
2018.9
数据可视化
2019.4
2018.1
2
大数据权限系统
• 线上审批
• 权限角色
• 行级权限
指标
认证
权限线上化
效率的第一次
提升
数据建模
2019.7
•
•
数据地图
知识图谱
多源元数据
第二阶段城市推广,85城
ODIN3.0
指标
魔方
数据
门户
2020.2
2019.9
•
•
•
奥丁
首页
2020.3
数据工厂工作空间
权限、元数据与
Hadoop底层打通
规则引擎
算力、存储治理
以工作空间为
划分的开发模式,数
据质量提升
奥丁
项目
贯通
2020.8
奥丁生态启动
完成了
奥丁
0-1的
整体
建设
驾
驶
舱
2020.1
2
应用配
置
2021.3
数据全链路血缘
数据开发IDE
数据开发线上化
统一到IDE
产品生态所有数据标签可
传递,例如指标认证
18. 从规模到标准,从产品到生态
重供给侧
重消费侧
由散到整,规模化
现在
未来
ODIN
罗盘
ABtest
数据工厂
部落式开发
odin
数据工厂
数据消费
产品体系
贝壳用户+场景
更多的底层能力传递至上层
数据生产
产品体系
贝壳数据产品生态
功能模块解耦
配置封装能力
阅读者用户体验
如何快速的找到数据?
数据解读?
数据社交?
完成0-1基础产品能力建设
由量到质,标准化
基础能力
产品体系
19. 用数据创造无限可能
20.