欢迎大家来到【风控基建实战】
风控团队与黑灰产的对抗是动态且激烈的,技术也在不断迭代升级。我们希望通过一系列硬核技术分享,与风控岗位的小伙伴们加深交流,共同夯实业务基石。
一、引言
在数字化转型的浪潮中,数据已成为企业的核心战略资产。如何高效组织、管理并利用数据资源,直接决定了企业的竞争力和可持续发展能力。数据架构 (Data Architecture)作为企业架构的核心组成部分,正是这一问题的系统性答案。
从定义上看,数据架构是一套规范化的设计体系,它通过不同抽象层级的设计文档(如数据模型、流程标准和治理策略),明确数据的收集、存储、规划、使用和销毁全生命周期规则。其核心目标在于:
1.需求识别 ——精准捕捉业务端到技术端对数据存储、处理和分析的需求;
2.结构规划 ——构建逻辑与物理并存的数据框架,支撑企业当前运营与未来扩展;
3.战略衔接 ——在业务目标与技术实现之间架设桥梁,确保数据能力与组织战略同频共振。
通过数据架构的设计,企业能够将分散的数据资源转化为可复用的资产,驱动智能化决策与业务创新。然而,随着产品形态多样化、服务场景复杂化以及数据规模的指数级增长,架构设计过程中常面临标准不统一、扩展性不足、安全与效率难以平衡等挑战。
本文将以企业产品和服务的短期需求与长期演变为视角,结合数据治理的前沿实践,系统性分析数据架构设计中的典型问题,并探讨兼顾灵活性、安全性与成本效益的解决方案,为组织构建可持续的数据能力提供参考路径。
二、数据架构发展历程
1.业务系统操作型数据
直接访问业务系统操作型数据
2.独立引擎萌芽与离线仓库
底层计算引擎升级以应对庞大数据规模,数据模型出现分层加工,过程出现元数据管理及数据质量处理
数据需求 | 数仓实现 |
打破数据“孤岛” | 数据集成 |
执行复制周期任务 | 调度系统 |
降低分析门槛 | 可视化分析 |
产出确信数据 | 数据质量 |
安全合规 | 数据安全 |
降本增效 | 数据治理 |
3.实时计算
随之实时业务的引领和实时计算引擎的迭代,大数据处理框架经历了从传统离线框架到Lambda架构和kappa架构的演变,各数据架构对比:
大数据处理框架 | 传统离线架构 | Lambda架构 | Kappa架构 |
核心设计 | 离线链路 | 实时链路+离线链路 | 实时链路+数据重放 |
数据时效性 | 低 | 高 | 高 |
计算资源 | 小 | 大 | 中 |
开发成本 | 低 | 高 | 较高 |
运维成本 | 低 | 高 | 中 |
数据回刷成本 | 低 | 低 | 高 |
- | - | - | - |
- | - | - | - |
4.OneData和数据中台
遵循“OneModel, OneID, OneService”的指导原则,从多维角度破解因烟囱开发导致的业务难题
5.湖仓一体架构
旨在承载结构化,半结构化和非结构化数据,针对解决机器学习和数据科学的场景
6.大模型驱动的数据模型
基于大语言模型对数据开发和治理等环节起到促进作用,全面提升“采,建,管,用”全链路智能化体验
三、实时计算数据链路的应用
Kappa架构:
Kappa 架构通过专注于流处理,认为“批是特殊的流”,从各种源连续引入数据并存储在事件日志中,例如 Apache Kafka。事件日志充当持久、容错的存储机制,可保留事件的完整历史记录,使用事件日志中的数据,应用实时计算,并生成所需的输出,处理后的数据可通过各种输出通道访问,例如实时仪表板、API 或数据接收器,以供进一步分析或使用。
Lambda架构:
Lambda 架构的核心是不可变数据的概念。所有传入的数据都以仅追加的方式捕获和存储,从而创建未更改的历史记录。该体系结构由三层组成:
批处理层:在批处理层中,以面向批处理的方式处理大量历史数据。数据从数据源引入、转换并存储在批处理系统中。然后,转换后的数据将存储在批处理服务层中,在该图层中对其进行索引并使其可查询。
速度层:速度层处理实时数据处理。它近乎实时地处理传入的数据流并生成增量更新。然后将这些更新与批处理图层的结果合并,以提供统一的数据视图。速度层通常利用流处理框架,如Apache Storm或Apache Flink。
服务层:服务层用作查询和可视化数据的访问点。它结合了批处理层和速度层的结果,并提供一致的数据视图。像Apache HBase或Apache Cassandra这样的技术通常用于存储和提供该层中的数据。
Lambda架构通过分离实时性要求高的部分,增加实时计算链路来处理实时数据,同时保留部分批处理能力,然而Lambda 架构需求维护两套逻辑,会导致更多的维护成本和资源消耗,Kappa架构则可以通过重新处理历史数据来解决上述问题,但Kappa架构需要增加计算资源以弥补流式处理历史数据吞吐能力较低的缺陷。实际场景中Lamda架构和Kappa架构结合可以有效解决这些问题。
四、风控业务基于Hologres平台的数据架构方案
什么是Hologres:
Hologres 是阿里云自研的实时交互式分析引擎,专为处理超大规模数据和高并发场景设计。其核心定位是解决传统数据仓库在实时性、扩展性和计算效率上的瓶颈,广泛应用于电商、金融、物联网等领域的实时数仓、在线分析、数据服务等场景
Why Hologres:
1.实时层面支持Kafka、Flink等流式数据源毫秒级写入,支持万级QPS,适用于实时监控大屏、用户画像即时查询等高负载场景;
2.离线方面无缝对接MaxCompute(ODPS),通过联邦查询 直接分析离线数据,无需ETL;
3.支持行存、列存、行列共存等多种存储模式和索引类型,满足多样化的分析查询需求,使用大规模并行处理架构提高资源利用率;
基于上述特性,Hologres在实现流批一体架构过程中同时兼顾成本和性能,为业务痛点提供了合理的解决方案。
业务驱动因素:
在混合架构模式下,Lambda与Kappa架构的并行运行虽能兼顾实时计算与批量处理需求,却因异构数据源接入标准不统一、实时/离线计算口径差异等问题,导致双链路产出数据存在一致性风险。为保障核心业务指标的可信度,需建立跨数据流的质量控制体系。通过实施T+1全链路数据巡检机制,系统性监控数据偏差阈值(如字段偏差>0.05%),触发差异定位与修复流程,从而在复杂架构融合场景下实现数据质量的事前预防与事后治理闭环。
Lambda+kappa架构整合:
T+1巡检机制: