关注“之家技术”,获取更多技术干货
总篇222篇 2023年第36篇
随着数据规模的不断增长和业务需求的日益复杂,数据仓库(Data Warehouse)的建设和管理变得越来越重要,数据治理也成为数据仓库建设中不可忽视的一环。其中数仓元数据和指标是对数据的描述和度量,对于数据分析和决策起着至关重要的作用。然而,由于数据规模庞大且复杂,传统的元数据和指标检索方法往往效率低下,无法满足快速、准确地检索需求。本文将介绍如何利用大型语言模型技术在数仓元数据和指标检索治理上进行落地实践,包括技术架构、详细的技术说明以及解决的问题。
1.实践的背景
在现有的系统工具中,我们已经建设过了指标管理系统,元数据系统,ide用户查询平台等多项数据工具。传统平台更多的是工具性的支持,用户有目的输入,系统检索返回结果。这种形式容易形成信息孤岛,因为元数据系统就是元数据信息,指标管理就是指标信息,用户更多的时候是希望可以进行融合,来解答业务上的问题。
2.技术架构
2.1
通过与元数据系统和指标管理系统的对接,您可以将需要咨询的内容接入数仓进行存储和管理。在数仓中,语料内容以语料短语和详情信息组成的kv对的形式进行组织,形成初始的索引信息。
索引信息的组织形式可以根据具体的需求和数据结构进行设计。一种常见的方式是使用表名作为key,表结构作为value。这样可以方便地根据表名进行索引查询,快速找到相关的语料内容。
另一种方式是使用指标名称作为key,指标说明和生成规则描述作为value。这种方式适用于需要根据指标进行咨询的场景。通过将指标信息作为索引的一部分,可以方便地根据指标名称进行检索,快速找到与指标相关的语料内容。
通过与元数据系统和指标管理系统的对接,您可以获取到更多的元数据信息和指标定义。这些信息可以作为语料内容的补充说明,丰富语料的详情信息。同时,您可以将这些信息与语料短语一起存储在数仓中,以便后续的索引接入和咨询检索。
2.2
在完成语料组装后,我们采用了Milvus向量库来对语料内容进行向量化处理。这种处理方式的好处在于,通过将语料内容转化为向量表示,我们可以避免明文匹配中的完全匹配或模糊匹配方式所带来的匹配范围缩小问题。因为用户的语言变化情况非常多样化,直接使用明文匹配可能无法涵盖所有变化的情况。
通过向量化处理,我们将语料内容映射到一个高维向量空间中。在这个向量空间中,每个语料内容都被表示为一个向量,而这些向量之间的距离可以用来衡量它们之间的相似度。这样一来,我们可以通过向量匹配的方式,找到与用户输入最接近的语料内容。
向量化处理的另一个好处是可以避免语言上的各种修饰词所带来的干扰。修饰词通常是一些形容词、副词或其他语言上的修饰性语句,它们在明文匹配中可能会导致匹配结果的偏差。但是通过向量化处理,我们将语料内容转化为数值向量,这些向量能够更准确地反映语料内容的语义信息,而不受修饰词的影响。
2.3
在用户咨询的过程中,将对话内容也进行向量化处理,可以用于与结果进行匹配。通过这种方式,我们可以根据向量的相似度来找到与用户咨询内容最相关的语料内容。
通常情况下,用户在输入咨询内容时,可能只会描述很少的语言,但这些描述往往是重点突出的。因此,通过向量化处理,可以将这些关键信息编码为向量表示。向量化的过程可以使用各种技术,将文本转化为数值向量。这样一来,我们可以通过计算向量之间的相似度,找到与用户输入内容最相似的语料内容。
当找到匹配结果后,可以根据向量分值对结果进行排序处理。向量分值可以反映匹配的程度,较高的分值表示匹配度较好。通过对结果进行排序,我们可以将匹配度较高的语料内容排在前面,提供给用户更相关的咨询答案。
一旦确定了匹配结果,就可以将这些语料召回,将内容送入大语言模型提供的接口进行组装。模型会根据输入内容生成连贯、自然的回答。通过将匹配结果与大语言模型结合,我们可以将相关的语料内容转化为更具体、详细的回答,提供给用户更专业、准确的咨询服务。
2.4
总体框架图:
3.应用效果
作者简介
范文
■ 数据平台部-数据仓库团队
■ 主要负责汽车之家数据仓库建设,数据开发,搜索业务对接工作。
阅读更多:
▼ 关注「之家技术」,获取更多技术干货 ▼