中间件与数据库:Neo4j

基于知识图谱的调用链分析精准化测试平台

精准化测试技术是一种可追溯的软件测试技术,通过构建一套计算机测试辅助分析系统,对测试过程的活动进行监控,将采集到的监控数据进行分析,得到精准的量化数据。

携程分布式图数据库Nebula Graph运维治理实践

随着互联网世界产生的数据越来越多,数据之间的联系越来越复杂层次越来越深,人们希望从这些纷乱复杂的数据中探索各种关联的需求也在与日递增。为了更有效地应对这类场景,图技术受到了越来越多的关注及运用。

在携程,很早就有一些业务尝试了图技术,并将其运用到生产中,以Neo4j和JanusGraph为主。2021年开始,我们对图数据库进行集中的运维治理,期望规范业务的使用,并适配携程已有的各种系统,更好地服务业务方。经过调研,我们选择分布式图数据库Nebula Graph作为管理的对象,主要基于以下几个因素考虑:

1)Nebula Graph开源版本即拥有横向扩展能力,为大规模部署提供了基本条件;

2)使用自研的原生存储层,相比JanusGraph这类构建在第三方存储系统上的图数据库,性能和资源使用效率上具有优势;

3)支持两种语言,尤其是兼容主流的图技术语言Cypher,有助于用户从其他使用Cypher语言的图数据库(例如Neo4j)中迁移;

4)拥有后发优势(2019起开源),社区活跃,且主流的互联网公司都有参与(腾讯,快手,美团,网易等);

5)使用技术主流,代码清晰,技术债较少,适合二次开发;

面向推荐的汽车知识图谱构建

知识图谱的概念,最早由 Google 在2012 年提出, 旨在实现更智能的搜索引擎,并在2013年之后开始在学术界和工业级普及。目前,随着人工智能技术的高速发展,知识图谱已广泛应用于搜索、推荐、广告、风控、智能调度、语音识别、机器人等多个领域。

使用TinkerPop框架对GDB增删改查

本篇记录了GDB进行事务操作和常用的TinkerPop框架的差异性,并收集了有效的GDB帮助文档和相关信息。

携程实体链接技术的探索及实践

随着网络应用技术的飞速发展,多元化、低密度数据的急剧膨胀对人们获取正确信息带来巨大挑战,大量冗余信息出现的根源在于自然语言表达的多样性,即一词多义和多词同义。例如,“苹果”在不同语境下既可以表示蔷薇科苹果属植物又可以表示苹果产品公司,“申城”和“魔都”尽管字面完全不同,却都是上海市的别称。实现对海量Web数据的高效处理,理解用户意图,降低信息过载,是实体链接的目标。

在旅游领域,用户关注的实体通常是旅游目的地周边景点、酒店和玩乐方式等,这些对象在地理信息系统(Geographic Information Systems, GIS)中统称为兴趣点(Point of Interest,POI),主要包含四个核心维度:名称、地址、坐标和类别。随着互联网电子地图服务与基于位置的服务(Location Based Services,LBS)的普及,POI无论从概念范畴还是信息纵深上都有了长足发展,已成长为信息空间的参天大树,可以说目前如日中天的互联网各个风口都和POI有一定关系,如电商、O2O、社交、本地生活、互联网金融、共享经济等。

构建以POI知识库为基础的实体链接服务,提升旅游搜索、智能问答、知识挖掘和信息抽取等工作的效果,对改善用户体验有重要意义。

金融风控系统的演进与升级:从第一代到第四代

风控系统随着业务发展多元化,场景复杂化,市场监管趋严,商业纵深整合的需要以及黑产专业化,风险对抗加剧,也经历着不断的演进与升级,今天就来一起探究这些年风控系统经历过的演进与升级。

商品知识图谱的构建思路

在现实生活中,要理解一段语言,除了语言本身的意思,一般还要结合上下文语境,以及相关的背景知识。

用计算机处理自然语言,也是类似的思路。其中一个难点是,如何把知识结构化,从而让算法模型能根据背景知识进行推断。

例如,在电商背景下,一个用户搜索“豆豆鞋”。我们希望模型不仅能识别用户要买鞋,还要推断出这种鞋适合的人群、场景等相关信息。

把知识进行表征常用两种方式:一是知识图谱,通过图的方式表达知识的结构;二是向量,把知识用有限维的向量来表达。

这两种方式并不是割裂的,我们可以用向量构建知识图谱,也可以把知识图谱向量化。本文主要介绍电商领域知识图谱的构建方法。

百度爱番番实时CDP建设实践

随着营销3.0时代的到来,企业愈发需要依托强大CDP能力解决其严重的数据孤岛问题,帮助企业加温线索、促活客户。但什么是CDP、好的CDP应该具备哪些关键特征?本文在回答此问题的同时,详细讲述了爱番番租户级实时CDP建设实践,既有先进架构目标下的组件选择,也有平台架构、核心模块关键实现的介绍。

亿级别关系链之GDB实战

我们都知道MySQL被称为关系型数据库,其他众多存储引擎被称为非关系型数据库,这里要聊的GDB就是其中的一种。说来也讽刺,MySQL被称为关系型数据库,但是实际上处理关联关系并不那么友好。Join语句稍有不慎就是一个慢查询,DBA同学也往往盯着Join语句,常常建议我们能不用就不用。而GDB(Graph Database)的图形结构存储本身,就代表着关联关系,能够很好处理这些问题。

在社区业务中,关系尤其重要,特别是用户与用户之间的关注关系、用户与内容的点赞关系等等。这些信息能代表用户的喜好,我们能使用这些信息让他们找到志同道合者,让他们看到更多喜好的内容。本文中,我们通过几个问题,来聊聊GDB在得物社区亿级别关系链中的实战。

Powering Security Reports with Cartography and Flyte

One of the Security Team’s projects this year has been to make it easy to generate reports and dashboards from Cartography, Lyft’s security intelligence graph. Cartography links together various entities like compute, permissions, Github repositories, users, etc. and has powerful query capabilities, but it does not integrate with our analytics tools out of the box. To remedy this we’ve leveraged Lyft’s data infrastructure to build an ETL solution that extracts data from Cartography and transforms it into something that can be consumed by our analytics tools. Our solution improves on older approaches by being both significantly easier to work with and more powerful.

携程数据血缘构建及应用

聊聊大数据元数据管理重要的一环字段血缘。

图数据库在百度汉语中的应用

百度汉语使用图数据库实现单机峰值过千QPS数据的响应和干预。

vivo知识图谱构建的工程化设计和实现

作为人工智能时代最重要的知识表示方式之一,知识图谱能够打破不同场景下的数据隔离,为搜索、推荐、问答、解释与决策等应用提供理解支撑,目前已经成为人工智能研究中越来越重要的领域。

如何设计一个亿级消息量的IM系统

本文不会给出一套通用的 IM 方案,也不会评判某种架构的好坏,而是讨论设计 IM 系统的常见难题跟业界的解决方案。因为也没有所谓的通用方案,不同的解决方案都有其优缺点,只有最满足业务的系统才是一个好的系统。而且,在有限的人力、物力跟时间资源下,通常需要做出很多权衡,此时,一个能够快速迭代、方便扩展的系统才是一个好的系统。

美团图数据库平台建设及业务实践

美团业务相对较复杂,需要一种组件来管理千亿级别的图数据,来解决图数据存储以及多跳查询问题。本文介绍了美团在图数据库选型及平台建设方面的一些工作。

关联网络在金融风控中的应用实践

异常检测、设备指纹和关联网络是大数据风控实践中的重要技术手段。在金融风控实践中,欺诈者往往呈现出团伙作案或高聚集性等特征,关联网络作为将数据建立关联的垂直类知识图谱,是识别身份伪装、贷款中介等欺诈行为非常有效的手段。

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-23 01:07
浙ICP备14020137号-1 $访客地图$