编程语言:SQL
Spark SQL 字段血缘在 vivo 互联网的实践
字段血缘可以很好的帮助我们了解数据生成的处理过程,在探索中我们发现了可以通过Spark的扩展来优雅的实现这一功能。
探究Presto SQL引擎(2)-浅析Join
本文梳理了Join的原理,以及Join算法在Presto中的实现思路。通过理论和实践的结合,可以在理解原理的基础上,更加深入理解Join 算法在OLAP场景下的工程落地技巧,比如火山模型,列式存储,批量处理等思想的应用。
字节客增慢 SQL 治理体系
慢 SQL 即执行时间超过 long_query_time 设定阈值的 SQL 语句,可通过 select @@long_query_time 查看数据库具体的慢查询阈值。另外慢 SQL 不仅仅包括 select 语句,也包括 delete,insert 等 DML 语句。
一条慢SQL引发的改造
本文通过对一条慢SQL的真实改造,介绍解决复杂查询的一种思路,以及如何使得一条平均RT接近2s的SQL,最终耗时下降30倍。
慢sql治理经典案例分享
本文是对慢sql治理过程中的一些实践分享。
字节跳动EMR产品在Spark SQL的优化实践
Hudi、Iceberg等数据湖引擎目前使用的越来越广泛,很多B端客户在使用Spark SQL的时候也存在需要使用数据湖引擎的需求,因此字节EMR产品需要将数据湖引擎集成到Spark SQL中,在这个过程碰到非常多的问题。
分库分表在sharding中的实现
随着公司业务快速发展,数据库中数据量猛增,访问性能变慢。关系型数据库本身比较容易成为系统瓶颈、单机存储容量、连接数、处理能力有限。所以要使用分库分表。
那些年我们一起优化的SQL
本文介绍了基于MySQL的SQL优化分析实战。
大数据SQL优化之数据倾斜解决案例全集
大数据任务领域里最困难的问题莫过于数据倾斜,除了一些常规的参数优化外,还有一些非常困难以致于必须通过SQL改写才能避免倾斜的情况。本文介绍了如何解决关联结果膨胀,如何巧妙的避免全局排序以及如何解决写倾斜等情形。
浅谈WEB漏洞之SQL注入修复实践
本文主要简述SQL注入漏洞原理、结合漏洞修复经验落地实践方式,最终描述整套的安全落地方案。通过本文可以了解常用测试SQL注入工具、不同修复方式的效果差异等。如对具体测试方法细节感兴趣,可查看注释或自行查询测试方法,受政策影响本文不再详细描述。安全是攻击与防御、矛与盾的结合体,只有彼此了解,才能“知己知彼,百战不殆”。
利用binlog进行MySQL数据闪回
从MySQL binlog解析出你要的SQL。根据不同选项,你可以得到原始SQL、回滚SQL、去除主键的INSERT SQL等。DBA或开发人员,有时会误删或者误更新数据,如果是线上环境并且影响较大,就需要能快速回滚。传统恢复方法是利用备份重搭实例,再应用去除错误sql后的binlog来恢复数据。此法费时费力,甚至需要停机维护,并不适合快速回滚。也有团队利用LVM快照来缩短恢复时间,但快照的缺点是会影响mysql的性能。
基于数据血缘,让天下没有难用的数据
作为大数据开发人员、数据资产管理人员,你是否曾经也碰到过以下的问题: 1、这个数据的上游、下游是哪个表?哪个字段? 2、这个数据、指标改动后可能造成的的影响有哪些? 今天给大家介绍下数芯的血缘分析功能,帮大家轻松解决以上问题。
Flink Sql Gateway的原理与实践
我们在使用Flink开发实时任务时,都会用到框架本身提供的DataStream API,这使得用户不能不用Java或者Scala甚至Python来编写业务逻辑;这种方式虽然灵活且表达性强,但对用户具有一定的开发门槛,并且随着版本的不断更新,DataStream API也有很多老版本不兼容的问题。
网易游戏 FlinkSQL 平台化实践
随着近年来流式 SQL 理论逐渐完善,在实时流计算场景中的提供与离线批计算类似的 SQL 开发体验成为可能。本文将介绍在网易游戏在 Flink SQL 平台化上的探索和实践。
表格存储 SQL 查询多元索引
多元索引是表格存储产品中一个重要的功能,多元索引使用倒排索引技术为表格存储提供了非主键列上的快速检索功能,另外也提供了统计聚合功能。表格存储近期开放了SQL查询功能,SQL引擎默认从原始表格中读取数据,非主键列上的查询需要扫描全表。开启了多元索引之后,如果一个查询的过滤条件或者统计聚合可以下推至多元索引执行,那么SQL引擎将部分查询计划转换为多元索引请求,将从多元索引中获取数据,提高查询效率。
如何避免出现SQL注入漏洞
本文将针对开发过程中依旧经常出现的SQL编码缺陷,讲解其背后原理及形成原因。