Apache Doris 向量化技术实现与后续规划

如果无法正常显示，请先停止浏览器的去广告插件。

相关话题： #Doris

1. Doris 向量化技术实现与后续规划李昊鹏

2. Contents • Doris向量化的设计与实现 • Doris向量化的当前情况 • Doris向量化的未来规划

3. 01 Doris向量化的设计实现

4. 什么是向量化？ • 向量化：计算由一次对一个值进行运算转换为一次对一组值进行运算的过程 • CPU角度：现代CPU支持将单个指令应用于多个数据（SIMD）的向量运算。例如，具有128位寄存器的CPU可以保存4个32位数并进行一次计算，比一次执行一条指令快4倍。 SIMD

5. 什么是向量化？ • 向量化：计算由一次对一个值进行运算转换为一次对一组值进行运算的过程 • 数据库执行引擎：1.将next tuple，变成next batch。2. 内存中batch的数据不是以行的形式存在，而是以列的形式存在，算子都是在列上进行运算。

6. Doris如何实现向量化 • 列式存储：在Doris的执行引擎之中引入基于列存的存储格式 • 向量化函数计算框架：基于列式存储重新设计一套向量化/列式计算引擎 • 向量化算子：基于前两者，重新组织SQL算子。

7. 列式存储 • 改变了计算引擎对数据的组织方式，由行存的Tuple与RowBatch变为了Column与Block

8. 向量化函数计算框架举个栗子： • 需要计算一个select a，abs(b) from test;

9. 向量化函数计算对比相比原先的行存执行逻辑，限制减少了分支判断的次数 // 行存执行逻辑 for(int i = 0;i < rows; ++i) { Tuple tuple = batch->get_row(i); for(int j = 0;j < desc.slots().size();++j) { void *data = tuple.get_data(desc.slots(j).offset); // 获取某一行的数据 switch(desc.slots(j)) { // 通过desc中的描述类型来确定执行逻辑 case TYPE_INT: hash_int((int*)data); case TYPE_STRING: hash_string((StringRef*)data); // 列存执行逻辑 for i in range(types.size()) switch(types[i]) { // 只有一次的类型判断 TYPE_INT: for(j = 0; j < rows < ++j) { hash_int((*(int*)column->data() + j)); } TYPE_STRING: xxx;

10. 向量化计算优点相对于旧的行存计算框架，列式的函数计算框架有以下优势： • Cache更亲和，列式计算由于数据是按列组织的，所以更容易命中Cache。从Cache中读取数据和内存中读取数据，性能有10到100倍的差距 • 减少虚函数的调用，减少分支跳转，降低CPU分支预测判断失败概率 • 函数计算的SIMD，包含编译器自动SIMD与手动Coding的SIMD 论文《DBMSs On A Modern Processor: Where Does Time Go?》，时间都去哪啦？ • Memory stalls • Branch mispredictions • Resource stalls

11. Cache亲和度 Cache的开销与代价： • 指令Cache/数据Cache/TLB的Cache • L1/L2/L3/DDR -> 1/5/20/100 ns • 内存带宽

12. 虚函数的调用开销虚函数会有怎么样的开销： • 虚函数的动态调用是无法进行函数内联的，这会大大减少编译器可能进行的优化空间 • 虚函数查表带来额外的分支跳转的开销，分支预测失败会导致CPU流水线重新执行

13. 函数执行如何SIMD • Auto Vectorized 自动向量化，也就是编译器自动去分析for循环是否能够向量化。GCC开启的-O3优化便会开启自动向量化。下面是自动向量化的一些tips： 1.简单的for循环 2.足够简单的代码，避免：函数调用，分支跳转 3.规避数据依赖，就是下一个计算结果依赖上一个循环的计算结果 4.连续的内存与对齐的内存 GCC的文档CASE：https://gcc.gnu.org/projects/tree-ssa/vectorization.html

14. 函数执行如何SIMD • Auto Vectorized 如何确认代码编译器的自动向量化生效呢？ 1.编译器的Hint提示 -fopt-info-vec-all：打印所有编译器进行向量化的信息，如果循环代码被向量化了，会打印如下信息 main.cpp:5: note: LOOP VECTORIZED. -fopt-info-vec-missed：没有被向量化的原因 -fdump-tree-vect-all：进一步分析没有被向量化的原因 2.直接通过perf/objdump查看生成的汇编代码

15. 函数执行如何SIMD • 手写SIMD SIMD本身也通过库的方式进行了支持。可以直接通过向量化的API库来直接进行向量化编程，这种实现方式最为高效，但是需要程序员熟悉SIMD的编码方式，在不同的CPU架构之间并不通用。比如实现的AVX 的向量化算法并不能在不支持AVX指令集的机器上运行，也无法用SSE指令集代替。

16. 02 Doris向量化的当前情况

17. SQL算子目前0.15版本实现向量化的SQL算子包含： • Sort • Agg • Scan • Union 当前的Doris是能够满足大宽表的向量化查询需求

18. 如何开启向量化 1. 设置环境变量set enable_vectorized_engine = true;（必须） 2. 设置环境变量set batch_size = 4096; (推荐）

19. 向量化的单表性能 Q1：select count(*) FROM lineorder_flat; Q2：select min(lo_revenue) as min_revenue from lineorder_flat group by c_nation; Q3：select count(distinct lo_commitdate), count(distinct lo_discount) from lineorder_flat;

20. 03 Doris向量化的未来规划

21. SQL算子 • Join是Doris最为核心的算子，绝大多数场景使用Doris也是看重了Doris本身在MPP场景下的多表Join能力。所以Join的开发是后续向量化开发重中之重。

22. SQL算子 • 交集 • 差集 • Cross Join • ODBC/MySQL Scan Node • 窗口函数 • ES Scan Node 这些算子都是当前行存所支持的，目前除了部分算子还在开发过程中，其他也都全部Ready了

23. 存储层向量化目前Doris存储层通过行存表示数据，但是由于历史原因这部分存在很多冗余且低效的代码目前看已经严重影响了向量化代码的执行逻辑。 • 1. 计算表达式受限制，部分表达式的计算由于接口不同，无法作用于存储层，导致很多表达式无法下推。 • 2. 额外的转换的性能开销，严重影响了导入与查询性能。在之前进行的poc测试之中， DupKey 的表透过完整的向量化改造之后，性能有10倍级别的提升。 • 3. 代码可维护性降低，同样实现一个聚合代码需要分别在存储层和查询层实现，性能优化等也需要同时考虑两部分。

24. 存储层向量化 • Reader层改造（WIP） • Segment层改造（WIP）查询 Origin 向量化第一版存储层向量化 Q1 3.48 0.45 0.2 Q2 10.5 0.75 0.37 Q3 0.58 0.25 0.12

25. 导入向量化目前Doris进行数据导入时存在Tuple转RowCursor，数据行式聚合等一系列有冗余开销的的工作。而我们后续希望通过导入向量化的开发，实现： • 1. 减少额外内存格式的转换开销，提高CPU的利用率 • 2. 复用计算层的算子，减少冗余低效的代码，简洁Doris现有的代码结构 • 3. 利用SIMD加快导入过程之中的聚合计算，进一步提升Doris的导入性能

26. SQL函数 • 1. 函数丰富度的支持，目前向量化支持的函数大概有200多个，其他还在不断的开发过程中。需要尽快补齐原先行存支持但是向量化不支持的函数。 • 2. 函数的SIMD化，目前向量化很多函数的实现没有考虑SIMD化。对于核心的热点函数，后续要尽量能够通过各种可能的方式SIMD化。 • 3. 向量化的UDF的框架设计

27. 代码重构 • 1. 基础类型的重构： • Date/DateTime：更小的内存占用，对SIMD更优化的内存布局 • Decimal：根据精度切换内存占用，解决Doris中当前精度浪费的问题 • HLL：减少HLL类型无效的序列化的开销 • 2. String/Array 类型的支持 • 3. 聚合表类型的再梳理，更合理的设计聚合列的类型和状态 • 4. 结合Doris团队在打磨的CBO优化器，进一步提升向量化执行引擎的性能

28. 其他 • 1. 版本发布，如果顺利的话。1月份我们将会带来下一版的向量化执行引擎了，希望大家到时候多多试用捧场~~ • 2. 感谢Clickhouse社区，在Doris进行向量化代码开发时在列存模型与函数框架上引用了部分 Clickhouse 19.16.2.2的代码，在引用代码的lisence上注明了相应的工作。

29. Thank You 欢迎关注Doris微信公众号更多技术趋势、实践案例、社区活动 • Apache Doris官网：https://doris.apache.org/master/zh-CN/ • GitHub：https://github.com/apache/incubator-doris • GitHub向量化：https://github.com/doris-vectorized/doris-vectorized • 百度发行版本：palo.baidu.com