基于 Native 技术加速 Spark 计算引擎
摘要
本文介绍了如何通过将Spark的计算模式改为按列计算,并使用C++语言重写逻辑,来提升Spark计算引擎的性能。文章详细讨论了重写Spark SQL内核的工作量和Databricks已实现的闭源C++版本SQL内核。同时,也提出了可以选择一个性能强大的开源引擎,并改造为符合要求的SQL内核,以减少人力成本。最后,文章展示了将ClickHouse作为Spark SQL的示意图。通过改造Spark引擎并利用ClickHouse的优势,可以显著提高性能。