万字长文梳理基于 LLM 的 Text-to-SQL 发展进程
摘要
从自然语言问题(文本到SQL)生成准确的SQL是一个长期以来的挑战,因为用户问题理解、数据库模式理解和SQL生成中的复杂性。传统的文本到SQL系统,包括人工工程和深度神经网络,已经取得了实质性进展。随后,预训练的语言模型(PLMs)已被开发并用于文本到SQL任务,取得了有希望的性能。随着现代数据库变得越来越复杂,相应的用户问题也变得更加具有挑战性,导致参数受限的PLMs(预训练模型)产生错误的SQL。这就需要更复杂的定制优化方法,这反过来又限制了基于PLM的系统应用。
最近,大型语言模型(LLMs)在自然语言理解方面展示了显著的能力,因为模型规模的增长。因此,集成基于LLM的实现可以为文本到SQL研究带来独特的机会、改进和解决方案。在这项调查中,本文全面回顾了基于LLM的文本到SQL。具体来说,作者提出对文本到SQL的技术挑战和进化过程的一个简要概述。然后,作者们提供了详细介绍旨在评估文本到SQL系统的数据集和评价指标。之后,本文系统地分析了基于LLM的文本到SQL的最新进展。最后,讨论了该领域剩余的挑战,并提出了未来研究方向的期望。
欢迎在评论区写下你对这篇文章的看法。