类库
› Search-R1
PeterGriffinJin/Search-R1
Search-R1是一个基于强化学习(veRL)的高效、可扩展训练框架,专门用于训练能够交替进行推理和调用搜索引擎(工具调用)的大型语言模型,可视为开源版的DeepSeek-R1或DeepResearch替代方案。
技术栈
查看全部依赖 (16)
依赖
IPython
NumPy
Pandas
accelerate
codetiming
datasets
dill
flash-attn
hydra-core
matplotlib
pybind11
ray
tensordict
transformers
vllm
wandb