类库
› Search-R1
PeterGriffinJin/Search-R1
Search-R1是一个基于强化学习(veRL)的高效、可扩展训练框架,专门用于训练能够交替进行推理和调用搜索引擎(工具调用)的大型语言模型,可视为开源版的DeepSeek-R1或DeepResearch替代方案。
技术栈
查看全部依赖 (16)
依赖
IPython
unknown
NumPy
unknown
Pandas
unknown
accelerate
unknown
codetiming
unknown
datasets
unknown
dill
unknown
flash-attn
unknown
hydra-core
unknown
matplotlib
unknown
pybind11
unknown
ray
unknown
tensordict
unknown
transformers
unknown
vllm
unknown
wandb
unknown