AIGC产品:DeepSeek
DeepSeek(深度求索)是一家专注实现AGI(通用人工智能)的中国科技公司,成立于2023年,总部位于杭州。
刚刚,DeepSeek官方发布R1模型推荐设置,这才是正确用法
DeepSeek近日更新了X账号,推荐了DeepSeek-R1的部署设置,强调官方版本与开源模型一致。建议用户不使用系统提示词,温度参数设为0.6,并提供搜索和文件上传的官方提示词模板。此外,指南还建议强制模型以"
单卡4090微调DeepSeek-R1-32B
在24G显存的单卡RTX 4090上,使用unsloth和lora量化微调技术,成功对62G的deepseek-ai/DeepSeek-R1-Distill-Qwen-32B模型进行全量微调。训练数据为24772条,共9288步,耗时28小时28分37秒。优化技术显著减少了显存占用,提升了训练效率。
单卡 RTX 4090 用 unsloth 和医学数据微调 DeepSeek-R1-Distill-Qwen-14B
本文详细介绍了如何通过modelscope和huggingface-cli下载模型和数据集,并展示了如何在Docker环境中构建和启动容器进行模型训练。文章还涉及了微调前的推理过程、数据集和训练参数的设置,以及训练过程中的日志和资源使用情况。最后,提到了一些常见问题的解决方法,如环境变量设置和wandb的配置。
万字赏析 DeepSeek 创造之美:DeepSeek R1 是怎样炼成的?
DeepSeek R1 的发布标志着推理模型的重大突破,通过纯强化学习和高质量推理数据,模型自主提升推理能力。R1 不仅解决了行业难题,还开源了技术细节,推动了全球 AI 社区的发展。其创新机制和高效训练方法展示了模型自我优化的潜力,为未来 AI 模型的演进提供了新思路。
From Weak to Strong——OpenAI和DeepSeek基于强化学习的大模型训练微调技术解析
基于强化学习的大模型训练微调技术正推动AI推理能力的显著提升。OpenAI和DeepSeek通过模仿人类慢思考过程,结合RLHF、DPO等方法,优化模型策略与奖励设计,增强复杂问题解决能力。未来,自我训练、高级推理与安全性的结合将进一步突破技术边界,推动AI向AGI迈进。
Deep dive into LLMs like ChatGPT by Andrej Karpathy (TL;DR)
大语言模型(LLM)通过互联网数据预训练,经过分词、神经网络处理等步骤生成文本。预训练后,需通过监督微调和强化学习提升模型性能,减少“幻觉”现象。LLM通过上下文窗口和推理机制生成非确定性输出,具备创造力但可能产生错误。未来LLM将向多模态、代理化、实时训练等方向发展,融入更多应用场景。
🧐 DeepSeek-R1原理解析及项目实践(含小白向概念解读)
DeepSeek官网对话框下方有两个按钮,分别代表深度思考和联网搜索。深度思考(R1)模型因其在低资源下通过SFT和强化学习训练出超强推理能力而备受关注。联网搜索则解决LLM知识时效性问题,使其能理解自然语言并进行实时搜索。DeepSeek V3是当前最强开源基座模型,而R1模型则在复杂问题推理上表现更优。
云电脑:快速部署无限制、可联网、带专属知识库的私人 DeepSeek 大数据模型
本文探讨了如何利用京东云电脑快速部署私人DeepSeek大数据模型,并详细介绍了本地部署的优势,如降低成本、保护数据隐私、提升性能等。通过Ollama服务搭建和模型运行步骤,读者可以轻松实现DeepSeek模型的本地化应用。此外,还介绍了如何利用Cherry Studio和Page Assist等工具构建本地知识库,并实现模型的联网功能,满足多样化需求。
疯狂的幻方:一家隐形AI巨头的大模型之路
幻方量化基金在大模型热潮中独树一帜,成立“深度求索”新公司,专注研究通用人工智能(AGI)。拥有超1万枚GPU,幻方在算力上已具备领先优势。创始人梁文锋强调,团队以好奇心驱动,敢于探索未知,目标是揭秘AGI的更多可能性。尽管研究成本高昂,幻方仍坚持开放共享,推动技术普惠,避免垄断。
史诗级效率工具!藏师傅教你玩转,飞书多维表格+Deepseek组合
飞书多维表格接入Deepseek R1后,功能大幅提升,支持批量处理表格内容,结合其他工具实现高效工作流。通过三个案例展示了多平台文案改写、论文解读与输出、以及关键词生成AI故事视频的功能。操作简便,只需设置提示词,系统自动处理并生成结果,极大提升了工作效率。教程详细,模板可直接使用,适合不同需求用户。
1天出爆款!DeepSeek+comfyUI+可灵AI视频创作全流程拆解,手把手教你用AI做短视频
AI工具如DeepSeek正改变短视频创作,助力设计师高效产出内容。通过实际案例,展示了从分镜设计到视频生成的完整流程。利用DeepSeek优化生图咒语,结合comfyUI和可灵,快速生成高质量短视频。AI工具不仅提升效率,还释放创意空间,让创作者有更多时间打磨故事内核,适应快节奏的推广需求。
硅基流动+Cherry Studio‘0天然全科技’快速搭建DeepSeek满血版
DeepSeek火爆但常遇服务器繁忙,本地部署受限于硬件。推荐通过硅基流动和Cherry Studio在线体验满血版,无需高配电脑。新用户注册可得2000万tokens,支持多种模型切换,包括DeepSeek-R1和图像生成模型。Cherry Studio支持私域部署,确保对话信息本地存储,保护隐私。简单几步即可搭建高效、安全的AI助手。
DeepSeek 提示词编写技巧典藏版!
DeepSeek结合提示词工程提升输出价值。使用万能Prompt框架,包括角色、问题、目标和要求四部分,帮助编写Prompt。通过RAG技术,提高大模型推理效果。Few-shot示例和记忆功能增强模型表现。专业领域需整理知识,优化Prompt可用大模型自动优化算法。调整温度和Top-P参数控制模型输出确定性。有效的Prompt管理和知识更新对大模型应用至关重要。
DeepSeek爆火,但被AI抛弃的人,无人关心
韩束母公司上美股份创始人吕义雄在工作群中讨论用AI替代员工,引发热议。AI技术导致全球范围内许多岗位被替代,尤其是客服和程序员等职业。尽管技术变革创造了新岗位,但速度和技能要求使得许多被替代员工难以适应。AI的快速发展对社会弱势群体构成挑战,需关注其体面生活。技术进步不可阻挡,但应兼顾人性化关怀。
Deepseek本地部署详细指南!从 Ollama 到个人知识库应用
Ollama提供跨平台安装指南,支持macOS、Windows和Linux,帮助用户轻松运行本地AI模型。通过下载和加载Deepseek模型,用户可以在终端进行模型对话。硬件建议配置为32GB内存和16GB显存。安装交互UI的Chatbox和Page Assist插件,用户可以实现智能问答模式。Dify知识库搭建指南提供了详细步骤,支持Docker Compose部署,并通过Ollama实现模型供应。14b模型在翻译任务中表现优于7b模型,适用于macOS的特定业务场景。
飞书接入DeepSeek-R1后,用一次顶一万次,而且再也不「服务器繁忙」了
最近,DeepSeek-R1 因用户需求过大导致服务器繁忙,推动了多种应用和服务接入该模型。飞书已实现 DeepSeek-R1 的集成,使用户能在多维表格中直接输入提示词,自动批量处理任务,免去复杂的 API 调整。用户分享了在飞书中使用 DeepSeek-R1 的成功案例,展现了其在写作、问题解答等方面的强大能力。飞书的并行处理提升了效率,进一步凸显了其在 AI 集成方面的优势。