大模型概念、技术与应用实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. DeepSeek 每个人都可以读懂的大模型科普文章 大模型概念、技术与应用实践 林子雨 副教授 厦门大学大数据教学团队作品 厦门大学 2025 年 2 月 9 日
2. 厦门大学大数据教学团队 国内高校大数据教学的重要贡献者 团队负责人:林子雨 副教授 年轻力量:核心成员全部 46 周岁以下 结构合理:教学型、科研型、实验工程师 专注专业:从 2013 年至今, 11 年专注于大数据教学 团队特点:眼光前瞻、紧跟技术、创新实干、执行力强 影响力高:多项指标在国内高校大数据教学领域领先 • 教材数量 • 教材占有率 • MOOC 课程学习人数 • 师资培养 • 教学研讨会 • 教学网站访问量 • 在线讲座观看人数 • ……
3. 团队负责人林子雨 厦门大学计算机科学与技术系副教授 以第一作者编著出版 15 本大数据系列教材被国内 1000 余所高校采 用 荣获“ 2022 年福建省高等教育教学成果奖特等奖(个人排名第 一)” 入选“ 2021 年高校计算机专业优秀教师奖励计划” 2018 年国家精品在线开放课程(独立主讲) 2020 年国家级线上一流本科课程(独立主讲) 2021 年国家级线上一流本科课程(独立主讲) 入选“ 2023 年教育部国家智慧教育公共服务平台应用典型案例” 个人主页: https://dblab.xmu.edu.cn/post/linziyu/
4. 本 PPT 节选自林子雨编著《数字素养通识教程》 林子雨 编著《数字素养通识教程——大数据与人工智能时代 的计算机通识教育》 人民邮电出版社, 2025 年 1 月 ISBN:978-7-115-65946-0 定价: 59.8 元 面向大一新生的全校大学计算机公共课教材 教材官网: https://dblab.xmu.edu.cn/post/digital-literacy/ 教材官网提供讲义 PPT 、 MOOC 视频、案例视频、上机实 验、教学大纲、课程思政案例、开学第一课讲座 PPT 等丰富 的教学资源 扫一扫访问教材官网
5. 《数字素养通识教程》 林子雨编著《数字素养通识教程——大数据与人工智能时代的计算机通识教育》 人民邮电出版社 ISBN:978-7-115-65946-0 2025 年 1 月第 1 版,定价: 59.8 元 教材官网: https://dblab.xmu.edu.cn/post/digital-literacy/ 15 年计算机教学生涯感悟升华, 15 本计算机畅销教材知识凝练 数字时代的大学计算机公共课教材,重构大学计算机公共课知识体系 深刻变革传统大学计算机通识教育,培养学生计算思维、数据思维和 AI 思维
6. 《数字素养通识教程》 到 B 站观看林子雨主讲《数字素养通识教程》 MOOC 视频( 1359 分钟) 视频地址: https://www.bilibili.com/video/BV1XPf8YZE6M/
7. 引言 在数字化浪潮汹涌澎湃的当下,大模型如同一颗璀璨新星,强势崛起并迅速成为科技领域的焦 点。从最初的理论探索到如今在各个行业的广泛应用,大模型正以惊人的速度重塑着我们的生 活与工作模式。它不仅是人工智能技术发展的重大突破,更是推动经济增长、提升社会治理效 能、促进科技创新的关键力量。本报告《大模型概念、技术与应用实践》将深入剖析大模型的 核心概念、原理特点以及丰富多元的应用实践案例,旨在让大家全面了解大模型这一前沿技术 ,明晰其在当下及未来发展中的重要地位与深远影响 ,共同探索如何借助大模型的力量推动 社会各项事业迈向新的高度。
8. 目录 1. 人工智能发展简史 2. 人工智能思维 3. 大模型:人工智能的前沿 4. AIGC 应用与实践
9. 1. 人工智能发展简史 1.1 1.2 1.3 1.4 图灵测试 人工智能的诞生 人工智能的发展阶段 未来人工智能发展的五个阶段
10. 1.1 图灵测试 1950 年,“计算机之父”和“人工智能之父”艾伦 · 图灵( Alan M. Turing )发表了论文《计算机器与智能》,这篇论文被 誉为人工智能科学的开山之作。在论文的开篇,图灵提出了一个引人深思的问题:“机器能思考吗?”。这个问题激发了人们 无尽的想象,同时也奠定了人工智能的基本概念和雏形 在这篇论文中,图灵提出了鉴别机 器是否具有智能的方法,这就是人 工智能领域著名的“图灵测试”。 如图所示,其基本思想是测试者在 与被测试者(一个人和一台机器) 隔离的情况下,通过一些装置(如 键盘)向被测试者随意提问。进行 多次测试后,如果被测试者机器让 平均每个测试者做出超过 30% 的误 判,那么这台机器就通过了测试, 并被认为具有人类智能
11. 1.2 人工智能的诞生 人工智能的诞生可以追溯到 20 世纪 50 年代。当时,计算机科学刚刚起步,人们开始尝试通过计算机程序来模拟人类的思维 和行为。在这个背景下,一些杰出的科学家和工程师们开始研究如何使计算机具备更高级的功能 1956 年 8 月,在美国达特茅斯学院举办的人工智能夏季研讨会,是人工智能领域具有里程碑意义的一次重要会议。这次会议 汇聚了众多杰出的科学家和工程师,他们共同探讨和研究人工智能的发展和应用前景 这次会议的主题围绕着人工智能的定义、研究方法和应用场景展开。与会者们深入探讨了人工智能的基本概念、算法和技术, 以及其在各个领域的应用潜力。他们共同认识到,人工智能的研究和发展将为人类带来巨大的变革和进步
12. 1.2 人工智能的诞生 在这次会议上,“人工智能”这个词汇被约翰 . 麦卡锡( John McCarthy )首次提出。与会者们不仅对人工智能的研究和应 用前景进行了深入探讨,还提出了许多重要的观点和思路,为人工智能的发展奠定了基础。这次会议的召开标志着人工智能作 为一个独立学科的正式诞生,因此,达特茅斯会议被称为“人工智能的开端”, 1956 年也被称为“人工智能元年”。这次会 议不仅为人工智能的研究和发展奠定了基础,还为人类带来了巨大的变革和进步
13. 1.3 人工智能的发展阶段 从 1956 年人工智能元年至今,人工智能的发展历程经历了漫长的岁月,大致可以划分为以下 6 个阶段
14. 1.4 未来人工智能发展 5 个阶段
15. 2. 人工智能思维
16. 2. 人工智能思维 了解 区分 协作 每个人都应了解人工智能 具备区分人的能力 拥有和人工智能协作的能力 的基础运行模式 和机器的能力 ,懂得如何运用人工智能
17. 3. 大模型:人工智能的前沿 3.1 3.2 3.3 3.4 3.5 3.6 3.7 大模型分类 大模型的概念 3.8 大模型应用领域(在各个行业的应用) 大模型的发展历程 人工智能与大模型的关系 3.9 大模型对工作和生活的影响 3.10 本地部署大模型 大模型产品 3.11 基于大模型的智能体 大模型原理 大模型特点
18. 3.1 大模型的概念 大模型通常指的是大规模的人工智能模型,是一种基于深度学习技术,具有海量参数、强大的学习能力和泛化能力,能够处理 和生成多种类型数据的人工智能模型 通常说的大模型的“大”的特点体现在:参数数量庞大、训练数据量大、计算资源需求高 2020 年, OpenAI 公司推出了 GPT-3 ,模型参数规模达到了 1750 亿, 2023 年 3 月发布的 GPT-4 的参数规模是 GPT-3 的 10 倍以上,达到 1.8 万亿, 2021 年 11 月阿里推出的 M6 模型的参数量达 10 万亿
19. 3.1 大模型的概念 大模型的设计和训练旨在提供更强大、更准确的模型性能,以应对更复杂、更庞大的数据集或任务。大模型通常能够学习到更 细微的模式和规律,具有更强的泛化能力和表达能力 上下文理解能力 大模型具有更强的上下文理解能 力,能够理解更复杂的语意和语 境。这使得它们能够产生更准确 、更连贯的回答 语言生成能力 学习能力强 大模型可以生成更自然、更流利 大模型可以从大量的数据中学习 的语言,减少了生成输出时呈现 ,并利用学到的知识和模式来提 的错误或令人困惑的问题 供更精准的答案和预测。这使得 它们在解决复杂问题和应对新的 场景时表现更加出色 可迁移性高 学习到的知识和能力可以在不同 的任务和领域中迁移和应用。这 意味着一次训练就可以将模型应 用于多种任务,无需重新训练
20. 3.2 大模型的发展历程 大模型发展历经三个阶段,分别是萌芽期、沉淀期和爆发期
21. 3.2 大模型的发展历程  萌芽期( 1950-2005 ) 这是一个以 CNN ( Convolutional Neural Networks ,卷积神经网 络)为代表的传统神经网络模型阶段  1956 年,从计算机专家约翰 · 麦卡锡提出“人工智能”概念开始, AI 发展由最开始基于小规模专家知识逐步发展为基于机器学习  1980 年,卷积神经网络的雏形 CNN 诞生  1998 年,现代卷积神经网络的基本结构 LeNet-5 诞生,机器学习方 法由早期基于浅层机器学习的模型,变为了基于深度学习的模型, 为自然语言生成、计算机视觉等领域的深入研究奠定了基础,对后 续深度学习框架的迭代及大模型发展具有开创性的意义
22. 3.2 大模型的发展历程  沉淀期( 2006-2019 ) 这是一个以 Transformer 为代表的全新神经网络模型阶段 2013 年,自然语言处理模型 Word2Vec 诞生,首次提出将单词转换 为向量的“词向量模型”,以便计算机更好地理解和处理文本数据。 2014 年,被誉为 21 世纪最强大算法模型之一的 GAN ( Generative Adversarial Networks ,对抗式生成网络)诞生,标志着深度学习进 入了生成模型研究的新阶段 2017 年, Google 颠覆性地提出了基于自注意力机制的神经网络结构 —— Transformer 架构,奠定了大模型预训练算法架构的基础 2018 年, OpenAI 基于 Transformer 架构发布了 GPT-1 大模型,意 味着预训练大模型成为自然语言处理领域的主流,其中, GPT 的英文 全称是 Generative Pre-Trained Transformer ,是一种基于互联网的 、可用数据来训练的、文本生成的深度学习模型 2019 年, OpenAI 发布了 GPT-2
23. 3.2 大模型的发展历程  爆发期( 2020- 至今) 这是一个以 GPT 为代表的预训练大模型阶段 2020 年 6 月, OpenAI 公司推出了 GPT-3 ,模型参数规模达到了 1750 亿 ,成为当时最大的语言模型,并且在零样本学习任务上实现了巨大性能提 升 。 随 后 , 更 多 策 略 如 基 于 人 类 反 馈 的 强 化 学 习 ( RLHF , Reinforcement Learning from Human Feedback )、代码 预训练、指令微调等开始出现,被用于进一步提高推理能力和任务泛化 2022 年 11 月 , 搭 载 了 GPT3.5 的 ChatGPT ( Chat Generative Pre- trained Transformer )横空出世,凭借逼真的自然语言交互与多场景内 容生成能力,迅速引爆互联网,在全球范围内引起轰动,使得大模型的概 念迅速进入普通大众的视野。 ChatGPT 是人工智能技术驱动的自然语言 处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天 的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、 视频脚本、文案、翻译、代码,写论文等任务
24. 3.2 大模型的发展历程  爆发期( 2020- 至今) OpenAI 在 2023 年 3 月发布了 GPT-4 ,它是一个多模态大模型(接受图像和文本输入,生成文本)。相比上一代的 GPT- 3 , GPT-4 可以更准确地解决难题,具有更广泛的常识和解决问题的能力。 2023 年 12 月,谷歌发布大模型 Gemini ,它 可以同时识别文本、图像、音频、视频和代码五种类型信息,还可以理解并生成主流编程语言(如 Python 、 Java 、 C+ + )的高质量代码,并拥有全面的安全性评估。 2024 年 12 月, DeepSeek 迅速崛起,震撼全球,使得人工智能进入“普 惠”时代
25. 3.3 人工智能与大模型的关系 人工智能包含了机器学习,机器学习包含了深度学习,深度学习可以采用不同的模型,其中一种模型是预训练模型,预训练 模型包含了预训练大模型(可以简称为“大模型”),预训练大模型包含了预训练大语言模型(可以简称为“大语言模 型”),预训练大语言模型的典型代表包括 OpenAI 的 GPT 和百度的文心 ERNIE , ChatGPT 是基于 GPT 开发的大模型 产品,文心一言是基于文心 ERNIE 开发的大模型产品 人工智能 深度学习模型 ChatGPT 文心一言 预训练模型 机器学习 预训练大模型 深度学习 深度学习 预训练 大语言模型 预训练大语言模型 GPT 文心ERNIE ...
26. 3.4 大模型产品 3.4.1 国外的大模型产品 3.4.2 国内的大模型产品
27. 3.4.1 国外的大模型产品  ChatGPT ChatGPT 是一种由 OpenAI 训练的大语言模型。它是基于 Transformer 架构,经过大量文本数据训练而成,能够生成自然 、流畅的语言,并具备回答问题、生成文本、语言翻译等多种功能 ChatGPT 的应用范围广泛,可以用于客服、问答系统、对话生成、文本生成等领域。它能够理解人类语言,并能够回答各 种问题,提供相关的知识和信息。与其他聊天机器人相比, ChatGPT 具备更强的语言理解和生成能力,能够更自然地与人 类交流,并且能够更好地适应不同的领域和场景。 ChatGPT 的训练数据来自互联网上的大量文本,因此,它能够涵盖多种 语言风格和文化背景
28. 3.4.1 国外的大模型产品  Gemini Gemini 是谷歌发布的大模型,它能够同时处理多种类型的数据和任务,覆盖文本、图像、音频、视频等多个领域。 Gemini 采用了全新的架构,将多模态编码器和多模态解码器两个主要组件结合在一起,以提供最佳结果 Gemini 包括三种不同规模的模型: Gemini Ultra 、 Gemini Pro 和 Gemini Nano ,适用于不同任务和设备。 2023 年 12 月 6 日, Gemini 的初始版本已在 Bard 中提供,开发人员版本可通过 Google Cloud 的 API 获得。 Gemini 可以应用于 Bard 和 Pixel 8 Pro 智能手机。 Gemini 的应用范围广泛,包括问题回答、摘要生成、翻译、字幕生成、情感分析等任务。 然而,由于其复杂性和黑箱性质, Gemini 的可解释性仍然是一个挑战
29. 3.4.1 国外的大模型产品  Sora 2024 年 2 月 16 日, OpenAI 再次震撼全球科技界,发布了名为 Sora 的文本生成视频大模型,只需输入文本就能自动生成视频。这一技术的 诞生,不仅标志着人工智能在视频生成领域的重大突破,更引发了关于 人工智能发展对人类未来影响的深刻思考。随着 Sora 的发布,人工智能 似乎正式踏入了通用人工智能( AGI : Artificial General Intelligence )的时代。 AGI 是指能够像人类一样进行各种智能活动的机器智能,包括理解语言 、识别图像、进行复杂推理等。 Sora 大模型能够直接输出长达 60 秒的 视频,并且视频中包含了高度细致的背景、复杂的多角度镜头,以及富 有情感的多个角色。这种能力已经超越了简单的图像或文本生成,开始 触及到视频这一更加复杂和动态的媒介。这意味着人工智能不仅在处理 静态信息上越来越强大,而且在动态内容的创造上也展现出了惊人的潜 力
30. 3.4.1 国外的大模型产品  Sora 右图是 Sora 根据文本自动生成的视频画面,一位戴着 墨镜、穿着皮衣的时尚女子走在雨后夜晚的东京市区街 道上,抹了鲜艳唇彩的唇角微微翘起,即便带着墨镜也 能看到她的微笑,地面的积水映出了她的身影和灯红酒 绿的霓虹灯,热闹非凡的唐人街正在进行舞龙表演,熙 熙攘攘的人群目光都聚焦在跃动的彩龙身上,整个环境 的喜庆氛围仿佛令人身临其境
31. 3.4.1 国外的大模型产品  OpenAI o3 2024 年 12 月 20 日, OpenAI 发布推理模型 o3 ,无论在软件工程、编写代码,还是竞赛数学、掌握人类博士级别的自然 科学知识能力方面, o3 都达到了很高的水平
32. 3.4.2 国内的大模型产品 2025 年 1 月国内大模型排行榜 大模型 DeepSeek 豆包 Kimi 即梦 AI 图标 指标排名 能力测评第一 用户数量第一 文本处理第一 作图能力第一 通义万相 视频生成第一 智谱清言 文档归纳第一
33. 3.4.2 国内的大模型产品  DeepSeek (深度求索) 2024 年 12 月 26 日,杭州一家名为“深度求索”( DeepSeek )的中国初 创公司,发布了全新一代大模型 DeepSeek-V3 。在多个基准测试 中, DeepSeek-V3 的性能均超越了其他开源模型,甚至与顶尖的闭源大模型 GPT-4o 不相上下,尤其在数学推理上, DeepSeek-V3 更是遥遥领 先。 DeepSeek-V3 以多项开创性技术,大幅提升了模型的性能和训练效率。 DeepSeek-V3 在性能比肩 GPT-4o 的同时,研发却只花了 558 万美元,训练 成本不到后者的二十分之一。因为表现太过优越, DeepSeek 在硅谷被誉为 “来自东方的神秘力量”。 2025 年 1 月 20 日, DeepSeek-R1 正式发布,拥有卓越的性能,在数学、 代码和推理任务上可与 OpenAI o1 媲美。 DeepSeek 创始人 梁文峰
34. 3.4.2 国内的大模型产品  通义千问 通义千问是阿里云推出的一个超大规模的语言模型,它具备多轮对话、文 案创作、逻辑推理、多模态理解、多语言支持的能力。通义千问这个名字 有“通义”和“千问”两层含义,“通义”表示这个模型能够理解各种语 言的含义,“千问”则表示这个模型能够回答各种问题。通义千问基于深 度学习技术,通过对大量文本数据进行训练,从而具备了强大的语言理解 和生成能力。它能够理解自然语言,并能够生成自然语言文本 同时,通义千问还具备多模态理解能力,能够处理图像、音频等多种类型 的数据。通义千问的应用范围非常广泛,可以应用于智能客服、智能家居 、移动应用等多个领域。它可以与用户进行自然语言交互,帮助用户解决 各种问题,提供相关的知识和信息。同时,通义千问还可以与各种设备和 应用进行集成,为用户提供更加便捷的服务
35. 3.4.2 国内的大模型产品  字节跳动豆包 豆包是字节跳动基于云雀模型开发的 AI ,能理解你的需求并生成高质量 回应。它知识储备丰富,涵盖历史、科学、技术等众多领域,无论是日常 问题咨询,还是深入学术探讨,都能提供准确全面的信息。同时,具备出 色的文本创作能力,能撰写故事、诗歌、文案等各类体裁。并且擅长语言 交互,交流自然流畅,就像身边的知心伙伴,耐心倾听并给予恰当反馈。
36. 3.4.2 国内的大模型产品  文心一言 文心一言是由百度研发的知识增强大模型,能够与人对话互动、回答问题、 协助创作,高效便捷地帮助人们获取信息、知识和灵感 文心一言基于飞桨深度学习平台和文心知识增强大模型,持续从海量数据和 大规模知识中融合学习,具备知识增强、检索增强和对话增强的技术特色。 文心一言具有广泛的应用场景,例如智能客服、智能家居、移动应用等领域。 它可以与用户进行自然语言交互,帮助用户解决各种问题,提供相关的知识 和信息
37. 3.5 大模型的基本原理 大模型是基于 Transformer 架构的,这种架构是一种专门用于自然语言处理的“编码 - 解码器”架构。在训练过程中,大模 型将输入的单词以向量的形式传递给神经网络,然后通过网络的编码解码以及自注意力机制,建立起每个单词之间联系的权 重。大模型的核心能力在于将输入的每句话中的每个单词与已经编码在模型中的单词进行相关性的计算,并把相关性又编码 叠加在每个单词中。这样,大模型能够更好地理解和生成自然文本,同时还能够表现出一定的逻辑思维和推理能力 基于深度学习 训练 不断地调整 利用 大模型 模型参数 大量的数据和计算资源 具有大量参数的 神经网络模型 模型能够在各 种任务中取得 最佳表现
38. 3.5 大模型的基本原理
39. 3.6 大模型的特点
40. 3.6 大模型的特点 ( 1 )巨大的规模 大模型通常包含数十亿个参数,模型大小可以达到数百 GB 甚至更大。这种巨大的规模不仅提供了强大的表达能力和学习能 力,还使得大模型在处理复杂任务时具有更高的效率和准确性
41. 3.6 大模型的特点 ( 2 )涌现能力 涌现能力是指模型在训练过程中突然展现出之前小模型所没有的、更深层次的复杂特性和能力。当模型的训练数据突破 一定规模时,模型能够综合分析和解决更深层次的问题,展现出类似人类的思维和智能。这种涌现能力是大模型最显著 的特点之一,也是其超越传统模型的关键所在
42. 3.6 大模型的特点 ( 3 )更好的性能和泛化能力 大模型因其巨大的规模和复杂的结构,展现出更出色的性能和泛化能力。它们在各种任务上都能 表现出色,超越了传统的小模型。这主要归功于大模型的参数规模和学习能力。大模型能够更好 地理解和模拟现实世界中的复杂现象,从而在各种任务中表现出更高的准确性和效率。它们能够 捕捉到数据中的微妙差异和复杂模式,使得在未见过的数据上也能表现优秀,即具有良好的泛化 能力 ( 4 )多任务学习 大模型的多任务学习特点使其能够同时处理多种不同的任务,并从中学习到更广泛和泛化的语言 理解能力。通过多任务学习,大模型可以在不同的 NLP ( Natural Language Processing )任 务中进行训练,例如机器翻译、文本摘要、问答系统等。这种多任务学习的方式有助于大模型更 好地理解和应用语言的规则和模式
43. 3.6 大模型的特点 ( 5 )大数据训练 大模型需要大规模的数据来训练,通常在 TB 级别甚至 PB 级别。这是因为大模型拥有数亿甚至 数十亿的参数,需要大量的数据来提供足够的信息供模型学习和优化。只有大规模的数据才能让 大模型的参数规模发挥优势,提高模型的泛化能力和性能。同时,大数据训练也是保证大模型能 够处理复杂任务的关键。通过使用大规模数据,大模型能够更好地理解数据中的复杂模式和关系 ,从而更好地模拟现实世界中的各种现象 ( 6 )强大的计算资源 大模型需要强大的计算资源来训练和运行。由于模型规模庞大,参数数量众多,计算复杂度极高 ,因此需要高性能的硬件设备来支持。通常,训练大模型需要使用 GPU ( Graphics Processing Unit ,图形处理器)或 TPU ( Tensor Processing Unit ,张量处理器)等专用加 速器来提高计算效率。这些加速器能够并行处理大量的参数和数据,使得大模型的训练和推断速 度更快。除了硬件设备,大模型的训练还需要大量的时间。由于模型参数众多,训练过程中需要 进行大量的迭代和优化,因此,训练周期可能长达数周甚至数月
44. 3.6 大模型的特点 ( 7 )迁移学习和预训练 通过在大规模数据上进行预训练,大模型能够学习到丰富的语言知识和模式,从而在各种任务上展现出卓越的性能。迁移学习和预训练有 助于大模型更好地适应特定任务 在 特 特 定 定 任 任 务 务 的 的 数 数 据 据 上 上 进 进 行 行 微 微 调 调 在 在大规模数据上进行预训练后,大模型可以在特定任 在大规模数据上进行预训练后,大模型可以在特定任 务的数据上进行微调,从而更好地适应目标任务的特 务的数据上进行微调,从而更好地适应目标任务的特 性和要求。这种微调过程可以帮助大模型更好地理解 性和要求。这种微调过程可以帮助大模型更好地理解 和处理目标任务的特定问题,进一步提高模型的性能 和处理目标任务的特定问题,进一步提高模型的性能 跨 领 领 域 域 的 的 应 应 用 用 能 能 力 力 跨 迁移学习和预训练也有助于大模型实现跨领域的应用。 迁移学习和预训练也有助于大模型实现跨领域的应用。 通过在多个领域的数据上进行预训练,大模型可以学 通过在多个领域的数据上进行预训练,大模型可以学 习到不同领域的知识和模式,并在不同领域中进行应 习到不同领域的知识和模式,并在不同领域中进行应 用。这种跨领域的应用能力,有助于大模型更好地服 用。这种跨领域的应用能力,有助于大模型更好地服 务于实际需求,推动人工智能技术的创新和发展 务于实际需求,推动人工智能技术的创新和发展
45. 3.6 大模型的特点 ( 8 )自监督学习 自监督学习利用大规模未标记数据进行训练,通过从数据中挖掘内在的规律和模式,使模型能够自动地理解和预测数据中的信息。在大规 模的未标记数据中,大模型通过预测输入数据的标签或下一个时刻的状态来进行训练。这种训练方式使得大模型能够从大量的数据中自动 地学习到语言的内在结构和模式,而不需要人工标注和干预
46. 3.6 大模型的特点 ( 9 )领域知识融合 大模型通过领域知识融合,能够将不同领域的数据和知识融合在一起,从而更好地模拟现实世界中的复杂现象 领域知识融合使得大模型能够从多个领域中学习到广泛的知识和模式,并将这些知识和模式整合到统一的框架中
47. 3.6 大模型的特点 ( 10 )自动化和效率 大模型在应用中展现出高度的自动化和效率。由于大模型具有强大的表达能力和学习能力,它可以自动化许多复杂的任务,大大提高工作 效率。大模型通过预训练和微调过程,能够自动地适应特定任务,而不需要过多的手工调整和干预。这使得大模型能够快速地应用于各种 实际场景,并且自动地处理复杂的任务,如自动编程、自动翻译、自动摘要等
48. 3.7 大模型的分类
49. 3.7 大模型的分类 语言大模型 视觉大模型 是 指 在 自 然 语 言 处 理 ( Natural Language 是指在计算机视觉( Computer Vision , CV ) 是指能够处理多种不同类型数据的大模型,例如 Processing , NLP )领域中的一类大模型,通 领域中使用的大模型,通常用于图像处理和分析。 文本、图像、音频等多模态数据。这类模型结合 常用于处理文本数据和理解自然语言。这类大模 这类模型通过在大规模图像数据上进行训练,可 了 NLP 和 CV 的能力,以实现对多模态信息的综 型的主要特点是它们在大规模语料库上进行了训 以实现各种视觉任务,如图像分类、目标检测、 合理解和分析,从而能够更全面地理解和处理复 练,以学习自然语言的各种语法、语义和语境规 图像分割、姿态估计、人脸识别等。代表性产品 杂的数据。代表性产品包括 DingoDB 多模向量 则。代表性产品包括 GPT 系列( OpenAI )、 包括 VIT 系列( Google )、文心 UFO 、华为 数据库(九章云极 DataCanvas )、 DALL- Bard ( Google ) 、 DeepSeek 、 文 心 一 言 盘古 CV 、 INTERN (商汤)等 E(OpenAI) 、悟空画画(华为)、 midjourney (百度)等 多模态大模型 等
50. 3.7 大模型的分类 按照应用领域的不同,大模型主要可以分为 L0 、 L1 、 L2 三个层级 通用大模型 L0 行业大模型 L1 垂直大模型 L2 是指可以在多个领域和任务上通用 是指那些针对特定行业或领域的大 是指那些针对特定任务或场景的大 的大模型。它们利用大算力、使用 模型。它们通常使用行业相关的数 模型。它们通常使用任务相关的数 海量的开放数据与具有巨量参数的 据进行预训练或微调,以提高在该 据进行预训练或微调,以提高在该 深度学习算法,在大规模无标注数 领域的性能和准确度,相当于 AI 成 任务上的性能和效果 据上进行训练,以寻找特征并发现 为“行业专家” 规律,进而形成可“举一反三”的 强大泛化能力,可在不进行微调或 少量微调的情况下完成多场景任务 ,相当于 AI 完成了“通识教育”
51. 3.8 大模型的应用领域
52. 3.8 大模型的应用领域 大模型的应用领域非常广泛,涵盖了自然语言处理、计算机视觉、语音识别、推荐系统、医疗健康、金融风控、工业制造、 生物信息学、自动驾驶、气候研究等多个领域 ( 1 )自然语言处理 ( 2 )计算机视觉 大模型在自然语言处理领域具有重要的应用,可以用于文本生成 大模型在计算机视觉领域也有广泛应用,可以用于图像分类(识别图 (如文章、小说、新闻等的创作)、翻译系统(能够实现高质量的 像中的物体和场景)、目标检测(能够定位并识别图像中的特定物 跨语言翻译)、问答系统(能够回答用户提出的问题)、情感分析 体)、图像生成(如风格迁移、图像超分辨率增强)、人脸识别(用 (用于判断文本中的情感倾向)、语言生成(如聊天机器人)等 于安全验证和身份识别)、医学影像分析(辅助医生诊断疾病)等
53. 3.8 大模型的应用领域 ( 3 )语音识别 ( 4 )推荐系统 大模型在语音识别领域也有应用,如语音识别、语音合成等。通过 大模型可以用于个性化推荐、广告推荐等任务。通过分析用户的历史 学习大量的语音数据,大模型可以实现高质量的跨语言翻译和语音 行为和兴趣偏好,大模型可以为用户提供个性化的推荐服务,提高用 识别以及生成自然语音 户满意度和转化率
54. 3.8 大模型的应用领域 自动驾驶 医疗健康 金融风控 大模型可以用于自动驾驶中的感知、决策 大模型可以用于医疗影像诊断、疾病预测 大模型可以用于信用评估、欺诈检测等任 等任务。通过学习大量的驾驶数据,大模 等任务。通过学习大量的医学影像数据, 务。通过分析大量的金融数据,大模型可 型可以实现对车辆周围环境的感知和识别 大模型可以辅助医生进行疾病诊断和治疗 以评估用户的信用等级和风险水平,以及 ,以及进行决策和控制,提高自动驾驶的 方案制定,提高医疗水平和效率 检测欺诈行为,提高金融系统的安全性和 安全性和效率 稳定性
55. 3.8 大模型的应用领域 工业制造 生物信息学 气候研究 大模型可以用于质量控制、故障诊断等任 在生物信息学领域,大模型可以用于基因 在气候研究领域,大模型可以处理气象数 务。通过学习大量的工业制造数据,大模 序列分析(识别基因中的功能元件和变异 据,进行天气预测和气候模拟。它们能够 型可以辅助工程师进行产品质量控制和故 位点)、蛋白质结构预测(推测蛋白质的 分析复杂的气象现象,提供准确的气象预 障诊断,提高生产效率和产品质量 二级和三级结构)、药物研发(预测分子 报,帮助人们做出应对气候变化的决策 与靶点的相互作用)等
56. 3.9 大模型对人们工作和生活的影响 3.9.1 大模型对工作的影响 3.9.2 大模型对生活的影响
57. 3.9.1 大模型对工作的影响 提高 提高 工作效率 工作效率 优化 优化 决策过程 决策过程 自动化 自动化 部分工作 部分工作 创造新的 创造新的 就业机会 就业机会 大模型在自然语言处理、机器 大模型能够收集、整理和分析 大模型的发展使得一些繁琐、 随着大模型的普及和应用,将 翻译等领域的应用,使得人们 大量的数据,通过数据挖掘和 重复的工作可以由机器来完成 创造出许多新的就业机会。例 能够快速、准确地处理大量文 机器学习技术,帮助人们更准 ,从而减轻了人们的工作负担。 如,需要更多的人来开发和维 本数据,提高工作效率。例如 确地了解问题现状,预测未来 例如,在金融领域,大模型可 护大模型,也需要更多的人来 ,在翻译领域,大模型能够自 趋势,从而做出更明智的决策 以自动分析大量的金融数据, 利用大模型进行各种应用开发 动翻译多种语言,减少人工翻 译的时间和成本,提高翻译效 率 帮助人们做出更准确的决策
58. 3.9.2 大模型对生活的影响 改善生活质量 提高学习效率 增强娱乐体验 大模型在智能家居、智能客服等领域的 大模型在教育领域的应用,可以帮助人 大模型在娱乐领域的应用,可以提供更 应用,使得人们的生活更加便利、舒适。 们更高效地学习新知识。例如,通过大 加丰富、多样的娱乐体验。例如,通过 例如,通过智能家居系统,人们可以通 模型的智能推荐功能,人们可以根据自 大模型的语音识别功能,人们可以通过 过语音指令控制家电,实现智能化生活 己的兴趣和需求,获取更加个性化的学 语音指令控制游戏,实现更加智能化的 习资源 游戏体验
59. 3.10 本地部署大模型
60. 3.10.1 为什么需要本地部署大模型 本地部署 大模型 数据隐私与安全性 避免使用限制 定制化与灵活性 成本与资源优化 离线与高效使用
61. 3.10.2 本地部署大模型方法 • • • • 安装 Ollama 下载 DeepSeek R1 运行 DeepSeek R1 使用 Open WebUI 增强交互体验 具体安装过程请参考厦门大学数据库实验室博客 https://dblab.xmu.edu.cn/blog/5816/
62. 3.11 基于大模型的智能体
63. 3.11 基于大模型的智能体 智能体( AI Agent ),又称“人工智能代理”, 是一种模仿人类智能行为的智能化系统,它就像 是拥有丰富经验和知识的“智慧大脑”,能够感 知所处的环境,并依据感知结果,自主地进行规 划、决策,进而采取行动以达成特定目标。简单 来说,智能体能够根据外部输入做出决策,并通 过与环境的互动,不断优化自身行为。 智能体本身既不是单纯的软件也不是硬件,而是 一个更为宽泛的概念,它们可以是软件程序、机 器人或其他形式的系统,具备一定的自主性和智 能性。
64. 3.11 基于大模型的智能体 基于大模型的智能体是指利用大语言模型(如 GPT 、 BERT 等)作为核心组件,构建的能够执 行特定任务、与环境交互并做出决策的人工智能 系统。这些智能体具有自主性、交互性、适应性 等特点,能够模拟人类的认知和决策过程,提供 更加自然、高效和个性化的交互体验。它们能够 处理海量数据,进行高效的学习与推理,并展现 出跨领域的应用潜力。
65. 3.11 基于大模型的智能体 2025 年 1 月 23 日, OpenAI 发布了一个创新性的智能体—— Operator ,它是一个能够像人类一样使用计算机的智能 体。它基于 OpenAI 最新研发的 CUA ( Computer-Using Agent )模型, CUA 将 GPT-4o 的视觉功能与通过强化学 习获得的高级推理相结合,经过训练可以与图形用户界面( GUI ,即人们在屏幕上看到的按钮、菜单和文本字段)进行 交互。 Operator 通过观察屏幕并使用虚拟鼠标和键盘来完成任务,而无需依赖专门的 API 接口。这种设计使其可以适配 任何为人类设计的软件界面,带来极高的灵活性。 Operator 好比一个博士水平的个人助理,你给他一个复杂的任务,它就会自动执行。 Operator 的主要功能包括自主完 成诸如采购杂货、提交费用报表、订票、买日用品、填写表格等任务,旨在通过自动化操作提升日常生活和工作效率。它 还可以一边在 StubHub 搜索勇士队比赛门票,一边处理网球场预订、寻找清洁服务和 DoorDash 订餐,实现多任务并行 处理。
66. 3.11 基于大模型的智能体 2025 年 2 月 3 日, OpenAI 发布了一款新的智能体产品—— Deep Research 。 Deep Research 由 OpenAI o3 模型的 一个版本提供支持,该模型针对网页浏览和数据分析进行了优化,它利用推理来搜索、解释和分析互联网上的大量文本、 图像和 PDF ,并根据需要根据遇到的信息做出调整。 Deep Research 具有以下四大核心技术: ( 1 )数据雷达。会自动 24 小时扫描全球知识库。 ( 2 )知识拼图。能把零散的信息拼成完整的战略地图。 ( 3 )逻辑推理。发现矛盾时,自动回溯、验证,调整推理路径。 ( 4 )学术裁缝。可以综合各种知识,生成完美的报告,还附带文献引用。
67. 3.11 基于大模型的智能体 Coze( 扣子 )
68. 4. AIGC 应用与实践 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 AIGC 概述 文本类 AIGC 应用实践 图片类 AIGC 应用实践 语音类 AIGC 应用实践 视频类 AIGC 应用实践 AIGC 在辅助编程中的应用 AI 搜索 AI 智能办公
69. 4. 1 AIGC 概述 4.1.1 4.1.2 4.1.3 4.1.4 4.1.5 4.1.6 4.1.7 什么是 AIGC AIGC 与大模型的关系 常见的 AIGC 应用场景 AIGC 技术对行业发展的影响 AIGC 技术对职业发展的影响 常见的 AIGC 大模型工具 AIGC 大模型的提示词
70. 4.1.1 什么是 AIGC AIGC 的全称为“ Artificial Intelligence Generated Content” ,中文 翻译为“人工智能生成内容”。这是一种新的创作方式,利用人工智能 技术来生成各种形式的内容,包括文字、音乐、图像、视频等  AIGC 是人工智能进入全新发展时期的重要标志,其核心技术包括生成对抗网 络( GAN , Generative Adversarial Networks )、大型预训练模型、多模 态技术等  AIGC 的核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过 训练模型和大量数据的学习, AIGC 可以根据输入的条件或指导,生成与之相 关的内容。例如,通过输入关键词、描述或样本, AIGC 可以生成与之相匹配 的文章、图像、音频等  AIGC 技术不仅可以提高内容生产的效率和质量,还可以为创作者提供更多的 灵感和支持。在文学创作、艺术设计、游戏开发等领域, AIGC 可以自动创作 出高质量的文本、图像和音频等内容。同时, AIGC 也可以应用于媒体、教育 、娱乐、营销、科研等领域,为用户提供高质量、高效率、高个性化的内容服 务
71. 4.1.2 AIGC 与大模型的关系 大模型与 AIGC 之间的关系可以说是相辅相成、相互促进的。大模型为 AIGC 提供了强大的技术基础和支 撑,而 AIGC 则进一步推动了大模型的发展和应用,具体如下: 01 02 03 大模型为 AIGC 提供了丰 富的数据资源和强大的计 算能力 AIGC 的需求也推动了大 模型的发展 大模型和 AIGC 的结合, 也带来了广泛的应用前景
72. 4.1.3 常见的 AIGC 应用场景 AIGC 可以应用于各行各业,主要包括但不限于生成文字、图像、音频、视频等,具体如下: 电商 办公 游戏 生成场景原画,生成角色 写周报日报,写方案,写 生成商品标题、描述、广 形象,生成世界观,生成 运营活动,制作 PPT ,写 告文案和广告图 数值,生成 3D 模型,生成 读后感,写代码 娱乐 头像生成,照片修复,图 像生成,音乐生成 NPC 对话,音效生成 影视 生成分镜头脚本,生成剧 本脚本,台词润色,生成 推广宣传物料,音乐生成
73. 4.1.3 常见的 AIGC 应用场景 动漫 原画绘制,动画生成,分镜 生成,音乐生成 艺术 教育 写诗,写小说,生成艺术创 批改试卷,试卷创建,搜题 作品,草图生成,艺术风格 答题,课程设计,课程总结 转换,音乐创作 ,虚拟讲师 设计 媒体 UI 设计,美术设计,插画设 软文撰写,大纲提炼,热点 计,建筑设计 撰写 生活 制定学习计划,做旅游规划
74. 4.1.4 AIGC 技术对行业发展的影响 AIGC 技术对行业发展的影响深远且广泛,主要体现在以下几个方面: 内容创作领域的革新 生产力提升与成本降低 AIGC 技术能够自动生成高质量的文本、图像、音频和视频等内容,极大地 AIGC 技术在多个行业中展现了其提升生产力和降低成本的潜力。例如,在 提高了内容创作的效率。在新闻、广告、自媒体等领域, AIGC 已经实现了 游戏开发领域, AIGC 技术可以用于场景构建、角色互动等,减少人工制作 广泛应用,帮助创作者快速生成多样化、个性化的内容,满足市场需求。这 的工作量,提高开发效率。在制造业中, AIGC 技术可以辅助设计、优化生 种技术革新不仅降低了内容创作的成本,还激发了创作者的创新灵感,推动 产流程,降低生产成本。这些应用使得企业能够更快地响应市场变化,提升 了内容产业的繁荣发展。 竞争力。 用户体验的升级 AIGC 技术通过提供个性化、定制化的内容和服务,显著提升了用户体验。 在智能客服、在线教育等领域, AIGC 技术可以根据用户的需求和偏好提供 精准的服务,满足用户的个性化需求。这种以用户为中心的服务模式不仅增 强了用户的满意度和忠诚度,还为企业带来了更多的商业机会。 推动行业创新与转型 AIGC 技术的快速发展为传统行业带来了转型升级的契机。通过与 AIGC 技术 的深度融合,传统行业可以探索新的商业模式和服务模式,实现创新发展。 例如,在零售业中, AIGC 技术可以用于智能推荐、虚拟试衣等场景,提升 购物体验并促进销售增长。在金融领域, AIGC 技术可以应用于投资策略优 化、风险管理等方面,提高金融机构的决策效率和准确性。
75. 4.1.5 AIGC 技术对职业发展的影响 AIGC 技术对职业发展产生了深远的影响,主要体现在以下几个方面: 新兴职业的出现 传统职业的转型升级 工作方式的变革 随着 AIGC 技术的快速发展,一系列与该技 AIGC 技术也为传统职业的转型升级提供了 AIGC 技术改变了传统的工作方式,使得远 术相关的新兴职业应运而生。例如, AI 训 契机。许多传统职业如编辑、设计师、教师 程工作、灵活办公成为可能。许多企业开始 练师、机器学习工程师、数据标注员等职业 等,在 AIGC 技术的辅助下,工作效率和创 采用 AIGC 技术来优化工作流程,减少人力 需求激增。这些新兴职业不仅要求从业者具 作质量得到了显著提升。同时,这些职业也 成本,提高工作效率。这种变革不仅为员工 备扎实的技术基础,还需要不断学习和掌握 需要从业者不断适应技术变革,掌握新的技 提供了更加灵活的工作方式,也为企业带来 最新的 AIGC 技术动态。 能和工具,以适应市场需求的变化。 了更大的经济效益。 职业发展路径的多样化 持续学习与技能提升 AIGC 技术的发展为职业发展路径提供了更 面对 AIGC 技术的快速发展,从业者需要不 多的可能性。从业者可以根据自己的兴趣和 断学习和提升自己的技能水平。通过参加培 特长,选择适合自己的职业发展方向。例如 训课程、阅读专业书籍、参与技术论坛等方 ,一些对 AI 技术感兴趣的从业者可以选择 式,从业者可以紧跟技术前沿,保持自己的 成为 AI 训练师或机器学习工程师,而一些 竞争力。 具有创意和设计才能的从业者则可以利用 AIGC 技术来提升自己的创作能力。
76. 4.1.6 常见的 AIGC 大模型工具 常见的 AIGC 大模型工具包括: OpenAI 的 ChatGPT 百度文心一言 DeepSeek 科大讯飞的讯飞星火 字节跳动豆包 阿里的通义千问 Kimi 这些工具基于大规模语言模型技术,具备文本生成、语言理解、知识问答、逻辑推理等多种能力,可广泛应用于写 作辅助、内容创作、智能客服等多个领域。通过不断迭代和优化,为用户提供更加智能、高效的内容生成解决方案
77. 4.1.7 AIGC 大模型的提示词  AIGC 大模型的提示词( Prompt )是指用户向大模型输入的文本内容,用于触发大模型的响应并指导其如何生成或回 应  这些提示词可以是一个问题、一段描述、一个指令,甚至是一个带有详细参数的文字描述。它们为大模型提供了生成对 应文本、图片、音频、视频等内容的基础信息和指导方向。  提示词的重要作用如下: 引导生成 增强交互性 提高准确性
78. 4.1.7 AIGC 大模型的提示词 使用提示词需要注意一些技巧,这样可以从大模型获得更加符合我们预期要求的结果,主要技巧如下: 简洁明确 考虑受众 分解复杂任务 使用肯定性指令 示例驱动 明确角色 遵守规则 自然语言回答
79. 4.2 文本类 AIGC 应用实践 4.2.1 案例 1 :与 DeepSeek 进行对话 4.2.2 案例 2 :与百度文心一言进行对话 4.2.3 案例 3 :使用讯飞智文生成 PPT
80. 4.2.1 案例 1 :与 DeepSeek 进行对话 1. 快速体验 DeepSeek 访问 DeepSeek 官网( https://chat.deepseek.com/ ),会出现如图 7-1 所示对话界面,在提示词输入框的底部, 有两个按钮,即“深度思考 (R1)” 和“联网搜索”,可以用鼠标点击来选中或取消,默认情况下,“深度思考 (R1)” 按钮是处于选中状态,“联网搜索”则处于未选中状态。两个按钮的功能如下: ( 1 )深度思考 (R1) 。表示触发更复杂的多步推理能力,适合需要逻辑链分析的场景,典型使用场景包括数学 题 / 物理题推导、文学作品的隐喻分析、编程问题的架构设计、需要分步骤解释的操作指南等。 ( 2 )联网搜索。表示实时获取最新网络信息,适合时效性强的查询,典型使用场景包括查询实时股价 / 汇率、验证 最新科研成果、获取突发事件进展、检索特定网页内容等。
81. 4.2.1 案例 1 :与 DeepSeek 进行对话 1. 快速体验 DeepSeek 在提示词输入框中输入“请模仿李白的《望庐山瀑布》做一首诗,题目是《看厦门鼓浪屿》”,然后回车,或者用鼠 标点击提示词输入框右侧的箭头按钮,向 DeepSeek 发起提问。 DeepSeek 给出的回答如图 7-2 所示,需要注意的 是,大模型属于概率模型,每次生成的回答内容可能不完全相同。
82. 4.2.1 案例 1 :与 DeepSeek 进行对话 2.DeepSeek 的基本用法 ( 1 )基本原则:简单直接,自然表达。①无需复杂结构。直接描述需求即可,无需添加“角色扮演”(如“假设你是专 家”)或复杂指令(如“用学术语言分三点回答”)。比如,你可以直接向 DeepSeek 提问“什么是光合作用?”、“如 何用 Python 写一个计算器程序?”,而不建议使用提示词“请以生物学教授的身份,用三个段落解释光合作用,每段不超 过 100 字”。②多轮对话优化结果。如果首次回答不完整,可通过追问补充细节,无需一次性给出完美提示。比如,第一 轮提问“写一首关于秋天的诗”,第二轮提问“加入一些悲伤的情绪”,第三轮提问“把‘落叶’换成比喻句”。 ( 2 )不同场景的提问技巧(非必需,但可提升效率)。虽然简单提问即可满足大多数需求,但在复杂任务中,适当提供背 景信息或明确需求会让结果更精准,具体技巧包括:①知识类问题。比如,基础提问是“量子力学的基本原理是什么?”, 优化后的提问是“用通俗易懂的语言解释量子纠缠,适合高中生理解”,② 创作类任务(写作、编程等)。比如,基础提 问是“写一个关于人工智能的科幻短篇故事”,优化后的提问是“写一个反乌托邦主题的科幻故事,主角是女性工程师,结 局有反转”。③实用建议(学习、工作等)。比如,基础提问是“如何提高英语听力?”,优化后的提问是“我每天只有 30 分钟学习时间,有哪些高效的英语听力练习方法?”。④复杂任务(数据分析、代码调试)。比如,基础提问是“这段 Python 代码报错了,帮我看看问题”,优化后的提问是“我的代码目标是爬取网页数据,但遇到 SSL 证书错误。报错信息 如下: [ 粘贴代码 ]” 。
83. 4.2.1 案例 1 :与 DeepSeek 进行对话 2.DeepSeek 的基本用法 作为初学者, DeepSeek 的一些“魔法”指令也很有用,比如,你可以输入“ / 步骤 如何用手机拍摄旅游照片”, DeepSeek 返回的回答结果就会按照步骤详细给出拍摄旅游照片的说明,再比如,你可以输入“请解释量子计算, 然后 / 简化”,它就会返回比较简明扼要的回答。 表 DeepSeek 的“魔法”指令 指令 / 续写 / 简化 / 示例 / 步骤 / 检查 功能 当回答中断时自动继续生成 将复杂内容转换成大白话 要求展示实际案例(特别是写代码时) 让 AI 分步骤指导操作流程 帮你发现文档中的错误
84. 4.2.1 案例 1 :与 DeepSeek 进行对话 3. 使用 DeepSeek 处理文档 点 击 DeepSeek 界 面 中 的 「 回 形 针 」 图 标 上 传 文 件 , 支 持 的 文 件 类 型 包 括 文 本 类 ( PDF 、 DOCX 、 TXT 、 Markdown )、数据类( CSV 、 XLSX )和图像类( JPG 、 PNG )。然后,就可以在对话 框中输入提示词,比如,可以输入“总结这份年报的三个核心要点”、“提取合同中的责任条款制成表格”、“对比文档 A 和文档 B 的市场策略差异”、“从实验报告中整理所有温度数据”、“请识别图片中的文字”等。也可以使用一些指令 来处理文档,如表 7-2 所示。 表 用于文档处理的 DeepSeek 指令 功能 内容摘要 问答提取 数据可视化 跨文档对比 指令模板 应用场景 / 总结 [ 文件名 ] 生成 500 字摘要 快速把握长篇文档核心内容 / 问答 [ 文件名 ] 第三章提到的技术参数是 精准定位特定信息 ? / 可视化 [ 文件名 ] 将销售数据生成折线图 转化表格数据为图形分析 / 对比 文件 A vs 文件 B 的政策差异 合同 / 论文查重对比 还可以要求 DeepSeek 对回答结果进行结构化输出,比如,可以输入如下提示词: / 解析文件 年度报告 .docx 输出要求: 1. 按 " 营收 / 利润 / 成本 " 分类 2. 用 Markdown 表格对比近三年数据 3. 关键增长点用 ✅ 标注
85. 4.2.2 案例 2 :与百度文心一言进行对话 ( 1 )告诉文心一言你要的风格 在输入提示词时,明确指定你希望生成的文本内容的风格。这样,文心一言在理解并处理你的请求时,会更有针对 性地调整其生成内容的风格,以满足你的具体需求。比如,可以使用提示词: 请按照 要 求写 一篇 200 字 左 右关 于 云 计算的 介 绍 。 注 意 事项 :文 章 的 受众 是中学生, 需 要通 俗 易 懂 , 语 言 风格 需 要 幽默 、 风 趣 一些 想要生成不同语气风格的文字,可以在问题描述中加入你想要的语气风格作为限定条件,提示文心一言按照你的要 求去输出。 比如,如果你需要正式语气,可以在提示词中加入“请采用正式的词汇和语法结构,使内容显得庄重、严肃和专 业”;如果你需要抒情语气,请在提示词中加入“请使用富有感情和表达感情的词汇,使内容产生共鸣和情绪共 振”;如果你需要口语化语气,请在提示词中加入“请运用口语化的表达方式,例如俚语、俗语和口头禅,使内容 更加轻松和亲切”。
86. 4.2.2 案例 2 :与百度文心一言进行对话 ( 2 )告诉文心一言你要的结构 在构建提示词时,应明确指定期望的输出结构。比如,如果是要求生成一篇文章,可以在提示词中明确指出“请按 照引言 - 正文 - 结论的结构来撰写”。这样,文心一言在生成内容时,会遵循这一结构框架,使得输出更加条理清 晰、逻辑严密。再比如,如果要撰写给上级领导的方案、报告、总结时,可以使用提示词: 请按照【 现 状 / 问题 / 解决 方 案 ,数据 洞察 / 问题概 览 / 调研 方向,数据 / 亮 点 / 问题 / 经 验】 这个 结构撰写 一 份 关 于 我 国 芯片 行 业 的 总 结 报告
87. 4.2.2 案例 2 :与百度文心一言进行对话 ( 3 )告诉文心一言你要的角色 在提示词中可以设定具体的角色或视角。例如,在要求创作故事时,可以明确指定“以一位勇敢探险家的视角讲述 这段经历”。这样的提示能引导文心一言在生成内容时,从特定角色的角度出发,赋予文本独特的情感色彩和叙事 风格。此技巧有助于增强生成内容的代入感和故事性,使内容更加丰富和引人入胜。 下面是一段提示词实例: 请 你 作为一个 小 红 书 文 案撰写 高 手 ,为 我 生 成 一篇 爆 款 小 红 书 文 案 ,要 求 : 突 出 酒 店 的 特 色 , 包括 海景 房 、 豪华 单 间 、 最 新装 修 、 免费 早 餐 、无 线 上 网 等 下面是另一段提示词实例: 我希望 你 能 扮 演 记 者的 角色 , 按照我 的要 求撰写 一 份 新 闻 调 查 ,要 求 : 调 查油罐车 不 清洗 直 接 运 送食 用 油 的 事 情, 不 要出 现 具 体 企业 名 称 ,要 给 出 政府部 门的 处理态度
88. 4.2.2 案例 2 :与百度文心一言进行对话 ( 4 )告诉文心一言你的内容要求 可以通过详细具体的提示词明确表达内容要求。无论是希望生成的文章主题、关键词汇,还是期望涵盖的信息点、 情感倾向,都应在提示词中清晰呈现。这样做能让文心一言更准确地理解用户需求,生成更符合期望的内容。 比如,可以通过如下提示词表达自己的内容要求: 在 6 G 专 利 申请 方面,中国 已 经 遥遥 领 先 。 2021 年的数据 显 示,中国的 6 G 专 利 申请 量 占 比 高 达 40. 3 % , 稳坐 世 界 第一的 宝座 。 请 把 上 面的数据 更 新到目前 最 新的数据
89. 4.2.2 案例 2 :与百度文心一言进行对话 ( 4 )告诉文心一言你的内容要求 如果对输出的内容有比较多的要求或限制,不妨在输入框中将这些内容要求一条一条明确告诉文心一言,比如,可 以采用类似如下的提示词: 请 以 小 红 书 的 风格 , 按照 以下要 求 帮 我 为“ 海景美 食餐厅 ” 写 一篇 小 红 书 种 草 文 案 ; 内 容 要 求 : ( 1 )要有 标 题、 正 文 ( 2 ) 标 题字数: 不 超过 20 个字 ; 尽 量 简 短精炼 ,要 足 够 吸 引 眼 球 ,用 词 浮夸 ( 3 ) 正 文 分段 , 层 次 分 明 ,每 段最 少 100 字 ( 4 )要用“ 首 先 、其次、 最 后”这 种 模 式 ( 5 ) 整 篇文 案不 要超过 1000 个字
90. 4.2.2 案例 2 :与百度文心一言进行对话 ( 5 )告诉文心一言你想写的文体 明确指定文体,如散文、小说、诗歌、科技文等,让大模型理解并模拟该文体的语言特点、结构安排和表达习惯,从 而输出更具针对性的文本。比如,可以采用提示词“请写一段 [ 中秋赏月 ] 的朋友圈文案,需要采用藏头诗的形式”
91. 4.2.2 案例 2 :与百度文心一言进行对话 ( 6 )指导文心一言分步解决问题 将复杂问题拆解成多个简单、具体的步骤,作为提示词输入给文心一言。这样不仅能降低问题的处理难度,使文心一 言更容易理解和响应,还能确保解决问题的过程更加系统、有条理。通过逐步引导,可以逐步逼近问题的解决方案, 提高答案的准确性和实用性。 比如,如果想让文心一言帮你制定一份旅行规划,可以使用类似如下的提示词: 请 为 我 规划 一次为 期 一 周 的厦门自 由 行 ; ( 1 )第 1 步: 列 出 必 去 的 景点 ,如厦门大学、 鼓浪屿 、 环 岛 路 、 五 缘湾 、 曾厝垵 ; ( 2 )第 2 步: 根 据 景点 位 置 安 排 每 日 行程, 确 保 交 通 便 利 ; ( 3 )第 3 步: 推 荐几 家 当 地 的 特 色 餐厅 , 包括 早 餐 、 午 餐 和 晚 餐; ( 4 )第 4 步:提 供 一 家性 价 比 高的 酒 店 住宿 建 议 ,并考 虑 其 位 置是否 便于 游览 。
92. 4.2.2 案例 2 :与百度文心一言进行对话 ( 7 )告诉文心一言你要的示例 明确沟通意图,通过具体示例引导大模型理解你的需求。这有助于文心一言更准确地捕捉你的思维框架和期望结果, 减少误解。比如,可以使用类似如下的提示词: 我 是一 位 高校教 师 , 请 帮 我 写 一 份 工作 周报 ,内 容 尽 量 简 洁精炼 ,下面是 我 本 周 的工作内 容 : ( 1 ) 完成 了 5 个本科生 毕 业 论文 修改 ( 2 ) 撰写 了教材的一个 章 节“ 云 计算与大数据” 输 出要 求 示 例 : 【 本 周 工作 周报】 【 本 周 工作进展 】 本 周 做了 哪 些 事 , 产 生了 哪 些 结 果 【 下 周 工作 安 排】 基 于 本 周 的 结 果下 周 要 推 进 哪 些 事 【 思考 总 结 】 简要 说说 本 周 的 收 获 和 反 思
93. 4.2.2 案例 2 :与百度文心一言进行对话 ( 8 )告诉文心一言你要的场景 在输入提示词时,应明确描述所需的上下文或环境背景,如“在科幻电影中描述一个未来城市的景象”或“请撰写一 封给朋友的生日祝福信,场景设定在海边日落时”。这样做有助于文心一言更好地理解你的需求,生成更符合场景氛 围和情境的内容,从而提升输出内容的贴切性和情感共鸣。
94. 4.2.3 案例 3 :使用讯飞智文生成 PPT 讯飞智文是科大讯飞公司旗下的 AI 一键生成 PPT/WORD 的网站平台,是基于科大讯飞星火认知大模型技术基础上 开发的一个具体应用,主要功能有文档一键生成、 AI 撰写助手、多语种文档生成、 AI 自动配图、模板图示切换功 能。 这里介绍如何使用讯飞智文快速生成 PPT 。 请 首 先 准备 一个 包含 文本内 容 的 P D F 文 件 , 比 如,可以 从 网 络 新 闻报 道 中 复制 一 段 关 于 2024 年 7 月 19 日 微 软 蓝屏 事 件 的内 容 保 存 到一个 W O R D 文 档 中, 命 名为“ 微 软 蓝屏 .docx” , 然 后, 使 用 W PS 软 件 打 开“ 微 软 蓝屏 .docx” , 把 该 W O R D 文 档 保 存 成 P D F 格 式 ,生 成 “ 微 软 蓝屏 .pd f ” 。
95. 4.2.3 案例 3 :使用讯飞智文生成 PPT 访问讯飞智文官网( https://zhiwen.xfyun.cn/ ),在首页(如图所示)中点击“免费使用”,然后 按照网页提示完成注册(推荐使用手机号注册)。
96. 4.2.3 案例 3 :使用讯飞智文生成 PPT 在 页 面中(如图 7-2 所示) 点 击 “开始 制 作”。在出 现 的 页 面中(如图 7- 3 所示),选 择 A I PPT 的“文 档 创 建 ”。 然 后,在出 现 的 页 面中(如图 7-4 所示), 点 击 “ 点 击 上传 ”, 把 本 地 文 件 “ 微 软 蓝屏 .pd f ” 文 件上传上 去 (当 然 ,也可以 上传 “ 微 软 蓝屏 .docx” )。 然 后,在出 现 的 页 面中(如图 7-5 所示), 点 击 “开始 解 析 文 档 ”。之后, 页 面 会 显 示提示文 字“ 好 的, 已 收 到 您 的要 求 ,让 我 先 为 您 生 成 PPT 标 题和大 纲 ”。过一 会 儿 ,就 会 显 示自 动 生 成 的 PPT 标 题和大 纲 ,如果 你 不 满 意,可以 点 击页 面 底 部 的“重新生 成 ”,如果 满 意,可以 直 接点 击 “下一步”。 图 7-2 开始创作
97. 4.2.3 案例 3 :使用讯飞智文生成 PPT 图 7-3 选择 AI PPT 中的“文档创建”
98. 4.2.3 案例 3 :使用讯飞智文生成 PPT 图 7-4 上传文件
99. 4.2.3 案例 3 :使用讯飞智文生成 PPT 图 7-5 开始解析文档
100. 4.2.3 案例 3 :使用讯飞智文生成 PPT 在出 现 的 页 面中(如图 7-6 所示),选 择 你 想要的模 板 配 色 , 比 如,这 里 选 择 “ 清 逸 天 蓝 ”, 然 后 点 击页 面 顶 部 的“下一步”。 经 过一 段 时 间 以后, 页 面就 会 显 示自 动 生 成 的 PPT (如图 7- 7 所示), 点 击页 面 右 上 角 的“ 导 出”,就可以 把 PPT 保 存 到本 地 电 脑 中, 然 后,可以 根 据自 己 的 需求 ,自 己 对 PPT 继 续 进行 修改 和 完 善 。在本 地 电 脑 中 打 开自 动 生 成 的 PPT ,可以 看 出, A I 制 作 PPT 的 水 平 非 常专 业 , 逻辑 清晰 , 配 图 精 美 ,超过了 很 多 PPT 初 级 者的 制 作 水 平,可 以大大提高 普 通用 户 制 作 PPT 的 效率 和 水 平。 图 7-6 选择模板配色
101. 4.3 图片类 AIGC 应用实践 4.3.1 图片类 AIGC 应用场景 4.3.2 图片类 AIGC 案例实践
102. 4.3 图片类 AIGC 应用实践 图片类 AIGC 是一种基于人工智能技术生成图片的方法,它利用深度学习、生成对抗网络( GAN )等先进算法, 通过学习和模仿大量图像数据,能够自动创作出高度真实和艺术化的图片。 AIGC 在图像生成、修复、风格转换、 艺术创作等领域展现出强大能力,为数字艺术、设计、游戏、电影等多个行业带来创新解决方案。其优势包括高效 性、多样性和自动化,能够快速生成大量高质量的图像内容,满足各种复杂需求。
103. 4.3.1 图片类 AIGC 应用场景 图片类 AIGC 的应用场景非常广泛,‌主要包括图像生成、‌图像修复、‌图像增强和图像识别等方面: 图像生成 图像生成 AIGC‌ 能够生成高度逼真的图像,‌如人脸、‌动物、‌建筑物等。‌例如,‌ OpenAI 发布的 DALL-E 可 图像修复 图像修复 AIGC 还可以修复损坏的图像,‌如去除噪声、‌填充缺失的部分等。‌这项技术对于保护和恢复古老 图像增强 图像增强 通过对图像进行增强处理,‌ AIGC 可以增加图像的饱满感和增强细节,‌使图像质量得到提升。‌这 图像识别 图像识别 以根据文本提示词创作出全新的、‌原创的图像,‌展示了 AI 在图像创作方面的强大能力。‌ 的艺术作品、‌修复损坏的照片等具有重要意义。‌ 在提升照片的视觉效果、‌改善图像的清晰度和细节方面非常有用。‌ AIGC 在图像识别方面也有广泛应用,‌可以识别图像中的对象、‌场景和特征,‌如人脸识别、‌车牌 识别等。‌这项技术对于安防监控、‌智能搜索、‌自动驾驶等领域的发展至关重要。
104. 4.3.2 图片类 AIGC 案例实践  图片类 AIGC 大模型主要包括 Midjourney 、 Stable Diffusion SDXL 、百度文心一格等。这里以百度文心一格 为例介绍图片类 AIGC 的使用方法。  文心一格是一款由百度公司研发的 AI 绘画工具,‌为用户提供了丰富的创意空间。‌使用文心一格进行 AI 绘画的步 骤包括注册账户、‌选择创作模式、输入提示词、设置画面类型、设置比例、设置数量以及生成图片等,具体如下 : ( 1 ) 注 册账 户 : 访 问 文 心 一 格 官 网 ( h t t p s : / / y i g e . b a i d u . c o m / ) ,‌ 点 击 “ 注 册 ” 按 钮 ,‌ 完 成 注 册 过 程 。‌ ( 2 )选 择 创 作模 式 : 进 入 文 心 一 格 首 页 以 后 ,‌ 点 击 “ 立 即 创 作 ” 。 在 出 现 的 界 面 中 , 在 界 面 左 上 角 位 置 选 择 “ A I 创 作”,可 供 选 择 的模 式 包括 推 荐 、自定 义 、 商 品 图、 艺 术字、 海 报 ,可以 满 足 不 同的 创 作 需求 。 这 里 可以选 择默 认的模 式 “ 推 荐 ”。
105. 4.3.2 图片类 AIGC 案例实践 ( 3 ) 输入 提示 词 :在提示 词输入框 中 输入 提示 词 , 比 如 输 入 “ 请绘 制 一 张 图 片 ,一个 9 岁 的 女 孩 子在 海 边 沙滩 上 挖 沙 子”。 ( 4 ) 设 置 画 面类型:可以选 择 智能 推 荐 、 唯 美 二 次元、中 国 风 等各种 类型。 ( 5 ) 设 置 比 例 :可以选 择 竖 图、方图、 横 图。 ( 6 ) 设 置数 量 : 设 置想要生 成 的图 片 的数 量 , 比 如 设 置为 1。 ( 7 )生 成 图 片 : 点 击 “ 立 即 生 成 ”,就可以生 成相 应的图 片 (如图所示)。图 片 生 成 以后,可以 点 击 图 片 底 部 的“编 辑 本图 片 ”, 对 图 片 进行编 辑 。 图 文心一格操作界面
106. 4.3.2 图片类 AIGC 案例实践 文心一格提供了丰富的 AI 编辑功能,可以对图片进 行各种智能化处理,包括 图片扩展、图片变高清、 涂抹消除、智能抠图、涂 抹编辑、图片叠加等
107. 4.4 语音类 AIGC 应用实践 4.4.1 语音类 AIGC 应用场景 4.4.2 语音类 AIGC 案例实践
108. 4.4 语音类 AIGC 应用实践 语音类 AIGC 是一种利用人工智能技术(特别是语音识别、自然语言处理和语音合成技术),自 动生成和处理语音内容的技术。它能够模拟人类语音,实现语音到文本的转换、文本到语音的合 成,以及语音情感分析等功能,广泛应用于智能语音助手、智能客服、语音翻译等多个领域。
109. 4.4.1 语音类 AIGC 应用场景 语音类 AIGC 的应用场景非常丰富,涵盖了多个领域,从日常生活到专业应用,都展现出了其独特的价值和潜力 ,以下是一些主要的语音类 AIGC 应用场景: 03 03 02 02 语音合成 与转换 04 04 虚拟人物 与数字人 05 05 语音翻译 06 06 语音分析与情感识别 智能客服 01 01 07 07 智能语音助手 智能驾驶舱 与车载语音助手 应用场景
110. 4.4.2 语音类 AIGC 案例实践  豆包大模型的语音类功能用法 一般情况下,普通用户在手机上使用语音类 AIGC 大模型的场景比较多,因此,这里介绍手机版豆包的使用方法。 在智能 手 机 上 下 载 并 安 装“ 豆包 A PP” 。 启 动 进 入 豆包 A PP , 会 出 现 如图所示的 对话 界 面, 按 住 “ 语 音 按 钮 ”(图中 箭 头 指 向的 位 置) 不 要 松 开, 然 后就可以 对着 手 机 说话 , 把 自 己 的 需求说 出来, 比 如,可以 说 “ 请 介 绍 一下厦门大学”, 然 后 松 开“ 语 音 按 钮 ”, 豆包 就可以 立 即 开始 回答你 提出的问题。 豆包 可以 支持 实时 翻译 , 你 可以 语 音 输入 “厦门大学的 英 文名 称 是 什 么”, 豆包 会 马 上 给 出 翻译结 果。 图 豆包的对话界面
111. 4.4.2 语音类 AIGC 案例实践  豆包大模型的语音类功能用法 豆包不仅支持语音输入,也可以支持文字输 入,只要在文字输入框内输入提示词,豆包 就会给出回答。豆包也支持 AI 绘图功能, 你可以用手指点击界面上的“图片生成”按 钮,然后输入提示词,比如通过文字或者语 音输入“请帮我绘制一张图片,一个 9 岁的 小女孩在海边沙滩上玩沙子”,然后,豆包 就会自动绘制生成满足你要求的图片
112. 4.4.2 语音类 AIGC 案例实践  豆包大模型的语音类功能用法 豆包还有一个很实用的功能,就是可以帮助你进行英语口语对话练习。 在 豆包 的 操 作 界 面的 底 部 ,用 手 指点 击 “ 对话 ”,在出 现 的 功 能选 择 界 面中(如 图所示),选 择 “ 英语 口 语聊天搭 子”就 可以进 入英语 口 语聊天 界 面(如图所示) , 按 住 界 面 右 下 角 的“ 语 音 按 钮 ”,就可 以开始用 英语语 音 聊天 了, 你 说完 一 句 英 语 , 松 开 语 音 按 钮 , 豆包 就 会 自 动 用 英语 语 音回答你 , 然 后 你 可以 继 续输入语 音 进 行后 续对话 。 图 豆包的功能选择界面 图 豆包的英语口语聊天界面
113. 4.4.2 语音类 AIGC 案例实践  讯飞智作大模型的语音类功能用法 访 问 讯 飞 配 音 官网( https://peiyin.xun f ei.cn/ ), 首 先 按照 页 面提示 完成 用 户 注 册 。 注 册 成功 以后, 会 进 入 “ 讯 飞 智作” 页 面(如图 4-1 3 所示),在 页 面 顶 部 选 择 “ 讯 飞 配 音 ”。 在 讯 飞 配 音 页 面(如图 4-14 所示), 输入 你 的 配 音 文本内 容 , 比 如 输入 “人工智能是新一 轮 科技 革 命 和 产 业 变革 的重 要 驱动力量 ,是 研究 、开发用 于 模拟、 延伸 和 扩 展人的智能的 理 论、方法、技术 及 应用 系 统 的一门新的技术科学”。可 以 设 置 配 音 的 品质 , 点 击页 面 左 上 角 “ 叙述 ( 品质 )”,在出 现 的 页 面中(如图 4-15 所示),可以选 择 自 己 喜 欢 的 主 播 类型,并 且 允 许对主 播 的 语速 和 语调 进行 设 置, 然 后 再 点 击页 面 右 上 角 的“ 使 用” 按 钮 。 然 后, 点 击页 面 右 上 角 的 “生 成 音 频 ”,在出 现 的 页 面中(如图 4-16 所示), 设 置作 品 名 称 、文 件 格 式 和字 幕 , 再 点 击 “ 确 认”。 这时, 会 出 现 订 单 支 付页 面(如图 4-17 所示),可以选 择 “ 会 员 及语 音包 购 买 ”( 45 元一个月) 或 者“ 单 次 付 费 ” ( 20 元每次)。 完成 费 用 支 付 以后,就 会 出 现 下 载 提示 页 面(如图 4-18 所示), 点 击 “ 去 下 载 ”, 然 后,在出 现 的 下 载 页 面中(如图 4-19 所示), 点 击 下 载 按 钮 (图中 箭 头 指 向的 位 置)就可以 把 配 音 文 件 下 载 到本 地 电 脑 中。在本 地 电 脑播 放 下 载 后的 配 音 文 件 可以发 现 , 现 在的 A I 配 音 技术 已 经比 较 成 熟 ,生 成 的 配 音质 量 已 经 可以 达 到 专 业配 音员 的 水 平。
114. 4.4.2 语音类 AIGC 案例实践  讯飞智作大模型的语音类功能用法 图 4-13 讯飞智作页面 图 4-14 讯飞配音页面
115. 4.4.2 语音类 AIGC 案例实践  讯飞智作大模型的语音类功能用法 图 4-15 选择主播
116. 4.4.2 语音类 AIGC 案例实践  讯飞智作大模型的语音类功能用法 图 4-16 作品命名页面 图 4-17 订单支付页面
117. 4.4.2 语音类 AIGC 案例实践  讯飞智作大模型的语音类功能用法 图 4-18 下载页面 图 4-19 点击下载按钮
118. 4.5 视频类 AIGC 应用实践 4.5.1 视频类 AIGC 应用场景 4.5.2 代表性视频类 AIGC 大模型 4.5.3 视频类 AIGC 案例实践
119. 4.5 视频类 AIGC 应用实践 视频类 AIGC 是指利用人工智能技术,特别是深度学习、机器学习等算法,自动创建或处理视频内容的技术。它能 根据给定的文本、图像或其他数据,自动生成符合描述的视频内容,涵盖文生视频、图生视频、视频风格化、人物 动态化等多个方向。这一技术在创意设计、影视制作等领域潜力巨大,极大地提升了视频内容的生产效率和质量
120. 4.5.1 视频类 AIGC 应用场景 视频类 AIGC 在多个领域拥有广泛的应用场景,以下是一些主要的应用方向: 影视制作 与后期制作 短视频与直播 广告与营销 教育与培训 其他领域 新闻传播 与媒体融合 虚拟现实 与增强现实
121. 4.5.2 代表性视频类 AIGC 大模型  视频类 AIGC 大模型发端于 Sora 。 2024 年 2 月,美国的 Open AI 发布了全球第一款文生视频大模型 Sora (这里的“文生视频”是指由输入的文本内容生成相应的视频),迅速引起了业界的广泛关注和讨论 ,因其能够快速生成高质量的广告宣传视频及商品演示视频,从而大幅降低广告相关内容的制作成本及时间 。  我国的视频类 AIGC 大模型主要包括: 可灵 由快手推出,被誉为中国版 Sora , 视频生成时长可达 120 秒,支持文 生视频、图生视频、视频续写、镜 头控制等功能,表现出色。 Vidu 生数科技联合清华大学发布,是中 国首个长时长、高一致性、高动态 性视频大模型,支持一键生成 16 秒 高清视频,性能对标国际顶尖水平 。 书生 · 筑梦 由上海人工智能实验室研发,可生 成分钟级视频,已用于央视 AI 动画 片《千秋诗颂》的制作,具备中国 元素和高清画质。 由于视频类 AIGC 大模型在使用时,会消耗大量的算力资源,使用成本很高,所以,目前国内的视频类 AIGC 大 模型大多数没有免费开放给大众使用,即使是免费使用,也只能生成很短时间长度的视频。
122. 4.5.3 视频类 AIGC 案例实践 案例:使用腾讯智影生成数字人播报视频(备注:本案例由夏小云老师制作) 步骤 1 :登录腾讯智影平台。在浏览器地址栏中输入网址“ https://zenvideo.qq.com/” ,进入“腾讯智影”平台,点击 “登录”(如图 7-107 所示),可以使用微信扫码登录、也可以手机号登录或者 QQ 扫码登录,任选一种方式登录即可。 登录成功后,点击平台首页“智能小工具”栏目中的“数字人播报”按钮(如图 7-108 所示)或者“智能小工具”上方的 “数字人播报”按钮,进入“数字人播报”功能界面。 图 7-107 腾讯智影登录界面 图 7-108 “ 数字人播报”功能入口
123. 4.5.3 视频类 AIGC 案例实践 步骤 2 :上传 PPT 。进入“数字人播报”功能界面后(如图 7-109 所示),在左侧工具栏,点击“ PPT 模式” , 平台会出 现“上传 PPT 或 PDF” 的界面,点击“上传”按钮,上传需要播报的 PPT ,这里上传“数字人播报 PPT.ppt” 文件(可 以从林子雨编著《数字素养通识教程》教材官网下载)。 图 7-109 “PPT 模式”上传 PPT 入口
124. 4.5.3 视频类 AIGC 案例实践 步骤 3 :选择数字人。 PPT 上传结束后,点击左侧工具栏“数字人”按钮,会出现“数字人”设置界面,包括“预置形 象”和“照片播报”两大板块(如图 7-110 所示)。“预置形象”分为“ 2D 数字人”和“ 3D 数字人”;“照片播报” 分为“照片主播”和“ AI 绘制主播”两种(如图 7-111 所示)。这里选择“预置形象”里面的“ 2D 数字人”——卓妤 数字人,作为 PPT 播报的数字人。 图 7-110 “ 预置形象”的数字 人 图 7-111 “ 照片播报”的数字人
125. 4.5.3 视频类 AIGC 案例实践 步骤 4 :调整数字人的位置、大小和服装类型。选用的数字人确认后,可以点击 PPT 上的“数字人”,进入“数字人”设 置界面,点击“数字人编辑”按钮(如图 7-112 所示),对“数字人”进行编辑,可以重新换服装以及选择数字人出现的 “形状”;点击“画面”按钮,可以通过坐标设置来调整数字人的位置和大小(如图 7-113 所示),也可以点击数字人的 边框,通过拖动鼠标来调整数字人的位置和大小。这里可以根据 PPT 画面的布局来调整“数字人”的位置和大小,尽量避 免数字人遮挡文字。 图 7-112 “ 数字人编辑”功能界面确认服装和形状 图 7-113 进入“画面”功能界面调整数字人的位置和大小
126. 4.5.3 视频类 AIGC 案例实践 步骤 5 :输入播报内容和设置字幕样式。数字人调整完成后,点击右侧工具栏的“播报内容”按钮(如图 7-114 所示), 输入播报内容,播报内容可以 AI 自动生成,也可以手动输入或导入文件(字数不超过 5000 字),这里选择“手动输入” 每页 PPT 的播报内容。点击右侧工具栏的“字幕样式”按钮(如图 7-115 所示),设置视频字幕的样式并打开字幕显示 按钮,通过鼠标拖动把字幕放置画面的合适位置。 图 7-114 输入 PPT 播报内容 图 7-115 设置字幕样式并打开字幕按钮
127. 4.5.3 视频类 AIGC 案例实践 步骤 5 :根据需要添加“背景”、“贴纸”、“音乐”并选择播报音色。输入完播报内容后,可以点击左侧工具栏的 “背景”、“贴纸”和“音乐”等功能(如图 7-116 所示),根据需要添加,这里选择不添加背景、贴纸和音乐。确认 后,点击“播报内容”输入框下方的“音色”按钮,选择合适的音色。这里选择“如云”音色作为 PPT 的数字人播报音 色(如图 7-117 所示)。 图 7-116 根据需要添加“背景”、“贴纸”、“音 乐” 图 7-117 选择播报音色
128. 4.5.3 视频类 AIGC 案例实践 步骤 6 :保存并生成播报。选择完音色后,点击“音色”下方的“保存并生成播报”按钮(如图 7-118 所示),选中每 一页 PPT ,逐一点击保存并生成播报,注意,平台此时生成的数字人播报效果预览,暂不支持口型对齐预览,合成后可 查看完整动态效果。 图 7-118 保存并生成播报
129. 4.5.3 视频类 AIGC 案例实践 步骤 7 :合成并下载视频。保存并生成每页的 PPT 的播报后,点击页面右上方的“合成视频”按钮(如图 7-119 所示) ,然后设置合成视频输出的参数(如图 7-120 所示),设置完成后点击“确认”按钮,系统后台会自动合成数字人播报 视频,等待合成结束后,点击“下载”按钮(如图 7-121 所示),下载合成的数字人播报视频。最后,播放合成的视频 文件,检查视频画面是否符合预期。如有需要,可以根据反馈调整参数,重新生成。 图 7-119 点击合成视频 图 7-120 合成视频参数设置 图 7-121 下载数字人播报视频
130. 4.6 AIGC 在辅助编程中的应用
131. 4.6 AIGC 技术在辅助编程中的应用 AIGC 技术在辅助编程中的应用日益广泛,它能够自动生成高质量的代码,从而显著提高开发效率, 主要包括以下几种应用场景: 应用场景 代码自动生成 代码风格统一 代码优化与重构 代码补全与提示 能够提供辅助编程服务的 AIGC 大模型包括 Codex 、 GitHub Copilot 、 CodeGeeX 、 aiXcoder 、豆包、通义灵 码等。这里以我国的字节跳动公司研发的豆包大模型为例介绍使用方法。
132. 4.6 AIGC 技术在辅助编程中的应用 编程工作一般是在电脑上进行,所以这里使用电脑端的豆包大模型(手机端的豆包 APP 也提供了编程辅助功能) 访 问 豆包 大模型官网( https:// www .doubao.com/ ), 注 册 用 户 以后,进 入 大模型 操 作 首 页 (如图所示), 点 击 “ 我 的 智能 体 ”, 再 点 击 “编程 助 理 ”, 然 后,在 页 面中 输入 提示 词 , 比 如 输入 “ 请 编 写 一 段 Python 代 码 , 使 用 turtle 库 , 绘 制 一个 五角 星 ”, 然 后, 豆包 就 会 自 动 生 成 一 段 Python 代 码 (如图所示)。在 Python 中 运 行这 段 代 码 ,就可以 成功 绘 制 一个 五角 星 。 图 豆包大模型操作首页
133. 4.6 AIGC 技术在辅助编程中的应用 图 豆包自动生成的 Python 代码
134. 4.7 AI 搜索
135. 4.7 AI 搜索 AI 搜索,即人工智能搜索引擎,是一种利用先进的人工智能技术,特别是深度学习和自然语言处理 ( NLP ),来理解和响应用户的查询需求的新型搜索工具。它不仅仅是传统搜索引擎(比如百度)的 简单升级,而是通过模拟人类的思维方式和行为模式,为用户提供更加精准、个性化且高效的信息检 索服务。 AI 搜索通过收集和分析用户的历史搜索数据和行为模式,构建用户画像,从而实现更加精准 的个性化搜索服务。这种数据驱动的智能决策机制,使得 AI 搜索能够不断自我优化,提升用户体验。 纳米 AI 搜索是 360 公司在 2024 年 12 月推出的全新 AI 搜索应用,结合了自然语言处理、机器学习以 及专家协同技术,致力于打破传统搜索引擎的局限,提供智能化、多样化的搜索体验。其核心特点包 括: ( 1 )多模态搜索:支持文字、语音、拍照、视频等多种输入方式,满足不同场景下的需求,实现 “一切皆可搜索”。 ( 2 )智能工具集成:内置 16 款顶尖大模型,如豆包、文心一言等,为用户提供一站式 AI 智慧体验 。 ( 3 )慢思考模式:通过专家协同和多模型协作,深入分析复杂问题,提供更专业、更全面的答案。
136. 4.8 AI 智能办公
137. 4.8 AI 智能办公 在人工智能时代, AI 智能办公正以前所未有的态势重塑我们的工作模式与体验,成为推动办公效率提升 和办公方式变革的核心力量。 AI 智能办公将人工智能技术深度融入办公场景的各个环节,例如文档处理、数据分析、演示制作等。 在文档处理领域, AI 智能办公带来了前所未有的变革。以往需要人工手动输入文字、排版以及校对纠错 等工作需要耗费大量时间和精力,如今 AI 文档处理技术极大地提升了这些任务的效率与质量。具体如下 : ( 1 )生成式文本。通过对大量文本数据的学习, AI 能够根据用户提供的提示词、主题或简单描述,快 速生成内容完整、逻辑连贯的文档初稿。无论是新闻稿件、公告通知还是学术论文,都能借助这一功能节 省撰写时间。例如,市场调研公司在需要撰写季度报告时, AI 可以迅速整合数据和市场趋势信息,生成 报告框架与初步内容,供使用者进一步完善。 ( 2 )文档智能排版。 AI 能够自动识别文档内容的结构,如标题、段落、列表等,并根据用户预设的格 式模板进行快速排版。这不仅提高了排版效率,还确保了文档格式的一致性和规范性。对于需要处理大量 文档的办公人员来说,这一功能大大减轻了工作负担。
138. 4.8 AI 智能办公 数据分析是办公场景中的重要环节。传统的数据分析需要人工进行数据收集、清洗、分析和可视化,过程 烦琐且容易出错。而借助人工智能技术,这些工作可以更加高效、精准地完成。 通过大模型算法, AI 能够从海量数据中发现潜在的模式、趋势和关联关系。例如,电商企业可以利用 AI 分析用户的购买行为、浏览记录和搜索关键词,挖掘出用户的潜在需求和消费偏好,从而制定精准的营销 策略。 自动数据可视化功能让数据分析结果的呈现更加直观、清晰。 AI 能够根据数据分析结果自动生成各种类 型的表格图表和图形,如柱状图、折线图、饼图等,并进行合理的布局和配色。办公人员无需花费大量时 间手动制作图表,就能快速将数据转化为易于理解的可视化信息,为决策提供有力支持。
139. 4.8 AI 智能办公 AI 写作助手(帮我写、帮我改、 AI 伴写) AI 设计助手( AI 排版、 AI 格式) AI 阅读助手(全文总结、文档问答、划词解释和翻 译) AI 数据助手( AI 写公式、 AI 数据分析)
140. 4.9 总结 大模型 是 人工智能领域的 重要 研 究 方 向 , 其 强大的 语言 理 解和生 成能力 使得它 在 自然语言处 理 、机 器 翻译 、智能 客 服等领域有 着广泛 的应用 。 大模型的 训练需要 大量的数据 和 计算资 源 , 同 时 也需要 先 进 的技术 和 算 法支持 。 随 着 技术的 不断发展 ,大模型的应用 场景也 在 不断 扩 展 , 未 来将 会 更加广泛地 应用于 各 个领域 。
141. 谢谢

Главная - Вики-сайт
Copyright © 2011-2025 iteam. Current version is 2.142.0. UTC+08:00, 2025-02-28 19:51
浙ICP备14020137号-1 $Гость$