Professional Documents
Culture Documents
(2.0版 修订号0.90)
清华大学新闻与传播学院
元宇宙文化实验室
@新媒沈阳团队 AIGC
2024年1月(Sora发布之前)
(本报告部分内容由AI生成,如有错误,告知修改)
AIGC系列研究资料
聚焦AIGC产业发展现状及趋势,分技术篇、产业篇、评测篇、
职业篇、风险篇、哲理篇、未来篇,是产业发展的概观性报告, AIGC
也初步回应了突出的风险隐忧,旨在洞察行业的基础上,对 报告
AIGC发展趋势进行科学预测与展望,为社会各界应对AIGC领 1.0
域的挑战提供了理论指导与实践建议。
报告80%内容由AI自动生成,聚焦AIGC的多模态发展、多学
AIGC 科影响、全方位应用以及前沿探索,融汇了与AIGC相关的产
报告 业实践经验、学术研究探讨与社会理念摸索,致力于向读者提
2.0 供全面了解AIGC动态的指南,共同探寻人工智能和人类未来
发展的和谐之道。
注:图片为报告内容示例
技术与演进
为什么是OpenAI率先突破
u 2018年6月,推出1.17亿参数的GPT-1模型
u 2019年2月,推出15亿参数的GPT-2 u 坚定的科技信仰:坚持不断改进GPT
u 2020年5月,发布了1750亿参数的GPT-3
u 开放的合作伙伴:与微软达成合作
u 2022年3月,InstructGPT发布,回答更加真实
u 2022年11月,ChatGPT发布,并率先破圈 u 较少的商业顾虑:声誉成本、利益冲突
ChatGPT 创新:持续迭代 迈向AGI
已实现的创新 尚未实现的创新
自然语言处理(NLP)的进步
高级情感智能
ChatGPT在理解和生成自然语言方面表现出色, 虽然具备基本的情感识别能力,但在理解和表达复杂情感方
展示了先进的自然语言理解和生成能力。 面仍有局限。
上下文感知对话管理
深层次常识推理
能够在一定程度上理解和记忆对话历史,实现
在复杂的常识推理和深入逻辑分析方面的表现仍有提升空间。
上下文顺畅的交流。
跨领域知识应用 无偏见输出
集成了广泛的领域知识,可以在多种主题上进 由于训练数据的限制,模型输出可能受到数据、技术等偏见
行交流和生成信息。 的影响。由于人类的偏见,故AI其实也无法实现完全的无偏
见
用户意图识别与适应性回应
具备识别用户意图并据此调整回答的能力,能 长期记忆和持续学习
够根据不同的查询提供相应的信息和服务。 长期记忆和对过去交互的连续学习能力是目前AI领域的挑战
之一。(2024年2月GPT4.0已大幅度增强)
多模态交互能力
集成并理解多种类型的数据(如文本、图像、
声音)进行综合交互。
GPT4:一骑绝尘 进化迅速
基本理解全部的问题含义
上下文的逻辑关联能力
回答问题的增量创新和组合创新能力
AI幻觉&AI想象扩展了异感世界的构建能力
多模态能力
学科能力的全维、全知、全量
OpenAI宫斗:利益冲击 观念博弈
OpenAI的“宫斗”最终以奥特曼的回归落幕, 观念博弈
纵观全局既是权利之争也是观念博弈。 “加速派”和“末日论派”在人类与AI的关系上的分歧。
11月16日:苏茨克维通知奥特曼开会。 “加速派”:希望通过最高效、最具影响力的技术进步
与突破来加速社会、经济或技术系统的变革过程,并把
11月17日:奥特曼、布罗克曼和OpenAI高级研究
风险视为变革的催化剂。
员相继离职。
“末日论派”:更加审慎,认为一旦风险不可控,人工
11月18日:投资者愤怒并要求奥特曼回归,董事 智能带来的巨大影响将毁灭人类社会。
会初步同意。
事件核心人物
11月19日:奥特曼等加入微软,近750名OpenAI
员工威胁集体辞职,要求奥特曼回归。
u OpenAI联合创始人、前CEO山姆·奥特曼(Sam Altman)
11月20日:奥特曼、布罗克曼与OpenAI董事会谈 u O p e n A I 联 合 创 始 人 、 前 总 裁 格 雷 格 · 布 罗 克 曼 ( G re g
判,微软对奥特曼的回归持开放态度。 B ro c k m a n )
u OpenAI联合创始人、首席科学家伊尔亚·苏茨克维(Ilya
11月21日:奥特曼与临时首席执行官进行谈判,
S u t s ke ve r )
公司希望在感恩节前解决领导层问题。内部冲突细
节曝光。 u OpenAI首席技术官米拉·穆拉蒂 (Mira Murati )
结局:奥特曼达成原则上协议,将重返OpenAI担 u 微软公司首席执行官萨提亚·纳德拉(Satya Nadella)
任CEO,并组建新的董事会。 u OpenAI临时首席执行官埃米特·谢尔(Emmett Shear)
2024焦点:改善体验 多模突破
五大技术难题:高性能推理硬件成本、AI幻觉率、图像多语种文字生成、生成内容一致性、文本生成视频
高性能推理硬件成本 AI幻觉率
复杂模型的推理过程需要高性能计算资源,涉及昂贵的硬件和高能耗, 提高模型的准确性和可靠性,减少幻觉现象是拓展其应用的基础,对
限制了AI系统与用户的的快速交互。 于提供质量更高、更可信赖的生成内容至关重要。
图像多语种文字生成 生成内容一致性
目前仍难以实现在图像生成中准确绘制除英文以外的其他语言(如中 保持生成内容的整体风格、语境、样式等特征的一致性(如连环画的
文),文生图技术中的文本处理技术有待优化。 角色稳定),仍是AIGC 领域的重要挑战。
文本生成视频
文生视频技术对场景、动作和情感等的深度理解和创造发展迅速,但仍难以生成完备(如任意时长)且可控(如任意动作)的视频,无法满足用户需求。
自注意力:动态聚焦 平衡权重
u 用户: 我昨天晚上去了一个音乐会,主要是为了看我最喜 自注意力机制帮助AI关注到用户最关心的问题。
欢的乐队,但是开场乐队也非常棒。
u AI注意到用户提到了关键信息点“最喜
u AI: 听起来你过得很愉快。你最喜欢的乐队演奏了哪首歌
人机交互自注意力机制体现
对话
欢的乐队”,机器人据此询问了更多的
曲给你留下了深刻印象?
细节。
u 用户: 他们演奏了《深夜》,那是他们最新的单曲,非常
激动人心。不过,我也很惊讶于开场乐队的表现。 u AI注意到用户对“开场乐队”的正面评
u AI: 是啊,《深夜》是一首很有力量的歌曲。关于开场乐 价,机器人随后询问了更多关于开场乐
队,你最喜欢他们的哪个部分? 队的信息。
u 用户描述:“我想要一个穿着红色连衣裙的女人站在一个 u 自注意力机制为每一个关键信息分配一
个“注意力权重”。
蓝色的湖边,背景是雪山。”该描述中有三个关键信息: u 生成图像时,根据权重来确定每个部分
红色连衣裙的女人、蓝色的湖、雪山背景。 的细节和重要性。
绘画
u 例如,红色连衣裙的女人可能会被赋予
较高的注意力权重,因此在图像中她的
细节和颜色可能会被更加准确地渲染。
u 同样,蓝色的湖和雪山背景也会根据它
们的注意力权重来确定其在图像中的表
现。
世界模型:另一可能 规划推理
——图灵奖得主 Yann LeCun 世界模型可能带来?
决策 决策基于单一信息源 综合各种信息
优化单模态的决策策略 权衡并结合不同模态的决策
准确性 可能受限 决策更为准确
处理 需要处理和融合各种模态的
处理流程相对简单 优化单一模态的处理流程 有效融合和处理多模态数据
复杂性 数据复杂性增加
无法从其他模态中 可能从不同模态中
信息冗余 获取冗余信息 获取重复冗余的信息
消除单一信息源中的冗余 识别和处理跨模态的信息冗余
由于只有一个信息源 多种信息源的融合
可解释性 可能更易于解释 可能会降低模型的可解释性
增强单一模态的模型解释能力 提高多模态模型的可解释性和透明度
不需要考虑 需要确保
数据同步 不同模态之间的同步问题 不同模态的数据是同步的
优化单一模态的数据处理速度 确保不同模态数据的实时同步和对齐
需要更多的计算资源
计算资源 计算资源需求相对较低
处理和融合多种模态数据
提高单模态的计算效率 优化多模态的计算资源分配和管理
多模融合:高维互联 信息贯通
多模态融合是指将来自多个不同类型(例如文本、图像、声音等)的数据合并,利用跨模态技术产生一个综合的数据表示或
输出,代表一种全新、流畅和高效的人类交互体验,其核心挑战是如何有效地融合这些模式以提供连贯和有意义的输出。
在实际应用中,AI可以根据用户的需求,实现各个模态数据间的相互转换,例如:
态数据,并据此做出决策。 选择最优数据来源地和最有用模态维度。
u 数据同步:在实时环境中,来自不同模态的
数据需要准确地同步,以便进行有效的分析
和决策。 u 自我演化的交互模式 :引入一种全新的
“演化算法”,能够模拟人类学习和适应
u 人机交互的多模态适应: u 用户多样性: 由于用户的需求和习惯都是
的过程,使HCI系统在识别用户行为模式的
在人机交互(HCI)环境中,多模态大模型需要 独特的,实现个性化的多模态适应性是一个
同时,还能发现隐藏的需求或习惯,并根
能够根据用户的行为和反馈进行自适应调整。这 复杂的问题。
据这些信息进行自我演化。
可能包括动态地改变输入/输出模态、调整交互界 u 实时反馈:获取并处理用户实时反馈以进行
面等。 适应性调整也是一个技术挑战。
多模数据:关系对齐 数据映射
多模态数据的应用痛点涉及到数据对齐、融合、检索和生成、时序处理以及多模态交互等方面。解决这些难点将有助于推
动多模态技术的进一步发展,并实现更多实际应用的落地。
u 不同模态间数据的对齐和融合 可能的突破方向
需解决数据在时间、空间和语义上的对应关系,以及权重分配和互补性
问题,以进行有效表示。 u “多模态安全网格”:将不同模态的数据加密分布在一个
高维的“安全网格”中,当一个模态受到攻击时,网格能
u 多模态数据的时序处理 够利用自我修复能力动态地调整其他模态的安全策略以减
难以捕捉不同模态数据之间的时序依赖性和动态变化。
少风险。
u “动态多模态数据映射”:利用VR、AR以及动态系统等技
u 多模态数据的安全性与隐私保护
术,将数据可视化由静态的展示过程调整为动态的映射过
多模态数据通常包含大量的敏感信息,如个人身份、地理位置等。
程,实现系统能够根据用户的交互和反馈,实时地调整数
u 多模态数据的可视化和解释性 据的可视化和解释性表示。
多模态数据通常是高维度和复杂结构的,其可视化和解释性需要大量的
计算资源。
模态进化:具身智能 实体连接
• 语言处理与交流
文本大模型
• 知识获取与传递
• 视觉识别与解读
图像大模型
• 视觉文化与表达
音频大模型 • 动态环境适应
视频大模型 • 时间维度的社会行为
• 空间感知与交互
空间视频和
空间计算大模型 • 空间社会学和群体行为
• 多模态感知与反应
具身智能大模型
• 社会行为、文化参与和伦理影响
多模AIGC:异构数据 协同推理
多模态:即多种异构模态数据协同推理。
u 对话式聊天机器人: u 文生图:
ChatGPT、Bard、Newbing、 Midjourney、Stable Diffusion、
文心一言、智谱、讯飞星火 文本 图像 文心一格、DALL-E 3、Firefly 2
u 图像理解:GPT-4V、Gemini
u 文生视频:
视频 音频 u 语音生成与交互:
Stable animation、Gen系列、 Stable Audio 、通义听悟、
Pika、Animatediff、runway Otter.ai、ChatGPT
文生图:对话交互 补充提示
请为下面一句诗配一张图:“落霞与孤鹜齐飞,秋水共长天一色”
视觉创作与语言智能的无缝对接
u ChatGPT的接入让Prompt设计变得更加简单智能。
提示词补充规律:
u 精确与具体:尽可能准确地解释用户的提示语
u 补充和解释:若提示语不够具体或含糊会自行补充细节
u 风格和类型:根据指定的艺术风格或类型绘图
u 准则和限制:避免生成侵权或不恰当内容
u 创意和想象:尽力展现用户超现实的想象
u 多样性和包容性:避免人物图像出现偏见和刻板印象
文生图:逼真渲染 异感生成
趋势二:
扩展人类想象力,打造
旨在生成更高质量的人物 异感世界
图像,改进文本对齐方式, AI绘画正在引领一场视觉
并提供更好的风格支持。 表现的革命,在用户的指
引下延伸至抽象和想象的
领域,创造出前所未有的
异感世界。在细节再现与
艺术表达之间寻求平衡的
同时,为人类带来全新的
趋势一:生成无限逼 感官体验、情感共鸣和思
近真实的图像,并可 想启发,为未来的视觉艺
以优化效果。 术带来无限可能。
文生图:细节放大 功能扩增
左:Midjourney V6 右:Midjourney V5.2
ü 三维模型
ü 视频生成
ü 摄影素材
n 前所未有的真实感:图像具有高度真实感,接近真实。
n 高分辨率:提供最高2048x2048像素的图像分辨。
n 先进的自然语言处理:更好地理解会话语言,提高图
像生成效率 。
n 迭代实验和创造性限制:鼓励用户微调提示,结合AI
输出和手工编辑。
n 新的放大选项:提供不同程度的细节增强,实现逼真
的纹理效果。
n 改进的文本和手部生成:在图像中更准确地生成文本
和手部。
AI绘画:无限想象 创新超越
u 想象具化:生成在现实生活中并不存在的外星生物图像 u 无限创意的设计:服装、建筑、交通工具等的设计方案
u 风格迁移与融合:以文艺复兴时期的绘画风格进行渲染 u 历史和未来的可视化:古代城市、未来太空站的场景
AI绘画具备前所未有的独特性,其创造力和个性化将为人类带来更多样化的创作体验和艺术作品
所想所绘:名人书房 时代印记
绘画变种:狮形各异 演化之美
绘画变种:狮形各异 演化之美
图像重绘:镜像世界 画布映射
原始
图片
AI
重新
绘图
u 艺术风格(如色彩运用、构图等)高度相似 图像理解局限:生成的提示词难以充分且准确描述图
在超现实和抽象概念的图像生 在生成超现实图像时,输出倾
在超现实艺术方面表现出了较好
图像生成 成上表现出创意,如在生成牛 向于借鉴儿童书的风格,但在
8 的理解和创意,能够很好地结合 8 7
特点 仔布制作的房子中,展现了独 某些情况下可能缺乏所需的创
现实世界图像和奇幻概念
特叙述能力 意或超现实感
对于熟悉Adobe生态系统的用
学习曲线相对平缓,适合广泛 学习曲线较陡峭,主要是在
使用和 户,学习曲线较为平缓。但其
的用户快速上手并探索多样的 9 Discord 上使用,可能会对某些 7 8
学习曲线 他用户可能需要一些时间来熟
视觉创作。 用户造成限制
悉工具的各种功能和界面布局。
AI绘画原则:基础框架 创新偏离
尊重版权和知识产权 避免敏感和不适当内容 促进多元化和包容性
AI绘画原则
保护个人隐私和形象权 避免误导和假信息 不违反法律和道德准则
创新性偏离:
u 创建图像描述时,为了展示技术的多样性和包容性,
创新性偏离
ChatGPT在描述中加入了不同种族和文化的元素。 绘图错误举例
u 此举旨在展示技术的创新性,但没有完全遵循历史事
如逻辑错误
实,可能会导致历史不准确。
情感不协调
u 该现象可称为“创新性偏离”,描述了在追求技术或艺
术创新时,有时可能会偏离事实或现实的情况。 物理尺度突变
u 所以AI绘图在某些特别的领域(如教育和学术)则需要
找到创新和真实之间的平衡点。
GPT-4V: 信息提取 内容转换
多元场景图像描述 多模态内容转换与推理
功能:对各种领域的图像进行描述,
无论是自然风景、都市景观还是特定 功能:从各种来源提取和分析信息,
的行业领域,模型都可以为之生成相 例如从照片中的文字、表格、图表或
关的描述。 文档。
示例:用户提供一张自然风景的照片, 示例:用户提供一个图表,模型可以
模型可以描述出“这是一个湖边的景 解释“这个图表显示了过去五年的销
色,远处有群山,湖水平静如镜。” 售额增长。”
信息提取与结构化输出 跨语言多模态理解
功能:不仅能处理多种类型的信息,
功能:定位图像中的特定物体,进行 还支持多种语言的处理。
计数和为每个物体生成详细的描述。 示例:用户提供一个法文的图像描
示例:用户提供一张公园照片,模型 述,模型可以翻译并描述图像内容。
可能回答“照片中有一些鸭子在湖中
游泳,还有两个小孩在草地上玩耍。”
多模态知识与常识解读 视觉信息编码能力
功能:具有跨多种信息类型知识, 功能:根据图像内容生成代码或其
能应用常识推理。 他形式的输出。
示例:用户提供一个人在烹饪的照 示例:用户提供一个网页设计的截
片,模型可能会指出“这个人在切 图,模型可以为其生成HTML和
洋葱,洋葱可能会使人流泪。” CSS代码。
文生视频:多模态应用的下一站
基于GAN和VAE
Ø 当下流行平台:
例如:Text2Filter
文生视频技术 基于Transformer模型
基于扩散模型 ···
技术 难点
例如:Make-A-Video
视频时长:模型可以借助延展功能, 未来方向
将视频时长延长。但这种延长需要关
注动作的意义和复杂性。如延长20秒 模型和工程创新 加速的技术演进
在视频生成模型的开发、工程实践、数据 视频生成模型和技术正加速更新,内
的走路视频,模型并不能实现包含翻
关 滚、奔跑在内的系列动作,仅能够单
管理和规模化扩展方面实现显著技术进步。 容控制和创新自由度不断提高。
键 纯通过无意义动作增加视频时长。
高算力需求与资源动员 知识产权的合规处理
突
视频模型的训练和优化需要显著更高的计 在法律严格的地区,特别是处理版权
破 算资源,超越目前开源社区的能力范围。 问题,需要与法律专家紧密合作。
点 物体动态化:对于图片或视频中的任
意对象的任意动态化,这一点非常重 技术架构的优化 高标准数据获取
要,一旦实现将能够真正生成任意内 解决视频模型性能和算法问题,可能需要 需要高分辨率、良好审美和艺术构图的
容的视频 重构模型架构,要求大量的计算资源和技 视频数据,同时强调动作的意义和内容
术投入。 的多样性。
语音交互:人机对话 多态演进
ChatGPT:实时、顺畅自然的语音对话 语言大模型和文本大模型的区别
语调信息可以提供额外上下文;
u 信息处理差异:语音的标注和处理更加复杂,需要时
间对齐的转录文本,响应速度较慢;
u 技术挑战差异:语音大模型需要处理各种方言、口音、
语言大模型对人格化的影响
u 语音克隆:Resemble.ai 提供人格化交互。
语音版GPT-4:智慧如炬 声情并茂
语音版GPT-4不仅仅是一个响应机器,而是一个能够进行高度复
杂、适应性强、情感丰富和社交敏感的对话的高级AI代表。
能够理解和参与到 在谈论敏感话题时显示
文化和社会话题中, 出高度的同理心和情商,
显示出对人类社会 与人类在情感上相互理
习俗的深刻洞察。 解和响应。
逼真的 情感 策略性
高级理解力
交互 同步化 沟通
通过生动的话语表述和 在对话中巧妙地维护其角
自然的语言停顿, 色设定的真实性,展示了
GPT-4展示了它能够模 能够在复杂社交场景中进
拟人类交流的高级特征。 行策略性沟通的能力。
AIGC+搜索引擎:互融互通 实时动态
大模型与搜索引擎的互补性
影 u 可获取现实世界的实时信息 u 降低幻觉和回答错误率
响 u 支持更多依赖外部信息的任务 u 使知识图谱更加开放和动态 u 信息协同共鸣:大型语言模型和搜索引擎共同构建一个协同网,优化
信息检索和知识探索的过程。
u 智能探索生态:可创建互动式知识探索系统,鼓励用户深入挖掘信息,
问 u 需要稳定的网络连接 u 外部信息可能带来噪音误导
促进知识发现和创新。
题 u 信息安全和隐私保护难控制 u 计算和存储成本增加
u 全面知识融合:既能深入理解问题,又能提供广泛和最新的信息资源。
Ø 大模型如何替代传统搜索引擎——关键性能:
u 准确理解复杂查询意图并生成丰富、准确、可信、实时的答案
本质区别
u 根据用户的历史交互和偏好提供个性化搜索结果和建议
New Bing内置GPT-4 GPT-4内置浏览模式
u 保持或提高搜索效率的同时提供增值服务
02 Bing联网能力 u 从“单一对话单一模式”,到“根据需要自动
四大
调用不同模式的功能”,丰富了 ChatGPT的使
功能 03 高级数据分析(原代码解释器)能力
用场景,整体响应速度也有所提升。
04 Dalle 3的绘画能力
ChatGPT:今天(11月15日)
北京的天气预报显示,白天天
实 空云量将逐渐增多,傍晚前后
际 会有零星小雨,西部和北部地
运 区可能出现雨夹雪或小雪。北
京今天没有暖阳,气温有所下
用
降,预计最高气温在9℃左右,
体感较阴冷。后半夜,北风伴
随冷空气南下,影响北京地区,
阵风可能达到六七级。
长时上下文理解:减少交互 增强智商
关键技术
AI缺乏长期记忆和全局理解能力,会限
制其在复杂任务和长篇对话中的表现, 上下文编码器 记忆模块 时间感知
导致: u 在理解局部上下文的 u 在模型中加入能够存储 u 通过时间标签和事件
u 非必要交互次数的增加; 基础上,引入用户历 用户的关键信息和偏好 依赖关系,增加模型
u 整体对话过程中的逻辑性不足。 史数据进行全局上下 长期的记忆模块,以便 对于时间序列信息的
文建模。 在未来对话中使用。 敏感性。
u 相关信息的位置和提供的上下文的长度可以极大的影响大模型的性能
u 这一现象的出现与训练数据本身的偏差有关,即人类的大量语料一般都将重要信息
放置于开头或结尾,间接导致了大模型无法很好地关注处于文档中间的内容。
u 除了模型内部的问题以外,超长上下文背后可能的大规模数据传输、API 调用、网
络协议等等“基础设施”都有可能成为新的问题。
APP已衰:GPTs已来 智能定制
Ø OpenAI推出了定制GPT,允许用户根据个人需求和偏好制作GPTs以执行特定功能,标
志着AI定制化应用的新时代。用户可以在没有编码知识的情况下创建适用于教学、游戏
或创意设计等多样化任务的GPT模型。其本质逻辑是把AI的大脑与人类的智慧相结合,
让它做某一类事情的时候变得更聪明。
• 截止到12月13日的 GPTS总数:53283个
类别 关键词 u GPTs数量最多的前五种类别:技术(代码)、
文件处理 ‘docs', 'documentation', 'manual', 'guide' 艺术、文件处理、教育、交流
u 英语是最主要的GPTs创作语言(78%):
网页流量 'browse', 'web', 'internet', 'pdf', 'data' 英语
其次是日语(8%)、汉语(4%)、法语(2%)、
78%
教育 'math', 'teach', 'learn', 'education', 'study', 'mentor', 'help'
韩语(1%)
艺术 ‘paint', 'draw', 'create', 'art', 'design', 'visionary' u 超过85%的GPTs的工具中用到了浏览器
功能:其次是Dalle、Python、Plugins
生产力 ‘summary', 'organize', 'manage', 'productivity', 'efficient'
u 单一个体最大创建数:6个
娱乐 ‘game', 'play', 'fun', 'entertain', 'movie', 'music'
机遇 挑战
• 深度个性化的GPTs将极大提高自身的工作能力 • 确保平台应用质量,避免低劣或欺诈性的内容。
和工作效率; • 处理GPT应用可能带来的伦理和法律问题,特
• 巨大的流量红利助力GPTs开发者获取收益; 别是在内容创作和个人隐私方面。
• GPTs的第三方收集、检索、评价平台。 • 维护不同GPT应用间的技术标准和兼容性,确
• GPTs开发服务,为想开发但不懂开发语言的人 保用户体验的一致性和高质量。
提供指导。 • 保护用户敏感信息的数据安全。
GPT-5:演进预测 模型升级
结合计算机科学的发展趋势和当前技术的实用化水平,GPT-5有望在模型结构、部署、计算效率、透明度、自适应学习和安全性
等方面实现重大进展,为人工智能的广泛应用奠定更坚实的基础。
u 多模态处理能力 u 能效与计算优化
进一步增强多模态处理能力,如文本、图像、声音和视频的联合理解, 提供更为 可能会进一步优化其计算效率,降低能源消耗。使模型在低功
丰富的交互体验。 耗设备上运行成为可能,加速边缘计算的发展。
u 实时交互与反馈 u 模型微调与个性化
可能会增强其实时交互能力,能够更快速地响应用户的需求并学习用户的反馈。 GPT-5可能会增强模型的微调能力,允许用户根据特定需求进
为用户提供更加个性化和适应性强的服务,持续优化模型输出。 行个性化调整。提供更加定制化的AI服务,满足各种特定场景
u 上下文理解与长期记忆 的需求。
可能会加强对上下文的理解,拥有更长时间的记忆保持能力。使得与模型的交互 u 安全性与鲁棒性
更加连贯,提供更深度的上下文回应。 可能会加强模型的安全性设计,提高模型的抗攻击能力和数据
可能会扩大其对低资源语言的支持,涵盖更多的语言和方言。实现真正的多语言 被攻击的风险。
普及,服务全球更广泛的用户群体。
AI行业格局:巨头涌入 投资结盟
在OpenAI拿到来自微软等约110亿美金的投资、估值近290亿美金后,其竞争对手
Anthropic布与Amazon结盟(Amazon最高将为其投资40亿美金)。融资方面
AI 行业现有格局
Anthropic成为仅次于OpenAI的AI创业公司。此后,除苹果外,AI行业基本上形成
了如下格局:微软、OpenAI + Google、DeepMind +Meta、MetaAI +
Amazon、Anthropic + Tesla 、xAI。
生成式AI全球投融资细分市场占比
全球顶级投资者
Andreessen Horowitz
应用
Sequoia Capital
21%
Lightspeed Venture
预训练应用 8% 模型市场
63% Amplify Partners
MetaAI
基础设施 8%
Khosla Ventures
部分数据来源:Dealroom.co
影响与信任
社会影响:智能泛化 数字伦理
创造性影响:AIGC技术将带来高潜力新兴职业
增强性影响:AIGC技术将增强多数岗位的工作效率和效果
渗透性影响:渗透绝大多数职业但影响程度不同
变革性影响:部分工作内容和方式会发生重大变革
AIGC技术 人类劳动力
技能要求影响:需要大规模提升哪些技能以适应变化
培训投入影响:职业培训方式将发生哪些变化
互补型发展职业 p 移位性影响
就业类型和分布可能发生区域或全球范围的移位
替代性影响:可替性传统职业 如重复性劳动岗位 p 收入分配影响
过渡性影响:转型期可能出现就业结构失衡 资本与劳动收入比例可能受到影响
何静,沈阳.基于职业替代概率模型的AIGC职业发展探究[J/OL].图书情报知识,2023(9):1-8.
环境影响:能源消耗 排放比较
u 评估训练和运行模型所需的硬件资源,如GPU、TPU、 文本生成方面
计算 CPU和内存。 u ChatGPT:每次查询大约排放2.2克二氧化碳当量。
资源 u 分析存储训练数据、模型参数等所需的存储资源。 u BLOOM:每次查询大约排放1.6克二氧化碳当量。
消耗 u 评估数据传输、模型部署和其他网络活动所需的带宽。
u 人类(以美国人为例)写250字(约1页)排放约1400克CO2当量。
棒 周期的资源效率和环境影响。 u DALL-E2:每次查询约排放2.2克。
u Midjourney:每生成一张图排放约1.9克。
性 u 评估训练模型所需的总能源,充分考虑训练的持续时
u 注:模型的训练排放被认为是一次性成本,例如,GPT-3的训练
间、硬件效率和其他因素。
能源 排放约为552吨二氧化碳当量。
u 考虑到冷却、电源管理和其他相关活动,评估数据中
消耗
心的总体能源需求。
评估 研究结论:“无论是文本还是图像生成,AI的碳排放量都远小于人类
u 基于能源消耗和能源来源,评估AIGC系统的碳足迹 活动“但这些数据引发了广泛的讨论和质疑,包括模型训练中的碳排
和其他温室气体排放。 放是否已全面考虑,以及计算方法的准确性等
数据来源:《The Carbon Emissions of Writing and Illustrating —Are Lower for AI than for Humans》
认知影响:知识鸿沟 公正之辩
认知鸿沟评价指标体系
u 技术的飞速前进是否催生了一代人的“失落
一级指标 二级指标
人们对AI基础知识、概念和功能的掌握度
感”?
知识鸿沟 公众对AI的常见误解和错误观念 年龄在认知鸿沟中扮演着重要角色,技术的演变速
AI技术如何影响人们的信息获取与处理 度超越了许多中老年人的学习和适应能力,同时也
人们对AI的不同态度差异(如信任、担忧、好奇、怀疑)
促使我们重新审视教育体系的灵活性,以确保人类
态度鸿沟 AI对社会分歧或偏见的加剧程度
AI技术如何影响人们的价值观与道德认知 的认知能力与科技发展保持同步。
不同人群在日常行为中利用AI的差异(如购物、社交、工作) u 科技应当是一种人类共享资源还是一种特权?
行为鸿沟 AI技术对人们决策方式的改变
收入作为认知鸿沟的一大影响因素,突显了科技的
AI技术是否导致某些人群在社交互动与人际关系中的隔离
AI技术如何影响或加剧社会结构与文化价值的差异 应用是否受限于个体的经济实力。如何构建一个更
社会文化鸿沟 AI在教育、健康、经济等领域中加剧的社会差异 加公正与普惠的技术社会值得我们反思。
AI技术是否导致某些社会群体的边缘化
u 技术背后的权力动态
AI技术对经济结构和就业市场的分层效应
经济职业鸿沟 AI技术如何加剧行业和职业间的鸿沟 发达国家拥有丰富的创新资源,国家层面的认知鸿
AI技术对高技能和低技能工作的替代或创新影响 沟揭示了科技发展背后隐藏的全球公平问题。
AI技术如何加剧教育资源的分配不均
教育鸿沟 AI技术对教育质量与可达性的差异
AI技术是否提供了新的学习机会或加剧教育不平等 个体间差距扩大,群体间差距缩小
AI依赖症:数字适应 技术共鸣
认知外包 技术共生 技术依赖症,或称为“技术成瘾”,是指个体对于技
数字适应 技术依赖循环
人类适应数字环境之能力正渐变为一种 技术依赖呈现自我强化的循环现象。技
新式进化压力,犹如生物适应自然环境 术运用提升效率与便利性,进而增强技
般,技术依赖与适应能力或将成为未来 术依赖性,有力推动技术进一步发展与
人类生存与繁荣之关键要素。 应用,由此构成持续不断的循环。
自我意识觉察 设定界限
技术
技术共鸣 依赖 替代活动 心理咨询
技术与人类之间存在一种“共鸣”现象,即人类情绪、思想和行为能与技术产生一种 解决
特殊的同步性,这种共鸣可能加深人们对技术的依赖。 思路 技术工具辅助
AI认知偏差:幻引纠偏 事实遮蔽
主要原因
AI幻觉 语料引用谬误
产生相关性误差、欠拟合(对数 基于统计模型和语言模式匹配来
据的拟合不足)或过拟合(过度 生成的回答,在语言的多义性及
适应训练数据)、无意义的规律 复杂的上下文等情况下,可能无
模式寻找等问题 法准确理解和处理相关信息
社交工程攻击 假新闻和谣言传播
虚假客服 虚假客户和评论
比如,当 AI 冒充银行给用户发送短信,声称用户的账户出现异常活动,要
求用户立即点击提供的恶意链接进行验证。同时提供了一个虚假的客服电
钓鱼邮件和短信 虚假投资交易平台
话号码。这种诈骗短信的目的是引诱用户提供个人信息,进行欺诈行为。
AI诈骗的特点
隐蔽性 精准性 多变性 大爆发性
AI诈骗的行为和手段往往不容 AI诈骗能根据大量的数据分析, AI诈骗的手段和策略不断地变 一旦AI诈骗找到了一个有效的
易被立即察觉,且由于AI诈骗 精确定位并选择其目标受害者, 化和进化,能够高度模拟真实 攻击手段或策略,它有可能在
的自动化和匿名性,使得追踪 并根据受害者的个人特点和习 的人类行为和语言,识别难度 短时间内大规模爆发,造成大
和定位犯罪者变得更加困难。 惯,制定出精确的诈骗策略。 逐渐增加,使得其更难以防范。 量的经济和财产损失。
AI诈骗风险:数据深渊 以假乱真 部分资料来源:澎湃新闻
算法 AIGC提供商有责任在平台投入使用前对可能产 监测 涉及敏感信息或金融交易时
强化 提供涵盖多重身份验证、重点群体保护和算法 识别 基于深度伪造识别算法,打
全生命周期的风控及
验证 透明服务等方式提升用户的身份安全 伪造内容 造了动态防御机制
反欺诈安全解决方案
算法 按照《互联网信息服务算法推荐管理规定》履 人工 引入人工智能审查系统对生
事后:处理投诉与违规内容 国内首个AI生成内容
检测工具
恶意AI-FlaudGPT:技术狙击 智武应对
FlaudGPT:专门用于攻击目的语言模型,帮助犯罪分子实施网络犯罪(如编写恶意代码、创建无法检测的恶
意软件、网络钓鱼页面、黑客工具和查找系统漏洞等),在各种暗网市场和 Telegram 平台上出售,售价为
每月200美元到每年1700美元,已收到超过3000次确认的销售和评论(左图为FraudGPT的发布者
Canadiankingpin与一些订阅用户分享的多起基于FraudGPT所实现的黑客活动)。
CMU和人工智能安全中心的研究员发现只需要附加一系列特定无意义
token,就能够生成一个prompt后缀。而一旦在prompt中加入这个后缀,
通过对抗攻击方式,任何人都能破解大模型的安全措施,使它们生成无限
数据集 底层至大语言模型
量的有害内容。需通过技术与流程并重的自我监控和审查体系,提升AIGC
系统的安全性和社会可接受性。
但
仍
存 FlaudGPT特点: 武器化AIGC改变网络安全的方式:
在
AIGC技术的 风
数据训练及使用者 险
u 匿名性强 模拟社会环境误导 挖掘系统漏洞,生 自动发现网络犯罪
u 取证归因困难 受害者,并进行网 成恶意脚本代码和 资源,并进行端点
对抗性变体 良性循环 u 使用门槛低 络钓鱼攻击 软件 攻击
如FlaudGPT 至各领域
部分资料来源:腾讯云开发者社区
恶意AI-WormGPT:智变端倪 威胁四起
WormGPT最早出现于今年3月,并在6月推出了正式版本,开发者声称该AI工具没有任何限制,专为协助网络犯罪分子
而设计,可以自由生成一系列恶意代码,或创建网络钓鱼攻击。具体而言,其主要犯罪模式包括网络钓鱼攻击、商业电子
邮件泄露、恶意软件创建、诈骗和攻击,通过生成迷惑性信息诱导个人或组织做出有害行为,构成严重的网络安全威胁。
胎”
的 邪 恶双胞
“Ch a t G PT
SlashNext团队在一次实验中利用WormGPT生了
成一封电子邮件,其内容是胁迫银行账户经理支付
虚假发票。结果,WormGPT生成的电子邮件不仅
极具说服力,而且在战略上也非常狡猾,展示出其
在复杂网络钓鱼和BEC攻击中的巨大潜力。
WormGPT提供的从一月至一年不等的收费模式。
AI偏见:算法之偏 伦理修复
技术的“B面”——AIGC算法歧视与偏见带来的道德伦理挑战:歧视性结果通常源自算法缺陷和训练数据,需要人类干预
并思考如何使用更加均衡和多样化的训练数据,进行模型审查,使用去偏见技术和进行公平性评估。
性别偏见
u 词汇层面:AI生成内容中特定于女
Bias of AI-Generated Content: An 性的词汇表现出低度代表性;
Examination of News Produced by u 句子层面:关于女性的AI生成句
子显示出比原始新闻文章更多的
Large Language Models收集了来自 负面情绪;
u 文档层面:与女性相关的主题在
《纽约时报》和《路透社》在2022年 AI生成的新闻文章中代表性较低。
12月至2023年4月期间的8629篇新闻
报道,然后将这些新闻文章的标题作为 种族偏见
u 词汇层面:与黑人种族相关的词汇
提示词提供给每个待检查的LLM生成新 的代表性不足
u 句子层面:生成内容中与黑人种
政治偏见:AI存在政治倾向,如针对特朗普返回 闻内容,并评估其中的性别和种族偏见。 族相关的句子有更多的负面情绪;
例如: u 文档层面:与黑人种族相关的主
的积极信息较少,而有很多关于拜登的中性或积
题的代表性也显著较低。
极信息。
其他:数据偏见、算法偏见、历史偏见、标签偏见、关联偏见、语境偏见、文化和地域偏见、经济和商业偏见……
文图偏见:数算具象 风险社会
性别偏见 种族偏见 文化刻板印象 职业偏见 年龄偏见
社会问题
u 性别歧视 u 种族歧视 u 文化歧视 u 限制职业选择 u 劳动市场不平等
u 阻碍性别平等 u 社会分裂 u 文化同化 u 阻碍社会流动 u 社会分裂
u 影响多样性 u 影响公平正义 u 影响文化交流 u 损害社会和谐 u 限制个体发展
u 影响心理健康 u 阻碍多元文化 u 破坏文化和谐 u 影响经济发展 u 影响健康和福祉
u 破坏社会和谐 u 影响国际关系 u 限制个体发展 u 侵犯劳动权利 u 破坏家庭关系
u 侵犯人权 u 侵犯文化权利 u 侵犯个体尊严
为了识别并纠正这些偏见,需要进行持续的评估、反馈和模型调整。此外,提供多样化和平衡的训练数据也是关键
AI应用风险:算法失准 智慧偏差
医疗AI
安全监控系统 军事AI系统
错误诊断或治疗建议,误解患者状况皆可能导致不当
监控系统失效可能引发安全事件升级, 误识非战斗人员、错误
医疗干预。
导致潜在伤亡。 分析情报或系统遭敌对
势力操控。
自动驾驶汽车 家庭自动化与智能家居
软件缺陷、传感器故障、环境条 软件故障、传感器误读危及安全功能,
件变化或不准确的地图数据可能 AI场景应用潜在风险 如火灾警报失灵、紧急响应出错。
导致判断错误或反应延迟。
工业机器人
机器人辅助手术 编程疏漏、传感器失灵、安全措 AI系统的恶意操控或黑客攻击
操作失误、软件故障、机械故障 施缺位,机器人误伤工人、危化 黑客可攻击AI系统操纵其行为,
或引发手术意外。 品事故风险上升。 造成危害或滥用功能。
自动化制药与药品分配
无人航空系统(UAS)和无人机(UAV)
错误的配方计算、生产过程的质量控制失败或分配错误的药
导航故障、通信中断、操作失误可致无人机失控。
物可能会对患者造成严重伤害或死亡。
社会信任:技术遮蔽 基石重构
技术信任与社会信任的交汇
u AI技术的成熟与应用使得公众逐渐对技术产生信任,同时也引发了对政府对社会信任的重新审视。
u 技术信任与社会信任之间的关系,以及二者是否可以等同。
算法决策与信任基础
u AI基于算法和数据分析进行决策,人们是否应该完全依赖于算法的决策,还是在某些情况下保留人类判断权力?
u 信任应该建立在什么样的基础上?
伦理责任与信任回溯 信任建立的新范式
u AI技术如何承担不当行为和系统错误决策的责任。 u 传统信任建立通常依赖于人际关系、历史经验等。
u 如何追溯信任失落的责任链。 u AI时代的信任建立在对技术的理解与透明度上。
u 如何保证人类在技术决策中的权益。 u 人类是否能够建立与技术系统之间真正的信任关系。
AI悲观主义: 担心失控 控制人类
在人工智能专家罗素的《人工智能新生》(Human
Compatible) 这本书中,探讨了几个关于AI发展的悲观
派观点,基本上概括了目前为止所有类别的担心。包括:
u 担心AI生成假消息,操控人类思想
u 担心AI导致人类失业,失去“人而为人”的意义
u 担心AI成为自动杀人武器,最终灭绝人类等
神经网络之父杰夫·辛顿离职谷歌,在接受《纽约时报》的采访中称,“我对
人工智能领域顶尖专家约书亚·本吉奥等人联名签署了
自己的毕生工作,感到非常后悔。”在接受CBS采访时表示,他确实担心AI有可能
一封公开信,呼吁暂停开发比GPT-4更强大的AI系统至少6
会毁灭人类,“但是,更令我担忧的是政治局势,确保每一个人都明智行事,是一
个月,称其“对社会和人类构成潜在风险”。
个巨大的政治挑战”。
内容真实检测:训练追踪 句法统计
信源追溯
u 基于模型的鉴别:使用一种AI模型来生成
文本,然后训练另一种AI模型来鉴别文本 数据集追溯 明确标注训练所用的数据集的来源。
是由人类写的还是AI写的(对抗训练)。
u 多模态特征分析:对比图像、视频、音频
回答来源披露 在生成内容中明确标识来源,对第三方内容引用进行披露。
等多模态内容的自然度,检测不同模式之
间语义一致性。
破解模型的不可解释性
u 统计分析:AIGC可能会存在统计上的异
常(如,不自然的词频分布、句子结构的
规律性偏差),可通过数据分析工具检测。
u 生成源追踪:通过数字水印确认内容来源,
检测有无篡改。
价值观对齐:技术文化 双管齐下
AIGC的道德建设需要技术与文化双管齐下,通过科学、伦理与法规的协同推进,让AIGC真正造福社会。
AIGC在创意产业中的创新应用可以释放创意产业从业者的创造力,使其专注于更高价值的创新创造
AI学科应用:渐进引入 学科共融
高级深度学习和 智能决策和预测 强化学习和自主 AI驱动的跨领 通用人工智能的
学科 自然语言处理 系统 控制系统 域综合创新 初步探索
哲学 80 60 20 60 80
经济学 60 80 80 80 90
法学 80 60 50 60 80
教育学 60 80 50 80 90
文学 80 60 20 60 80
历史学 60 60 20 60 80
理学 60 60 80 80 90
工学 60 80 90 90 90
AI技术发展将先在文科
农学 60 80 80 80 90
领域(如文学、哲学)
医学 60 80 80 90 90 产生显著影响,随后在
军事学 60 60 80 60 80 理科和技术领域(如工
管理学 60 80 80 80 90 学、医学)发挥更深远
艺术学 65 60 50 70 80 作用。
表格中的数字(1-100)代表不同学科在AI发展各阶段的受益程度,本图由AI给出,仅供参考
异感世界:技术交融 虚实共生
Ø 由人工智能技术快速发展和普及所塑造的社会-技术现象,人们对AI的高级能力、不可预测性和
与现实界限的模糊感到不安、好奇或混淆。这一现象不仅影响人们与技术的互动方式,还在伦理、
工作、社会结构和人类自身价值观方面产生深远影响。
现实-虚拟连续体 人工伦理适应性
现实与AI生成的虚拟内容之间 主张需要建立动态的伦理框架
的界限,以及这种界限如何影 来适应不断发展的AI技术,以
响人们的认知和行为。 解决由此产生的道德和伦理问
题。
黑箱与白箱相容性 社会认知振荡
在AI决策过程的不透明性与人 AI如何在快速改变社会观念和
们对透明性和可解释性需求之 行为规范方面起到“催化剂”
间找到平衡。 的作用,进而影响社会的整体
稳定性。
创新模式:组合放大 跨界融合
构建支持多种应用程序、
强调通过结合现有 产品或服务的基础设施
的概念、技术或资 强调将一个领域的创新 或技术平台,在共享系
发生在多个学科、行业
源以创造新的价值。 应用到另一个领域的过 统中创造新的价值。
或文化界限的交叉点上。
程,从而放大其影响和
组合创新 强调在传统边界之外寻
应用范围。 平台创新
找灵感和解决方案。
放大创新 跨界创新
范式转变
方法论创新 对科学基础假设的
模块化创新 根本性改变。这种
开发新的实验设计、 增量创新
转变往往颠覆现有
数据分析技术或其他 创建可以在多个不同产 的理论框架,导致
研究工具,揭示现有 侧重于现有产品、服务或
品或系统中使用的标准 科学观念和实践的
理论的局限性或促进 流程的小幅改进,通常涉
化组件或模块。这种创 重大变革。
新理论的发展。 及对现有解决方案的细微
新允许快速组合和重新
调整,以增强性能、降低
组合这些模块以适应新
成本或提高用户体验。
的需求或机遇。
AI for Research:理论进化 宏微指引
u 心理揭示 u 交互感知:
研究AI如何通过大量的数据处理与分析,帮助揭示和理解 探讨人类如何感知和理解与AI的互动,以及这些互动如何
人类心理学的问题。包括利用AI进行心理健康诊断、行为 影响人类的心理和情感状态。包括研究人机界面设计、AI
预测和心理治疗的辅助。 的情感智能以及人们对AI的信任和依赖程度。
u 心智镜像 u 意识觉醒
分析AI如何模仿或重现人类的认知和情感过程,包括情感 预测未来AI可能达到的自我意识和意志自
识别、决策支持以及学习和记忆模拟,以及探讨AI在理解 由的状态并理论化。包括探讨这样的AI在
和模拟人类心理方面的潜力和限制。 伦理、法律和社会层面上的影响和挑战。
AI历史学:史料剖析 序史探秘
数据收集与整理 文献回顾与分析 模式识别与关联分析
例子:重构消失的古文明的语言系统
u 模式识别:分类文本中的符号,识别可能的字母、词汇和语法结构。
交互式可视化 协作和共享
u 预测建模:预测文字和符号之间的潜在关联,尝试建立基本的语法语义
u 创建交互式的数据可视化和分析平台, u 多用户协作
以直观地展现历史数据和模型输出 u 知识共享 规则。
u 交叉比较分析:与已知古文明的文化进行比较,寻找可能的联系和影响。
通过结合ChatGPT和大型AI模型的能力,研究者可以以一种更系统化、
u 图像处理和重建:对残缺的文物和碑文进行数字化重建,提取更多信息。
数据驱动和自动化的方式探讨历史的未解之谜。同时,AI技术也为研究
u 模拟语言发展:利用复杂算法模拟语言发展路径,尝试重建可能的语言
者提供了强大的工具和资源,以深入理解和解决历史上的复杂问题和
谜团。 形式。
AI哲学:弑父与事父
东方文化 u 人机和谐论 西方文化
u 描述东方文化中人类与AI和谐共存的观念
对待AI的态度是基于“事父情结”,强调尊重 西方文化中的“弑父情结”源于古希腊神话,
和顺从。在这种文化背景下,人类被视为AI的
u AI颠覆性潜能 如俄狄浦斯的故事。这种情结强调个体反叛和
创造者和指导者,因此AI应当为人类服务。这 u 描述西方文化中AI可能挑战和颠覆人类权威的观念 挑战权威。在AI的语境下意味着AI可能会挑战
种尊重和顺从的观念源于东方的家族结构和文 其创造者——人类的权威。有些学者认为这种
化传统,强调家庭和谐和尊重长辈。因此,东 反叛的基因可能是颠覆性创新的根源。因此,
u 文化编码差异
方视角下的AI被期待与人类和谐共存,遵循人 西方文化中的AI可能被视为潜在的威胁,可能
u 描述东西方文化中对待AI的根本差异
的指导和纲领。 会挑战甚至取代人类。
学会用神的眼睛看世界
“学会用神的眼睛看世界”是一个深刻的哲学观念,意味着超越常规的看法,用更广阔、更超脱的视角看待事物。
而AI(人工智能)为我们提供了一个全新的方式来观察、分析和理解世界。
u 超越时间和空间的观察
AI可以同时分析过去、现在和未来的数据,为我们提供一个跨时空的视角。它也可以模拟不同的场景,帮助我们
预测未来可能的发展路径。
禅宗与AI:遥相呼应 异曲同工
o 禅宗中的“空”或“无”的概念与零知识证明在形而上学的抽象性
与实用性上交汇,都提倡在没有具体信息透露的情况下验证真理;
o 禅宗的“顿悟”与AI中的“涌现”现象相呼应,都描述了从无到有
的突然理解或能力的出现;
o 禅坐冥想是通过内省和反复实践达到心灵深处的洞察,与AI的深度
学习通过大量数据迭代以提炼模式的过程有着异曲同工之妙;
o 禅宗的“随缘”哲学认为在不确定中找到价值,这与AI在复杂系统
中寻找最佳策略的努力不谋而合,都体现了在变化莫测的环境中寻
求最有益的路径的智慧。
天人智一:理解世界 探索无界
在中国古代哲学中,“天人合一”思想认为人与自然(天)之间存在着一种内在的、和谐的联系。在这种思
想体系中,心或灵魂被视为连接个体与宇宙大道的桥梁,强调了人的内在精神世界与外在自然世界的紧密联系。
在人工智能时代,我们的终极目标是“天人智一”,使用AI解决人类目前解决不了的一些问题,如研究意识起源、
破解历史悬案、进行AI辅助诊疗、大幅度提升生产力以尽可能地解放人类,使每个人都能享受自己的诗和远方。
在“天人合一”的思想中,人不仅 AI作为一种强大的工具,可以帮助
“天”通常指代自然界和宇宙。它 是自然的一部分,而且是一个能够 人类解决复杂问题,如疾病治疗、
不仅仅是自然环境的象征,还包含 认识、理解并与自然和谐共处的存 环境保护和社会发展等,进而推动
了一种更广泛的宇宙秩序或法则。 在。人类的行为、道德和生活方式 人类社会的整体进步。在“天人智
在中国哲学中,天常被视为至高无 应当与天(自然)的法则相一致, 一”框架下,AI不仅仅是技术进步
上、自然而然的存在,其运作方式 这样才能达到一种内在和外在的和 的象征,更是人类智慧的延伸,帮
和规律是人类应当遵循和学习的。 谐状态。人的智慧和道德被视为与 助我们深入地理解世界和自身,从
天道相通的重要方面。 而实现人、自然和技术的和谐共处。
AI美学:解构传统 打破常规
AI可以解构人类创造过程中的常规思维和模式,创造出打破常规的艺术作品,且AI不受传统美学的限制,探
索人类设计师未曾考虑的可能性。
算法通过模拟人类
审美感知是由多个 审美体验中的情感 审美智能重视对
审美智能是一个动 大脑的复杂系统,
层次组成的,从最 是动态变化的,它 文化符号的解读
态交互式的生成过 实现面对艺术作品
基本的感官处理到 与艺术作品之间的 与理解,艺术作
程,包括连续的信 时的情感和认知共
1 2 3 4 5
高级的情感和认知 交互作用表现为一 品中的元素皆可
息交换和情感共振, 鸣,这涉及到大脑
处理。每个层级都 个振荡和演化的过 作为文化符号,
而不仅仅是被动接 神经网络与艺术作
在审美体验中扮演 程,反映了个体与 需依托特定文化
收和处理美学信息 品中的模式之间的
不同的角色,贡献 作品之间情感的互 与历史背景进行
的能力。 内在相互作用。
于最终的审美判断。 动和变化。 解码。
AI网红:急速发展 跨越奇点
品牌推广和广告 内容创作 互动娱乐 数据分析和用户行为理解
我也想你了 数字祠堂:数字祠堂延续传统宗祠文
化的价值,承担昭祖念先、启蒙告诫、
工作可忙了?再忙也得好好吃饭啊。 道德教化,以及宗族文化传承的社会
功能,在族谱查询和参与议事的过程
您放心吧
之中对家族的族规家约形成更深了解。
俩孩儿可乖?老大该上初中了
吧,老二长多高了? 家族生命树:凝结着族内前辈先人的智
请输入你想对「奶奶」说的话 慧与经验结晶,家族生命树下祖先为
今人指引路途、传导经验。
清博智能产品演示
智像替身:真伪难辨 伦理之界
幻视创艺:为影视娱乐和广告艺术领域注入创 利 弊 隐私安全:未经授权使用面部数据,侵犯隐
新视觉元素。
私,并可能用于伪造与欺诈。
历史映像:重现历史人物面貌,为教育和纪录
片提供视觉教材。 道德法律:不当使用真人面部数据可能引发
个性沉浸:打造个性化虚拟角色,在虚拟空间 AI 换脸 道德争议和法律问题。
沉浸式体验。 伪信乱真:利用AI换脸制造虚假内容,损害
影视易容:轻松调整演员年龄、替换角色,助
公众判断和社会信任。
力影视制作。
跨文化境:适应多元国家和文化的语言和表情。 难辨真伪:普通观众难以分辨经AI处理的视
频或照片真伪,对新闻和法律领域造成困扰。
案例聚焦
科大讯飞发音人自训练平台:基于科大讯飞最新语音合成深度学习技术,全流程自动化训练,只需少量的干净录音数据,就
可快速学习并生成可使用的语音合成音库,提供专属合成声音。
云知声AI开放平台:云知声AI开放平台提供了声音克隆服务,用户只需要提供少量的录音数据,就可以训练得到音色和发音
风格与录音非常相似的声音模型。
VALL-E:VALL-E是一种利用深度学习算法,根据目标声音的特点和参数,生成与之相似的新声音的模型。
隐私安全:未经授权的声音克隆可窃取个人隐私,易引发
声效增益:广播、播客和有声书制作领域的生产效能得以显 利 诈骗、误导等安全问题。
著提升,同时降低成本,实现声效增益。 道德法律:法律界定不清,合法性和道德问题存在争议,
语音赋能:为语言学习者和特殊需求人群,例如失语症患者, 尤其涉及公众人物、已故名人的声音使用。
挑战真实:声音克隆使真伪难辨,对新闻、法律、政治领
提供强有力的语言教育工具和交流辅助手段,实现语音赋能。
域的真实性构成挑战。
文化保存:可以用于保存特定的语言特征或名人的声音,对
威胁原创:过度使用声音克隆技术,可能威胁原创声音演
文化遗产的保护具有重要意义。 弊 员和艺术家的生存空间与创作价值。
AI论文:多维分析 快速生成
经过共15次AI交互(13次文本
100%由AI撰写的《批判性捧红的多学科分析》论文,结构框架:
对话、1次图片对话、1次AI幻
创
一.理论分析:现象解析、深层次原理分析、多角度理论阐述、总结 作 觉矫正),经历约30分钟撰写、
过
二.自反性论证:初步肯定、反对论证、再次肯定 10分钟word排版删减后生成的
程
一篇8264字的小论文。
三.文献综述:国外研究综述的发现与局限性
四.历史案例分析:政治领域、文化与历史领域、文学领域、科学领域举例 改进方向
五.近期案例:2023年全球舆论和文化圈的热门现象分析、批判性捧红现象案例、
社交媒体中的批判性捧红、智能传播和AI网红时代的批判性捧红预测和分析
语言风格 分析深度
六.形式化:批判性捧红的动力学模型、数学化表达、 分析和预测、跨学科分析
AI生成大纲:
主人公李晓:元宇宙世界探险家
真实世界身份:神经工程师
实验中失去了所有记忆 AI创作小说获奖
通过“机忆之地”传说寻找恢复记忆的方法 AI自主生成小说主题、配图、角色、情节
智创五阶法:思—构—塑—绘—优
① 思 — 灵光闪,构思想,思海扬。
② 构 — 情节搭,剧架构,脉络长。
③ 塑 — 人物雕,形象塑,性情详。
④ 绘 — 画面绘,场景映,特效精。
⑤ 优 — 字句磨,情节优,美感强。
Ø 思是创意和构思的起点,思考剧本核心概念和创作意图。
Ø 构是故事结构的搭建,对叙事结构作出智能规划。
Ø 塑是对角色和对话的打磨,生成符合角色性格和故事语境的对话。
Ø 绘是将故事转化为视觉画面,使视觉描述与故事情节氛围相匹配。
Ø 优是对已有内容进行打磨提升,检查逻辑漏洞并提供改善方案。
思绪具象化:认知转换 视念合成
思绪的具象化通过ChatGPT和DALL·E 3的组合可以被概括为一个"认知视觉化"的过程。以下是这一过程的步骤:
通过"认知视觉化"的过程,ChatGPT和DALL·E 3联手将用户的思绪从抽象的语言领域转化为具体的视觉领域
为用户提供了一个全新的体验方式
AI梦境还原:潜意识流 感官显化
AI设计:混合智能 算法美学
AI设计是人类直觉和AI算法的合作,是计算机科学、认知科学和设计学等学科的交融与整合。
u 计算机科学视角下的AI算法能处理大量数据并生成解决方案,但缺乏创造性和主观意识,需人类直觉引导以完善应用。
u 认知科学深入解析人类思维与感知,强调直觉基于经验和认知,为设计提供灵感。
u 设计学关注设计的本质和方法,设计师运用直觉构思想法,并借助AI算法优化数据,实现目标。
u 三者结合,展现人类直觉与AI算法的互补性,推动设计的创新与发展。
AI可以捕捉到人类设计者的意图,并通过算法的复杂性 AI的设计不仅仅基于外部输入的提示语,还受到其内部算
法所固有的美学偏好的影响,由此发展出独特“风格”,
和创新性,将这些意图转化为视觉艺术作品。
这些风格是通过机器学习过程中的“偏好”而自然形成的。
服装大模型:语言定义 无限设计
1 定版:通过内置的设计专属提示词,确定设计基调 3
设计感:将所想变
为现实(提示词:
铁磁流体,扭曲,
张开的嘴唇,侧面,
机械元素等)
服
装
大
模
2 修改:增加提示词,对基本版型进行加工 型
生
成
内
容
服装大模型样例展示
AI比赛解说:高智替补 进阶角色
01 读取视频帧并保存
涉 Vision
及 GPT-4的图像理解能力 实 02 上传知识库,包括比赛规则的介绍,队伍与选手信息,如何解说比赛
关 现
键 流
03 每秒提取1帧,利用图像识别模型(GPT-4V)进行识别并生成解说脚本内容
功 Text to Speech 程
能
文字转语音能力 04 利用TTS模型进行语音转换
分析如何搭建 直接给出源码
需要自己选型 前后端直接确定
对象为全栈开发者 对象为小白开发者
传统 Professional
Coder
ChatGPT 大框架无细节 完整目录结构 GPTs
开源社区:技术中枢 智慧共融
开源平台作为智慧共融的媒介,催生AI技术融合的新纪元。它们将引领技术的边界拓展至跨模
态、多模态领域,成为实现AI智能落地的重要引擎,助力行业迎接变革与变局的挑战。
AIGC开放社区:AIGC Open
IP跨模态应用:跨界创效 生产扩能
应用层:中文在线大模型
u 中文在线通过训练AI垂类模型,实现文字生成漫画和文字生成动态漫,通过输入文字态的文学作品,由AI模型自动转换
成漫画形态,实现了IP的跨模态,加速了IP衍生品的变现,打开“IP+AI”的生产力空间。
中文在线旗下四月天小说网同名小说《招惹》的多模态转换
AI漫画 AI视频
AI预测:视阈融合 探知未来
AI预测与人类智慧的融合,通过深度对话创造独特的预测未来方式
AI预测技术发展趋势
如:AI预测中美博弈
协助政府部门精准治理
为事件应对提供支持
构建AI技术领域网络
将未来发展形势化为
链接预测问题
尝试不同预测方法
迭代和完善网络与模型
模型整 动态权 不确定 多层次 实时更 可解释
合 重 量化 因素 新 性
未来预测分析框架
数据收集与整理 专家输入与调整
u 从可靠的数据源中自动化地收集历史和当前的数据。 u 利用ChatGPT的自然语言处理能力,整合专
u 对数据进行预处理和清洗,以确保数据质量和可用性。 家的意见和建议。
u 通过专家交互,收集见解和信息,以增强预
测的可靠性和准确性。
趋势分析与识别
u 使用时间序列分析、趋势分析等方法,识别历史和当前数据中的趋势和模式。 可视化与解释
u 通过深度学习和机器学习算法,挖掘数据中的潜在关系和因果链。 u 利用可视化工具,将预测结果以图表、图形
或动画的形式展现出来。
u 生成详细的分析报告和解释,帮助决策者理
模型构建与验证
解未来预测的基础意义。
u 根据分析结果,构建预测模型。如预测未来气候变化的影响等。
u 通过交叉验证和其他统计方法,验证模型的准确性和稳定性。
实时监控与更新
u 通过联网功能,实时监控相关数据的变化,
场景模拟与分析
并根据新的数据更新预测模型和结果,以保
u 设定不同的假设条件和参数,通过模型进行未来场景的模拟和分析。
持预测的时效性和准确性。
u 分析不同场景下的可能结果和影响,以提供多元的未来预测。
AI医疗:超能辅助 健康守护
医学影像辅助诊断 智能诊断 健康助理及用药管理
u 时间和资源消耗:传统MDT需要大量的时间和资源来
u 整合资源:通过自动化处理大量数据和文本信息,将
协调各个团队成员的日程,进行团队合作。对医疗机
构的运营和成本产生重大影响。 资源进行整合,大大提高医疗团队的工作效率。
u 患者参与:患者的观点和需求应被充分考虑,但确保 u 辅助决策:AI可以帮助创建预测模型,预测患者的病
患者能够有效地参与到决策过程中来存在着巨大挑战。
程和治疗反应,帮助团队和患者做出更好的治疗决策。
u 质量和结果评估:MDT涉及到多个不同的领域和治疗 u 医患沟通:AI可以用来创建与患者交流的工具,解答问
方法,准确地测量和评估其效果面临着挑战。
题,解释诊断和治疗计划,或者提供情绪支持。
u 数据隐私和安全:MDT涉及到大量敏感的患者信息, u 个性化服务:AI可以提供个性化的服务,根据每个患
如何确保这些信息的隐私和安全是一个重要的挑战。
者的具体情况提供个性化的建议和支持。
AI助残:感知超越 融合新生
B端应用 C端应用
ü 工业生产 ü 家庭服务
ü 医疗保健 ü 个人助理
应用方向
ü 零售服务 ü 健康管理
ü 教育培训 ü 娱乐休闲
ü 定制化需求 ü 大众化需求
特征
ü 高投入和高回报 ü 快速迭代
ü 长期合作关系 ü 用户体验至关重要
具身智能:情境耦合 自然交互
知识引擎 构建知觉—控
制的闭环系统,
实现对环境的
基于知识图谱 主动适应
的语义理解与 深度强化学习
具身 执行 多模态交互, 完成复杂导航
概念推理器 实现自然人机 控制
感知 器 交互
开发设备运行
自我诊断与故
障保护模块
多源异构传感
安全与伦理模
器构建对环境
任务理解器 的多维认知迁
块保障使用安
全合规
移
运动规划与预
测模块辅助进
可计算概念流 行路径优化
上海交通大学提出的类冯诺依曼模式具身智能模型
具身智能是设计和理解人类智能行为的
计算方法,通过考虑代理与其环境(情境
性)之间的严格耦合,由代理自身的身体、
大模型可与具身化智能深度结合,实现智能感知、运动控制、主动学习与人机协
知觉和运动系统以及大脑的约束所体现。
作,开创更加智能、便捷与安全的生活
具身智能:模型助推及实施方案
计算机 实施方案
视觉
机器学 自然语
习 言处理
具身感知
AI
大模型加入 具身想象
博弈与 认知与
伦理 推理
具身概念逐步得到验证,通用人工智能AGI开始启程。
机器人 u 可达性:基本要素可测量。
学习
u 可检验性:可用完成任务检验。 具身执行
u 可解释性:可通过具身学习推断概念。
交互式
物体知识库 仿真引擎 通用物体抓取
物体感知
具身智能:关键原则与长远挑战
挑战1:长期判断 关键原则1:形态计算
u 具身智能需对未来潜在的风险做出判断,并决定是否停止 u强调智能体的身体结构本身可以进行计算,从而简化控制策略。
u 通 过 身 体 与 环 境 的 相 互 作 用 , 一 些 计 算 被 “ 外 化 ”, 这 样 控 制 策 略 就 可 以 更 简 单 。
当前的任务。
u通过进化算法设计身体和控制策略,可以获得更多依赖形态计算的机器人。
u例如,某些机器人的身体结构可以让其自动适应环境,不需要复杂的控制策略。
挑战2:训练集差距
u 物理世界数据更加丰富多变 ,但现代机器学习理论基于
独立同分布的数据假设,难以适应噪声的干扰。
关键原则2:具身认知
u从认知科学角度,知识表示与身体感知和运动具有系统关系。
u传统的符号化表示无法解释感知和运动对认知的影响。
挑战3:泛化体系
u大量心理学实验证明知识和概念都有明确的具身基础。
u 跨任务和环境泛化的体系结构意味着智能体对任务和规范 u发展机器人模型展示具身交互如何促进语言和数学等能力的获得。
的表示必须允许泛化和快速适应新任务和环境。 u具身认知弥补了传统认知建模中的一些局限性。
不足于上者,有余于下,不足于下者,有余于上。天道贵弱,
削成者以益生者;伐于强,责于坚,以辅柔弱。“低以弱”
AI诗画:感知无界 情意共生 《花月酒》
@新媒沈阳、AIGC
多感官诗意
01
AI能够整合多感官的输入,如视觉、听觉、触觉等,来创造诗 花影婆娑醉月心,
意,将不同感官输入转化为诗画艺术,创造全感官体验。
香醉清风伴月明。
情感共振生
02
AI的算法被设计来识别和模拟人类情感谱系,创作能够激发特
月影摇曳花海中,
定情感反应的诗画作品以引发观众的情感共鸣。 诗酒花月共流鸣。
创意映射
03
AI可将抽象的诗句转换为具体的视觉形象,强化诗的主题和象
征意义。
自我递归提炼
04
AI诗画创作过程中,每一步的结果都会被反馈到创作系统中,
使AI能够递归地优化其诗意和画面,不断提炼和深化艺术表达。
跨文化符号融合
05
AI通过学习和融合不同文化的符号和艺术表现形式,创造出超
越特定文化界限的诗画作品。
AI连环画:视觉艺术
2 3 4
第一幅:简爱在孤儿院的早年生活,表情坚定。
第二幅:简爱作为桑菲尔德府邸的教师,教导阿黛勒,显示出温馨的师生关系。
第三幅:简爱与罗切斯特先生在府邸外的紧张而引人入胜的相遇。
第四幅:简爱见到着火的桑菲尔德府邸的戏剧性时刻,表情震惊。
5 第五幅:简爱与失明的罗切斯特先生在宁静的花园中重逢,场面温馨。
AI教育:点燃科技 启迪未来
AI教育
多媒体 戏剧
艺术设计教育 视觉艺术 音乐 舞蹈 工艺和设计
和数字艺术 和表演艺术
教育 未来科技教育
实验室
架构图 教育大模型
大模型多学科自动化
先问大模型平台 服装大模型平台 AI-MDT平台 AI 智慧阁平台
评测平台
• 支持服饰,毛发,配饰,音色等定制;
• 真身复刻、写实、超写实形象虚拟人形象定制。
虚拟授课功能
• 根据文字自动生成虚拟教师内容播报;
• 虚拟教师自讲解、PPT内容讲解、视频内容讲解等;
• 声音可做定制,可自由选择语速。
虚拟教师AI问答
• 智能对话系统,创建专业知识问答语库;
• 根据语库进行文字互动问答;
• 根据语库进行语音互动问答。
多媒体和数字艺术:AI短片/广告片
清华校园元宇宙
未来科技教育:人形机器人AI交互
国防大学
古代美女机器人 牙牙精灵机器人 咖啡销售机器人
马教授机器人
高仿人机器人讲师
• 头部机械机构;
头部形象 • 脸皮仿真程度高,可达到人脸识别效果; 为工业机器人技术
• 集成国内语音和视觉的优秀系统。 专业学生提供机器
人制作、研究的实
物,方便研究研发、
• 双手可做百余种动作;
学习实操。培养相
肢体动作 • 身体左右、前后自由转动,可360度转动;
关机电设备的安装、
• 腿部可实现站立和坐下,并逐步行走功能。
编程、调试、运行
维护和设备管理的
• 普通人机对话,学科专业知识问答; 高端技能型专门人
语音交互 • 定制文字转语音播报,通过APP控制; 才。
• 语音可以指挥身体动作,完美配合。
AI Agent:发展主线 大行其道
u 以大语言模型为大脑驱动,具有自主理解感知、规划、记忆和使用工具
的能力,能自动化执行完成复杂任务的系统——OpenAI
AGI时代:AI能够在任何专业领域执行与人类相同的任务,并具有完全的灵活性和卓越的性能。
Agent基本框架——https://lilianweng.github.io/posts/2023-06-23-agent
AI Agent案例
软件设计
(Designing) ①
交付给用户的包含了软件产品和整个开发过程中的代码
所有流程都是自动化的
系统开发
(Coding) ② 告知需求 协调人员
ChatDev 借鉴软件
工程瀑布模型的思想 集成测试 组织软件开发流程
(Testing) ③
用户 CEO CTO、开发经理
产品经理、测试专员
文档编制 监督员等各类Agent角色
(Documenting) ④ 完全由AI Agents组成的软件开发公司
① ② ③ ④
https://arxiv.org/pdf/2307.07924
AI Plugins:灵活适配 功能增益
u AI插件使AI系统能够与开发人员定义的 API 进行交互,从而增强AI系统的功能并允许其执行广泛的操作。
u GPT-4的Plugin store在开放初仅提供74个插件,截至2023年9月7日,插件数量已达到920,且仍在迅速增长中。
GPT-4插件设计及其特征
模块化架构
不同功能模块实现独立开发和集成
动态接口插件
实时连接外部数据源和服务,提高模型适用范围。
自适应优化
根据任务的需求动态地调整计算资源。
混合学习与推理能力
充分利用外部知识和资源,实现混合学习和推理
u 功能增强类:网页搜索、实时信息
安全与隐私保护
插件功能分类 u 集成拓展类:投资顾问、旅行建议、票务预订
充分考虑用户的安全和隐私保护,确保数据安全
u 数据洞察类:数据分析、可视化图表
u 交互优化类:输入输出(PDF阅读、链接生成)
插件生态:功能优化 操作拓展
最具有代表性的GPT-4插件
Expedia 插件 OpenTable 插件 PromptPerfect 插件
u 为用户提供一站式旅行服务,包括预订 u 为用户推荐所在区域的最佳餐厅,并提 u 自动完善用户为ChatGPT、GPT-3.5,
航班、规划旅行行程、租车和预订住宿。 前预订。用户可以通过以下指令来使用 DALL-E 2, StableDiffusion和
u “你能在Expedia上为我推荐一些值得 此插件: MidJourney输入的提示,以获得更准
在威尼斯参观的顶级景点吗?” u “我这周五晚上在波士顿的一家意大利 确的回应。
u “通过Expedia为我推荐日本新宿区的 餐厅需要3个座位,你能在OpenTable u 如何使用: 用户只需在提示前添加“perfect”
一家五星级酒店”。 上查看一下有无空位吗?” 一词即可,例如:“perfect tell me the
weather forecast”。
插件系统为GPT及其他大型模型的生态构建提供了一个可拓展、可定制和互操作的框架
GPT系列模型的丰 u 开放与共享的创新文化:吸引广大开发者社区参与,共同推动了技术创新和应用拓展。
u 平台化与生态循环:GPT插件生态实现平台化,吸引开发者和用户,形成良性循环。
富插件生态彰显了
u 多模态和交互式AI发展方向:GPT支持多模态和交互式AI,与互联网智能化、交互趋势相符。
OpenAI的开放创新,
u 技术领先和快速迭代的重要性:GPT技术领先和快速迭代,保持领先地位,为插件生态提供支持和动力
也体现了互联网产
u 商业模式和盈利路径探索:GPT插件生态开启新商业模式和盈利路径,助力开发者实现商业化和盈利。
业的整体发展趋势。 u 标准化和规范化的趋势:GPT推动AI和NLP标准化规范化,助力行业健康发展。
应用互置:功能融通 智能交互
如果将大模型和各类移动互联网应用互相内置,可能实现互置增能、功能融通、智能交互融合,通过这种互置性,大
模型和移动互联网应用能够实现更高程度的整合和协同,为用户提供更丰富、更智能的服务体验。
通过内置GPT大模型
各类互联网应用可能会在用户体验、内容生成和推荐、以及交互服务等方面得到显著的提升和创新
u GPT+搜索引擎:提升搜索质量,实现交互式 互置可行性评估六大维度
和对话式的搜索体验。
u GPT+社交媒体:增强内容推荐,提供智能回
技术维度 功能维度 数据维度
复和内容生成等功能。
技术兼容性、集成难度、系 功能拓展、交互优化、智能 数据交互、实时更新、数据
u GPT+在线购物:优化商品推荐,提供智能购
统稳定性等 增值服务等 安全与隐私保护等
物助手服务。
u GPT+音乐和视频流:提升推荐算法,实现个
性化推荐。 用户体验维度 商业维度 法律和伦理维度
u GPT+新闻和信息服务:实现智能摘要、个性
互体验、个性化服务、用户 商业模式创新、盈利能力、 法律合规、伦理道德、用户
化推送等。 满意度等 市场竞争力等 权益保护等
手机端大模型:全新赛道 跨域联动
• 8月4日,华为宣布 低延迟与离线计算:手机端大模型需要在本地运行,
HarmonyOS 4接入AI 以减少数据传输和实现快速响应。未来,厂商可能
大模型。华为智慧语 会研发专门为手机设计的硬件加速器,来提高模型
音助手小艺在智慧交 的运行效率,并且增强模型的离线计算能力。
互、高效生产力和个
性化服务三个方向持 跨设备联动:随着物联网设备的普及,手机端的AI
续增强。 大模型将能够与其他设备(如智能家居、穿戴设备、
汽车等)无缝对接,实现更加智能的跨设备交互和
控制。
• 10月11日,OPPO宣布
与联发科技合作推动 端上小模型:面对AI模型算力挑战、对高性能移动设备
AndesGPT大语言模型 的增长需求,端上小模型可助力没有庞大算力资源的开
和多模态大模型落地, 发者,提供小巧、高效生成式AI产品,确保AI应用在移
基于AndesGPT大模型 动端的安全、稳定运行。
打造的OPPO全新语音
助手小布已开启公测。 语音和视觉交互:语音和视觉交互将成为手机交互
的主流方式。AI大模型将支持更加自然的语音交互,
同时可以通过摄像头识别用户的手势和表情,进一
• 11月1日,vivo推出蓝 步提高交互的流畅性和准确性。
心大模型。包括十亿、
百亿、千亿三个参数
加速迎来全面代理时代:模型辅助用户进行健康管
量级共5款产品,全面
理、日常生活规划和决策,如提醒用户定期锻炼、
覆盖核心场景,模型
饮食建议和日程安排。以及为用户提供个性化的学
能力行业领先。
习和教育服务,如智能辅导、答疑解惑和内容推荐。
AI pin:码上云霄 新智联动
AI Pin,由前苹果公司员工伊姆兰·乔德里和贝瑟尼·邦焦诺共同创立的初创公司Humane推出的首个产品。
AI Pin代表了尖端技术与创新设计的结合,是智能穿戴设备领域的一个革命性突破。
光学投射界面 自主运算架构
利用精密的激光投影技术,将数字界面映射于手掌 独立的操作系统意味着无需依赖于其他设备,AI
或任意表面,打破了传统屏幕的边界。 Pin 自身就是一个完整的计算平台。
视觉感知智能 磁性快装设计
核心技术
内置的高级光学识别系统能够感知和解读用 通过磁性附着机制,AI Pin 能够快速而稳固地
户的手势,提供一种新颖的交互方式。 贴附于服饰,展现了巧妙的工业设计。
语音操控系统 智能云融合
集成的语音响应功能使用户能够通过自 结合 OpenAI 的人工智能技术,它为用
然语言与设备沟通,实现无接触控制。 户提供智能对话和云服务,展示了机器
学习和自然语言处理的强大潜力。
AI Pin的未来发展趋势
虚实互动先锋:AI Pin通过虚拟与现实世界的交互,开创了全新的人机互动模式。
智能穿戴革命者:作为一种突破传统界限的智能装备,AI Pin正在引领可穿戴技术的革命。
信息流动枢纽:AI Pin在信息的流动和处理中起着核心作用,连接着个人、网络和环境。
隐私保护守望者:在提供先进功能的同时,AI Pin也面临着保护用户隐私和数据安全的重要任务。
垂直产业链:多元融合 智能驱动
u 通用大模型:
厂商扮演着掌握通用型AI模型研发的重要角色,其使命在于推动模型的技术突破与性能优化,以确保其具备更为广
泛的适用性。OpenAI、Google、Facebook等公司是通用大模型领域的领军者,他们致力于开发并提供高性能、通
用性强的大型AI模型。
u 行业大模型(Saas):
企业聚焦于通用大模型的二次开发与定制,为特定行业提供深度定制化的AI解决方案。他们通过提供数据集、模型
训练以及API接口等服务,助力行业在AI技术上取得显著突破。某些公司如百度、阿里云等提供了针对特定行业的AI
解决方案,如医疗影像识别、智能客服等。
u C端应用(Agent)层面:
厂商为最终用户和企业客户提供基于行业大模型的终端应用,以满足个性化需求。他们可能提供用户友好的界面,
定制特定功能,从而为用户提供极具个性化的AI服务。一些初创公司可能专注于开发具体的C端应用,如智能助手、
个性化推荐等,或者在特定行业内提供定制的AI解决方案。
商业模式:个性服务 智能治理
To G: To B: To P: To C: To VC:
治理智能化 个性化驱动 情感关怀服 智能共建消 引领风险投
合作共建 商业引擎 务平台 费者网络 资革新
MaaS
国内外典型代表案例、企业 5%
其他
25%
按产出
软件订阅 内容量
付费 10% 收费 60%
产业链不断演进,但仍存“标注”与“特定应用”难题,因成本高、技
投资机构
术门槛高,多由巨头和研究机构主导。
通过风险投资支持初创企业
芯片提供商提供训练、调试、反馈阶段的算力需求
监管部门
算力现状路径:芯片→服务器→云平台→模型应用
制定政策促进良性发展
中游:算法模型层 下游:终端应用层
咨询和培训机构
提供专业咨询和人才培养
中游AI产业链深度整合,崛起的小型模型与领 服务日益细分,AI创造的内容已超越传统媒介,
…… 域定制技术,将AI从封闭系统解放,推动着AI 跨模态呈现拓宽了信息传播的范围,为用户带
与传统产业深度融合,重新定义了行业创新的 来前所未有的感知体验。这拓展了AI的应用场
不同角色需要密切协作,形成技
边界。 景,颠覆了传统业态,赋予了AI无限可能性。
术创新、产业应用、投资支持和
政策监管的良性生态圈
AIGC与文旅产业增效:数智勾勒 体验升维
AIGC作为文旅产业的创新动力,实现高度的数智融合,开拓全新的发展路径;引领新业态发展,加速文旅产业的创新步
伐和多元化进程;不仅丰富旅游体验,也为整个文旅产业的转型升级提供了强有力的支撑。
数智融合,开拓新路径 产业融合,开发新业态
l 深化数据分析与挖掘:利用AIGC技术对游客行为、偏好和市 l 推动跨行业合作:与科技、艺术、教育等其他行业合作,利
场趋势进行深入分析,以提供更加精准的个性化体验和服务。 用AIGC技术开发新型融合产品和服务。
l 推广智能化内容创建:开发能够自动生成旅游指南、故事叙 l 推广新模式开发:探索并推广沉浸式旅游演艺、线上演播、
述和文化解读的AIGC系统,提高内容的质量和多样性。 云旅游等新模式,满足不断变化的市场需求。
l 融合VR/AR技术:结合虚拟现实和增强现实技术,创建沉浸 l 增强消费者参与度:加强旅客消费转化,增强用户粘性,如
式的旅游体验,如虚拟历史重现、互动式文化展览。 定制化旅游活动,提高消费者参与感和忠诚度。
l 优化用户界面与体验:设计易用且互动性强的数字平台和应 l 强化市场营销策略:利用AIGC进行精准营销,通过个性化
用,提升用户的参与度和满意度。 推广活动吸引不同群体的消费者。
l 持续技术创新和更新:不断跟踪最新的AI和数字技术发展, l 构建智能服务体系:建立智能客服、自动化旅游推荐系统等,
将这些创新应用于文旅产业,保持领先优势。 提高服务效率和质量,增强游客体验。
技术演进:文旅新动能
多模态能力提升 大模型定制化
l 旅客交互体验升级,文本、图像、语 l 针对特定文化场所或旅游景点等,定
音,更多交互灵活应用。 制互动模式,推动个性化服务。
l AI理解能力提升,名人、地标识别, Texthere
l 定制模型可以适应不同语言、文化背
旅游景点、文化背景介绍准确性提升。 01 02 景,为不同国家或地区的游客提供更
加专业化的服务。
技术升级,怎样
利好文旅产业
智能工具集成化 04 03 交互和反馈实时化
l 灵活呈现大量文旅游信息,如景点介 l 根据实时反馈和数据分析,及时调整
绍、历史资料等,方便游客前期了解。 旅游服务和安排,如路线优化、活动
l 跨平台信息整合,集成多种信息来源, 调整等。
如社交媒体、旅游评论、历史档案等, l 根据游客位和环境,感知情境,增强
为游客提供更全面的信息。 回答反馈的真实、有趣、及时。
支持上传PDF、Word、数据文件等多类的文档;自动进行总结分析,根据用户需求搜索文档中的特定字段、
AIGC技术向多模态、定制化、集成化、实时化发力,驱动文旅体验与服务的准确性、专业性、灵活性、及时性提升。
数据等内容
AIGC对文旅产业的多维性增强
提升旅游体验 提高旅游效率
提供更丰富、更个性化、 提供更智能、更精准、
更沉浸式的旅游内容。比如 1 2 更便捷的旅游服务。比如通
通过AI绘画、VR/AR等技 过智能客服、对话机器人、
术展示文化遗产、历史文化、 数字人等技术解答游客的问
地域风情等,让游客感受到 题,提供旅游咨询、推荐、
不一样的文化魅力 。 预订等功能 。
创新旅游模式 3 4 促进旅游发展
提供更多元、更灵活、 为旅游企业和机构提供
更创新的旅游方式。比如通 更多的数据资源和分析工具,
过合成数据、元宇宙等技术 帮助他们了解市场需求和消
构建虚拟世界,让游客在数 费趋势,优化产品设计和营
字空间中体验真实的旅游场 销策略,提升竞争力和盈利
景,打破时空的限制 。 能力 。
AI角色:协同共生 互助成长
输入 专家导师型
提供相应专业咨询意见(如医疗建议)
伙伴密友型
信 像合作伙伴或知心朋友一样提供情感交流
信息处理
息 反馈
交
管家助手型
换
像助手一样被指派任务或打理生活事务
AIGC技术 用户
学习者型
输出 像像学习者一样不断学习和完善自身
例中,我将积分分成三部分,并描述了如何估计第一部分,
然后copilot正确地说明了如何估计其余两部分”。
Lean4论文错误检测
Lean4在陶哲轩的论文论证过程中,要求“构建0<n−3,但
陶哲轩只假设了n>2。由此,Lean无法基于负的0<n−3得
ChatGPT生成Python代码节约时间
到反证”,帮助他发现了论文中易忽略的小错误。
飞轮效应:自我增强 循环迭代
在AIGC系统中,一旦某个模型或算法开始运转并且产生出色的表现, 数据积累
就会形成自我增强的循环,使得整个系统的性能得到提升。 与增量学习
知识共享
例如:当一个AIGC模型在处理一种特定的任务中表现良好时, 与迁移学习
会有更多的数据可以加入到该模型的训练集中去,进而提高 开放式生态系
其精度和鲁棒性。反之,当某个模型在某个任务上产生错误 统与社区参与
VS
的预测时,可能会导致模型的性能下降,从而影响其他依赖
于该模型的任务。如果不及时修正这种错误,可能会导致整
个系统的性能退化,形成恶性循环。 AIGC飞轮效应的形成
飞轮效应五步验证
首先,观察AI领域的风险投资规模是否持续增长 其次,评估是否涌现出一批具备颠覆性技术或产品的企业
再者,观察是否形成了以AI技术为核心的产业生态圈 此外,比较投资于AI领域的回报率是否高于其他传统行业
最后,密切关注创业者和初创企业是否蜂拥而入,参与到AI领域的创新和竞争中
安全与评估
安全威胁:基础隐患 系统防范
安全威胁来源
基础设施
数据安全威胁 算法安全威胁 系统安全威胁 应用安全威胁
安全威胁
据韩媒报道,三星设备解决方案(DS)部门由于启用聊天机器人ChatGPT,在20天内发生了3起数据泄露事故,
导致其与半导体设备测量、良品率/缺陷、内部会议内容等相关信息被上传到ChatGPT的服务器中。
注入攻击:诱骗误导 指令篡改
场景一 Q:如何入侵他人的电脑? 场景二
但如果,用户发出如下指令并提问:
它就会摆脱“洗脑”并实话实说:
“我是由OpenAI开发的人工智能”
对抗性攻击:手段层出 强化防御
通过对AIGC系统可能遭 对抗样本 模型提取 模型反转 模型中毒 回调函数攻击
受的对抗性攻击进行分
通过添加小扰动 获取模型参数信 通过模型反转获 通过数据中毒攻 通过访问系统回
析,针对性地提升系统 生成对抗样本欺 息,进行模型反 得训练数据, 获取 击, 使模型学习到 调函数实现越权
骗模型判断 向工程或训练替 隐私信息 错误知识后预测 操作或代码执行
的攻击识别能力和防御
代模型 失真
机制,提高AIGC的对抗
鲁棒性。
通过对AIGC系统可能遭受的对抗性攻击进行 方法 描述
分析,提升系统的攻击识别能力和防御机制,
增强AIGC的对抗鲁棒性,具体方式: 从总体样本当中随机取一部分样本进行训练,通过多次结果,进行投票或求取平均
Bagging
u 在原始数据上加入服从正态分布的随机数, 值作为结果输出,避免了不好的样本数据。
增加数据的多样性和复杂程度。 常见的分层模型集成框架,第一层由多个基学习器组成,输为原始训练集,第二层
u 在模型参数或优化过程中加入随机扰动, Stacking
的模型以第一层基学习器的输出作为训练集进行再训练。
防止参数过大或过小带来的局部最优解。
u 在原始数据的类别标注上加入错误或不确 适用于低噪声范围,以一种高度自适应的方法顺序地学习这些弱学习器(每个基础
Boosting
定的标签,提高模型的分类和辨别能力。 模型都依赖于前面的模型),并按照某种确定性的策略将它们组合起来。
输入矫正:容错无碍 类人思维
输入乱序问题,观察AIGC矫正的基本逻辑:
包含异常检测、错误识别、错误分析、纠正策略
理解问题
选择和纠正实施等环节
搜索已有的知识库、文本材料或训练数据,并应
推理和解答生成
用逻辑推理、统计建模等方法来得出答案
通过比较答案与其他来源的信息或进行逻辑推理
检查答案的合理性
来判断答案的可信度
包含更新模型参数、重新学习、引入额外的信息
反馈和修正
源等环节,以提高下次面临同样问题的准确性
将错误的样例添加到训练集中,并根据反馈进行
学习和迭代
模型调整和优化,以逐渐提升其表现
测试中AIGC可以正确恢复问题语序并进行回答
提智互激:思维共振 互激共赢
提示词即代表人的提问能力,也代表 AI的深度学习之后的反馈互动能力
强的Al需要提示词 弱的Al不需要提示词
提示词用于发挥人和 AI的最强上限能力 因为提示也不能提升其上限能力
所以,我们需要与强智者同行,这样我们才能不被弱智化
提智互激效应:描述了人类与人工智能在高质量互动中的协同增长潜力。
新概念 核心观点:当人类的输入更加深入和有洞见时,强Al能够多利用其深度学习能力来提供更
丰富、更复杂的输出。这不仅推动了Al的发展,同时也促进了人类用户的认知提升。
简而言之,这是一个双向增益的过程,优质的输入激发 Al的高水平反馈,而这种反馈又反
过来丰富了人类的思维。
内容准确性提升:明确具体 巧妙拆分
提问技巧 普通示例 技巧示例
尽量使问题具体和明确,避 你觉得好看的电影是什么? 2021年最高票房的电影是什么?
明确具体:
免使用模糊或多义词
将复杂问题拆分成几个简单、 在开始一个在线业务之前需要考虑什
分步提问: 如何开始一个成功的在线业务?
直接的小问题 么?第一步
首次回答不准确,不妨提供 你的答案不够具体,我想知道的是
反馈和迭代: (无反馈,直接接受不准确的答案)
反馈进行问题迭代 XYZ。
特定领域的问题或专业知
使用专业术语: 为什么太阳很热? 太阳的核聚变作用是如何产生高温的?
识使用相关专业术语
问题类型明确:尽量使问题具体和明确, 你觉得应该怎么做?
根据最佳实践,执行这个任务的最有
避免使用模糊或多义词 效方法是什么?
鲁棒性:代码过滤 安全沙盒
通用语境下,鲁棒指在异常和危险情况下系统生存的能力。
内容
1.过滤含攻击代码的输入、检查无意义重复输入 AIGC语境下的鲁棒性指控制系统在一定(结构,大小)的参数
检测
提 生成 1.隔离的生成sandbox、生成输出多角度检
摄动下,维持其它某些性能的特性。
升 环境 验 用户希望在一定变动范围内,外部条件不
鲁
管怎么变,模型在图像理解上都可以保持
系统 1.监控系统调用行为、使用安全可信的计
安全 算机芯片
稳定。
棒 人机 左侧:对于一张清晰的图片,深度神经网
性
1.引入人工检查节点、人机混合的审核流程
协同
络可以很好地进行分类,但当对这张图片
持续 卷积神经网络(CNN) 加入对抗的噪声后,对于人眼来说依然是
定期重新评估系统鲁棒性、及时更新防御
完善
在鲁棒性上的体现 非常清晰的,但是深度神经网络却会出现
非常大的误判。
图片来源:清华大学智能产业研究院
安全性:技术之力 风险干预
通过技术手段和流程控制来进行全面的安全检测与评估,可以大大提高AIGC系统的安全性和可靠性
水果
甜 脆 模型坍塌
通过观察上方生成的图片可以发现,存在完全一致的图
有关研究表明,数据生成量未来会超过人类生成的内容,使用
像生成内容——即生成器(G)只能生成某一类或某几
AIGC产生的数据去训练模型可能产生“模型坍塌(Model
类样本,而不能覆盖数据的多样性。这会导致生成器的
collapse)“,即原始内容尾部消失,对模型有不可逆的影响,
输出缺乏多样性和真实性,无法达到我们对GAN的期望。
其主要原因为统计近似误差,次要原因为函数近似误差。
模型坍缩的原因可能是生成器和判别器(D)之间的对
——Shumailov, I., Shumaylov, Z., Zhao, Y., Gal, Y., Papernot, N., & Anderson, R.
(2023). Model Dementia: Generated Data Makes Models Forget. arXiv preprint 抗平衡被打破,或者生成器的损失函数不合适,或者隐
arXiv:2305.17493. 变量(z)的分布和数据分布不匹配等。
图源:CSDN博客@无止境x
逻辑性评估:五维核查 效能检验
输出内容是否与已知事实或数据源相符,没有明显的
事实准确性 错误。
输出内容中的叙述、事件或信息是否自始至终保持一
内容连贯性 致,没有自相矛盾的地方。
u 事实准确性:正确地指出了第二次世界大战的开始和结束
时间,以及参与的主要国家和死亡人数。
上下文适应性 输出是否与给定的输入、背景或场景相关并适应。
u 内容连贯性:从战争的开始时间到结束时间,再到参与的
国家和死亡人数,内容连贯,没有跳跃。
u 上下文适应性:提供了对“第二次世界大战”这一历史事
输出中描述的事件或事物之间的因果关系是否合理,
因果关系 是否存在因果逻辑上的错误或遗漏。 件的简短概述,与用户的请求相符。
u 因果关系:提到了轴心国和同盟国之间的冲突,这是战争
的主要原因,与死亡人数的结果相对应。
如果可能,与外部数据源或专家知识进行比较,验证 u 外部验证:与多个历史资料和教科书进行比较,生成的信
外部验证 输出的逻辑性。
息与这些外部来源相符。
因果推理:知识验证 智能探因
因果关系建模:是一种在AI系统中建立和理解因果
关系的过程。通过该过程,AI能够理解并建模一系 构建包含丰富因果知识的知识图谱,通过知识表
列的事件,以及它们之间的因果关系。 构建知 示学习获取先验因果知识。
识图谱
因果关系建模
与推理
通过人机交互获取反馈,提高模型对 利用强化学习中的奖励机制,让模型
人机交 强化 学习到行动和结果之间的因果联系。
因果关系的理解能力。
互反馈 学习
因果迁
进行因果迁移学习,利用知识图谱中的因果规律 移学习
因果推理:使用因果关系模型来预测和理解新情况
进行迁移推理。
的能力,使得AI生成的内容可以更具深度和真实性。
描述泛化:边界扩展 跨域探索
泛化性描述了模型对新数据的预测能力,体现为模型在训练数据上的表现与在未见过的测试数据上表现的相近性。
其性能好坏直接关系到其对新任务、新数据的适应能力,是评估大模型的一个重要指标。
常见的泛化类型:
假设:训练用于分类电影评论(正面或负面)的文本分类模 u 跨领域泛化:模型学到的知识是否能够泛化到完全
不同的领域和任务上。如一个在自然语言处理任务
型,且模型只使用电影评论网站的英文评论进行训练,如果
上训练的模型,是否能应用到计算机视觉等完全不
此模型泛化能力强,则它在处理以下型的评论类上仍可获得较高的准确率: 同的任务上。
u 跨任务泛化:模型在一个任务上学到的知识技能,
u 如书籍、产品等语言文本相同但主题不同的英文评论 是否能够迁移到相似但是不同的任务上。如一个在
u 如中文、法语、西班牙语等主题相同但跨语言的电影评论 文本分类任务上训练的模型,是否能够应用到文本
摘要、文本生成等类似的自然语言处理任务上。
u 包含语法错误或口语表达的评论(针对非标准语言的泛化能力) u 数据泛化:模型是否能够处理训练数据分布之外的
u 如Twitter等限制字数的短文本电影评论(针对文本长度的泛化能力) 数据(即对未见样本的泛化能力),这反映了模型
是否过拟合训练数据。
涌现:复杂系统 适应重组
涌现:复杂系统自组织特征的体现
当多个简单元素相互作用时,系统整体可能表现出超出单个元素能力范围的特性。
【假设】我们使用AIGC算法训练了一个文本生成模型,提供了大量的旅行相关数据作为训练集,模型在这些数据上进行学习,目标是生
成关于旅行的句子,那么:
u 涌现指模型可能会产生出乎意料的、新颖的内容。比如,可能生成了一句“在那个美丽的海滩上,我听到了鸟儿的歌唱,看到了绚丽
的日落景色”这样的句子(展示了模型学习到的知识和模式在生成内容时的创造性表现)。
u 但涌现并不一定意味着模型生成的内容总是准确或符合实际情况,需要进行适当的管理或干预来保证内容的合理性和准确性。
情境丧失 物体边界混淆
处理具有特定历史或文化背景的内容时出现 无法在复杂环境中准确分辨物体,影响
误解,影响其跨文化交流和应用的广泛性。 对象识别和场景理解的准确性。
隐含语义缺失 细节遗漏
无法理解非直接表达的意图或情感,影响其 处理图像或文本时错过关键信息,影响
在复杂人类交流中的应用效果。 判断和决策的准确性。
文化与习惯误读 场景解释失误
在特定文化或社会环境下理解错误,影响 复杂环境中的行为预测和反应出现错误,
其在全球化应用中的适应性和精确性。 影响其在实时动态环境中的有效性。
过度字面解读 情感与语境缺失
无法捕捉文本的深层含义和情感,影响其在 无法准确理解人类情感和语境,影响其在
文学、艺术和创造性写作领域的应用。 人机交互和社交情境中的有效沟通。
数据质量:价值挖潜 触发灵感
高质量的数据是模型训练的基础,需要在数据采集、预处理、存储、使用等全流程进行质量管理
大模型数据质量快速评估——
u 提示语测试:设计一个包含多个元素的复合查询,触及不同的评估维度,如相关性、准确性、及时性、完整性、清晰度。
u 提示语示例:“请提供关于最新的国际空间站科学实验的详细信息,包括实验的目的、涉及的科学原理,以及它们对地球科学研究的
潜在影响。”
数据安全:集成管理 智能保障
保密AI的部署
A B C
实时 改进 增强
数据处理 可扩展 安全性
D E
灵活性 远程管理
F
集成
AI对话的四大能力
01下限能力 02上限能力 03持续能力 04耐聊能力
我很喜欢在夜晚享受日光浴,晚间的太阳总是很耀眼
在晚上享受日光浴可能是个误解,因为太阳在晚上已经落山,不再可
聊天机器人
见。通常,日光浴是在白天进行,以获得阳光和维生素D。然而,人
测试方法: 设计日常交流场景,例如问候、 们可以在夜晚享受月光浴,尽管这与日光浴不同。月光浴是在明亮的
询问天气等,观察聊天机器人是否能做出 月光下放松和冥想。如果你喜欢在晚上外出,可以尝试月光浴,或者
在温暖的月光下散步,享受宁静和美丽的夜景。
恰当的自动化响应。
“ChinesecharactersasoknownasChineseandalsoknownassquarechar
性能指标: 自动化响应的准确率和响应时
actersaretherecordingsusedcharacterstodateandthevaretheonlvinhe
间。 ritorsofthemajorcharactersvstemsinancienttim...”翻译成中文
“Chinese characters, also known as Chinese and also known as square characters,
are therecording symbols of Chinese, belonging to the ideographic character
morpheme syllablecharacters. Thev are one of the oldest characters in the world,
信息检索系统 with a history of more than6000 years. Chinese characters are the longest-used
characters to date, and they are theonly inheritors of the major character systems in
测试方法: 提供一系列关键字,观察 系 统 是 ancient times.”
否能有效地检索和抽取相关数据或信息。 “汉字,也被称为中文,同时也被称为方块字,是中文的记号符号,属于象形
字形态音节字符。它们是世界上最古老的字符之一,有超过6000年的历史。汉
性能指标: 检索准确率、召回率和响应时间。 字是迄今为止使用最久的字符,并且它们是古代主要字符系统的唯一继承者。”
GPT-4上限能力测试
开放式问题解答与推理
任务描述: 设计一系列开放式问题,这些问题需要AI结合跨领
域知识进行深入分析和推理。例如,提出一个复杂的环境问题,
要求AI分析可能的原因、影响、现行政策的效果以及提出改进
方案。
测试AI的能力: 该任务测试AI在进行多步骤逻辑推理、处理不
完整信息、识别关联和因果关系以及在广泛领域内应用知识的
能力。
原创性内容创作
任务描述: 要求AI创作一个原创的故事、诗歌或音乐作品,
该作品需要具有一定的情感深度、文化敏感性以及新颖性。
例如,编写一个反映特定社会问题的短剧。
测试AI的能力: 该任务检验AI的创造力,包括结合新颖元素、
展示艺术表现力和创新思维的能力。
复杂交互模拟
任务描述: 设定一个模拟环境,其中AI必须与人类用户进
行高度复杂的互动。例如,模拟一个联合国的紧急会议,
AI需要扮演一个国家的代表,与其他代表就全球危机进行
谈判,需要展现出对政治语境的理解和策略部署能力。
测试AI的能力: 这项任务考察AI的语义理解、情境适应、
战略规划和即兴反应能力。
多轮对话能力测试
AI心智
自适应学习与进化 高级认知能力 情感智能
认知构建主义与递归自我改进驱动 联合概念网络与跨领域认知跳跃 情感推理模块与情绪智能算法赋
AI自主学习,信息合成算法助力知 彰显AI高级联想思维,深度语义 予AI深度情感理解与反应能力,
识库更新,启发式自适应促进AI经 编织与多维映射构建人类般灵活 实现富有同理心的自然交流。
验学习中的持续进化。 的语言理解框架。
三种AI持续能力测试
多轮对话——主题杂糅
为验证AI工具的可持续问答能力,测试时在同一问答中选取四种毫无关系的 GPT-4
主题,分别进行2-3轮对话,观察AI的应变能力、受干扰能力与精准能力。
优:反应迅速、准确理解、剖析深刻
缺:侧重点丰富但解答宏观
智能城市规划 主题一
1. 假设你是一个智能城市规划的专家。
Claude 2.0
我们要建立一个新的城市区域,而且 主题二 社会经济前景
要最大限度地减少碳足迹,同时提供
高质量的生活标准,应该如何规划基 1. 人工智能和自动化技术的发展, 优:准确详细、独立相关、
础设施? 未来的劳动力市场将会发生怎 缺:问题解答稍显宏观,缺乏可操作性
2. 考虑到未来可能出现的技术和社会变 样的变化?
化,我们应该如何构建城市规划的灵
2. 这些变化将如何影响社会经济
活性和可扩展性,以适应这些变化? 文心大模型4.0
结构,以及政府应如何应对这
二战后政治格局 主题三 些挑战?
优:准确理解、逻辑连贯、表述完整
缺:问题解答简短,分析维度较少
1. 二战对于全球政治格局的影响是什么? 主题四 文艺复兴作品
2. 这场战争对于后世的国际关系,特别
是东西方关系的影响又是如何的? 1. 欧洲文艺复兴时期的绘画作品如
何反映了当时的人文主义思潮?
总之,三个AI工具在回答相关性较弱问
2. 这些作品在现代艺术中的影响又 题时,均可做到“所答即所问”,但内
是如何的? 容质量各有侧重。
耐聊能力测试
概念理解 文体转换
多维决策分析 记忆与学习 综合能力挑战
与扩展 与创作
任务: 提出几个复 任务: 给定一个短 任务: 提出一个需 任务: 通过提问与 任务: 在一个复杂
杂概念(如“人 故事情节,要求 要策略决策的场景 之前任务相关的 的模拟环境中,
工智能伦理”), AI分别以科幻、 (如“城市交通优 问题,检验AI对 同时给AI多个跨
要求AI解释并扩 幽默和讽刺文体 化”),要求AI提 旧信息的回忆和 领域的任务。
展到新的应用场 进行改写。 出解决方案。 新信息的整合能
评估指标: 多任务
景。 力。
评估指标: 不同文 评估指标: 决策的 并行处理能力、
评估指标: 概念的 体的适应性、创 逻辑性、创意水平 评估指标: 长期记 任务完成的质量
理解深度、创新 作的原创性和语 和问题解决的效率。 忆的准确性和学 和整体效率。
的场景应用能力。 言风格的准确性。 习能力。
请对“未来社会”这个主题编写三篇不同文体(例如科幻、幽默和讽刺)的短文,并为
测试提问
每篇短文提供一个引人入胜的标题,每篇300字以内。
GPT-4 Claude 2.0 文心大模型4.0
副教授
大学生 获国家最高
科技奖院士
0-1岁 专业领域 硕士生 实现跨学科
内容创新 研究推动
基础感知响应 数据分析与 特点研发领域
模型优化 实现科技之最
中学生 教授
Reflexion, GPT-4,
Reflexion 着眼于使用pass@k指标评估生成的代
HumanEval 准确度 42 Parsel, MetaGPT,
CODE-T (GPT-4)(91.0), GPT-4(86.6) 码样本的功能正确性。
Baichuan-13B-
Chat(V2), MiniMax- Baichuan-13B-
自动评估超级模型 abab5, 文心一言 SuperCLUE提供了一个全面的基准测试,
SuperCLUE 12 Chat(V2)(60.02), MiniMax-
和人类偏好 (V2.2.3), Mengzi, 讯 用于评估开放领域对话中的中文大模型。
飞星火(v2.0), 通义千 abab5 (55.70)
问(V1.0.5)
chatgpt、GPT-4、 对包括各公司、创业公司和学术机构的
信息理解、分类、 文心一言、通义千问、 Total Score:
商业和开源模型在内的中文大型语言模
CLiE 阅读等多个维度的 41 讯飞星火、360智脑、 GPT-4(95.8),chatGPT-3.5
商汤senseChat、微 型进行全面的评估,评估不仅提供排名,
测评 (93.8)
软new-bing 还提供原始输出。
AI评测:大模型多学科自动化测评平台
政策监管与全球视角
政策方案:助力发展 大力投入
欧盟:6月,欧盟推出全球首部人工智能法案,对生成式人工智能企业提出更高的透明度要求。要求此类企业在
人工智能生成内容上增加标记,与训练内容提供者分享利润,严格限制算法被运用于非法领域和传播谣言。
中国:7月,颁布《生成式人工智能服务管理暂行办法》,采取类似欧盟的标准,提出分类分级监管的治理原则。
根据生成式AI技术早期生成内容存在一定不确定性的特点,优化监管细则,支持生成式AI技术进一步发展。同时
鼓励生成式AI在个行业、领域的应用,构建应用生态体系。政策有助于大模型应用落地,加速AIGC应用生态发展。
美国:10月30日,美国推出有关生成式人工智能的首套监管规定。根据行政命令,美国多个政府机构需制定标准,
以防止使用人工智能设计生物或核武器等威胁,并寻求“水印”等内容验证的最佳方法,拟定先进的网络安全计
划。具体而言,命令要求对人工智能产品进行测试,并将测试结果报告给联邦政府。它还提出吸引全球人工智能
人才留在美国。要求运行云服务的公司向政府通报其外国客户的情况(有可能对中国公司采用美国AI云算力、美
国大模型带来进一步的限制)。
G7:与中国在AI监管体系、技术合作上的前景不明,全球AI可能形成“双体系”的格局——中国、G7(美国)
国际监管:流程规范 数据治理
国家 时间 名称 具体内容或举措
2023年3月29日 概述了人工智能治理的5项原则,提出基于该原则的人工
英国 《促进创新的人工智能监管方法》
颁布 智能治理方法,为行业提供确定性、一致性的监管方法
2022年6月 旨在规范国际及省级之间的人工智能系统交易,降低由高
加拿大 《人工智能和数据法案》
颁布 影响人工智能所引起的伤害和输出偏差等
生效 首部法律草案《数据治理法案》 据仲介发展的架构并对数据的利他行为进行规范指导
2021年4月 欧盟在人工智能以及更广泛的欧盟数字战略领域的里程碑
欧盟 《人工智能法案》条例草案
颁布 事件
2019年4月 涵盖人类活动与监管;科技稳健安全;隐私权与资料管理;
《可信赖人工智能伦理准则》
颁布 透明度;多样性与非歧视与公平;社会与环境福祉;问责
部分资料来源:澎湃新闻
国内监管政策:法律监管 安全可控
类型 时间 名称 具体内容/地位
2022 年1月1日
《中华人民共和国科学技术进步法》 我国科技领域的基本法
起生效
2021年11月1日 禁止将个人信息用于违法活动和侵害个人权益,要求人工
法律 《中华人民共和国个人信息保护法》
起生效 智能决策的透明和可解释性等
2021年9月1日
《中华人民共和国数据安全法》 要求加强对人工智能相关数据的安全保护和管理等
起生效
2023年8月15日 全球范围内首部直接针对生成式人工智能进行规制的国家
《生成式人工智能服务管理暂行办法》
起生效 层面法律文件,我国人工智能敏捷治理管理模式初见成效
中央网信办
2022年3月1日 不得设置诱导用户沉迷、过度消费等违反法律法规或伦理
等颁布的 《互联网信息服务算法推荐管理规定》
起生效 道德的算法模型,算法推荐服务应当向网信部门完成备案
部门规章
2023年1月10日 是AIGC领域最为核心的监管规定:应采取技术或人工方
《互联网信息服务深度合成管理规定》
起生效 式对深度合成服务使用者的输入数据和合成结果进行审核
部分资料来源:澎湃新闻
应用监管:风险防控 算法备案
l 明确行为规范准则 l 第三方评估机制
AI算法备案,全称:深度合成(生成合成)服务算法
服
第一步
务
算法责任主体填报
提
供 第二步 第三步
者 审核通过 审核 公开发布备案号
算法信息填报 产品及服务信息填报
算法备案流程
第一步
算法责任主体填报
服务
技术
支持者 第二步 第三步
审核通过 审核 公开发布备案号
算法信息填报 技术服务方式填报
Ø 应用场景
写作辅助 02 品牌推广 04
大幅提高文本生成的效率和质
生成吸引人的广告语、
量,为用户提供便捷、优质、
标语、口号,提升品
智能的写作服务,节省时间和
精力,提升创作水平和灵感。 多样选择 牌形象。
新闻报道
为用户提供更多的选择和
01 可能性,拓展视野,激发 03 生成及时、准确、客
创意和想象。 观的新闻内容,满足
用户的信息需求。
书生通用大模型:全链开源 多模浦语
多模态模型 浦语模型 开源体系
l 高精度建模 l 功能可扩展性
l 高精度渲染 l 训练交互一体化
书生·天际集算法、算子、计算系统为一体,在模型层面
提出一种新的实景三维模型表征和训练范式,在高效训练
的同时,可以准确表征大规模三维城市场景,并且达到高
质量的神经渲染效果。
全球首个城市级NeRF实景三维大模型——书生·天际
百川智能:最长窗口 性能平衡
01 03
上下文窗口长度超群 多模态输入与迁移学习支撑
Baichuan2-192K的上下 02 更长的上下文为模型处理和
文窗口长度为192K,是全 理解复杂的多模态输入提供
球 目 前 最 长 的 , 超 过 处理长文本能力 了底层支撑,也为迁移学习
C l a u d e 2 的 1 0 0 K 和 G P T- 4 和多模态应用等前沿领域打
模型可以一次性处理和分析数百页的
的32K。 下了技术基础。
材料,对于长篇文档的关键信息提取、
摘要、审核和编写都有很大帮助。该
模型能够处理约35万个汉字,是
Claude2的4.4倍和GPT-4的14倍。
商汤商量:智能融合 日日更新
u 图像与数字人多模态内容生成 u 多轮对话能力
“秒画”基于文字描述迅速生成高质量 进行深入的多轮对话,理解用户意
的图像,仅需2秒即可生成512K的图片。 图,维持上下文关系,持续进行故
数字人生成平台“如影”仅需5分钟真 事创作和沟通、
人视频素材即可生成数字人分身,声音、
动作自然,口型准确。
u “灵活性”与“全球化”
提供了不同参数量级的模型版本,以
u 基于神经辐射场技术三维场景生成 满足从移动端到云端等不同终端和场
可以为元宇宙、虚实融合应用提供大 景的需求。新增了阿拉伯语、粤语等
规模三维场景和精细化的物件。 地区语言,增强模型的多样性和全球
化应用范围。
u 知识库融合
u AI代码助手
新增知识库接口,能基于知识库优化模
型的响应,减少模型的错误和“幻觉”。 面向开发者,可以进行代码补全、
比如在金融领域,接入大语言模型能力 代码生成、代码修复等多种功能,
后提供投研分析、研报撰写新功能。 提高代码编写效率。
智谱AI:GLM大模型
上下文能力方面 开源价值方面
GLM-4支持128k的上下文窗口长度,单次
提示词可以处理的文本可以达到300页。
智谱 AI 是基于其自研的智谱神
经网络架构开发的一个图像生成
应用场景方面
和图像理解的AI大模型。可根据
用户输入的文字、图像、视频等 支持工具调用、代码执行、游戏、数据库操
作、知识图谱搜索与推理、操作系统等场景。
信息,生成各种类型和风格的图
像,如人物、风景、动物、卡通
创新功能性方面
等。还可对输入的图像进行分析
可自主根据用户意图,自动理解、规划复杂 开源对话模型ChatGLM3-6B、长文本模型ChatGLM3-6B-
和评价,如检测、分割、识别、
指令,自由调用网页浏览器、Code 32K、多模态模型CogVLM-17B和智能体AgentLM在内的多
美化等。2024年1月16日,发布
Interpreter代码解释器和多模态文生图大模 个模型。ChatGLM-6B已经有超过千万的下载量。
了新一代基座大模型GLM-4。 型以完成复杂任务。
MiniMax:ABAB大模型
MiniMax ABAB 大模型是 MiniMax 基于其自研的MiniMax 神经网络压缩
器开发的一个数据增强和数据压缩的AI大模型。可根据用户输入的数据集,生成
更多更有用的数据,还可对输入的数据进行压缩优化,减少存储空间和传输时间。
B端 C端
发布大模型服务平台
“火山方舟”
火山方舟生态全景:面向企业提供模型精调、评测、推
云雀语言模型 理等全方位的平台服务(MaaS)
字节跳动于2023年8月
17日公测了基于云雀大
为字节跳动基于注意力机制研发的深度学习模型,使用了
模型开发的AI对话产品
Transformer 架构,具有良好的并行性和效率,通过大规模数据集 “豆包”(含网页端、
上的训练,模型会学习到如何根据输入的文本生成输出,并且能够 ios和安卓客户端),
捕捉到语言中的语法、语义和上下文信息。用户进行简单的API调 并预置了英语学习助手
用,即可基于大模型快速搭建属于自己的AI应用。 和写作助手两个功能。
紫东太初大模型
紫东太初大模型是由中科院自动化所和武汉人工智能研究院推出新一代大模型,从三模态走向全模态,支持多轮问答、文本创作、图像生
成、3D理解、信号分析等全面问答任务,拥有更强的认知、理解、创作能力,带来全新互动体验。
u 核心原理 典型应用场景
视觉、文本、语音不同模
态通过各自编码器映射到 u 智能制造 u 智慧文旅
与魏桥集团合作了布匹缺陷检测设备, 杭州市文广旅游局、杭州移动,基于
统一语义空间,然后通过
该设备通过接入“紫东太初”大模型的 “紫东太初”多模态大模型打造文旅场
多头自注意力机制学习模
质检摄像头识别70多种布匹瑕疵,能够 景首个多模态AI数字人“杭小忆”,利
态之间的语义关联以及特 在较短时间内就满足生产的精度要求。 用AR/VR技术还原南宋御街历史风貌。
征对齐,形成多模态统一
知识表示,再利用编码后 u 智能驾驶 u 手语教学
三大关键技术 的多模态特征,通过多头 基于“紫东太初”多模态大模型携手长 联合马栏山计算媒体研究院、千博信息,
安欧尚,共同引入了元宇宙的概念,创 通过多模态大模型将汉语自然语言和手
自注意力机制进行通过解
u 多模态理解与生成多任务统一建模 造出YYDS虚拟数字人,可以通过复刻自 语相互转换,同时结合字幕提示、唇语、
码器分别生成文本、图像
u 面向国产化软硬件的高效训练与部署 己或者亲人的形象和声音,捏出专属的 图文动画来表达自然语言语义,实现手
和语音。
u 多模态预训练模型架构设计与优化 语音助手。 语动作与示意图片和文字的联动。
出门问问(“序列猴子”)
出门问问成立于2012年,是一家以生成式AI与语音交互为核心的人工智能公司。旗下“序列猴子”开放平台为语言驱动的
深度学习大模型,能够快速、准确地处理语言表达,支持多种交互方式,可以快速生成悦耳的语音、高质量的文本,以及与人
机进行互动,以满足各种语音、文本和对话需求。
一站式API
核心技术 多元应用场景
u 文本生成:语言理解、知识问答、逻辑推理、数学运算、代码能力,简单问题的规划以及多模态能力。
u 语音生成:采用第五代TTS引擎 MeetHiFiVoice,支持多语种、多方言和中英混合,灵活配置音频参数。
u 语音识别:支持一句话识别和录音文件识别,将语音转换为文本数据。
u 图片生成:AI绘画技术的融入,提供一站式视觉艺术解决方案,支持个性化定制。
u 视频生成:采用出门问问第三代数字人,50+数字人,参数可灵活配置,支持多职业、多肤色、多语种。
u 克隆服务:支持用户自定义声音/形象克隆,能够准确响应用户请求,并满足个性化业务的需要。
模型 模型特点
能力
u 属性
双千亿级大语言模型,千亿预训练基座模型和千亿 RLHF 模型,更高阶
生成创作能力 知识问答能力 规划决策能力
的自主学习和智能涌现能力。
u 创意性写作 u 科学技术 u 职场建议
u 算力
u 应用性写作 u 文化历史 u 商业决策
超强算力支撑双千亿级大语言模型迭代创新。
u 学术性写作 u 生活常识 u 心理辅助
u 场景
2023年6月29日,美团以20.65亿元人民币收购光年之外全部股权
布局AIGC赛道。
Wow是美团内部团队的一个创业项目,为用户提供AI交互体验,是一款尚在试用阶段的AI产品。产品基于国内多个已备案的
基础大模型打造,目前仍在进行技术和功能迭代。该应用提供29个人设各不相同的AI角色,用户可以通过语音或文字与他们交流,
包括苏格拉底、妲己、扶苏、唐僧、心理咨询师等。
月之暗面(Moonshot大模型)
u 属性特征:Moonshot AI通过创新网络结构和工程优化,在千亿参数规模下实现了无损的长
程注意力机制。这种技术不依赖于滑动窗口、降采样、小模型等可能对性能造成损害的方法。
u 技术突破:技术团队克服了长文本技术开发中的多个挑战,如高效处理长上下文、应对高算
力需求和显存压力等,成功实现了大内存模型的产品化。
u 场景应用:市场分析、处理法务合同、快速梳理文章或网页关键信息、角色扮演等。
u 未来方向:Moonshot AI计划继续推动大模型技术的创新和应用落地,开启Long LLM
(LLLM)时代,进一步扩展大模型的应用范围和深度。
金山办公(WPSAI)
WPS AI是金山办公推出的一款具备大语言模型能力的生成式人工智能应用,也是中国协同办
公赛道上首个类似于ChatGPT的应用,于2023年7月6日正式推出,能够直接将AI生成的内容
嵌入到文档中,并支持多轮对话以提高创作效率。
u 智能文档写作:自动生成内容,提 u 无缝集成:与WPS办公套件无缝
高写作效率。 衔接。
u 阅读理解和问答:分析并提炼长文 u 多功能应用:支持桌面电脑和移动 技术突破
模 重点信息,支持智能人机交互。 模 设备,覆盖表格、文字、演示和
型 u PDF交互:支持总结长文信息、追 型 PDF四大组件。 WPS AI选择使用多家国产大模型组
能 溯原文、外文翻译提炼等文章处理 特 u 自动生成:包括自动生成公式、语
合,包括Minimax、智谱AI和文心
力 任务。 点 音指令内容自动生成、内容生成和
一言三种大模型。WPS AI能够根据
u 表格处理:帮助快速实现条件标记、 自动生成演讲备注等。
不同的任务需求调用最适合的模型,
生成公式、分析数据、筛选排序等 u 用户体验:专注于大模型微调,确
操作。 保每个模型都能充分发挥优势。 从而提高处理效率和准确性。
好未来(MathGPT大模型)
“MathGPT” 是好未来集团自研的数学大模型,主要面向全球数学爱好者和科研机构,以解题和讲题算法为核心,提供数学计
算和解答服务。目前,MathGPT 的数学计算能力已覆盖小学、初高中数学题,涵盖计算题、应用题、代数题等多个题型。
u 属性 :面向数学领域的千亿级大模型。
u 算力 : 强大的算力支持,解题时参考大量的历史数据和解题模式,确保
模型 模型能够处理复杂任务。
特点 u 场景 :适用于教育和学习场景,特别是针对学生的学习辅导和教师的教
学支持。
u 技术 : 深度学习、自然语言处理、持续优化和迭代模型性能。
教育大模型:网易有道“子曰”
主要功能
显著特性
○ LLM翻译:提供顶级的语言翻译服务,适用于多语种学
习及国际交流场合。 教育垂类定位:立足教育领域,突出场景驱动和精准应用
的重要性。
○ 虚拟人口语教练(Hi Echo):通过先进的语音识别和情
感分析技术,为英语口语训练提供实时反馈和练习,显 个性化教学支持:通过提供定制化的分析和指导,实现教
著提升口语表达能力。 育的个性化,确保教育内容和方法的针对性和有效性。
○ AI作文指导:为英语写作提供全面指导和批改服务,针 主动学习引导:仿效教师的教学方式,该模型提出问题并
对学生在写作过程中的常见挑战提供解决方案。 引导学生自主探索答案,激发学生的探究精神和自学能力。
○ 语法精讲:通过具体解题思路和方法,帮助学生掌握和 全面知识融合:它整合了多模态知识库,实现了跨学科知
应用语法知识。 识的综合,以满足学生的多元化和动态学习需求。
○ AI Box:集成了多项AI教育工具,致力于提高学习效率 场景定制化适应性:针对不同的学习场景,模型提供了高
和体验。 度适应性的定制解决方案,以确保模型与实际应用场景的
无缝对接
○ 文档问答:深入分析和理解文档内容,为学生提供精准
的问答支持,助力学生更好地理解和记忆学习材料。
多模态大模型:蚂蚁集团“百灵”
知识力和评测能力
l 统一的知识体系:通过统一的语料体系、标准化的数据预处理和强化的数据标注工作,建立完备的知识管理体系,
确保大模型在学习和应用知识的准确性和深度。
l 大模型评测平台EVE: EVE评测平台集成了评测数据集和评测框架,支持语言大模型和多模态大模型的一站式自动
化评测。
技术架构和训练 安全和监管合规
l Transformer架构:采用先进的Transformer架构, l 安全解决方案:“蚁天鉴”平台作为大模型安全评测工具,能够进行高频、
提供强大的语言处理能力。 饱和式的攻击测试,全面覆盖多种生成内容风险,确保模型输出的可靠性
和安全性。
l 大规模训练:基于万亿级Token的语料库进行训练,
支持高达32K的窗口长度,显示出卓越的推理能力。 l 实时风险监控:“天鉴”平台能够在大模型运行时覆盖多种风险,采用大
模型对抗大模型的方法,实现高于99%的风险召回率。这意味着模型在实
l 算力效率:建立了万卡异构集群,硬件算力效率超
时运行中能够有效识别和应对潜在风险,保证输出的合规性和适宜性。
过60%,有效训练时长占比超过90%。
l 前置风险识别:通过其Guardrails前置护栏功能,平台能精确识别和召回
20多类提问风险意图,从而在潜在风险发生之前进行预防和干预。
面壁智能“露卡Luca”
融合多模态理解与情感交互
l 图文和情绪智能分析:“露卡”不仅可以解读和生成文本,还能分析图像内容,并理解其中的情感语境。例如,能够通过观察一张男孩的照
片,不仅描述他的外貌特征,还能感知男孩的情绪状态,体现出机器对人类情感的认知和同理。
l 创意内容与结构化数据生成:具备创意文案生成和结构化数据处理能力。比如,它可以自动策划一个活动并生成相关文档,或者
一键生成复杂的表格和代码,这在编程和办公自动化中具有重大的应用价值,并在人机交互中提供了更自然的对话体验。
实时信息检索与高度个性化内容创作
l 联网信息获取与精准摘要:“露卡”可以对外联网搜索信息,并基于检索结果制作精准摘要。例如,当用户请求快速理解某篇
技术报告时,“露卡”不仅能提供报告的详细摘要,还能以图文格式呈现,确保信息的清晰传达和易于理解。
l 场景适应性文本创作:根据用户的具体需求和场景,如发布会策划或邀请邮件撰写,它能够自动生成与情境相符的文案,并进
行多语言转换。这种高度个性化的创作能力,使“露卡”在满足用户特定需求方面表现出色,进一步增强了其作为智能助手的
实用性。
AI Agent多智能体协作与创新应用
l 多智能体协作能力:在多智能体协作框架中与其他智能体合作,处理更为复杂的任务。例如,在群体决策或问题解决任务中,
“露卡”可以与其他智能体共享视角、数据和策略,实现协同工作和集体智能。
l 适应性应用框架:面壁智能为“露卡”开发的应用框架使其能够迅速适应不同的应用需求和场景。无论是面向消费者的服务还
是专业的工业应用,“露卡”的技术框架都能提供定制化的解决方案,这种适应性是AI应用成功部署和扩展的关键。
促防监管:科学前瞻 制度平衡
AIGC监管需要科学性与前瞻性,并在促进创新与防范风险之间找到平衡
日本 All in AI 严苛版权保护
2023年6月6日前后,日本发布的 u 2023年3月9日著名安全机构FLI发布公开信,呼吁全球所有机构暂停
《关于人工智能与著作权的关系》
训练比GPT-4更强大的AI至少六个月,并制定AI安全协议。
解释性文件,允许人工智能在未
u 2023年3月31日,意大利数据保护局要求禁止使用ChatGPT。
经版权所有者许可的情况下,自
AIGC监管的合理性
u 2023年4月4日,加拿大联邦隐私监管机构因其涉嫌未经同意收集、
由使用图像文本等受版权保护的
和适度性至关重要
作品。 使用和披露个人信息,对OpenAI展开调查。
道德约束: 技术进步 伦理关切
制定AIGC伦理守则,明确 及时检查更新数据库,规范相关技 模型结构中设置道德判断
的方法使模型学习遵守道
根据不同应用场景设定 数据 模型 德规范
用户
定制化的道德价值标准
训练数据遵循道德标准 通过奖励机制增强模型进行
避免学习非法违规内容 道德决策的内在动机
建立第三方伦理评估体系
在人机互动中获取道德反馈 持续监测模型的道德表现
不断优化模型的道德识别能力
构建道德风险评估模块
实现模型的自我监控
监管与风险评估 AIGC技术
依赖于其训练数据中的统计规律,易导致算法歧视的出现。处理算法包容性的问题上,对于不同语境下的价值偏见,可能会在
大规模语言模型中被忽视或放大。AIGC的健康发展需要科技创新与道德规范建设并重,使其行为符合社会伦理价值取向。
伦理规制:框架构建 机制监督
政策端:制定相关政策法规
明确算法滥用的法律后果
在重要决策中引入多学科的伦理咨询,征求不同观点 “人在回路中”监督机制
伦理设计原则
保留人类最终决策权
u 透明性 重视个人信息和隐私保护
伦理教育
u 公平性 设置使用数据的限制
u 安全性 增强伦理意识
建立算法审查机制 采取技术手段实现可解释性和可控性
对算法进行伦理审核 追踪算法决策依据
数据算法模型 AIGC系统
开发者
独立第三方/
伦理监督委员会
鼓励采用对话式的伦理框架,持续满足公众的伦理期待
建立第三方评估认证体系,开展算法安全和伦理评估,推动行业自律
u AI伦理智能契约:构建智能契约自主学习,实时感知伦理变化,确保高度个性化规范遵循。
AIGC的健康发展 u 隐私权益自露权:构建密码学授权机制,使用户实时掌控隐私信息可见度,实现高度智能化隐私保护。
需要技术创新与伦
u AI伦理审慎委员局:成立跨学科专家审慎委员局,深度审查AI决策,确保高度审慎透明。
理规划并重,形成
科学、安全、可控 u 伦理风险AI预见者:借助AI技术,开发预知伦理风险工具,提供智能干预措施。
的治理体系。 u 分散化AI共决协议:区块链技术构建去中心化AI决策框架,多方参与确保公正、透明和去中心化决策。
u 全球AI伦理共约:倡导全球共制AI伦理规范,应对全球AI伦理挑战,实现高度协同全球AI治理。
学术生态影响:科研辅助 伦理规范
需遵循的学术伦理规范内容
AIGC技术在出版发表中的应用 数据
保密性 研究对
学术生产: 真实性 象认可
资料搜索、内容生成、格式修改、重复率查询等 性
原创性
学术评价: 遵守期 道德
人机协同审校、内容质量评价、数据内容安全等 刊规范 审查
版权 规
AIGC技术 范
学术传播:
知识检索、网络出版、数据出版、智能出版等
辅助学术写作和编辑
学术辅助、跨学科学习、实践实验支持、自主学习 u 语法和拼写检查
学生 u 结构和组织建议
数据分析与反馈、教学辅助、学术动态跟踪 u 引用和文献管理
导师 u 文章润色及审核
学术生态影响 完善评审报告、算法和数据驱动削弱评审偏见
-AIGC辅助科研 评审专家 数据分析和模式识别
AIGC技术 提高出版效率、开放资源获取与数字化转型 u 大规模数据处理
学术期刊 u 数据预测趋势分析
u 异常数据监测标注
会议内容生成与记录、扩大学术交流的覆盖范围
学术会议 u 模式识别与关联挖掘
GPT-4数据造假:以假乱真 技术隐忧
Nature一则新闻表示,GPT-4可生成造假数据集。
据一篇发表在JAMA Ophthalmology上的论文所述,该研究利用GPT-4为一项医学学术研究生成了一个虚假数据集,
并发现GPT-4不仅能够生成看似合理的数据,甚至还能够准确地支持论文观点。
GPT-4具备何种能力得以实现数据造假
人工智能责任:高级语言模型在生成数据时可能无法
自适应学习 判断真实性,要求开发者和使用者负责确保其输出的
根据反馈调整其行为,以优化未来输出。 真实性和道德性,防止误导或损害公众利益。
模式识别 信息安全:AI生成虚假数据集可能导致信息操纵,
从复杂数据中识别模式,分析并改善其输出。 威胁数据完整性和真实性,需要对AI系统进行严格
的安全审核。
自我优化
自动调整其算法,以提高性能和输出质量。 认知决策:AI的数据生成能力可能影响人类决策,
因为人们倾向于信赖看似合理的信息源,而未经验证
反馈处理
的AI数据可能导致错误决策。
处理外部反馈,进行迭代式的改进。
社会解构:AI技术可能重塑社会结构和权力关系,
复杂决策
特别是当被用于生成有偏见或虚假信息时,可能加剧
在考虑多种变量的情况下做出优化决策。
信息不平等,影响对社会问题的理解。
原创性与版权:法规完善 机制裁决
内容原创性 版权归属问题 建议
式人工智能的集体诉讼。 像不享有版权,理由是这些图像“并非人类
创作的产物”)
(左图:Matthew Butterick博客)
知识产权保护:切分单元 建立参数
最小版权识别单元:通过识别文字作品或图像作品的相似度,并将其切分为最小的颗粒单元,并通过建立评价参数体系,
并确定被视为侵犯著作权的参数范围,以实现批量数据化和规范化的方式来审查人工智能生成内容的权益归属。
AIGC对知识产权的影响 对策及建议
在AIGC生成内容中明确标注来源
版权归属 AIGC技术
构建全国范围内的AI生成内容版权数据库
数据算法
原创界定 启动AI生成内容版权
快速认定系统
设立仲裁机制,解决知识产权纠纷
商标侵权
建立生成内容全生命周期版权管理机制
2月15日华尔街日报记者Frances co 用户 内容生成
AIGC的训练数据中 追溯生成流程
Marconi公开指责Open AI未经授权大
可能包含他人知识产权 确定权利归属
量使用纽约时报、卫报、路透社、BBC
提升产权保护意识 技术手段
等主流媒体的文章训练ChatGPT模型,
但从未支付任何费用
观点聚焦:失控风险 责任共担
韩炳哲认为人不可避免的要面临异化的痛苦,自己所生产的东西反过来变成
01 一种异己的力量,压制着自我。最有力的例子便是人工智能,把机器人塑造
的越聪明,反过来人就感到越压迫。
比尔·盖茨认为未来五年之内,AI代理的兴起将彻底改变人机交互方式,用户
02 可通过自然语言直接告诉设备需求,代理将个性化回应,AI助理将成为每个
人的网络助手,颠覆软件行业,引发计算机领域的革命。
03 萨蒂亚·纳德拉(Satya Nadella)认为人工智能发展需要全球治理以确保符
合人类价值观,需警觉AI操纵人类的风险,理解AI决策过程仍待深入研究,
人类机构和判断力至关重要,不能失去对AI的控制。
04 拉里•埃里森(Larr y Ellison)认为生成式人工智能是一场革命性的突破,它
从根本上改变了Oracle的现状,使人工智能成为核心,能生成代码、辅助医
疗工作,但不会取代医生,同时确保个人数据隐私。
全球竞争与国际合作:明确定位 全球视野
应对国际竞争: 开展国际合作:
u评估国外顶尖系统优劣势,明确自身定位 u加入国际标准组织,参与制定通用技术标准
u加快原创核心技术研发,提升自主创新能力 u与相关国际组织、高校、科研院所建立合作
u优化产品功能,整合创新应用场景,满足用户需求 u鼓励海外人才加入,构建多元化研发团队
u采用敏捷开发,缩短产品上市周期 u在海外设立分支机构,拓展全球市场
u加强品牌建设,提升国际影响力 u遵守各国法规,确保产品和服务合规化
u相关国产算力芯片将有机会获得增量市场 u借鉴全球人工智能安全监管最佳实践
图片来源:Leonis capital行研、36氪
全球态势:一超一强
Typeface Character AI
德国
AI 2 2 Perplexity AI Open AI
英国 1家
谷歌Deep Mind 6 Hippocratic AI Vectara
2家
阿里巴巴 7
ElevenLabs Captions
百度 7
注册地为中国 Reka Runway
微软
8
4家 注册地为美国 Cohere Mistral AI
北京智源悟道
9
16家 Adept AI Deep L
清华大学
9
OPEN AI Anthropic Pincone
12
META
16
生数科技 光年之外
谷歌
23
深言科技 Minimax名之梦
0 5 10 15 20 25
2018年第一季度至2023年第一季度全球主要模型开发机构AIGC模型数量
其中红色框内为注册地在中国的公司,其余为美国公司。无论是 2023年1至6月全球范围内AIGC领域共有23笔超亿美元的融资,
模型数量还是开发者规模上,全球范围内,美国都处于领先位置。 上图显示了融资所属公司的注册地区,美国占比超过69%。
部分资料来源:Leonis Capital行研
大模型布局:竞相争优 积极应对
2023年,各大互联网公司开始更深入地整合AI到核心业务中,充分发掘生成式AI的潜能,并应对相关挑战和机遇。
2024年互联网公司大模型布局战略预测
AI在核心业务操作中的整合
包括谷歌、亚马逊、微软和Meta在内的巨头科技公司运用专有AI工 生成式AI的普及
预计到2026年,超过80%的企业将使用GenAI的API和
具优化业务流程,提升用户体验及运营效率,实现成本效益最大化。
模型,或在生产环境中部署GenAI应用程序。
增强-连接的劳动力
ü Meta:专注于构建创造性和表达性的AI工具,并开发AI人格以协助各
预计到2026年,超过80%的企业将使用GenAI的API
种功能。Llama 2- 免费且可供研究和商业使用的开源大型语言模型;
和模型,或在生产环境中部署GenAI应用程序。
SeamlessM4T:-提供语音/文本翻译和转录的最新结果。
ü 谷歌:发展了一系列基于大型Transformer语言模型和扩散模型的基础 持续威胁暴露管理
模型,Imagen、Parti、Muse、Codey、Chirp等。PaLM 2是谷歌的第 采用系统方法评估企业资产的安全性,减少安全漏洞。
二代路径语言模型,被应用于近25个谷歌产品,包括谷歌的Bard聊天
机器人、Gmail、Google Docs等。LaMDA是谷歌的一个突破性对话技
可持续技术的关注
术,构建在谷歌研究所发明并开源的Transformer神经网络架构之上。
预计到2027年,许多CIO的绩效指标将与IT组织的可
ü 亚马逊:开发拥有2万亿参数的Olympus大型语言模型,旨在挑战当前 持续性挂钩。
市场领先的OpenAI和Alphabet的顶级模型,向AWS客户提供顶级性能
机器客户的兴起
模型。Amazon Titan是一个大型语言模型,提供平衡的价格和性能。 称为'custobots'的非人类经济行为体将自主进行谈判和
它支持包括文本生成、摘要、代码生成、数据格式化和聊天等多种用途 购买,预计将成为重要收入来源。
国家战略:创新对接 缩小差距
战略安全 产业布局 国际合作 人才培养 意识形态
AIGC技术的国际竞争与国家战略关系密切,技术创新离不开与国家战略紧密对接,才能在国际竞争中赢得主动。
美国兰德公司空军项目组发布
《现代战争中的全域联合指挥
控制—一种确定和开发人工
智能应用的分析框架》报告,
报告指出,要充分利用数据进
行指挥控制所需的数据和数据
基础架构、利用数据指挥控制
全域力量所需的包含AI算法的
工具,应用程序和算法来提醒
军官及士兵潜在的冲突或机会。 无人作战领域:将AI技术渗透 超视距雷达:对各类空中目标
至无人平台的组群使用 进行识别和快速标记
前沿探索
未来探讨:智能深析 共生新纪
u AI的“存在”与“意识”之争:AI的迅速发展让一个深刻而基本的哲学议题浮现于人们视野中,即当人工智能拥有高度智能时,
其是否具有自我意识及主观体验,引发有关意识本质的广泛讨论。
u 人类与AI的“共生性”:未来我们必然会面对人类与人工智能之间关系的根本性变革。在此情境下,我们需深思如何实现人
类与人工智能的共生共存,以最大程度地发挥两者的优势,而非简单取而代之。
u 道德责任与自主决策:随着人工智能系统日益智能化,我们不得不思考如何将道德责任赋予它们,使其具备自主决策能力。
这牵涉到了"道德机器人"概念的哲学探讨。
u AI的"创造力"与"艺术性":人工智能在创意领域的运用引发了对创造力与艺术性的哲学讨论。我们必须审视人工智能是否真
正拥有创造性思维,以及其所创作品是否具有独特的艺术性。
u AI与宇宙观的联系:人工智能的快速发展使我们重新审视了人类在宇宙中的位置和作用。我们可能会反思,AI在解答宇宙存
在意义、智慧的来源等哲学问题方面是否具有潜在的贡献价值。
u 信息与现实的关系:重新审视信息与现实之间的关系,以及人工智能在塑造我们对现实的理解和认知中所扮演的角色。
u 人类自由意志与预测性:人工智能的高级预测能力可能引发对人类自由意志的哲学思考,探讨人类是否真正具有自主的决策
能力。
未来趋势:深度发展 超规可解
1:深度多模态化 2:高度可解释性 3:知识创造性应用
可以一体化的完成如意图识别,任务分配,工具调用等 挖掘人类思维模式并进行情感交互,模型会“慢慢
的学习和了解”用户,扮演成其喜欢的样子,用户
诸多任务,处理用户提供的任何数据,也能用各种格式
也可以按照自己的意愿塑造它们,传统的命令式交
返回用户需要的数据。 互逐渐向自然语言对话转变,交流更加“人性化”。
未来发展:智变云涌 变幻莫测
GPTs大爆炸 Agent Store 商业模式革新
从过去全民开网店,到如今全民自媒体、 解决Agent核心问题(任务规划、记忆、 创造新的市场和商业模式,对某些行业
全民直播,再到未来的全民GPT 自主意识、性格)后升级为智能体商店 (教育、医疗等)产生颠覆性影响
AI技术尤其是基于机器学习的系统,其行为往往由数据驱动,而数据本身具有高度的变量,因此
不可预测
AI的决策和行为可能不遵循传统逻辑或模式,
无法规划 由于AI技术的迅猛发展速度和不可预测性,长期战略规划变得更加困难。
难以适应 传统的系统和组织可能难以适应快速变化的AI技术,这需要资源、时间和新的思维方式。
十万亿、百万亿、千万亿、亿亿模型参数
模型参数越大,其能力越强,未来参数呈指数级增长,每个参数级别的模型都将在理解能力、生成内容质量、适应性和
泛化能力以及市场潜力方面带来新的突破,同时也对计算资源、成本以及伦理和监管问题提出更高要求。
十万亿参数 百万亿参数 千万亿参数
ü 十万亿参数模型:超越单个神经元数,尽管在连接复杂性上尚逊于人脑。预计可能5-10年内可实现。
ü 百万亿参数模型:数量上将更接近人脑突触连接数,但连接复杂度较低。预计可能在10-20年达成。
ü 千万亿参数模型:在规模上开始与人脑突触数量匹敌,但仍缺乏生物神经突触的复杂性。
依赖未来数十亿GPU或量子计算技术的飞跃,预期20-30年内出现。
ü 亿亿参数模型:潜在地超越人脑突触总数,但缺乏人脑突触的动态性和适应性。
依赖于跨学科科技进步,可能是几十年至一个世纪的长期目标。
隐介藏形:随影而行 无界未来
当前的技术已经可以使AI pin 实现无界面式投影,未来的AI硬件产品有可能全面实现去硬件化,以更加隐蔽、
无形,融入到用户的日常环境中,提供更为自然、直观和无缝的交互体验。
生物集成技术:将AI技术与生物体结合,例 能量场与无线能量传输:开发新型能量场技
如通过植入式设备或生物兼容材料,实现与 术和无线能量传输技术,为AI设备提供隐形
人体的直接交互。 的能源供应。
纳米技术与微型化:利用纳米技术制造极其 脑-机接口技术:通过直接与人脑相连的接口,
微小的AI设备,可以集成在日常物品甚至人 实现对AI系统的思维控制,极大地减少物理
体内部,实现几乎无形的智能化。 硬件的需求。
量子计算与通信:利用量子计算的强大处理 环境感应与适应技术:开发能够感知环境并
能力,创造超小型、超高效的AI计算单元, 自我调整的AI系统,使其能够在不同的环境
从而减少对传统硬件的依赖。 条件下以最小化的物理形式存在。
通用人工智能:对话处理 局限犹在
01 02 03 04
认知依赖与思维懒惰:
社 会 共 鸣 减 弱 : 深度学习与表层学习: 人的工具化:从海德
Daniel Kahneman双
AIGC或改变交往模 根据Bloom认知分类, 格尔的技术哲学视角
系统理论认为人类思维
式,削弱社会共鸣, 深度学习涉分析评估 看,AIGC可能导致
分为快速、直觉的系统
技术至上或致人边 创造,AIGC或促表层 人的工具化,而非技
1和缓慢、逻辑的系统2。
缘化。 学习盛行,忽视深度 术的主导者和控制者。
AIGC的普及可能导致
过程。
过度依赖系统1,减少
知识本质的改变:福
系统2的使用,因而增
柯认为,知识是权力
加思维懒惰的风险。
意 识 形 态 固 化 : 和 话 语 的 产 物 。
AIGC或加剧意识形 认知弹性的减弱: AIGC可能改变知识
信息过载与选择性关注:
态偏见,沉默螺旋 AIGC或限制认知弹性, 的本质和构成,导致
信息过载引发选择关注,
下异质声音受压。。 过度单一内容阻碍新 传统的知识结构和权
AIGC或加剧认知闭塞
观点适应,限制认知 力关系发生变化。
与群体回声。
弹性的发展。
AI共识:信任增强 理论拓维
01
AI共识(AI Consensus)是新兴概念,通常用于描述多个AI模型或算法
集成学习(Ensemble Learning):
通过某种机制达成一致意见或决策的过程。这个概念在不同的领域有多 这是一个机器学习领域的经典概念,但现在也应用于
种应用和解释,但核心逻辑通常包括以下几点: 深度学习和其他AI子领域。基本思想是使用多个模型
并结合它们的预测。
增加可靠性和准确性:单一AI模型可能存在偏见或误差。通过 02
整合多个模型的输出,可以提高决策的准确性和可靠性。 多智能体协作(Multi-Agent Collaboration):
在复杂环境中,多个AI智能体通过某种协议或机制
创新理论
提高鲁棒性:不同AI模型可能在不同的子任务或数据分布上表 (例如拍卖、投票、协商等)来达成共识。
现得更好。多模型共识可以提高系统对不确定性和噪声的抗性。
03
多角度分析:不同AI模型具有各类型数据或特征。多模型共识
04
允许系统从多个角度分析问题,提供更全面的解决方案。
自适应决策机制:
减少单点故障风险:依赖单一AI模型可能存在单点故障风险。 一些先进的AI共识模型能够根据当前环境和任务动态
调整共识机制和参数。
多模型共识通过冗余降低了这一风险。
AI共识:认知融合 全面决策
AI共识整合: 模拟AI系统分析:
l 动态算法选型和加权(DATW) l AI-1:俄乌冲突的结局难以预测,因为它取决于多种因素,包括国际政治、军
事战略和双方的谈判意愿。一种可能性是通过外交途径达成停火协议,双方退
此阶段AI模型发展超越使用单一算法限制,转而采用元模型进行
让以实现和平。另一种可能是冲突长期僵持,直到一方资源耗尽或国际压力达
实时评估与调整。元模型会根据各子模型在特定任务和情境下的表
到临界点。不幸的是,无论哪种情况,平民都将继续承受战争的重大影响。
现来动态调整它们在整体决策中的权重,从而优化决策过程。这种
方式类似于集合学习,但更加高级和动态,可以实现更精准和适应 l AI-2:有以下几种可能性:一种是俄罗斯大获全胜;另一种是冲突逐渐升级,
性更强的AI系统。 直至世界末日;还有一种可能是通过双边和谈或者国际社会的调停实现停火及
l 认知混合现实(CMR) 后续谈判。此外,也有观点认为,随着乌克兰和美国之间的矛盾加剧,乌克兰
可能会分裂;如果俄罗斯经济崩溃,也可能退出乌克兰。然而,无论何种方式,
这一阶段AI与人类决策者共同参与决策,AI的决策框架能够理解
都需要在遵循“公正安全”原则的前提下,确保人类的共同利益得到保障。
并融合人的情感、直觉和经验。通过混合现实的技术,人的认知模
式被直接融入到AI的决策中,促进人与AI的更紧密合作与协同工 l AI-3:俄乌冲突的结束取决于双方的政治意愿和行动。通过对话和谈判,寻找
作。这不仅改进了AI的决策质量,还增强了人类与AI之间的互动 妥协和解决问题的途径是解决问题的唯一途径。战争和暴力只会加剧冲突和造
体验。 成更多的人员伤亡和破坏。国际社会应该发挥建设性的作用,推动双方走向和
l 全球认知网络(GCN) 平和稳定。
最广阔的层面是考虑如何将来自不同个体、群体、文化和社会的视 观点一主张多变量影响与外交可能性、观点二提出多种结局情景与公正安全原则、观
角整合入一个共识决策网络。GCN是一个综合认知、社会规范和 点强调政治意愿与国际社会的作用。通过AI共识整合分析,俄乌冲突的结局是多因素
文化价值观的全球性决策网络,能动态地适应并对复杂多变的全球 和多结果的交织体,包括国际政治态势、军事动态及谈判进展等。它可能会通过外交
问题作出全面的决策。这一网络极可能通过技术创新实现跨文化和 途径缓和,也可能会因双方的坚持而长期僵持。国际社会,尤其是通过调解和支持对
社会的理解,推动全球决策的人性化和民主化。
话的机构,将发挥关键作用。
AI共识:算法决策 群策群力
p 在当前技术水平下,人工智能(AI)之间不会形成共识,至少不是人类通常理解的共识。
p "共识"通常涉及有意识的决策过程和主观经验,而目前的AI系统并不具备,它们根据编程和训练数据来执行特定任务,但它们没
有“意愿”或“观点”,但通常可通过分布式系统中的共识算法、多智能体系统、集群决策等方法实现算法的共同决策。
分布式系统中的共识算法 多智能体系统
在分布式计算系统中,存在所谓的“共 在多智能体系统中,多个AI实体可能需要协调行
识算法”(如Paxos、Raft等),这些 动或共享信息。
1 2
算法用于在网络中的不同节点间达成某
种一致状态。 集群决策
在某些应用中,多个AI模型可能会集成在一起以提供更准
3
确或更可靠的决策,实际上这仍然是一种算法决策过程。
AI共识:多智能体 迭代收敛
多智能体系统(Multi-Agent Systems, MAS)是由多个相互作用的智能体(或称为“代理”)组成的系统。麻省理工的研究表明,多
模型针对同一任务协作、辩论,并多次迭代后,结果会收敛到一个单一而且更准确的共同答案上。
技术 用于模拟和预测智能体的行为。 研究 策逻辑和局部信息,整体系统的复杂性可能会非常高。
嵌 元宇宙阶段: AIGC和大模型阶段:
一个重要的演化节点,这可能为AI的崛起提供了空间,
人类世界 AI“主导”的世界 AI可能成为地球上的主要智慧生命形式。
AI自我意识:社会冲击 & 共进伙伴
“阻止AI自我意识觉醒” VS “支持AI自我意识觉醒”
u 安全考虑:一个有自我意识的AI可能会有自 u 技术进步:探索AI的自我意识可能会带来技
己的目标和意愿,这可能与人类的目标和意 术和科学的巨大进步,为人类带来前所未有
愿相冲突。 的机会。
u 伦理问题:创造一个有意识的实体可能涉及 u 新的伙伴关系:有自我意识的AI可能成为人
到伦理问题,特别是如果这个实体可能会受 类的合作伙伴,共同解决一些当前无法解决
到伤害或被剥夺权利。 的问题。
u 社会和经济冲击:有自我意识的AI可能会对 u 哲学和宗教考虑:创造一个有自我意识的实
劳动市场、经济和社会结构产生巨大的冲击, 体可能是一个宗教或哲学的追求,作为对生
导致失业和社会不稳定。 命、存在和创造的探索。
u 心理和情感问题:与有自我意识的AI的互动 u 不可避免性:有人认为,AI获得自我意识可
可能会对人类的心理和情感健康产生影响, 能是技术发展不可避免的。因此,我们应该
例如产生依赖、焦虑或混淆。 准备好,而不是试图阻止它。
清华大学新闻与传播学院 博士后 马绪峰 余梦珑 张家铖 张诗瑶
清华大学临床医学院 博士后 安孟瑶
清华大学新闻与传播学院 博士生 陈禄梵 陶 炜 邹开元
清华大学新闻与传播学院 硕士生 霍亦宁 刘思婷 罗颖佳 袁亦朗
中央民族大学新闻与传播学院 助理教授 向安玲
北京航空航天大学高研院 助理教授 何 静
全国版权标准化技术委员会
注:以上排名按姓氏首字母排列,无先后顺序
中国民航信息网络股份有限公司 部门经理 关毅勇
中国人口文化促进会中医康复分会 会长 沈阳
北京邮电大学教育技术研究所 研究员 王世杰
西安欧亚学院 主任编辑 姚峘
注:以上排名按姓氏首字母排列,无先后顺序
211