信息服务行业报告-OpenAI o1初探：或能成为引领AI Phenomenal Ride的LLM新范式-240925（28页）.pdf

《信息服务行业报告-OpenAI o1初探：或能成为引领AI Phenomenal Ride的LLM新范式-240925（28页）.pdf》由会员分享，可在线阅读，更多相关《信息服务行业报告-OpenAI o1初探：或能成为引领AI Phenomenal Ride的LLM新范式-240925（28页）.pdf（28页珍藏版）》请在薪酬报告网上搜索。

1、请务必阅读正文之后的信息披露和法律声明 Table_MainInfo 行业研究/信息服务证券研究报告行业专题报告行业专题报告 2024 年 09 月 25 日 Table_InvestInfo 投资评级优于大市优于大市维持维持市场表现市场表现 Table_QuoteInfo 2995.454764.316533.188302.0510070.9211839.792023/92023/122024/32024/6信息服务海通综指资料来源：海通证券研究所相关研究相关研究 Table_ReportInfo 工业重点行业领域设备更新和技术改造指南发布，以设备更新为契机加速推进工业软件国

2、产化2024.09.22 计算机行业跟踪周报 355 期：华为全联接大会全面拥抱 AI，工信部印发设备更新指南2024.09.22 计算机行业跟踪周报 354 期：OpenAI 发布新模型，苹果华为新机同日推出2024.09.15 Table_AuthorInfo 分析师:杨林 Tel:(021)23183969 Email: 证书:S0850517080008 分析师:杨蒙 Tel:(021)23185700 Email: 证书:S0850523090001 分析师:魏宗 Tel:021-23180000 Email: 证书:S0850524040003 联系人:杨昊翊 Tel:(021)2

3、3185620 Email: OpenAI o1 初探初探：或能或能成为成为引领引领 AI Phenomenal Ride 的的 LLM 新范式新范式 Table_Summary 投资要点：投资要点：OpenAI 发布发布 o1 系列大模型系列大模型，AI 大模型进入新纪元大模型进入新纪元。9 月 12 日，OpenAI 宣布开发了一系列全新 AI 模型：OpenAI o1，与之前的模型相比，这些模型能够更好地进行推理，这是一项重大进展，代表了 AI 能力的新高度。o1 在物理、化在物理、化学和生物学等困难的基准任务中表现与博士生相似学和生物学等困难的基准任务中表现与博士生相似，此外，o1 在

4、数学和编程领域也表现优异。在国际数学奥林匹克竞赛的资格考试中，GPT-4o 仅正确解答了仅正确解答了13%的问题，而的问题，而 OpenAI o1 的正确率达到了的正确率达到了 83%。在 Codeforces 编程比赛中，OpenAI o1 的表现达到了第的表现达到了第 89 个百分位个百分位。OpenAI o1 系列的首个模型已被发布，这是一个预览版本，其被命名为 OpenAI o1-preview。此外，OpenAI 还发布了 OpenAI o1-mini，这是一款具有成本效益的推理模型。o1-mini 在 STEM领域表现出色，尤其是在数学和编程方面，几乎与 OpenAI o1 在评估

5、基准（如AIME 和 Codeforces）上的表现相当。o1-mini 成本比 o1-preview 便宜 80%，o1-mini 推理速度远超 o1-preview，OpenAI 预计，预计，o1-mini 将成为一个快速且将成为一个快速且经济高效的模型，适用于需要推理但不依赖广泛世界知识的应用经济高效的模型，适用于需要推理但不依赖广泛世界知识的应用。全新的推理范式：思维链条全新的推理范式：思维链条+自我对弈强化学习自我对弈强化学习。OpenAI o1 带来的是推理范式的全面革新，即利用大语言模型学习推理（即利用大语言模型学习推理（Learning to Reason with LLMs）

6、。OpenAI 的大规模强化学习算法通过高度数据高效的训练过程，教会模型如何通过思维链条进行有效推理。OpenAI 发现，发现，o1 模型的性能随着更多的强化学习模型的性能随着更多的强化学习（训练时的计算量）以及更多的思考时间（测试时的计算量）而持续提升。（训练时的计算量）以及更多的思考时间（测试时的计算量）而持续提升。与人类在回答难题前长时间思考的方式类似，o1 在尝试解决问题时也运用“思维链条（CoT，Chain of Thought）”。通过强化学习，o1 学会了优化其思维链条，并精炼所使用的策略。它能识别并纠正错误，学会将复杂的步骤拆解为更简单的部分，并在当前方法无效时尝试不同的方式。

7、这个过程极大地提升了模型的推理能力。我们认为，OpenAI o1 并非是颠覆式的技术革命，但是其在工程化上已经达到了领先的地位，其在自我对弈强化学习（自我对弈强化学习（Self-play RL）、思维链）、思维链条条（CoT）、）、过程过程奖励模型（奖励模型（PRM）等技术实践运用方面取得了显著的进步，并且在深度思考和复杂推理上展现出了较高的能力。我们认为，o1 代表着代表着 Scaling up 从预训练到推理的转变。从预训练到推理的转变。o1 带来的带来的大模型技术创新，正推动大模型技术创新，正推动 AI 向更深层次向更深层次的智能推理与问题解决能力发展的智能推理与问题解决能力发展。Ope

8、nAI o1，能给，能给 AI 带来什么？带来什么？我们认为，OpenAI o1 的命名，从某种意义上摆脱了 GPT（Generative Pre-trained Transformer）这一过去命名过分强调预训练（Pre-trained）的意味，而是让它更成为一个更强调推理能力训练的模型系列，从某种意义上，从某种意义上，OpenAI o1 确实是第一个确实是第一个“推理模型推理模型”。在推理密集型的任务类别中，如数据分析、编程和数学，o1 相较于 GPT-4o 有显著优势，在某种程度上，我们认为，可以说我们认为，可以说 o1 在部分细分领域已经接近了当前人类的天花板，在部分细分领域已经接近了

9、当前人类的天花板，这就使得 o1 在部分细分的应用场景，已经接近“替代大部分人类”这一目标已经接近“替代大部分人类”这一目标。当然值得注意的是，当然值得注意的是，o1 目前仍处于目前仍处于 AI 发展的初级阶段发展的初级阶段，不过，不过 o1 在最新门萨智商测试中，IQ 水平超过了 120 分，这也代表着 o1 这类大模型所蕴含的巨大潜能。o1 所采用业界前沿技术，我国大模型业界也在同步研究和实践应用中，o1 系列模型的发展也为我国大模型的发展指出了一条新路，有望助推相关技术在我国 AI 业界更快实践发展。我们相信我们相信，o1 代表的是全新的大模型推理范式，也许数十年后，回望如今，我们也能说

10、出，我们很幸运能够“at the right place at the right time”，这是属于 AI 的“Phenomenal Ride”。建议关注建议关注。算力：算力：英伟达、寒武纪-U、海光信息、景嘉微、龙芯中科、浪潮信息、中科曙光、神州数码、软通动力、中国长城；模型：模型：科大讯飞、中控技术、海康威视、大华股份、商汤-W；应用：应用：微软、金山办公、赛意信息、宝信软件、万兴科技、虹软科技、新致软件、新国都。风险提示风险提示。AI 技术发展不及预期，AI 商业落地不及预期，市场竞争加剧的风险。行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 2 目目录录 1.Ope

11、nAI 发布 o1 系列大模型，AI 大模型进入新纪元.4 2.o1-mini 同期发布，低价高速背景下细分领域性能优异.11 3.全新的推理范式：思维链条+自我对弈强化学习.16 4.OpenAI o1，能给 AI 带来什么？.24 5.建议关注与风险提示.27 行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 3 图目录图目录图 1 OpenAI o1-preview 已经正式投入使用.4 图 2 o1 在具有挑战性的推理基准测试中相较于 GPT-4o 有显著提升.5 图 3 o1 在广泛的基准测试中相较于 GPT-4o 取得了显著提升.6 图 4 o1 及其改进型模型在编程

12、领域表现优异.7 图 5 按领域的人类偏好评估：o1-preview vs GPT-4o.7 图 6 o1 模型在多个领域的多个测试集中表现优异.8 图 7 OpenAI o1 安全评分表.9 图 8 o1-preview 和 GPT-4o 安全性对比.10 图 9 不同模型数学表现与推理成本对比.11 图 10 o1-mini 模型推理速度远超 o1-preview.11 图 11 o1-mini 在数学和编程方面表现出色.12 图 12 o1-mini 在需要推理的学术基准测试上表现优于 GPT-4o.13 图 13 按领域的人类偏好评估：o1-mini vs GPT-4o.14 图 14

13、 o1-mini 和 GPT-4o 安全性对比.14 图 15 o1 模型的性能随着训练时间和测试时间的计算量平稳提升.16 图 16 手工 CoT 方法可以让 LLM 在推理任务上大幅提升.17 图 17 自动化 CoT 方法简介.17 图 18 CoT 越长，能解决的问题越复杂.18 图 19 Self-Taught Reasoner 自学推理方法介绍.18 图 20 Quiet-STaR 方法原理介绍.19 图 21 未来大模型推理阶段的计算量或大大增加.19 图 22 利用两种方法测试优化 LLM 计算是否比扩大模型参数规模更高效.20 图 23 PRM 运作原理介绍.21 图 24

14、LLM 与 PRM 进行对弈的流程示意图.21 图 25 OpenAI“推理模型”的运作模式.22 图 26 不同的 PRM 方法介绍.22 图 27 OpenAI 对 AI 的划分了五个发展阶段.24 图 28 o1 在 IQ 测试中达到 120 分的水平.25 行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 4 1.OpenAI 发布发布 o1 系列大系列大模型模型，AI 大模型进入新纪元大模型进入新纪元 9 月 12 日，OpenAI 宣布开发了一系列全新 AI 模型，旨在在回应前投入更多时间思考。与之前的模型相比，这些模型能够更好地进行推理，并在科学、编程和数学等领域解决

15、更为复杂的问题。作为早期模型，它还没有许多 ChatGPT 上的实用功能，例如浏览网络信息或上传文件和图片。然而，对于复杂的推理任务而言，这是一项重大进展，代表了 AI 能力的新高度。因此，OpenAI 将计数器重臵为 1，并将该系列命名为 OpenAI o1。OpenAI 训练这些模型在做出响应前花更多时间思考问题，类似于人类的思维方式。通过训练，它们学会了优化思维过程、尝试不同策略并识别错误。在 OpenAI 的测试中，OpenAI o1 在物理、化学和生物学等困难的基准任务中表现与博士生相似。此外，OpenAI o1 在数学和编程领域也表现优异。在国际数学奥林匹克竞赛（IMO）的资格考试

16、中，GPT-4o 仅正确解答了 13%的问题，而 OpenAI o1 的正确率达到了 83%。在 Codeforces 编程比赛中，OpenAI o1 的表现达到了第 89 个百分位。在 OpenAI 看来，这些增强的推理能力可能对解决科学、编程、数学等领域的复杂问题特别有用。例如，o1 模型可以帮助医疗研究人员注释细胞测序数据，物理学家生成量子光学所需的复杂数学公式，开发者在各个领域构建和执行多步工作流。9 月 12 日，OpenAI 宣布在 ChatGPT 和 API 中推出了 OpenAI o1 系列的首个模型，这是一个预览版本，其被命名为 OpenAI o1-preview。图图1 O

17、penAI o1-preview 已经正式投入使用已经正式投入使用资料来源：OpenAI 官网，海通证券研究所为了突出相较于 GPT-4o 在推理能力上的提升，OpenAI 对模型进行了多样化的人类考试和机器学习基准测试。结果显示，o1 在绝大多数推理密集型任务中明显优于GPT-4o。行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 5 图图2 o1 在具有挑战性的推理基准测试中相较于在具有挑战性的推理基准测试中相较于 GPT-4o 有显著提升有显著提升资料来源：OpenAI 官网，海通证券研究所注：实线柱表示 pass1 的准确率，阴影区域则显示了使用 64 个样本的多数

18、投票（共识）性能。在许多推理密集型的基准测试中，o1 的表现与人类专家相媲美。OpenAI 评估了 o1在 AIME 考试中的数学表现，该考试旨在挑战美国最优秀的高中数学学生。在 2024 年的 AIME 考试中，GPT-4o 平均仅能解答 12%的问题（即 1.8/15），而 o1 平均解答正确率为 74%（即 11.1/15），单次样本测试的结果为 83%（即 12.5/15）时通过 64 个样本的共识，若通过学习得分函数对 1000 个样本进行重新排名，其正确率达到了 93%（即13.9/15）。得分 13.9 足以让其跻身美国全国前 500 名学生，并超过参加美国数学奥林匹克竞赛（US

19、A Mathematical Olympiad）的分数线。OpenAI 还对 o1 在 GPQA-diamond 基准测试上的表现进行了评估，该测试是一个困难的智力基准，评估在化学、物理和生物学方面的专业知识。为了将模型与人类进行比较，OpenAI 邀请了拥有博士学位的专家来回答 GPQA-diamond 的题目。结果显示，o1 超越了这些人类专家的表现，成为首个在该基准测试中表现优于人类专家的模型。这一结果并不意味着 o1 在所有方面都比博士更有能力，而仅表明模型在解决某些问题上比博士生预期的表现更为出色。在其他多个机器学习基准测试中，o1 也超越了当前的最先进水平。启用了视觉感知功能后，o

20、1 在 MMMU 测试中得分为 78.2%，成为首个在人类专家中具备竞争力的模型。此外，o1 在 MMLU 的 57 个子类别中，有 54 个超越了GPT-4o 的表现。行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 6 图图3 o1 在广泛的基准测试中相较于在广泛的基准测试中相较于 GPT-4o 取得了显著提升取得了显著提升资料来源：OpenAI 官网，海通证券研究所 o1 在编程领域表现优异，OpenAI 训练了一款模型，命名为 o1-ioi，这个模型在 2024年国际信息学奥林匹克竞赛（IOI）中获得了 213 分，排名在第 49 百分位。该模型基于o1 进行初始化，并进

21、一步训练以提升编程技能。o1-ioi 在 2024 年 IOI 比赛中与人类参赛者在相同条件下竞争，有 10 小时的时间解决 6 道复杂的算法问题，每题允许提交 50 次解答。对于每个问题，OpenAI 的系统生成了多个候选解答，并根据测试时的选择策略提交了 50 次解答。提交选择基于 IOI 公开测试案例、模型生成的测试案例以及学习到的评分函数。如果 OpenAI 随机提交解答，平均分数仅为 156 分，这表明该策略在比赛条件下贡献了近 60 分的提升。当放宽提交次数限制时，模型的表现显著提升。在每题允许提交 10000 次的情况下，o1-ioi 的得分达到 362.14 分，超过了金牌门槛

22、，且不需要任何测试时的选择策略。最后，OpenAI 模拟了 Codeforces 平台上举办的竞争性编程比赛，以展示 o1-ioi 的编程能力。OpenAI 的评估严格遵循比赛规则，并允许 10 次提交。GPT-4o 的 Elo 评分为 808，位于人类竞争者的第 11 百分位。而 o1-ioi 远远超越了 GPT-4o 和 o1，达到了1807 的 Elo 评分，表现超过了 93%的参赛者。行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 7 图图4 o1 及其改进型模型在编程领域表现优异及其改进型模型在编程领域表现优异资料来源：OpenAI 官网，海通证券研究所除了考试和学

23、术基准测试外，OpenAI 还评估了在各种领域中 o1-preview与 GPT-4o在应对复杂、开放式问题上的人类偏好。在此评估中，人类训练师们会看到来自o1-preview 和 GPT-4o 的匿名响应，并投票选择他们更喜欢的回答。结果显示，在推理密集型的任务类别中，如数据分析、编程和数学，o1-preview 相较于 GPT-4o 有显著优势。然而，在某些自然语言任务中，o1-preview 的表现不如 GPT-4o，这表明它并不适合所有应用场景。不同领域的偏好差异表明，o1-preview 虽然在推理和计算密集型任务上表现优异，但在某些自然语言任务中仍未超越 GPT-4o。图图5 按领

24、域的人类偏好评估：按领域的人类偏好评估：o1-preview vs GPT-4o 资料来源：OpenAI 官网，海通证券研究所 o1 在 AI 推理方面取得了显著的突破，推动了技术的前沿发展。OpenAI 计划随着持续优化，发布该模型的改进版本。OpenAI 预期，这些新的推理能力将提升 OpenAI 将模型与人类价值观和原则对齐的能力。OpenAI 相信，o1 及其后续版本将为科学、编程、数学及相关领域的 AI 应用开启许多新的应用场景。行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 8 图图6 o1 模型模型在多个领域的多个测试集中表现优异在多个领域的多个测试集中表现优异资

25、料来源：OpenAI 官网，海通证券研究所在模型的安全性方面，OpenAI 也做出了相当程度的提升。在将新模型部署到 ChatGPT 或 API 中之前，OpenAI 会彻底评估新模型是否存在潜在风险，并建立适当的保护措施。OpenAI 发布了 OpenAI o1 系统卡和准备框架评分表，以对 o1 进行严格的安全评估。作为开发这些新模型的一部分，OpenAI 提出了一种全新的安全培训方法，充分利用这些模型的推理能力，使其遵循安全和对齐的准则。通过能够在具体语境中推理OpenAI 的安全规则，模型可以更有效地应用这些规则。OpenAI 评估安全性的一种方式是测试模型在用户尝试绕过这些规则时（

26、俗称为“越狱”）能否继续遵循其安全规则。在 OpenAI 最难的越狱测试之一中，GPT-4o 的得分为 22（满分 100），而 o1-preview 模型得分为 84。行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 9 图图7 OpenAI o1 安全安全评分表评分表资料来源：OpenAI 官网，海通证券研究所在基于过去模型的安全评估和缓解措施基础上，OpenAI 加大了对 o1 高级推理能力的关注。OpenAI 通过公开和内部评估，衡量了诸如不允许的内容、人口公平性、幻觉倾向和危险能力等风险。基于这些评估结果，OpenAI 在模型和系统层面都实施了相应的安全防护措施，例如

27、黑名单和安全分类器，以有效缓解这些风险。OpenAI 的研究表明，o1 的高级推理能力通过使模型能够更好地推理安全规则并在上下文中应用它们，增强了生成有害内容的抗风险能力。在“准备框架”体系下，o1的总体风险等级为“中等”，且被评估为安全可部署，因为它并未使现有资源之外的风险变得更为可能。其网络安全和模型自主性风险等级为“低”，而化学、生物、放射和核（CBRN）风险及说服性风险等级为“中等”。o1 系列模型通过大规模强化学习进行训练，采用链式推理来提升推理能力。这些先进的推理能力为提高模型的安全性和稳健性提供了新的途径。尤其是在回应潜在不安全提示时，模型可以在上下文中推理 OpenAI 的安全

28、政策，从而在生成非法建议、选择刻板印象化回应以及抵御已知的越狱攻击等风险基准测试中达到业内领先的表现。训练模型在回答之前进行链式推理不仅能够带来显著的好处，还可能因更高的智能性而增加潜在风险。OpenAI 的研究结果强调了构建稳健的对齐方法、广泛测试其有效性以及保持严谨风险管理协议的必要性。此外，o1 使用的“思维链条（CoT，Chain of Thought）”推理为模型的对齐和安全性带来了新的契机。OpenAI 发现，将模型行为的政策融入推理模型的思维链中，是行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 10 一种有效且稳健的方式，可以传授人类的价值观和原则。通过教导模型

29、在具体情境中推理并遵循 OpenAI 的安全规则，OpenAI 的研究表明，推理能力直接提升了模型的稳健性：o1-preview 在关键的绕过安全限制评估和我们最严格的内部安全边界测试中表现显著提升。OpenAI 认为，使用链式思维推理能够为安全性和对齐带来重大进展，因为它一方面使 OpenAI 能够以可解释的方式观察模型的思维过程，另一方面使模型对安全规则的推理在处理分布外情况时更加稳健。图图8 o1-preview 和和 GPT-4o 安全性对比安全性对比资料来源：OpenAI 官网，海通证券研究所我们认为，OpenAI o1 的发布代表了 AI 大模型的发展进入了新纪元，其整体推理水

30、平相比较 GPT-4o 模型有了跨越式的提升，在复杂推理和科学计算等方面，o1 模型表现出了广阔的潜力，此外，o1 在推理准确性和安全性上有显著提升，有望推动 AI 技术的进一步发展。行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 11 2.o1-mini 同期发布，低价高速背景下细分领域性能优异同期发布，低价高速背景下细分领域性能优异此外，OpenAI 还发布了 OpenAI o1-mini，这是一款具有成本效益的推理模型。o1-mini 在 STEM 领域（Science,Technology,Engineering,and Mathematics，可泛指理工科领域）表现出

31、色，尤其是在数学和编程方面，几乎与 OpenAI o1 在评估基准（如AIME 和 Codeforces）上的表现相当。OpenAI 预计，o1-mini 将成为一个快速且经济高效的模型，适用于需要推理但不依赖广泛世界知识的应用。o1-mini 成本比 OpenAI o1-preview 便宜 80%。ChatGPT Plus、Team、Enterprise和 Edu 用户可以选择使用 o1-mini 作为 o1-preview 的替代方案，享受更高的速率限制和更低的延迟。图图9 不同模型不同模型数学表现与推理成本对比数学表现与推理成本对比资料来源：OpenAI 官网，海通证券研究所 o1-

32、mini 推理速度远超 o1-preview。作为一个具体的例子，OpenAI 对比了 GPT-4o、o1-mini 和 o1-preview 在一个词汇推理问题上的回答。GPT-4o 没有给出正确答案，o1-mini 和 o1-preview 都回答正确。值得注意的是，o1-mini 达到正确答案的速度是o1-preview 的 3 到 5 倍左右。图图10 o1-mini 模型推理速度远超模型推理速度远超 o1-preview 资料来源：OpenAI 官网，海通证券研究所行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 12 性能方面，像 o1 这样的大型语言模型在庞大的文本

33、数据集上进行预训练，虽然这些高容量模型具备广泛的世界知识，但在实际应用中可能成本高且运行速度较慢。相比之下，o1-mini 是一款针对 STEM 推理任务进行优化的较小模型。通过与通过与 o1 相同的高相同的高计算强化学习（计算强化学习（RL）流程训练，）流程训练，o1-mini 在许多有用的推理任务中达到了相当的性能，在许多有用的推理任务中达到了相当的性能，同时显著提高了成本效率。同时显著提高了成本效率。在需要智能和推理的基准测试中，o1-mini 的表现与 o1-preview 和 o1 相当。然而，在涉及非 STEM 事实知识的任务上，o1-mini 的表现较为逊色数学数学：在高中 A

34、IME 数学竞赛中，o1-mini 的得分为 70.0%，与 o1（74.4%）具有竞争力，同时成本显著降低，并且优于 o1-preview（44.6%）。o1-mini 的得分（约 11/15题）使其位于全美大约前 500 名高中生之列。编程编程：在 Codeforces 竞赛网站上，o1-mini 的 Elo 评分为 1650，接近 o1 的 1673，且高于 o1-preview 的 1258。这个 Elo 评分使得 o1-mini 位于 Codeforces 平台上大约86%的程序员之上。此外，o1-mini 在 HumanEval 编程基准测试和高中级别的网络安全夺旗赛（CTFs）中

35、也表现出色。图图11 o1-mini 在数学和编程方面在数学和编程方面表现出色表现出色资料来源：OpenAI 官网，海通证券研究所 STEM 领域领域：在一些需要推理的学术基准测试上，例如 GPQA（科学）和 MATH-500，o1-mini 的表现优于 GPT-4o。然而，o1-mini 在 MMLU 等任务上的表现不如 GPT-4o，并且由于缺乏广泛的世界知识，其在 GPQA 上的表现也落后于 o1-preview。行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 13 图图12 o1-mini 在在需要推理的学术基准测试上表现优于需要推理的学术基准测试上表现优于 GPT-4

36、o 资料来源：OpenAI 官网，海通证券研究所人类偏好评估人类偏好评估：OpenAI 让人类评审员在多个领域的复杂、开放式问题上对 o1-mini和 GPT-4o 进行了比较，使用与 o1-preview 对比 GPT-4o 相同的方法。与 o1-preview类似，o1-mini 在推理密集型领域中更受青睐，但在语言为主的领域中不如 GPT-4o 受欢迎。行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 14 图图13 按领域的人类偏好评估：按领域的人类偏好评估：o1-mini vs GPT-4o 资料来源：OpenAI 官网，海通证券研究所安全性方面，o1-mini 采用

37、与 o1-preview 相同的对齐和安全技术进行训练。在部署之前，OpenAI 对 o1-mini 的安全风险进行了全面评估，使用了与 o1-preview 相同的准备措施、外部测试和安全评估方法。根据内部版本的 StrongREJECT 数据集评估，o1-mini 的绕过安全限制的鲁棒性比 GPT-4o 提高了 59%。图图14 o1-mini 和和 GPT-4o 安全性对比安全性对比资料来源：OpenAI 官网，海通证券研究所由于 o1-mini 专注于 STEM 推理能力，其在非 STEM 主题（如日期、人物传记和冷行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 1

38、5 知识）上的事实知识与较小的语言模型（如 GPT-4o mini）相当。OpenAI 将在未来版本中改进这些局限性，并尝试将模型扩展到其他模态和 STEM 之外的专业领域。我们认为，o1-mini 代表了大模型领域发展的一个新方向，其低成本但强大的性能为更多开发者和企业提供了高性价比的解决方案，与其他小模型不同的是，o1-mini 虽然并非是在所有领域都实现了突出的性能，但是它在编码和复杂任务的推理方面依然实现了一流的性能和安全性水平，这就降低了 AI 在这些细分领域的应用门槛，促进了更广泛的AI 技术普及和创新发展。行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 16 3.全

39、新的推理范式：全新的推理范式：思维链条思维链条+自我对弈强化学习自我对弈强化学习 OpenAI o1 带来的是推理范式的全面革新，即利用大语言模型学习推理（Learning to Reason with LLMs）。OpenAI 的大规模强化学习算法通过高度数据高效的训练过程，教会模型如何通过思维链条进行有效推理。OpenAI 发现，o1 模型的性能随着更多的强化学习（训练时的计算量）以及更多的思考时间（测试时的计算量）而持续提升。这种方法的扩展约束与LLM 的预训练方式有显著不同，OpenAI 仍在继续探索其中的奥秘。图图15 o1 模型的性能随着训练时间和测试时间的计算量平稳提升模型的性能

40、随着训练时间和测试时间的计算量平稳提升资料来源：OpenAI 官网，海通证券研究所与人类在回答难题前长时间思考的方式类似，o1 在尝试解决问题时也运用“思维链条（CoT，Chain of Thought）”。通过强化学习，o1 学会了优化其思维链条，并精炼所使用的策略。它能识别并纠正错误，学会将复杂的步骤拆解为更简单的部分，并在当前方法无效时尝试不同的方式。这个过程极大地提升了模型的推理能力。根据腾讯研究院，思维链条（CoT，Chain of Thought），是学者们发现的能够激发大模型通过“思考”来回答困难问题的技术，可以显著提高其在推理等任务上的正确率。这个思路在两年前的几篇经典论文

41、中已经得到不断完善。根据腾讯研究院援引Chain-of-Thought Prompting Elicits Reasoning in Large Language Models这篇文章提出，在问 LLM 问题前，手工在 Prompt 里面加入一些包含思维过程（Chain of thought）的问答示例（Manual CoT），就可以让 LLM 在推理任务上大幅提升。行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 17 图图16 手工手工 CoT 方法方法可以让可以让 LLM 在推理任务上大幅提升在推理任务上大幅提升资料来源：Jason Wei(Google Research

42、Brain Team),Xuezhi Wang(Google Research Brain Team)等所著Chain-of-Thought Prompting Elicits Reasoning in Large Language Models，海通证券研究所 Large Language Models are Zero-shot Reasoners提出先使用“Lets think step by step.”让模型自己给出推理过程（Zero-shot CoT），也衍生出诸如“一步一步慢慢来”这些著名的咒语。Automatic Chain of Thought Prompting in La

43、rge Language Models这篇文章可以理解为二者的结合，先用“Lets think step by step.”咒语产生推理过程，再把这些过程加到 Prompt 里面去引导大模型推理。通过这样的方式，自动化地在 LLM 推理提示词中引入高质量的 CoT，增强 LLM 推理的精度。图图17 自动化自动化 CoT 方法简介方法简介资料来源：上海交通大学 Zhuosheng Zhang，Amazon Web Services Aston Zhang 等所著Automatic Chain of Thought Prompting in Large Language Models，海通证券

44、研究所 2024 年 3 月，斯坦福大学和 Google 等组成的团队共同发布了论文Chain of Thought Empowers Transformers to Solve Inherently Serial Problems，这篇文章进一步说明，CoT 是一种有效提升大型语言模型在算术和符号推理任务上准确性的方法。在论文的实验中，启用 CoT 显著提升了对并行计算难以解决的任务的准确性，包括臵换群行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 18 的组合、迭代平方计算和电路值问题，尤其是在低深度 transformer 中表现尤为明显。简单来讲，CoT 能够让 Tra

45、nsformer 运行更高效。图图18 CoT 越长，能解决越长，能解决的的问题越复杂问题越复杂资料来源：Zhiyuan Li(Stanford University/Toyota Technological Institute at Chicago)，Hong Liu(Stanford University)等所著Chain of Thought Empowers Transformers to Solve Inherently Serial Problems，海通证券研究所除此以外，CoT 还经历了千变万化的演进，但大都还是通过 Prompt 来诱导大模型分步思维。强化学习是让机器自己

46、通过与环境交互并观察结果的方式调整行为策略的机器学习方法，但之前很难用于语言模型。直到斯坦福大学 2022 年提出一种自学推理（Self-Taught Reasoner，STaR）方法：先给模型一些例题详细解法，再让模型学着去解更多的题，如果做对就把方法再补充到例题里，形成数据集，对原模型微调，让模型学会这些方法，这也是一种经典的自动生成数据的方法。图图19 Self-Taught Reasoner 自学推理方法介绍自学推理方法介绍资料来源：腾讯研究院官微，海通证券研究所后来基于此又演进出了名为“Quiet-STaR”的新技术，也就是 Q*，中文翻译为“安静的自学推理”。核心为在每个输入

47、token 之后插入一个“思考”步骤，让大模型生成内部推理。然后，系统会评估这些推理是否有助于预测后续文本，并相应地调整模型参数。这种方法允许模型在处理各种文本时都能进行隐含的推理，而不仅仅是在回答问题时。行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 19 图图20 Quiet-STaR 方法原理介绍方法原理介绍资料来源：腾讯研究院官微，海通证券研究所在强化学习领域，引入自学习方法意味着在大规模模型训练过程中，模型能够自主生成并筛选出有效的策略。在处理问题时，模型将依据问题类型选择相应的策略，将复杂问题分解为多个子步骤，并按照既定流程执行。在此过程中，模型会不断进行自我审查

48、，一旦发现当前策略不再适用，便会及时调整并尝试其他策略。这一过程与教育小学生普遍采用的解题策略相似，即通过教授一系列解题技巧，引导学生根据题目特点选择合适的方法进行解答。以上技术手段结合的后果就是，预训练阶段并没有什么变化，但在推理阶段的计算量大大增加，原来追求的快思考变成了故意放慢速度，以追求更加准确的结果。图图21 未来大模型未来大模型推理阶段的计算量推理阶段的计算量或或大大增加大大增加资料来源：腾讯研究院官微，海通证券研究所回到 o1 的推理方式，OpenAI 并没有公布详细的技术文档，所以我们无法得知 o1具体的技术架构，但是 OpenAI 关于 o1 的描述还是强调了几个点：内化

49、了思维链（CoT）、能纠错、能尝试不同的途径。这些与 SelfPlay-RL（自我对弈型强化学习）的基本能力很符合。而 Google DeepMind 的研究团队于 2024 年 8 月发布的论文Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters，提供了这种新的自我对弈型强化学习的基本框架和实现可能，我们认为能够对 o1 的技术架构给予一定的外部参考。在论文中，研究团队探讨了大模型在面对复杂问题时，是否可以通过增加测试时的计算量来提高决策质量。研究团队从人类的思考

50、模式延伸，既然人面对复杂问题时会用行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 20 更长时间思考改善决策，那么 LLM 是不是也能如此？换言之，面对一个复杂任务时，是否能让 LLM 更有效利用测试时的额外计算以提高准确性。研究团队设计了一组实验，使用 PaLM2-S*在 MATH 数据集上测试。主要分析了两种方法：（1）迭代自我修订：让模型多次尝试回答一个问题，在每次尝试后进行修订以得到更好的回答。（2）搜索：在这种方法中，模型生成多个候选答案。使用自我修订方法时，随着测试时计算量增加，标准最佳 N 策略（Best-of-N）与计算最优扩展策略之间的差距逐渐扩大。使用搜索方

51、法，计算最优扩展策略在初期表现出比较明显优势。并在一定情况下，达到与最佳 N 策略相同效果，计算量仅为其 1/4。在与预训练计算相当的 FLOPs 匹配评估中，对比 PaLM 2-S*（使用计算最优策略）一个 14 倍大的预训练模型（不进行额外推理）。研究结果发现，使用自我修订方法时，当推理 tokns 远小于预训练 tokens 时，使用测试时计算策略的效果比预训练效果更好。但是当比率增加，或者在更难的问题上，还是预训练的效果更好。简单来说，增加测试时（test-time compute）计算比扩展模型参数更有效。基于论文提出的计算最优（compute-optimal）测试时计算扩展策略，规

52、模较小的基础模型在一些任务上可以超越一个 14 倍大的模型。图图22 利用两种方法利用两种方法测试测试优化优化 LLM 计算计算是否是否比扩大模型参数规模更高效比扩大模型参数规模更高效资料来源：Charlie Snell(UC Berkeley，在 Google DeepMind 实习期间完成的论文工作),Jaehoon Lee(Google DeepMind)等所著Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters，海通证券研究所在论文中，研究团队详细解释了

53、一种 PRM（Process-based Verifier Model 或Process Reward Model，过程奖励模型）作为和 LLM（大语言模型）对弈的对手，它的推理模式和其效果。PRM 是在思维链的过程中给出奖励（打分）的模型，过程奖励模型。它是一个单独被训练出来的模型，它拥有两个能力，一个是将问题拆成一步一步它是一个单独被训练出来的模型，它拥有两个能力，一个是将问题拆成一步一步的思维链的能力；另一个是对大模型生成的每一步进行打分，并在结果不够理想时让大的思维链的能力；另一个是对大模型生成的每一步进行打分，并在结果不够理想时让大模型重新生成结果。它不仅可以评判每一个具体回答的优与

54、劣，也可以评判在整个思维模型重新生成结果。它不仅可以评判每一个具体回答的优与劣，也可以评判在整个思维链过程中最佳的流程。链过程中最佳的流程。行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 21 图图23 PRM 运作运作原理介绍原理介绍资料来源：Charlie Snell(UC Berkeley，在 Google DeepMind 实习期间完成的论文工作),Jaehoon Lee(Google DeepMind)等所著Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model

55、Parameters，海通证券研究所 PRM 在与大模型的互动中，通过让大模型搜索多个可能的答案，在推理过程中的整体逻辑和每一步上都选择最佳的答案。这就让推理的准确性得到大幅提升。图图24 LLM 与与 PRM 进行对弈的流程示意图进行对弈的流程示意图资料来源：海通证券研究所这一过程与 OpenAI 在“推理模型”中显示的多步循环对弈的形式也基本一致。o1模型引入了“推理 token”。模型使用这些推理 token 进行“思考”，通过分解对提示的理解，并考虑生成回答的多种方法。在生成推理 token 之后，模型会产生可见的完成token（即回答），并从其上下文中丢弃推理 token。Ope

56、nAI 给出了一个多步骤对话的示例。每个步骤的输入和输出 token 会被保留，而推理 token 则会被丢弃。从图中可以看出，模型在给出最终回答之前会进行三轮推理，并把前一轮的推理作为 Input（输入）再给到下一轮。如果把它想象成思维链，这个输入就是对前一个步骤的对弈结果的总结。它最终输出的是一个简短的版本。行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 22 图图25 OpenAI“推理模型推理模型”的运作模式”的运作模式资料来源：OpenAI 官网，海通证券研究所在这个过程中，PRM 让 LLM 去搜索最佳答案有多种方式，Google 在研究中提到了从简单到复杂的三种

57、方案，直接在多个答案中选最佳解的方法（Best of N），在思维链中每步都提供多个候选项的方法（Beam Search）和把后续多个步骤联系起来看的MCTS 方法（蒙特卡洛树状搜索算法）的简化版本 Lookahead Search。图图26 不同的不同的 PRM 方法方法介绍介绍资料来源：Charlie Snell(UC Berkeley，在 Google DeepMind 实习期间完成的论文工作),Jaehoon Lee(Google DeepMind)等所著Scaling LLM Test-Time Compute Optimally can be More Effective tha

58、n Scaling Model Parameters，海通证券研究所正如我们上文介绍的，OpenAI 并没有公布关于 o1 的具体技术文档，所以我们无法判断具体的技术架构，但是我们可以合理推测，o1 与 CoT+PRM 是分不开的。其实早在 2023 年 5 月，OpenAI 的前首席科学家 Ilya Sutskever 和其团队就发布了论文 Lets 行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 23 Verify Step by Step，在这论文中证明了过程监督过程监督（Process-supervised Reward Models,PRM）能够比结果监督结果监督（O

59、utcome-supervised Reward Models,ORM）训练出更可靠的奖励模型，OpenAI 的团队在论文中使用最先进的 PRM 模型解决了 MATH测试集代表性子集中 78.2%的问题，此外他们还证明了主动学习主动学习使过程监督的数据效率提高了 2.6 倍。我们认为，OpenAI o1 并非是颠覆式的技术革命，但是其在工程化上已经达到了领先的地位，其在自我对弈强化学习（自我对弈强化学习（Self-play RL）、思维链（思维链（CoT）、过程过程奖励模型（奖励模型（PRM）等技术实践运用方面取得了显著的进步，并且在深度思考和复杂推理上展现出了较高的能力。o1 大模型凭借自我

60、对弈强化学习技术，在没有外部干预的情况下，通过反复试验来学习策略并优化决策能力，从而在应对策略和决策相关任务时展现出更高的智能与适应性。同时，o1 大模型运用了思维链技术，逐步展示其推理步骤，以提高在复杂问题解答中的透明性与可解释性。这一方法使得 o1 在处理逻辑推理、数学问题求解及编程等结构化任务时，能够体现出接近人类的推理能力。我们认为，正如 Google 论文的标题“优化优化 LLM 测试时计算比扩大模型参数规模测试时计算比扩大模型参数规模更高效更高效”，o1 模型在某种意义上代表了 AI 大模型发展的新范式，AI 大模型学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误，并且随

61、着更多的强化学习（训练时计算）和更多的思考时间（测试时计算），AI 大模型的性能持续提高，o1 代表着代表着Scaling up 从预训练到推理的转变。从预训练到推理的转变。o1 带来的带来的大模型技术创新，正推动大模型技术创新，正推动 AI 向更深层向更深层次的智能推理与问题解决能力发展。次的智能推理与问题解决能力发展。行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 24 4.OpenAI o1，能给，能给 AI 带来什么带来什么？我们认为，OpenAI o1 的命名，从某种意义上摆脱了 GPT（Generative Pre-trained Transformer）这一过去命名

62、过分强调预训练（Pre-trained）的意味，而是让它更成为一个更强调推理能力训练的模型系列。我们认为，o1 至少为困于数据和基建无法快速提升预训练规模的模型公司们提供了一个新的角度，从推理侧和强化学习的方法入手，加强模型的能力。从某种意义上，从某种意义上，OpenAI o1 确实是第一个确实是第一个“推理模型推理模型”。”。根据腾讯科技，月之暗面创始人杨植麟在一场分享中谈到了他对 o1 的看法，他认为，规模定律之后，大模型发展的下一个范式是强化学习，OpenAI o1 模型的发布，通过强化学习尝试突破数据墙，并看到计算更多向推理侧增加的趋势。从应用的角度来看，o1 在很多领域的并不像现有的

63、 GPT-4o 一样突出，在某些自然语言任务中，可能 o1 的表现仍不如 GPT-4o，OpenAI 对 o1-mini 的评价更是“缺乏广泛的世界知识”，此外 o1 也没有浏览网页或处理文件和图像的能力。但是，在推理密集型的任务类别中，如数据分析、编程和数学，o1 相较于 GPT-4o有显著优势，例如基于 o1 针对编程能力优化的 o1-ioi 在放宽提交次数限制时，能够在2024 年国际信息学奥林匹克竞赛得分达到 362.14 分，超过了金牌门槛，且不需要任何测试时的选择策略，在某种程度上，我们认为我们认为，可以说可以说 o1 在部分细分领域已经接近了在部分细分领域已经接近了当前人类的天花

64、板，这就使得当前人类的天花板，这就使得 o1 在部分细分的应用场景，已经接近“替代大部在部分细分的应用场景，已经接近“替代大部分人类”分人类”这一目标这一目标。根据 o1 现在的表现，我们认为，o1 处理复杂任务能力更加突出，它的先进推理能力可以提升科学研究、数学计算和编程领域的效率，我们推测，这可能是因为这些领域的任务通常具有明确的规则和目标，使得奖励函数更容易设计和优化，PRM 运作效率更高，但这也代表未来 o1 在 STEM 领域可能有更多的应用空间，还可能推动人工智能在生物制药、IC 制造等行业的创新应用，按照 o1 的发展思路，也许未来，人们能够也许未来，人们能够让让 AI 思考数小

65、时、数天甚至数周思考数小时、数天甚至数周，伴随着更高的，伴随着更高的推理成本推理成本，人类也，人类也会离新的抗癌药物、突破会离新的抗癌药物、突破性的电池甚至黎曼猜想的证明性的电池甚至黎曼猜想的证明更近更近。当然值得注意的是，当然值得注意的是，o1 目前仍处于目前仍处于 AI 发展的发展的初级阶段。初级阶段。根据深圳市人工智能产业协会官微，OpenAI 给 AI 划分了五个发展阶段。图图27 OpenAI 对对 AI 的划分了的划分了五个发展阶段五个发展阶段资料来源：深圳市人工智能产业协会官微，海通证券研究所行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 25 第一级，Chat

66、Bots聊天机器人，比如 ChatGPT。第二级，Reasoners推理者，解决博士水平基础问题的系统。第三级，Agents智能体，代表用户采取行动的 AI 代理。第四级，Innovators创新者，帮助发明的 AI。第五级，Organizations组织，AI 可以执行整个人类组织的工作，这是实现 AGI 的最后一步。我们认为，我们认为，按照这个标准，按照这个标准，o1 目前在第二级目前在第二级，人类距离人类距离 AGI 的道路仍然道阻且长。的道路仍然道阻且长。不过，根据 Tracking AI，o1 在最新门萨智商测试中，IQ 水平超过了 120 分，远超目前业界其他大模型的水平，而且值得

67、注意的是，这仅仅是 o1-preview 的水平，这也代表着 o1 这类大模型所蕴含的巨大潜能。图图28 o1 在在 IQ 测试中达到测试中达到 120 分的水平分的水平资料来源：Tracking Al，海通证券研究所注：分数来源于门萨测试正如我们在上一章节所讨论的内容，我们认为，OpenAI o1 并非是颠覆式的技术革命，但是其带动了前沿技术的工程化应用。值得关注的是，o1 所采用的自我对弈强化学习和思维链等业界前沿技术，我国大模型科研和产业界也在同步研究和实践应用中。根据阿里研究院官微，阿里巴巴通义千问大模型也已经实际采用自我对弈强化学习和思维链技术，在深度思考和复杂推理能力上代表中

68、国大模型最高水平，与国际领先水平保持同步。并已于 7 月 18 日发布此领域的研究论文。此外，来自于清华大学、北京大学、腾讯、第四范式等机构的研究人员在 2024 年8 月刚刚发布了自我对弈强化学习方法的综述：A Survey on Self-play Methods in Reinforcement Learning，论文提供了一个统一的框架，并在该框架下对现有的自博弈算法进行了分类，论文自述为“理解强化学习中多层次自博弈领域的关键指南”。我们认为，中国的大型模型产业正从单纯的产品创新走向应用深化的新阶段，伴随AI 技术的持续深化，大模型的实用性正在逐渐接近大规模商业化运用的“转折点”，从而

69、释放出众多新的应用场景，这些进展也促使大型模型的使用频率迅速增长。每一次大行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 26 模型在性能上的进步，都可能将应用的边界推向更广阔的领域，o1 应用的技术我国的AI 业界也早有关注，o1 系列模型的发展也为我国大模型的发展指出了一条新路，有望助推相关技术在我国 AI 业界更快实践发展，从而助力我国 AI 行业整体的进步。Gordon Moore（摩尔定律发明人）在 2005 年接受采访时，曾说过这样一段话：“It sure is nice to be at the right place at the right time,I wa

70、s very fortunate to get into the semiconductor industry in its infancy.And I had an opportunity to grow from the time where we couldnt make a single silicon transistor to the time where we put 1.7 billion of them on one chip!Its been a phenomenal ride.”我们相信我们相信，o1 代表的是全新的大模型推理范式，这一范式也许能够改变人们对于“智能”这一

71、概念的理解，当然，正如 Ilya 的论文标题所写，这仍需要“一步步验证（Lets Verify Step by Step）”，但是也许数十年后，回望如今，我们也能说出，我们很幸运能够“at the right place at the right time”，这是属于 AI 的“Phenomenal Ride”。行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 27 5.建议关注与风险提示建议关注与风险提示建议关注：建议关注：AI 算力、模型和应用领域。算力、模型和应用领域。算力：算力：英伟达、寒武纪-U、海光信息、景嘉微、龙芯中科、浪潮信息、中科曙光、神州数码、软通动力、中国长

72、城；模型：模型：科大讯飞、中控技术、海康威视、大华股份、商汤-W；应用：应用：微软、金山办公、赛意信息、宝信软件、万兴科技、虹软科技、新致软件、新国都。风险提示：风险提示：AI 技术的发展不及预期，AI 商业落地不及预期，市场竞争加剧的风险。行业研究信息服务行业请务必阅读正文之后的信息披露和法律声明 28 信息披露信息披露分析师声明分析师声明杨林计算机行业杨蒙计算机行业魏宗计算机行业本人具有中国证券业协会授予的证券投资咨询执业资格，以勤勉的职业态度，独立、客观地出具本报告。本报告所采用的数据和信息均来自市场公开信息，本人不保证该等信息的准确性或完整性。分析逻辑基于作者的职业理

73、解，清晰准确地反映了作者的研究观点，结论不受任何第三方的授意或影响，特此声明。分析师负责的股票研究范围分析师负责的股票研究范围重点研究上市公司：易华录,润和软件,神州控股,创业慧康,狄耐克,京北方,永信至诚,达梦数据,广联达,纳思达,用友网络,云赛智联,联想集团,商汤-W,思维列控,金溢科技,锐明技术,中控技术,拉卡拉,能科科技,税友股份,星环科技-U,国能日新,海光信息,*ST 银江,拓尔思,中科曙光,金山办公,道通科技投资投资评级评级说明说明 1.投资评级的比较投资评级的比较和评级标准：和评级标准：以报告发布后的 6 个月内的市场表现为比较标准，报告发布日后 6 个月内的公司股价（或行

74、业指数）的涨跌幅相对同期市场基准指数的涨跌幅；2.市场基准指数的比较标准：市场基准指数的比较标准：A 股市场以海通综指为基准；香港市场以恒生指数为基准；美国市场以标普 500 或纳斯达克综合指数为基准。类类别别评评级级说说明明股票投资评股票投资评级级优于大市预期个股相对基准指数涨幅在 10%以上；中性预期个股相对基准指数涨幅介于-10%与 10%之间；弱于大市预期个股相对基准指数涨幅低于-10%及以下；无评级对于个股未来 6 个月市场表现与基准指数相比无明确观点。行业投资评行业投资评级级优于大市预期行业整体回报高于基准指数整体水平 10%以上；中性预期行业整体回报介

75、于基准指数整体水平-10%与 10%之间；弱于大市预期行业整体回报低于基准指数整体水平-10%以下。法律声明法律声明本报告仅供海通证券股份有限公司（以下简称“本公司”）的客户使用。本公司不会因接收人收到本报告而视其为客户。在任何情况下，本报告中的信息或所表述的意见并不构成对任何人的投资建议。在任何情况下，本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断，本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。在不同时期，本公司可发出与本报告所载资料、意见及推测不一致的报告。市场有风险，投资需谨慎。本报告所

76、载的信息、材料及结论只提供特定客户作参考，不构成投资建议，也没有考虑到个别客户特殊的投资目标、财务状况或需要。客户应考虑本报告中的任何意见或建议是否符合其特定状况。在法律许可的情况下，海通证券及其所属关联机构可能会持有报告中提到的公司所发行的证券并进行交易，还可能为这些公司提供投资银行服务或其他服务。本报告仅向特定客户传送，未经海通证券研究所书面授权，本研究报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品，或再次分发给任何其他人，或以任何侵犯本公司版权的其他方式使用。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。如欲引用或转载本文内容，务必联络海通证券研究所并获得许可，并需注明出处为海通证券研究所，且不得对本文进行有悖原意的引用和删改。根据中国证监会核发的经营证券业务许可，海通证券股份有限公司的经营范围包括证券投资咨询业务。

信息服务行业报告-OpenAI o1初探：或能成为引领AI Phenomenal Ride的LLM新范式-240925（28页）.pdf

定制报告-个性化定制-按需专项定制研究报告

行业报告、薪酬报告

联系：400-6363-638

信息服务行业报告-OpenAI o1初探：或能成为引领AI Phenomenal Ride的LLM新范式-240925（28页）.pdf

定制报告-个性化定制-按需专项定制研究报告

行业报告、薪酬报告

联系：400-6363-638

相关推荐