大模型开发中的数据需求

产品中心

解决方案

客户案例

实在生态

关于我们

400-139-9089 下载中心

中/英

行业百科

分享最新的RPA行业干货文章

行业百科>大模型开发中的数据需求

大模型开发中的数据需求

2023-11-09 16:27:49

智慧来源于数据，大模型“涌现”出的通用能力充分证明了这一点。在算法（目前如 GPT等都是基于深度神经网络的算法）和算力（目前都是依靠大吞吐量支持并行计算的图形处理器 GPU）得到一定保障的前提下，数据决定了大模型的能力，虽然其中是否有确定性的机理目前还尚未可知，但大致而言，数据的内容、体量和质量决定了大模型的好坏。

预训练模型、指令微调模型（又称为上下文学习模型，包括监督式微调模型、奖励模型和基于人类反馈的强化学习模型等）和各种领域模型都是由不同的训练数据所决定的。例如Meta 公司著名的开源大模型 LLaMA（参数量从 13B 至 65B）就采用了网页文本、Github代码库、维基百科、图书、开源论文和股票交易数据等进行训练，据说 OpenAI这类闭源模型公司虽然没有公开数据源，但大致也差不多。目前有许多拥有高质量版权数据的公司也开始训练自己的领域模型，是否能够以小规模数据获得很好的效果，很多领域应用公司都在进行各种尝试，我们可以拭目以待。

预训练模型只是让大模型拥有了一定的知识并“涌现出”了一定的智慧，但要让大模型听懂人的指令、应用于帮助人类解决具体问题，最关键的步骤是需要经过“指令微调”，即给予一定的标注数据，让它按照人的要求进行操作并与人交互。

“提示词”是发挥指令微调模型功能的最直接的方式，很多提示词框架都揭示了微调模型背后的“秘密”，即如何利用标注数据“激活”大模型智慧。通常指令微调能够增加大模型对于各类指令的理解能力和适应性，上下文学习能够增加大模型的知识，而提示词学习包括了上述两个方面，能够很好地增加大模型的应用场景。

然而模型的预训练与调参都需要用到大量的算力，成本高昂，绝大多数机构都无法承担，因此普及大模型应用的主要方式并非参与大模型训练或微调，而是选择已经微调好的大模型作为“基座”，来开发下游应用，利用开发框架、根据需求场景，设计数据管道、提示词模板和数据嵌入方式，必要时可采用向量知识库和智能代理，在应用中不断优化模型、优化系统，利用“飞轮效应”，建立差异化模型，在一定程度上建立护城河，拉开差距。

上一篇文章

大模型应用的两种方法

下一篇文章

大语言模型的应用框架