智慧来源于数据,大模型“涌现”出的通用能力充分证明了这一点。在算法(目前如 GPT等都是基于深度神经网络的算法)和算力(目前都是依靠大吞吐量支持并行计算的图形处理器 GPU)得到一定保障的前提下,数据决定了大模型的能力,虽然其中是否有确定性的机理目前还尚未可知,但大致而言,数据的内容、体量和质量决定了大模型的好坏。
预训练模型、指令微调模型(又称为上下文学习模型,包括监督式微调模型、奖励模型和基于人类反馈的强化学习模型等)和各种领域模型都是由不同的训练数据所决定的。例如Meta 公司著名的开源大模型 LLaMA(参数量从 13B 至 65B)就采用了网页文本、Github代码库、维基百科、图书、开源论文和股票交易数据等进行训练,据说 OpenAI这类闭源模型公司虽然没有公开数据源,但大致也差不多。目前有许多拥有高质量版权数据的公司也开始训练自己的领域模型,是否能够以小规模数据获得很好的效果,很多领域应用公司都在进行各种尝试,我们可以拭目以待。
预训练模型只是让大模型拥有了一定的知识并“涌现出”了一定的智慧,但要让大模型听懂人的指令、应用于帮助人类解决具体问题,最关键的步骤是需要经过“指令微调”,即给予一定的标注数据,让它按照人的要求进行操作并与人交互。
“提示词”是发挥指令微调模型功能的最直接的方式,很多提示词框架都揭示了微调模型背后的“秘密”,即如何利用标注数据“激活”大模型智慧。通常指令微调能够增加大模型对于各类指令的理解能力和适应性,上下文学习能够增加大模型的知识,而提示词学习包括了上述两个方面,能够很好地增加大模型的应用场景。
然而模型的预训练与调参都需要用到大量的算力,成本高昂,绝大多数机构都无法承担,因此普及大模型应用的主要方式并非参与大模型训练或微调,而是选择已经微调好的大模型作为“基座”,来开发下游应用,利用开发框架、根据需求场景,设计数据管道、提示词模板和数据嵌入方式,必要时可采用向量知识库和智能代理,在应用中不断优化模型、优化系统,利用“飞轮效应”,建立差异化模型,在一定程度上建立护城河,拉开差距。