构成大语言模型智能的“养分”究竟是什么,以及它们是如何被精心培育出来的。

阶段一:预训练语料库 —— 奠定知识基石的“海量原矿”

这是模型训练的起点,也是规模最庞大的阶段。其目标不是教会模型“对话”,而是让它通过海量文本,无监督地学习语言本身的统计规律、语法结构、事实知识以及世界的运行逻辑。你可以把它想象成让一个天才少年阅读整个互联网和图书馆,从中悟出语言的奥秘。

这个阶段的语料来源主要有以下几个:

预训练数据的一个显著趋势是从单纯追求“大”转向追求“精”与“合规”,通过复杂的清洗流程“淘尽黄沙始见金”。

阶段二:指令微调数据集 —— 教会模型“理解指令、执行任务”

经过预训练的模型只是一个“文本续写器”,它不知道如何回答问题或完成任务。指令微调(SFT)就是通过成千上万个“指令-回复”的示例,将模型的续写能力“调教”成对话和执行指令的能力。这是让模型从一个知识渊博的“哑巴”变成一个合格“助理”的关键一步。

指令数据的构建方式多种多样,各有优劣:

阶段三:偏好数据集 —— 对齐人类价值观的“是非题”

指令微调让模型学会了“怎么做”,但没学会“什么更好”。偏好数据集就是为了解决这个问题而生,它是强化学习从人类反馈(RLHF)的核心。这个数据集不直接告诉模型正确答案,而是提供同一个问题下的多个不同回答,并标注出这些回答的优劣排序。模型通过学习,会倾向于生成那些排名更高、更符合人类偏好的回答。

偏好数据集的构建通常依赖人工反馈或自动化的“AI反馈”。例如,COIG-P(一个中文偏好数据集)的构建就极具代表性:

  1. 收集查询:筛选出9.2万条高质量的中文查询。
  2. 生成响应:利用15种主流的LLM为每个查询生成多个回答。
  3. 评分与筛选:再让LLM对这些回答进行评分,选出最好的作为“ chosen”(正例),最差的作为“ rejected”(负例)。通过这种自动化的流水线,他们构建了一个包含100.9万对中文偏好样本的大规模数据集,覆盖聊天、代码、数学、逻辑等多个领域。

阶段四:评估数据集 —— 检验能力的“试金石”

最后,我们需要客观的标尺来衡量模型在各个维度的能力。评估数据集就像考卷,用于评测模型是否真的学到了知识,以及学到了多少。这些数据集通常包含精心设计的问题和标准答案。

评估数据集覆盖了广泛的能力维度:

有趣的是,为了防止数据泄露导致模型“背答案”,研究者们还开发了像PhantomWiki这样的动态评估框架。它能在每次评估时,按需生成一套全新的、包含虚构事实的文档和问答对,确保模型从未见过这些数据,从而真实地测试其推理和检索能力

总结与趋势展望

总的来说,这四个阶段的数据构成了一个从通用到专用、从知识到对齐的完整训练链条。

未来的趋势是数据质量的重要性将超越数量,合成数据将成为提升特定能力(尤其是推理和逻辑)的关键引擎,同时,数据的版权合规与伦理对齐也将成为构建数据集的刚性约束。