AI大模型的核心就是数据,它决定了模型的能力和偏差。我来分三个阶段详细解释:
—
1. 数据从哪里来?(收集阶段)
大模型的训练数据量往往是万亿级token,涵盖多种来源。主要来源包括:
✅ 公开互联网数据
网页内容(维基百科、新闻网站、论坛、博客)
开源代码库(GitHub)
公共数据集(Common Crawl、BooksCorpus)
✅ 授权数据
出版商、新闻机构、教育机构提供的授权文本
合作伙伴的数据集
✅ 人工生成 & 合成数据
人类标注员撰写的高质量问答
使用已有模型生成的数据,再由人工校验
✅ 专用行业数据(垂直领域)
医疗、法律、金融等领域通过合作获取(必须符合法规)
为什么不随便爬?
法律问题(版权、隐私)
质量问题(垃圾内容、偏见)
—
2. 数据怎么变干净?(清洗阶段)
原始数据通常非常脏,需要大量处理,过程包括:
✔ 去重
删除重复网页、相似内容,避免模型过拟合特定文本
✔ 过滤垃圾
去掉色情、暴力、仇恨、低质量评论
检测广告、SEO垃圾页面
✔ 语言和格式规范化
统一编码、去掉HTML标签、修复错别字
分词、分句,构建训练样本
✔ 去除个人隐私信息
名字、手机号、地址(用正则表达式+模型检测)
这一阶段大量依赖自动化算法+规则+人工抽检。
—
3. 怎么标注?(监督和对齐阶段)
大语言模型最初是无监督学习(预测下一个词),不需要人工标注。但为了提升对话质量和安全性,需要对齐(alignment):
✔ 监督微调(SFT)
人工写出高质量的问答示例,模型模仿这些示例
例如:提问 → 理想回答
✔ 强化学习对齐(RLHF)
人类对模型输出排序(哪个回答更好)
模型学会根据人类偏好优化输出
✔ 安全性过滤
标注员分类有害内容(暴力、仇恨、违法)
提供正反示例,帮助模型拒绝危险请求
—
为什么能做到如此大规模?
分布式爬虫 + 大规模存储(PB级数据)
自动化过滤+机器学习辅助清洗
全球标注团队 + 经济激励(如OpenAI与外包公司合作)
分阶段训练(预训练→微调→对齐)
