中文大模型训练痛点与弱智吧数据的神奇作用

所属分类：书评社区

领500g书库，关注公众号:程叫兽的宝藏 (长按可复制！)

热门下载区==>点此链接进入<<<

中文大模型在训练中存在诸多问题，比如，中文数据集很多是从英文翻译过来的，没有很好地契合中文的语言习惯和文化背景；不少数据集是用 AI 生成的，质量难以保证，容易出现事实性错误；即使是人工标注的数据集，也存在数据量小、覆盖领域不全面等问题。

为了解决这些痛点，研究团队从中文互联网的各种知识源头直接收集数据，比如知乎、豆瓣、百科、小红书等，经过一系列严格的清洗和人工审核，打造成高质量、多样化的中文指令微调数据集 -。（全称 - ）

在众多数据来源中，百度弱智吧成了最特别的一个。百度弱智吧的画风通常是这样的：

生鱼片是死鱼片；

等红灯是在等绿灯；

救火是在灭火；

指南针主要是指北……

可能是弱智吧题目的 “异质”。像脑筋急转弯，增加了指令多样性，增强了的逻辑推理能力，从而提升了模型的性能。另一个原因是弱智吧数据文本质量很高，用词准确且简洁。

如今，弱智吧问题都是每个新发布大模型都必须要过的一关，被戏称为弱智吧。

当初网友为了调戏大模型专门搜集的弱智吧问题测试集，没想到有一天也能摇身一变，成了训练集。思路确实是被打开了。

关于中文大模型的相关词