中文大模型训练痛点与弱智吧数据的神奇作用

  • 中文大模型训练痛点与弱智吧数据的神奇作用已关闭评论
  • A+
所属分类:书评社区

领500g书库,关注公众号:程叫兽的宝藏 (长按可复制!)

关注我

热门下载区==>点此链接进入<<<

中文大模型在训练中存在诸多问题,比如,中文数据集很多是从英文翻译过来的,没有很好地契合中文的语言习惯和文化背景;不少数据集是用 AI 生成的,质量难以保证,容易出现事实性错误;即使是人工标注的数据集,也存在数据量小、覆盖领域不全面等问题。

为了解决这些痛点,研究团队从中文互联网的各种知识源头直接收集数据,比如知乎、豆瓣、百科、小红书等,经过一系列严格的清洗和人工审核,打造成高质量、多样化的中文指令微调数据集 -。(全称 - )

在众多数据来源中,百度弱智吧成了最特别的一个。百度弱智吧的画风通常是这样的:

生鱼片是死鱼片;

等红灯是在等绿灯;

救火是在灭火;

指南针主要是指北……

可能是弱智吧题目的 “异质”。像脑筋急转弯,增加了指令多样性,增强了 的逻辑推理能力,从而提升了模型的性能。另一个原因是弱智吧数据文本质量很高,用词准确且简洁。

如今,弱智吧问题都是每个新发布大模型都必须要过的一关,被戏称为弱智吧 。

当初网友为了调戏大模型专门搜集的弱智吧问题测试集,没想到有一天也能摇身一变,成了训练集。思路确实是被打开了。

关于中文大模型的相关词

多样 质量
鱼片 数据
数据 多样

中文大模型训练痛点与弱智吧数据的神奇作用