- A+
所属分类:书评社区
领500g书库,关注公众号:程叫兽的宝藏 (长按可复制!)
热门下载区==>点此链接进入<<<
中文大模型在训练中存在诸多问题,比如,中文数据集很多是从英文翻译过来的,没有很好地契合中文的语言习惯和文化背景;不少数据集是用 AI 生成的,质量难以保证,容易出现事实性错误;即使是人工标注的数据集,也存在数据量小、覆盖领域不全面等问题。
为了解决这些痛点,研究团队从中文互联网的各种知识源头直接收集数据,比如知乎、豆瓣、百科、小红书等,经过一系列严格的清洗和人工审核,打造成高质量、多样化的中文指令微调数据集 -。(全称 - )
在众多数据来源中,百度弱智吧成了最特别的一个。百度弱智吧的画风通常是这样的:
生鱼片是死鱼片;
等红灯是在等绿灯;
救火是在灭火;
指南针主要是指北……
可能是弱智吧题目的 “异质”。像脑筋急转弯,增加了指令多样性,增强了 的逻辑推理能力,从而提升了模型的性能。另一个原因是弱智吧数据文本质量很高,用词准确且简洁。
如今,弱智吧问题都是每个新发布大模型都必须要过的一关,被戏称为弱智吧 。
当初网友为了调戏大模型专门搜集的弱智吧问题测试集,没想到有一天也能摇身一变,成了训练集。思路确实是被打开了。
关于中文大模型的相关词
| 多样 | 质量 |
| 鱼片 | 数据 |
| 数据 | 多样 |


