为什么模型训练数据多样性很重要?

2024-03-10
1分钟阅读时长

我们知道一个线性函数可以将平面空间划分成两部分,当有足够多的线性函数,加非线性变换的时候,它就具备都任意高维空间的划分能力。在自然语言大模型它的参数量是非常足的,可以做很多很多事情,做一些简单的任务自然是不在话下。但是对于我们这个大模型(大脑)也需要进行开发,达到 100% 的利用率,只有一种办法,让学习训练的数据具备足够的多样性。

举个例子,假设有苹果 (🍎),香蕉(🍌),让模型辨别输入的是苹果还是香蕉,我们可能可以通过两种方式辨别这两种水果,一个是颜色,另一个是形状,如果我们模型已经学会通过形状(模型大脑开发度不足 30%)来区分这种两种水果了,那么它就不会进一步去想还可以通过颜色去区分,因为目标函数的损失已经是 0 了,不会再更新模型的网络参数了。

  • 那么要如何让模型会同时具备用形状和颜色这种特征来(模型大脑开发度再提升一些 40%)区分这两种水果呢?

    那就只有增加数据多样性,通过构造相关易混淆的数据,例如把西红柿(🍅),梨(🍐)也一起加入训练,来进一步开发模型的能力,它就会习得更细致的特征来完成水果辨别的任务了。

Avatar

YISH

这个人很懒,什么都没有