术语名词
1.泛化误差与经验误差
泛化误差:在“未来”样本上的误差
经验误差:在训练集上的误差,亦称“训练误差”
训练集样本数越接近数据集数量,经验误差就越小。但是经验误差越小,模型效果就越好吗?
请注意,我们是为了得到泛化能力强的模型,而经验误差≠泛化误差
经验误差很小,会使模型学习到训练样本中的许多无用特征,导致泛化能力变弱
我们称其为过拟合(overfitting)
而与之相对的概念,我们称为欠拟合(underfitting),其表示的就是模型没有很好的学习到训练样本上的特征,从而也导致泛化能力变弱
2.过拟合与欠拟合
过拟合:模型在训练数据上表现得过于复杂,以至于在未见过的数据上表现不佳。欠拟合:模型在训练数据上表现得过于简单,无法捕捉到数据的内在结构和模式。
出现原因:
1.出现欠拟合的情况,一般是由于样本特征少,模型复杂度低等

