过拟合与欠拟合

February 17, 2020

欠拟合产生的原因主要有两个：
1. 模型过于简单：模型形式太简单，无法捕捉到数据特征，无法很好的拟合数据。
2. 缺乏强预测能力的特征： 可以通过组合、泛化等各种手段增加特征。

过拟合产生的原因主要有三个：
1. 噪音干扰： 模型受到噪音的干扰，导致拟合的函数形状与实际总体的数据分布相差甚远，清洗样本或异常值可以帮助解决这个问题。
2. 训练数据过少：训练的数据无法代表整体的数据分布情况，需要增加数据，包括人工合成假样本。
3. 模型复杂度过高：模型对于训练数据学习过度，记住了过于细节的特征。

模型容量：模型容量是指模型拟合各种函数的能力
容量低的模型容易发生欠拟合，模型拟合能力太弱
容量高的模型容易发生过拟合，模型拟合能力太强

Bias-Variance 偏差-方差

Bias: the difference between your model's expected predictions and the true values
衡量了模型期望输出与真实值之间的差别，刻画了模型本身的拟合能力
Variance: refers to your algorithm's sensitivity to specific sets of training data. High variance algorithms will produce drastically different models depending on the training set.
衡量了训练集的变动所导致的学习性能的变化，刻画了模型输出结果由于训练集的不同造成的波动。

High bias low variance: 算法在不同训练集上训练得到的模型基本一致，但是预测值与真实值差距较大；
Low bias high variance: 算法得到的模型预测值与真实值差距小，但在不同训练集上面得到的模型输出波动较大。

Total error = bias*bias + variance + irreducible error(noise)

High bias--> underfitting: 模型过于简单，以至于无法很好的学习训练集，从而使得训练误差过高。
High variance-->overfitting: 模型过于复杂，以至于将训练集中的细节都学到，从而使得测试集误差与训练集误差相距甚远。

过拟合解决方法：
1.去除噪音，清洗样本
2.增加数据
3.正则化
4.降低模型复杂度
5.Dropout层：让一部分的神经元以一定的概率不工作
6.Early Stopping：避免过拟合，迭代训练
7.集成学习： 利用多个学习器组合一起做出决策，弱化买个单独模型的特性
8.剪枝：对于决策树算法，剪枝是有效防止过拟合的手段。预剪枝通过在训练过程中控制树深、叶子节点数、叶子节点中样本的个数来控制树的复杂度，后剪枝则是在训练好树模型后采用交叉验证的方式进行剪枝，找到最优的树模型。

Evaluation:
分类问题： FP rate = FP/ F TP rate = TP/P
precision = TP/(TP+FP) recall = TP/(TP+TN)

欠拟合：
1. 选择模型容量更高的模型
2. 通过各类特征工程方法增加可用特征

Search This Blog

Sophie's Daily Note

过拟合与欠拟合

Comments

Post a Comment

Popular posts from this blog

Reading Very Deep VAE

OOD-related papers

Just Train Twice: Improving Group Robustness without Training Group Information