过拟合与欠拟合
欠拟合产生的原因主要有两个:
1. 模型过于简单:模型形式太简单,无法捕捉到数据特征,无法很好的拟合数据。
2. 缺乏强预测能力的特征: 可以通过组合、泛化等各种手段增加特征。
过拟合 产生的原因主要有三个:
1. 噪音干扰: 模型受到噪音的干扰,导致拟合的函数形状与实际总体的数据分布相差甚远,清洗样本或异常值可以帮助解决这个问题。
2. 训练数据过少: 训练的数据无法代表整体的数据分布情况,需要增加数据,包括人工合成假样本。
3. 模型复杂度过高: 模型对于训练数据学习过度,记住了过于细节的特征。
模型容量:模型容量是指模型拟合各种函数的能力
容量低的模型容易发生欠拟合, 模型拟合能力太弱
容量高的模型容易发生过拟合, 模型拟合能力太强
Bias-Variance 偏差-方差
Bias: the difference between your model's expected predictions and the true values
衡量了模型期望输出与真实值之间的差别,刻画了模型本身的拟合能力
Variance: refers to your algorithm's sensitivity to specific sets of training data. High variance algorithms will produce drastically different models depending on the training set.
衡量了训练集的变动所导致的学习性能的变化,刻画了模型输出结果由于训练集的不同造成的波动。
High bias low variance: 算法在不同训练集上训练得到的模型基本一致,但是预测值与真实值差距较大;
Low bias high variance: 算法得到的模型预测值与真实值差距小,但在不同训练集上面得到的模型输出波动较大。
Total error = bias*bias + variance + irreducible error(noise)
High bias--> underfitting: 模型过于简单,以至于无法很好的学习训练集,从而使得训练误差过高。
High variance-->overfitting: 模型过于复杂,以至于将训练集中的细节都学到,从而使得测试集误差与训练集误差相距甚远。
过拟合解决方法:
1.去除噪音,清洗样本
2.增加数据
3.正则化
4.降低模型复杂度
5.Dropout层: 让一部分的神经元以一定的概率不工作
6.Early Stopping: 避免过拟合,迭代训练
7.集成学习: 利用多个学习器组合一起做出决策,弱化买个单独模型的特性
8.剪枝:对于决策树算法,剪枝是有效防止过拟合的手段。预剪枝通过在训练过程中控制树深、叶子节点数、叶子节点中样本的个数来控制树的复杂度,后剪枝则是在训练好树模型后采用交叉验证的方式进行剪枝,找到最优的树模型。
Evaluation:
分类问题: FP rate = FP/ F TP rate = TP/P
precision = TP/(TP+FP) recall = TP/(TP+TN)
欠拟合:
1. 选择模型容量更高的模型
2. 通过各类特征工程方法增加可用特征
1. 模型过于简单:模型形式太简单,无法捕捉到数据特征,无法很好的拟合数据。
2. 缺乏强预测能力的特征: 可以通过组合、泛化等各种手段增加特征。
过拟合 产生的原因主要有三个:
1. 噪音干扰: 模型受到噪音的干扰,导致拟合的函数形状与实际总体的数据分布相差甚远,清洗样本或异常值可以帮助解决这个问题。
2. 训练数据过少: 训练的数据无法代表整体的数据分布情况,需要增加数据,包括人工合成假样本。
3. 模型复杂度过高: 模型对于训练数据学习过度,记住了过于细节的特征。
模型容量:模型容量是指模型拟合各种函数的能力
容量低的模型容易发生欠拟合, 模型拟合能力太弱
容量高的模型容易发生过拟合, 模型拟合能力太强
Bias-Variance 偏差-方差
Bias: the difference between your model's expected predictions and the true values
衡量了模型期望输出与真实值之间的差别,刻画了模型本身的拟合能力
Variance: refers to your algorithm's sensitivity to specific sets of training data. High variance algorithms will produce drastically different models depending on the training set.
衡量了训练集的变动所导致的学习性能的变化,刻画了模型输出结果由于训练集的不同造成的波动。
High bias low variance: 算法在不同训练集上训练得到的模型基本一致,但是预测值与真实值差距较大;
Low bias high variance: 算法得到的模型预测值与真实值差距小,但在不同训练集上面得到的模型输出波动较大。
Total error = bias*bias + variance + irreducible error(noise)
High bias--> underfitting: 模型过于简单,以至于无法很好的学习训练集,从而使得训练误差过高。
High variance-->overfitting: 模型过于复杂,以至于将训练集中的细节都学到,从而使得测试集误差与训练集误差相距甚远。
过拟合解决方法:
1.去除噪音,清洗样本
2.增加数据
3.正则化
4.降低模型复杂度
5.Dropout层: 让一部分的神经元以一定的概率不工作
6.Early Stopping: 避免过拟合,迭代训练
7.集成学习: 利用多个学习器组合一起做出决策,弱化买个单独模型的特性
8.剪枝:对于决策树算法,剪枝是有效防止过拟合的手段。预剪枝通过在训练过程中控制树深、叶子节点数、叶子节点中样本的个数来控制树的复杂度,后剪枝则是在训练好树模型后采用交叉验证的方式进行剪枝,找到最优的树模型。
Evaluation:
分类问题: FP rate = FP/ F TP rate = TP/P
precision = TP/(TP+FP) recall = TP/(TP+TN)
欠拟合:
1. 选择模型容量更高的模型
2. 通过各类特征工程方法增加可用特征
Comments
Post a Comment