机器学习策略(1)

原文:https://zhuanlan.zhihu.com/p/30246827

1、正交化

表示在机器学习模型简历的整个流程中,我们需要根据不同部分反应的问题,去做相应的调整,从而更加容易的判断出是在哪一个部分出现了问题,并作相应的解决措施。
正交化或正交性是一种系统设计属性,其确保修改算法的指令或部分不会对烯烃的其他部分产生或传播副作用。相互独立的验证使得算法变得更简单,减少了测试和开发的时间。
当在监督学习的模型中,以下的4个假设需要真实且是相互正交的:

  • 系统在训练集上表现得好

否则,使用更大的神经网络、更好的优化算法

  • 系统在开发集上表现的好

否则,使用正则化、更大的训练集

  • 系统在测试集上表现得好

否则,使用更大的开发集

  • 在真是的系统环境中表现得好

否则,修改开发测试集、修改代价函数

2、单一数字评估指标

在训练机器学习模型的时候,无论是调整超参数,还是尝试更好的优化算法,为问题设置一个单一数字评估指标,可以更好更快的评估模型。

例:

下面是分别训练的两个分类器的Precision、Recall以及F1 score。

由上表可以看出,以Precision为指标,则分类器A的分类效果好;以Recall为指标,则分类器B的分类效果好。所以在有两个及以上判定指标的时候,我们很难决定出A好还是B好。

这里以Precision和Recall为基础,构成一个综合指标F1 Score,那么我们利用F1 Score便可以更容易的评判出分类器A的效果更好。

例:

下面是另外一个问题多种分类器在不同的国家中的分类错误率结果:

模型在各个地区有不同的表现,这里用地区的平均值来对模型效果进行评估,转换为单一数字评估指标,就可以很容易的得出表现最好的模型。

3、满足和优化指标

假设有三个不同的分类器性能表现如下:

有时对于某一问题,对模型的效果有一定的要求,如要求模型准确率尽可能的高,运行时间在 100ms 以内。这里以 Accuracy 为优化指标,以 Running time 为满足指标,我们可以从中选出B是满足条件的最好的分类器。

一般的,如果要考虑N个指标,则选择一个指标为优化指标,其他N-1个指标都是满足指标:

4、训练、开发、测试集

训练、开发、测试集选择设置的一些规则和意见:

  • 训练、开发、测试集的设置会对产品带来非常大的影响;
  • 在选择开发集和测试集时要使二者来自同一分布,且从所有数据中随机选取;
  • 所选择的开发集和测试集中的数据,要与未来想要或者能够得到的数据类似,即模型数据和未来数据要具有相似性;
  • 设置的测试集只要足够大,使其能够在过拟合的系统中给出高方差的结果就可以,也许10000左右的数目足够;
  • 设置开发集只要足够使其能够检测不同算法、不同模型之间的优劣差异就可以,百万大数据中 1% 的大小就足够;

5、改变开发、测试集和评估指标

在针对某一问题我们设置开发集和评估指标后,这就像把目标定在某个位置,后面的过程就聚焦在该位置上。但有时候在这个项目的过程中,可能会发现目标的位置设置错了,所以要移动改变我们的目标。

6、与人类表现做比较

可避免偏差

假设针对两个问题分别具有相同的训练误差和交叉验证误差,如下所示:

理解人类表现

总结:

对人类水平误差有一个大概的估计,可以让我们去估计贝叶斯误差,这样可以让我们更快的做出决定:减少偏差还是减少方差。

而这个决策技巧通常都很有效果,直到系统的性能开始超越人类,那么我们对贝叶斯误差的估计就不再准确了,再从减少偏差和减少方差方面提升系统性能就会比较困难了。

7、改善模型的表现

基本假设:

  • 模型在训练集上有很好的表现;
  • 模型推广到开发和测试集啥会给你也有很好的表现。

减少可避免偏差

  • 训练更大的模型
  • 训练更长时间、训练更好的优化算法(Momentum、RMSprop、Adam)
  • 寻找更好的网络架构(RNN、CNN)、寻找更好的超参数

减少方差

  • 收集更多的数据
  • 正则化(L2、dropout、数据增强)
  • 寻找更好的网络架构(RNN、CNN)、寻找更好的超参数


转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 2470290795@qq.com

文章标题:机器学习策略(1)

文章字数:1.3k

本文作者:runze

发布时间:2020-02-22, 08:55:48

最后更新:2020-02-23, 08:31:21

原始链接:http://yoursite.com/2020/02/22/%E5%90%B4%E6%81%A9%E8%BE%BE%20%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/03%E7%BB%93%E6%9E%84%E5%8C%96%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%A1%B9%E7%9B%AE/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%AD%96%E7%95%A5%EF%BC%881%EF%BC%89/

版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。

目录
×

喜欢就点赞,疼爱就打赏