那些你不可不知的机器学习“民间智慧”

发布时间：2018-04-26 11:33:22 所属栏目：业界来源：李佳惠

导读：副标题#e# 【资讯】机器学习算法可以通过从例子中推广来弄清楚如何执行重要的任务。在手动编程的情况下，这通常是可行且成本有效。随着更多的数据变得可用，可以解决更多雄心勃勃的问题。因此，机器学习被广泛应用于计算机等领域。然而，开发成功的机器学习

　　高维的一般问题是，我们来自三维世界的直觉通常不适用于高维空间。在高维度中，多元高斯分布的大部分质量并不接近平均值，而是在其周围越来越远的“壳”中;而高维度橙色的大部分是在皮肤中，而不是纸浆。如果恒定数量的例子在高维超立方体中均匀分布，那么超越某个维度，大多数例子更接近于超立方体的一个面，而不是最近邻。如果我们通过将它写入超立方体来近似超球面，那么在高维度下，超立方体的几乎所有体积都在超球面之外。这对于机器学习来说是个坏消息，一种类型的形状常常被另一种形状所逼近。

　　建立二维或三维分类器很容易，我们可以通过视觉检查找出不同类别的例子之间的合理边界。但是在高维度上很难理解正在发生的事情。这反过来又使设计一个好的分类器变得困难。天真地说，人们可能会认为收集更多的功能从来不会受到伤害，因为在最坏的情况下，他们不会提供有关类的新信息。但事实上，维度的诅咒可能超过了他们的利益。

　　6 - 理论上的保证不是他们所看到的那样

　　机器学习论文充满了理论上的保证。最常见的类型是确保良好泛化所需的示例数量的界限。你应该怎样做到这些保证？首先，它们是可能的。归纳传统上与演绎相对照：在推论中你可以保证结论是正确的;在归纳中，所有投注都是关闭的。或者这是许多世纪的传统智慧。近几十年来的一个主要发展是认识到，事实上，我们可以对归纳的结果有所保证，特别是如果我们愿意为概率保证提供解决的话。

　　我们必须小心这是什么意思。例如，如果你的学习者返回了一个与某个特定训练集一致的假设，那么这个假设就没有这么说。现在说的是，给定一个足够大的训练集，很有可能你的学习者要么返回一个推广的假设，要么找不到一致的假设。约束也没有说如何选择一个好的假设空间。它只告诉我们，如果假设空间包含真实的分类器，那么学习者输出一个不好的分类器的概率随着训练集的大小而减少。如果我们缩小假设空间，边界就会改善，但是包含真实分类器的机会也会缩小。

　　那些你不可不知的机器学习“民间智慧”！

　　另一种常见的理论保证类型是渐近的：给定无限的数据，保证学习者输出正确的分类器。这是令人放心的，但是由于其渐近的保证，选择一个学习者而不是另一个学习者会是一件轻率的事情。在实践中，我们很少处于渐近状态（也被称为“asymptopia”）。而且，由于上面讨论的偏差 - 方差权衡，如果学习者A比给定无限数据的学习者B好，则B往往比给定的有限数据好。

　　理论保证在机器学习中的主要作用不是作为实际决策的标准，而是作为算法设计的理解和推动力量的来源。在这方面，他们相当有用。事实上，理论与实践的密切相互作用是机器学习多年来取得如此巨大进步的主要原因之一。但要注意：学习是一个复杂的现象，只是因为学习者有一个理论上的正当理由，而且在实际工作中并不意味着前者是后者的原因。

　　7 - 特色工程是关键

　　在一天结束的时候，会有一些机器学习项目成功，有些失败。是什么造成了差异？最容易的因素是使用的功能。如果你有许多独立的功能，每一个都和类相关联，学习很容易。另一方面，如果这个类是一个非常复杂的功能，你可能无法学习它。通常情况下，原始数据不是可以学习的形式，但是可以从中构建特征。这通常是机器学习项目中的大部分工作所在。它往往也是最有趣的部分之一，直觉，创造力和“黑色艺术”与技术性东西一样重要。

（编辑：网站开发网_马鞍山站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/4

首页

尾页

苹果获得双显示器支架	世界首款NFT游戏主机公
PC 出货量下滑消息称	英特尔 i9-13900K ES