钜子发布

到我们这里看看,说不定有什么发现

关于应用机器学习作为搜索问题的入门简介

发布时间: 2023-07-24 10:37:48       来源:原创

应用机器学习很具挑战性,因为设计完美的学习系统相当困难。 一个问题永远没有最好的训练数据集或者最好的算法,最好的只能是目之所及。 机器学习的应用可以理解为一个搜索问题,即根据某个项目的已知信息和可获取的资源,找到从输入到输出的最好的映射。在本文你即将看到把应用机器学习当作搜索问题的概念。 应用机器学习很具挑战性,因为设计完美的学习系统相当困难。 一个问题永远没有最好的训练数据集或者最好的算法,最好的只能是目之所及。

HearGlobal.com

阅读完本译文你会了解到:

1. 应用机器学习是一个逼近未知映射(输入到输出)函数的问题。

2. 设计上的某些决定比如数据和算法的选择局限了映射函数的选择。

3. 机器学习的搜索概念化有助于合理地选择集成算法,算法的查验以及理解算法在学习的过程。

现在一起来看下吧

640?wxfrom=5&wx_lazy=1

  概述

本文分为 5 部分,分别是:

1. 函数近似问题

2. 搜索里的函数近似

3. 数据的选择

4. 算法的选择

5. 机器学习作为搜索的影响

  函数近似问题

应用机器学习是一种学习系统的发展,目的是为解决具体的学习问题。

学习问题指有可观察的输入和输出,并且二者存在某种未知但内在的关系。

学习系统的目的是学习输入与输出之间可推广普遍适用的映射,从而可以从同一问题领域内的新输入数据里预测输出。

从统计学习,即统计角度下的机器学习,这个问题可以定义为求解给定输入 X 和对应的输出 y 之间的映射函数 f。

y = f(X)

我们有 X 和 y,目的是尽最大可能得到这样一个函数 fprime,可以使得在给定新数据 Xhat 的情况下,得到的预测结果 yhat 接近真实输出。

yhat = fprime(Xhat)

由此而见应用机器学习可以被看作函数近似的问题。

0

习得的映射一定不会完美。

设计和建立这样的学习系统实际上是寻找潜在而未知的从输入变量到输出变量之间的映射函数。

我们不知道这个函数的具体形式,因为如果我们知道就不必去找了, 直接用它解决问题就可以了。

正因为我们不知道真正的底层函数,我们必须采用逼近的方法,这也意味着我们不知道而且可能永远不知道我们距离那个真正的映射函数有多远。

  搜索里的函数近似

我们需要根据实际的问题和目标找到那个足够近似的映射函数。

然而实际学习过程里很多噪音导致错误,这使得学习变得更加挑战,而结果找到的目标函数差强人意。比如:

问题定义的选择

训练数据集的选择

训练数据集的准备(清洗,处理等)的选择

预测模型的表达形式的选择

算法的选择(模型比较好地契合训练集)

预测模型的评估

以及更多其他因素。

可以看到在学习过程中有很多决策点(决策的关键点),但是它们在此之前都是未知的。

你可以把学习系统的学习当做一个很大的搜索空间,每个决策点都帮助减少搜索的范围。

0

举个例子,如果学习问题是预测花朵的种类,那么你可以减少搜索的范围:

选择定义问题为预测花的种类,如分类

选择某种类以及类属种类的花的测量方式

选择某个具体的花棚里的花作为训练样本

选择决策树模型,因为该模型解释度高

选择 CART 算法来契合决策树

选择分类准确率作为评估标准

也许你会发现建立学习系统的众多决策中有自然的层级式关系,其中每个决策都有助于减少搜索空间。

搜索空间的减少实际上引入了有益的偏差,它会有意选择那些更可能靠近底层映射函数的学习系统。偏差即在高层定义函数的时候发挥用处,同时也在底层算法以及其配置问题上有帮助。

  数据的选择

机器学习问题的架构选择和用于训练系统的数据是学习系统开发中的一个重要因素。

你无法一开始就能获取所有的数据:即所有输入和与之对应的输出。如果你已经有了全部的数据,那么也就不需要预测模型就能对新的输入观测值进行输出预测了。

你肯定会有一些输入输出组的历史记录。如果没有,那你就没有任何数据来训练你的预测模型。

也许你有很多数据,但你只需要选择其中的一部分用来训练学习系统。或者,也许你可以随意生成数据,而挑战在于生成或收集什么数据以及要生成多少数据。

选择用来对学习系统建模的数据必须能够充分地俘获输入和输出数据之间的关系。这些数据既包括现有的数据,也包括预测模型将要预测的数据。

0

  算法的选择

您必须选择模型的表示形式和用于在训练数据上拟合模型的算法。这是影响学习系统发展的另一个重要因素。

0

项目的利益相关人员对项目施加约束是很常见的,例如模型要能够解释预测,而这反过来又对最终模型的表示形式,以及你可以搜索的映射范围施加了约束。但是,这个决策通常被简化为对算法的选择。

首页
产品&解决方案
产业生态
合作案例
钜子发布
关于我们
北京钜子科技有限公司