智能数据非常高的拟合精度需注意几点|上海猎诺工贸有限公司|五金交电、机电设备、叉车、计算机

载入中……

[供应]智能数据非常高的拟合精度需注意几点

点击图片放大

产品产地：
产品品牌：
包装规格：
产品数量：0
计量单位：
产品单价：0
更新日期：2017-10-11 14:07:32
有效期至：2018-10-11
收藏此信息

智能数据非常高的拟合精度需注意几点详细信息

下列是一些具体的处理方法名称：

该方法主要是对大类进行处理。它会减少大类的观测数来使得数据集平衡。这一办法在数据集整体很大时较为适宜，它还可以通过降低训练样本量来减少计算时间和存储开销。

欠采样法共有两类：随机（Random）的和有信息的（Informative）。

随机欠采样法会随机删除大类的观测直至数据集平衡。有信息的欠采样法则会依照一个事先制定的准则来删去观测。

有信息的欠采样中，利用简易集成算法（EasyEnsemble）和平衡级联算法（BalanceCascade）往往能得到比较好的结果。这两种算法也都很直白易懂。

简易集成法：首先，它将从大类中有放回地抽取一些独立样本生成多个子集。然后，将这些子集和小类的观测合并，再基于合并后的数据集训练多个分类器，以其中多数分类器的分类结果为预测结果。如你所见，整个流程和无监督学习非常相似。

平衡级联法：它是一种有监督的学习法，首先将生成多个分类器，再基于一定规则系统地筛选哪些大类样本应当被保留。

但欠采样法有一个显而易见的缺陷，由于要删去不少观测，使用该方法会使得大类损失不少重要信息。

2.过采样法

这一方法针对小类进行处理。它会以重复小类的观测的方式来平衡数据。该方法也被称作升采样（Upsampling）。和欠采样类似，它也能分为随机过采样和有信息的过采样两类。

随机过采样会将小类观测随机重复。有信息过采样也是遵循一定的准则来人工合成小类观测。

使用该方法的一大优势是没有任何信息损失。缺点则是由于增加了小类的重复样本，很有可能导致过拟合（译者注：计算时间和存储开销也增大不少）。我们通过该方法可以在训练集上得到非常高的拟合精度，但在测试集上预测的表现则可能变得愈发糟糕。
本文来源：chinapex.cn/solutions/data_cloud
chinapex.cn/news/company-news

上海猎诺工贸有限公司发布与 智能数据非常高的拟合精度需注意几点 相关的产品
中金汇理对上班族理财新招数上海品牌VI设计公司统一性的原则智能数据可供行为参考数据智能数据对企业进行精准的推送和提醒有机草本茶对生命万物尊重家装进口ppr水管安装相对简单