上海猎诺工贸有限公司

主营:五金交电、机电设备、叉车、计算机及配件
您现在的位置: 照明工业 > 灯具配附件 > 支架 > 上海猎诺工贸有限公司 > 供求信息
载入中……
[供应]智能数据非常高的拟合精度需注意几点
点击图片放大
  • 产品产地:
  • 产品品牌:
  • 包装规格:
  • 产品数量:0
  • 计量单位:
  • 产品单价:0
  • 更新日期:2017-10-11 14:07:32
  • 有效期至:2018-10-11
  • 收藏此信息
智能数据非常高的拟合精度需注意几点 详细信息




下列是一些具体的处理方法名称:


该方法主要是对大类进行处理。它会减少大类的观测数来使得数据集平衡。这一办法在数据集整体很大时较为适宜,它还可以通过降低训练样本量来减少计算时间和存储开销。


欠采样法共有两类:随机(Random)的和有信息的(Informative)。


随机欠采样法会随机删除大类的观测直至数据集平衡。有信息的欠采样法则会依照一个事先制定的准则来删去观测。


有信息的欠采样中,利用简易集成算法(EasyEnsemble)和平衡级联算法(BalanceCascade)往往能得到比较好的结果。这两种算法也都很直白易懂。


简易集成法:首先,它将从大类中有放回地抽取一些独立样本生成多个子集。然后,将这些子集和小类的观测合并,再基于合并后的数据集训练多个分类器,以其中多数分类器的分类结果为预测结果。如你所见,整个流程和无监督学习非常相似。


平衡级联法:它是一种有监督的学习法,首先将生成多个分类器,再基于一定规则系统地筛选哪些大类样本应当被保留。


但欠采样法有一个显而易见的缺陷,由于要删去不少观测,使用该方法会使得大类损失不少重要信息。


2.过采样法


这一方法针对小类进行处理。它会以重复小类的观测的方式来平衡数据。该方法也被称作升采样(Upsampling)。和欠采样类似,它也能分为随机过采样和有信息的过采样两类。


随机过采样会将小类观测随机重复。有信息过采样也是遵循一定的准则来人工合成小类观测。


使用该方法的一大优势是没有任何信息损失。缺点则是由于增加了小类的重复样本,很有可能导致过拟合(译者注:计算时间和存储开销也增大不少)。我们通过该方法可以在训练集上得到非常高的拟合精度,但在测试集上预测的表现则可能变得愈发糟糕。
本文来源:chinapex.cn/solutions/data_cloud
     chinapex.cn/news/company-news

同类型其他产品
免责声明:所展示的信息由企业自行提供,内容的真实性、和合法性由发布企业负责,浙江民营企业网对此不承担任何保证责任。
友情提醒:普通会员信息未经我们人工认证,为了保障您的利益,建议优先选择浙商通会员。

关于我们 | 友情链接 | 网站地图 | 联系我们 | 最新产品

浙江民营企业网 www.zj123.com 版权所有 2002-2010

浙ICP备11047537号-1