湖北聚驰科技有限公司

主营:聚驰返利机器人,返利机器人,QQ返利机器人
您现在的位置: 电脑、数码、通信 > 电脑整机及服务器 > 台式机 > 湖北聚驰科技有限公司 > 供求信息
载入中……
[供应]抓取网页的时候都会记下以下网页信息
点击图片放大
  • 产品产地:
  • 产品品牌:
  • 包装规格:
  • 产品数量:0
  • 计量单位:
  • 产品单价:0
  • 更新日期:2015-11-05 16:36:59
  • 有效期至:2016-11-04
  • 收藏此信息
抓取网页的时候都会记下以下网页信息 详细信息

湖北网页设计www.juchi.cc 分段签吅名算fǎ
  
  这种算fǎ是按照一定的规则把网页切成N段,对每一段进行签吅名,形成每一段的信息指纹。如果这N个信息指纹里面有M个相同时(m是系统定义的阙值),则认为两者是复制网页。
  
  这种算fǎ对于小规模的判断复制网页是很好的一种算fǎ,但是对于像Gооgle这样海量的搜索引擎来说,算fǎ的复杂度相当高。把网站里面共同的部分如导航条、logo、版泉等信息(这些称之为网页的“噪音”)过滤掉后剩下的文本。
  
  基于关键词的复制网页算fǎ
  
  像Gооgle这类搜索引擎,他在抓取网页的时候都会记下以下网页信息:
  
  1、网页中吅出现的关键词(中文分词技术)以及每个关键词的泉重(关键词密度)。
  
  2、提取meta
  
  descrīption或者每个网页的512个字节的有效文吅字。
  
  关于第2点,baidu和Gооgle有所不同,Gооgle是提取你的meta
  
  descrīption,如果没有查询关键字相关的512个字节,而百度是直接提取后者。湖北网页设计www.juchi.cc提醒这一点大家使用过的都有所体会。
  
  

同类型其他产品
免责声明:所展示的信息由企业自行提供,内容的真实性、和合法性由发布企业负责,浙江民营企业网对此不承担任何保证责任。
友情提醒:普通会员信息未经我们人工认证,为了保障您的利益,建议优先选择浙商通会员。

关于我们 | 友情链接 | 网站地图 | 联系我们 | 最新产品

浙江民营企业网 www.zj123.com 版权所有 2002-2010

浙ICP备11047537号-1