湖北网页设计www.juchi.cc 分段签吅名算fǎ
这种算fǎ是按照一定的规则把网页切成N段,对每一段进行签吅名,形成每一段的信息指纹。如果这N个信息指纹里面有M个相同时(m是系统定义的阙值),则认为两者是复制网页。
这种算fǎ对于小规模的判断复制网页是很好的一种算fǎ,但是对于像Gооgle这样海量的搜索引擎来说,算fǎ的复杂度相当高。把网站里面共同的部分如导航条、logo、版泉等信息(这些称之为网页的“噪音”)过滤掉后剩下的文本。
基于关键词的复制网页算fǎ
像Gооgle这类搜索引擎,他在抓取网页的时候都会记下以下网页信息:
1、网页中吅出现的关键词(中文分词技术)以及每个关键词的泉重(关键词密度)。
2、提取meta
descrīption或者每个网页的512个字节的有效文吅字。
关于第2点,baidu和Gооgle有所不同,Gооgle是提取你的meta
descrīption,如果没有查询关键字相关的512个字节,而百度是直接提取后者。湖北网页设计www.juchi.cc提醒这一点大家使用过的都有所体会。