基于网页内容的专用辨别方法。因为基于网页内容的作弊方法多种多样,非常难找到一种通用的辨别方法,所以通常是针对某种作弊方法设计某种专用的辨别办法。 针对关键字堆砌和搜索结果摘要抄袭种类垃圾网页,可以考虑其与正常网页在某些内容特点上的不同,比如最为明显的是内容可视比率和内容压缩比率。 一般垃圾网页的内容可视比率和内容压缩比率比正常网页都要高不少。此外,超链接的比率、标点符号的比率、助词的词频等这类指标也可以作为辨别垃圾网页的特点。