杭州SEO专用徐(xú)少辉要说的(de)是(shì):网页查重算法,也就是搜索(suǒ)引擎是怎(zěn)么检查两个网页的相似性的?这应该是大家应该比(bǐ)较关心(xīn)的问(wèn)题吧,因(yīn)为这有助于让你的“伪(wěi)原创(chuàng)”更像一个“原创(chuàng)”
首先我跟大家讲有名的I—MATCH算法。
我们在比较两件事物的(de)相似性时(shí),往往都会(huì)拿能均衡的反应(yīng)这事(shì)物本质的(de)东西来比较,就(jiù)像比赛时,要去除(chú)一个最高(gāo)分(fèn)和最低分,然后(hòu)再变算(suàn)总分(fèn)一样~~
I—MATCH算(suàn)法基于的依据是,在文挡中,特别高频的(de)词和特别低频的词无法(fǎ)反应这一个文挡的真实内容,所(suǒ)以在(zài)比较之(zhī)前,先(xiān)将文挡中高(gāo)频(pín)词和(hé)低频词去掉(注意(yì):这里(lǐ)的高频和低频指的是文(wén)档频率,并非关键(jiàn)词在你网页中的密度!)
我们来看一个例(lì)子(zǐ):
这里有两段网页文字:
1.中国足球队在米卢的率领下首次获得世界杯(bēi)决赛阶段的比(bǐ)赛资格,新浪体(tǐ)育(yù)播报 。
2.米卢率领中国足(zú)球队员首(shǒu)次杀入世(shì)界杯决(jué)赛阶(jiē)段(duàn),搜狐体育播报。(嘿嘿,看到这两句很熟(shú)吧?)
文档(dàng)(一)中去掉高频:中国,在,的,获(huò)得,比赛,资格,新(xīn)浪,体育,播报
去掉低频:米(mǐ)卢
则剩下中频词(cí)有(yǒu):足球队(duì),率领,首次,世界杯(bēi),决赛(sài),阶段(duàn)
文档(二)中去掉(diào)高(gāo)频:中国,搜狐,体育,播报
去(qù)掉低频:米卢,杀入(rù)
则剩下中频词有:率领,足球队(duì),首次(cì),世界(jiè)杯(bēi),决赛 ,阶段
看到了吧?剩下的(de),两者是一模一(yī)样(yàng) 这就是相似性的存在
呵呵,其实这(zhè)个例(lì)子很(hěn)早就(jiù)有过的。。
综上所述:搜索引擎要检(jiǎn)测相似(sì)性,主要就是要分词和词频的比较(jiào)!!
|