开云(中国)Kaiyun
首 页(yè) APP开发(fā) 网站建设 微信开发 解决方案(àn) 公司动态 联系我(wǒ)们
企(qǐ)业数(shù)字化的引领(lǐng)者 咨(zī)询服务(wù)热(rè)线:0371-63716361
开云和泛古动态
优化常识(shí)
常见(jiàn)问题
建站(zhàn)知识(shí)
设计心得
WAP建站百科
手(shǒu)机建站(zhàn)行业资(zī)讯(xùn)
首(shǒu)页轮播
首页轮播手机站(zhàn)
郑州网站建设
联系我们
常(cháng)见问题(tí)
经(jīng)典案例
Google是如何(hé)收录及(jí)排(pái)序网页的
我们(men)遇到的最常见的问(wèn)题(tí)之一是“Google是如何判定哪个结果出现在搜索结果的前茅?”,Matt Cutts给我(wǒ)们简单地揭示了(le)如何抓取、收(shōu)录(lù)和给网(wǎng)页(yè)评级。

抓取(qǔ)和收录
当你看到出现在Google的搜索结(jié)果的(de)那个网页(yè)之前,Google在后(hòu)台已经做了(le)许多步骤。Google的第一步是抓取和收录互联网上的数十亿的(de)网(wǎng)页,这个工作时由Google的机器人Googlebot来完成(chéng)的,它浏览网络(luò)服(fú)务器抓(zhuā)取文(wén)件。 抓取的程序并不是漫无目的地在互联网(wǎng)上瞎逛,它访(fǎng)问服务器(qì)的(de)特定的网页,然后扫描(miáo)网页上的超文本链接,如果有新的文件也是这样抓取(qǔ)得(dé);蜘蛛程序给(gěi)每个(gè)得(dé)到(dào)的网页一(yī)个号码,这个号码指向它抓取的网页。

蜘蛛程序抓取了很多的网页(yè),但这(zhè)些网页还不是便于搜索的(de)。如果(guǒ)没有一个索引,你(nǐ)要查(chá)询一(yī)个词,比如“国(guó)内战(zhàn)争”,Google的服(fú)务器每次都要读取每一个文件的所有内容。

因此,第二步就是建立索(suǒ)引。我们(men)不(bú)是去扫描每一(yī)个文件的所有内容,我们巧(qiǎo)妙地(dì)进(jìn)行数据的“转换(huàn)”,列出每一个(gè)文件(jiàn)所包含(hán)的特(tè)定的词,例如,“国内(nèi)”这个词可(kě)能(néng)出现(xiàn)在(zài)文件(jiàn)3,8,22,56,68和92当中,而“战(zhàn)争”这个(gè)词出现在文件2,8,15,22,68和77中。

建立好索引之后(hòu),我们就可以开始对网页进(jìn)行评级,决(jué)定网页的相(xiàng)关程(chéng)度。假设有人在Google的(de)搜索栏(lán)输入“国(guó)内战争”进(jìn)行查询,为了提交搜索结果和对结果进行(háng)评分,我们要做两件事:

1. 找(zhǎo)到包含用户查询的词的(de)网页
2. 给符(fú)合的网页按照相关程(chéng)度进行(háng)评级
Google开发出一个有趣的技巧来加(jiā)速第一步:Google不是把整个(gè)索引存(cún)储在(zài)一台功能强大的计算机上,而是用千百个计算机来存储这些信息。因(yīn)为任务被(bèi)分解到许(xǔ)多的计(jì)算机,可以更快地(dì)找到(dào)所(suǒ)需(xū)的答案(àn)。 详(xiáng)细解释一下,假设一本书(shū)的目录(lù)有30页,如(rú)果一个人要在目录中查寻资料,每次查(chá)询都要花几秒钟;如(rú)果用30个人每人查询(xún)一页目录,显然要比(bǐ)一个(gè)人查询(xún)的速度快很多。同样的,Google将数据分别(bié)存(cún)储(chǔ)在许多(duō)计算机上,这样搜索的速度会大大加快。

我(wǒ)们是如何找到那些包含用户(hù)搜索的词的网页呢?回到(dào)“国内战争”的例子,“国内”这个词出现(xiàn)在(zài)文件3,8, 22, 56, 68 和92; “战争(zhēng)”出现(xiàn)在文件2, 8, 15, 22, 68和77,记下同(tóng)时出(chū)现这两个(gè)词的文件。

国内 3 8 22 56 68 92
战争 2 8 15 22 68 77
国内 战争 8 22 68

这样我们可以清楚地(dì)发现“国内”、“战争”这两个词同时出现的(de)在三个文件里 (8, 22, 和68)。 含有这几个字(zì)的列表叫做“位(wèi)置(zhì)列表”,搜索文件包含这两个(gè)字,这叫做(zuò)交叉搜索位置列表。(较快的(de)交叉搜索的方(fāng)法(fǎ)是(shì)同时进行搜索,如果一个搜索列表,22到68,那另一个就(jiù)可以开(kāi)始(shǐ)搜索其他的)
对(duì)结果进(jìn)行评级
现在我(wǒ)们已(yǐ)经有了一些包(bāo)含用户搜索的关键词的网页,我们要对它们的(de)相关程度进(jìn)行评级(jí)。Google用许多参数进行评级。这当中PR算法是众所周知的(de)。PageRank评估两个因素:有多(duō)少个网页链接到这个网页,这些链接网页的(de)网站的质量如(rú)何。通过PageRank,五六个高质量的站点的链接,比如www.cnn.com和www.nytimes.com比其他较差的网站的链接(jiē)要有价值的多。

但(dàn)是除了(le)PageRank,我们还用许多其它的参数来进行(háng)评(píng)级。例如,如果一个文件包(bāo)含“国内”和“战争”这两个词排在一起,这个文件可能比一个讨论革命战争的文件(在文件的(de)某个地方使用“国内”)的相关(guān)程度高。还比如(rú)假设(shè)一个网页(yè)的标题是(shì)“国(guó)内(nèi)战争(zhēng)”,比(bǐ)另一个标题为“19世纪美国(guó)服装”的网页相(xiàng)关度高得多(duō)。同(tóng)样的,如果“国内战争”在网页(yè)中出(chū)现多次的网页比只出现(xiàn)一(yī)个(gè)的网页相(xiàng)关的(de)程度也要(yào)高。假设你是搜(sōu)索引擎,选择一(yī)个词查询,比如:国(guó)内战争或回收,在Google上查询(xún),从(cóng)结果(guǒ)中挑选三到四页打印出来。从每(měi)一张(zhāng)打印的页面上找出(chū)你的搜索语句的每一个字然后用荧光笔标出来,然后把这几页贴在墙上(shàng),退后几步眯(mī)着(zhe)眼看,当(dāng)你不知道页面的内(nèi)容,仅仅能(néng)看到那些有颜色的方块,你(nǐ)认为那(nà)一页是最相关的呢?是不是有着大的标题(tí)和(hé)多次重复出现的颜色代表了较高的相关程度?你喜(xǐ)欢这些(xiē)字(zì)出现在顶(dǐng)端还(hái)是底部?这些字出现的频率(lǜ)如何?这也(yě)是(shì)搜索(suǒ)引擎如何判断网页的相关程度。

原则上,Google总是试(shì)图找出可靠的和相关的网页。如果两个网页按照查询(xún)的语(yǔ)句大(dà)致有相同(tóng)的信息(xī),Google通(tōng)常选择比较信得过的(de)网站的(de)网页。当(dāng)然,如果有一些因(yīn)素表(biǎo)明这(zhè)个网站的(de)网页相关度更高,Google经常也选(xuǎn)择(zé)PageRank较低的(de)网站。

一旦Google完成了文件的列(liè)表和它们的评分,就给出得(dé)分最高的网页。Google同时从网页中摘(zhāi)录一小段(duàn)包(bāo)含查询的关键词的句子(zǐ);给出网页的链(liàn)接。

对于这样(yàng)的搜索工(gōng)作,需要极大的数(shù)据运算量,一般(bān)说来,对(duì)于某(mǒu)个搜索,要(yào)有超过500台的服务器协同工作以求(qiú)得最佳(jiā)匹配(pèi)的结果,当(dāng)然,结果会在半秒(miǎo)内返回用户。
如有任何疑问请联系(xì)我们,我们7*24小时竭诚为您服务!
0371-63716361
郑州开云和泛古软件 开云(中国)Kaiyun

主营业务(wù): 【APP开发(fā)】 【软件系统(tǒng)开发】 【移动应用开发】 【高(gāo)端网站建设(shè)】 【网络营销】 【微信(xìn)营销】 【微信系统开发】
业(yè)务咨询:0371-63716361 15638856138
公(gōng)司地址:郑州 二(èr)七区 航海中路(lù)升龙(lóng)城·二七中心A座10楼1009-1010(航海路与兴华南(nán)街交叉口(kǒu)西北角(jiǎo))
郑(zhèng)州(zhōu)开云和泛古软(ruǎn)件科技有限公司 版权所有(yǒu) © 2009-2022 豫(yù)ICP备(bèi)14028268号(hào)  
留言反馈 | 了解泛(fàn)古(gǔ) | 联系开云和泛古 | 站点地图    

开云(中国)Kaiyun
开云(中国)Kaiyun 客户咨询:
  在线客服
  在线(xiàn)客服(fú)
开云(中国)Kaiyun 售后服(fú)务(wù):
  售后服务
  客户投诉(sù)
开云(中国)Kaiyun 在线时间:
8:30-18:30
在线(xiàn)留言反馈(kuì)
在线(xiàn)咨询
经济型(xíng)网(wǎng)站
 立即拥有