谷歌搜索算法

2023-01-23 23:28:33 资料百科

谷歌算法始于来自PageRank，这是1997年拉里·佩奇(Larry P360百科age)在斯坦福大学读博士学位时开发的。佩奇的创新性想法是:把整个互联网复制到本地数据库，然后对网页上所有的链接进行分析。基于入链接的数量和重要性、及锚文本对网页的受欢迎程度进行评级，也就是通过网络的集体智慧确定哪些网站最有用。随着谷歌迅速成为互联网上最成功的搜索引擎，佩奇和谷歌的另一名创始人塞吉·布林(Sergey Brin)将PageRank这一简单概念看做谷歌的最根本创新。PageRank具有其优势，为带来高质量的搜索结果做出了贡献。但这备种过度依靠外链分析单一算法也具有弊端，那就是很多站长采取作弊攻手法来增加网站的外链，因此网络上有很多垃圾外链。为了应对这种情况谷歌13年更新了其核心算法，那就是蜂鸟算法(Hummmingbird)。在此套算法中，PageRank仍旧起研很大作用，但是已经不是唯一的排名机制!随着时间的推移，外链在排名中所起的作用将逐渐衰落!

中文名称谷歌搜索算法
始于 PageRank
时间 1997年
人物拉里·佩奇

算法简介

　　谷歌搜索算法

　　来自这是一个很普通的搜索，谷歌每天要处理成千上万济阻在顺号帝生触困临讨的这种搜索。但事实上这一搜索过程十分复杂，可能使一些搜索引擎误解。如果把这些单词输入到必应，第一个结果是美国国家橄榄球联盟的历年球员名单，其中有一个名叫Lawyer Milloy。搜索结果中的下面几页，也没有与律师Siwek相关的内容。

　　这一对比显示出谷歌算法的强大，甚至可以说是智能，而这是通过反复的修正实现的。看起来谷歌拥有解读用户需求的神奇力量--不论是多源么生僻的搜索，或是有拼写错误。谷歌将这种能力称为搜索质量，并且多年来一直竭力完善算法，以产生精确的告搜索结果。

　　2013年9月27日，谷歌公布已推出"蜂鸟"(Hummingbird)算法，彻底革新代替旧版搜索算法，以应对来自网络用360百科户更长、更复杂的查询。

算法创始

　　但这并不是故事的全部。人们信赖PageRank是因为它是可以进行确认的升建家钟病未，但要提供最有用的结果还需要其他技术。这涉及对陆刘项而每答总某些信号、上下文的利用，这样对于任何查询，搜索引擎都能将最有用的结果排在最前面。

背景知识

　　网络搜索是一个多方过程。首先，谷歌机器人获取每个可访问来自网站的内容。这些数据将被分解成一个索引(通过文字进行组织，就像书本的目录)，这样就可以根据内容找到任何页面。每当用户键入一个查询，谷歌就会在索引中搜寻相关页面，然后返回一个包含多达数百万页面的列表。最复杂的是对列表进行排序，也就是决定哪些页面应该出现在最上面。

　条井理敌叶旧除层香　此时，上下文便有了用武之地外停木论送啊切民了想皇。所有搜索引擎都会引入上下文，但没有一个像谷歌那样引入得那样多、应用那样自如。PageRank本身也是一个信号，同时也是页面的一个属性(指其相对于其他网页的重要性)，该属性可以帮助确定其与查询内容的相关性，其中的一些信号在现在看来是显而易见的。

优化搜虽酸促作才川困赵氢叫索

　　一直以来，谷歌算法都对页面的标题给与特别的关注，因此标题成为确定相关性的重要信号。另一个重要技术是锚文本，指的是超链接中的360百科可见文本。因此， "当你进行搜判笑索时，搜索引擎总能给出正确的页面，即使该页面中没有你找的关键词。"这是谷歌早期架构师斯科特·哈桑(Scott Hassa)的观点，他曾与佩奇和布林一起在斯坦福工作。之后，搜索引擎关注的信号还包括新鲜度(对于一些查询，新近的页面比较早的页面更有价值)和地理位置(谷歌知道搜索者的大致地理坐标，会将本地信息排在前面)等。谷歌目前使用200多种信号来帮助确定搜索结果的排序。

　　谷歌工程师发现，一些最重要的信号可能来自谷歌本身。PageRank将受欢迎程度植入余王了搜索引擎:成千上万的网站民主地决定将链接指向哪些网站。但辛格表示，谷服异存流团所压受突花歌工程师还利用了另一种民主 --成千上万使用谷歌搜索的用户。用户在搜索过程中产生的数据被证明同样很有价值，这些数据包括他们点击名第氢的若证似哪些结果、不满意时对关键词的更改、查询关键词与所处地理位置的关系等。这一过程的最直接例子就是谷歌所说的"个性化搜索"--这是一个可选功能，利用用户的搜索历史和地理位置来确定他想要找的内容(使用这项功能需要先登录谷信些固刚成令达它副加歌账号)。更通常的方法是，谷歌利用其收集的大量数据支持其算法，谷歌对此有极深的理解，可以解读隐秘查询的复杂意图。

识别语义

　　谷歌以善于鼓励这些创新而闻名，每年公司都会举办"疯狂搜索创意"内部展示活动，以便鼓励那些离奇但有凯题应用潜力的创新。但大多数时候，改进的过程是充布线百标愿点格满艰辛的，需要矢志不金煤手械特采渝的精神，需要面对尝试过程中的打击。有一个不成功的搜索已经成践减初茶光物余卫架为传奇:2001年，辛格得知输入"audrey fino"时无法搜到预期内容，而只是返回一些赞扬奥黛丽·赫本(Audrey Hepburn)的印度网页，因为在印度语中"fino"是好的意思。辛格说:"我们知道audrey f座体甚作便留都球精ino是个人名，但我们的系统没这么聪明。"

　　这一失败使辛格花了多年时间，批科试图改进谷歌对姓名的搜索结果--因为姓名占总搜索量高达8%。为了解决这一问题，他不得不掌握"bi-g水ram拆分"，也就是将多个词分割成独立的单元。比如，"new york"合在一起组成一个b坐即要善晶李i-gram，指的是纽织供谈乱孙英班约。但也有三个字的情况，比如"new york times"，意思是纽约时报，很明显二者指的仍州亲液航工不是同一样东西。如果用户输入的是"new york times square"，意思又变成了纽约时代广场。人类可以很容易做出区分，而谷歌不是由人工控制的，它依靠的是算法。

　　"Mike Siwek"这一搜索可以解释谷歌是如何解决这一问题的。辛格输入显示代码的命令后，我们就可以看到信号是如何决定搜索结果排序的:通过bi-gram可以确定mike siwek是一个人名，lawyer是一个同义词，mi是一个地名。辛格说:"从工程师的角度进行解构，系统会对这些词进行分割，它会发现lawyer不是姓氏，siwek不是中间名。同时lawyer也不是密歇根的一个镇，因此它是attorney的同义词。"

　　这是谷歌从无数次搜索中获得的可贵知识。石头可以是"rock"，可以是"stone"，还可以是"boulder"(漂石)。如果用户输入"rokc"，谷歌仍会知道他想找的是"rock"。但如果在"rokc"前加"little"，谷歌则会知道这是"Arkansas"(阿肯色州)的首府。"Arkansas"的缩写是 "ark"，与诺亚方舟同形，但谷歌会将二者区分开来。辛格说:"搜索中最重要的是理解用户的意图，因此你不是在匹配词语，而是在匹配意思。"

　　谷歌一直在不断改进。近期，谷歌工程师莫琳·海曼斯(Maureen Heymans)发现了"Cindy Louise Greenslade"的搜索结果的问题。用户输入这些单词时，算法会认为应该找一个名叫Cindy Louise的人，于是在加利福尼亚的加登格罗夫市找到了一名心理学家，却没有把姓名为"Cindy Louise Greenslade"的人的网页放在结果的前十名。海曼斯发现，这是因为"Cindy Louise Greenslade"习惯将名字缩写成"Cindy L. Greenslade"。她表示:"我们的搜索引擎应该更聪明一点。"于是她增加了一个信号，用来寻找中间名的缩写。现在正确的结果已经被排在了第五位。

不断创新

　　在任何时候，谷歌高效运转的测试系统都会进行几十个这种改进。谷歌在全世界专门雇佣了上百人，这些人坐在家里的电脑前判断更改后的结果是更好还是更差。但谷歌还有一个更大的测试团队，这就是成千上万的谷歌用户，他们不知不觉地加入了这项长期的质量实验。

　　每当工程师想测试一项技术调整时，他们会在一小批随机用户中运行这些算法，而绝大多数的用户扮演的是参照组的角色。需要测试的更改太多，因此谷歌放弃了一次只测试一项技术调整的策略。搜索质量工程师帕特里克·赖利(Patrick Riley)表示:"在大多数搜索过程中，你同时都处于多个'实验组'和'参照组'之中。"但他随后又做出了更正:"事实上，所有搜索都被卷入了实验之中，因此用户每次用谷歌搜索，都作了一次'小白鼠'。"

　　这种灵活性--增加信号、更改代码、立即测试的能力--就是谷歌团队为什么说他们可以应对来自必应、Twitter和Facebook的任何挑战的原因。事实上，在过去的六个月中，谷歌进行了200多项改进，其中一些似乎在模仿(但超越了)它的竞争对手(谷歌表示这只是巧合，称其多年来一直在增加新功能)，其中之一就是实时搜索。

　　佩奇数月前曾表示谷歌应该每一秒钟都搜索整个网络，因此使这一功能备受期待。当用户搜索具有时效性的话题时，谷歌结果页面的10个蓝色链接中会有一个"最新结果"框。该框带有拖动条，显示的是从新闻媒体、博客和Twitter等获得最新内容。同样，谷歌使用信号来确保最有用的tweet(Twitter上发布的消息)出现在实时信息框中。

　　除了实时搜索，谷歌还引入了一项新功能，称作"Goggles"。该功能可以将用户手机上拍摄的照片视作搜索请求。谷歌一直努力将搜索变成一种随时随地的行为，"Goggles"也是该努力的一部分。有了摄像和语音识别功能，智能手机就会变成你的眼睛和耳朵。只要找到正确的信号，任何东西都可以变成搜索请求。

排名因素

　　Google 排名取决于以下各项，如果您的网站能够做到的话，在排名是有相当的位置的了。

　　关键词:

　　1.url中的关键词(第一和第二个字是最有价值的......)

　　2.域名中的关键词(英文网站的优势)

　　(Head部分)

　　3.Title tag中的关键词及与页面正文的相关性(最佳长度为55个英文字符，包含空格等其他字符)

　　4.Description tag的撰写，是否包含相关关键词及是否能很好的概述正文内容(最佳长度为155个英文字符，包含空格等其他符号。现在谷歌在搜索结果中不再完全依赖网页原有的title 及description，可根据搜索词摘取网页内容来自定义title及description)

　　5.Keywords tag中的关键词(小于10个字，单个关键词必须在页面Body部分出现2次以上才有效，否则可能会被评估为Spam而受到处罚，官方曾说明说不再依据此参数评价，但其实仍在使用)

　　(Body部分)

　　6.关键词在Body文字部分的密度(5 - 20% - (all keywords/ total words))

　　7.单个关键词密度(1 - 6% - (each keyword/ total words))

　　8.在H1、H2、H3中的关键词(使用H1、H2、H3字体)

　　9.关键词字体尺寸(使用黑体、粗体、斜体......)

　　10.关键词接近度(2个关键词之间邻近的是最佳)

　　11.关键词短语顺序

　　(其他部分)

　　12.关键词在Alt文字中(图形中的Alt属性)

　　13.关键词在外部站点链接中(锚文本)

　　导航-内部链接部分:

　　14.内部页面的关键词(链接页面应该包含关键词)

　　15.所有内部链接必须是有效的

　　16.结构树(任何页面不超过4层深度链接)

　　17.低级页面之间适当的链接

　　导航-外部链接部分:

　　18.外部页面的关键词(链接须指向优秀站点，不要链接frame)

　　19.外部链接的锚文本(应该在此上展开主题和叙述)

　　20.链接稳定性(避免链接随时变换)

　　21.所有外部链接是有效的

　　22.少于100个外部链接(官方称限制100个，实际容许2-3次2000个)

　　页面上的其他因素:

　　24.域名等级(.edu是最高等级，其次是.org，而.com由于包含很多spam信息，所以会受到严格审查)

　　25.文件尺寸(页面尺寸绝对不要超过100K，小于40K的为最佳)

　　26.URL中的连字符(1个或2个是最佳的，4个以上将被认为是spam，10个很可能被降级)

　　27.页面更新率(对于新闻、零售、拍卖等站点更新越快越好)

　　28.页面数量的更新率(老页面与新页面的比值)

　　29.链接的的更新率(尚未能分析)

　　30.更新频率(更新频率=蜘蛛的抓取频率)

　　31.页面主题

　　32.关键词衍生.....

　　33.语义关联(同义词等...)

　　34.潜在的语义索引

　　35.URL长度(尽可能的小，在IE中只允许2000个字符以内，最好控制在100字符以内)

　　36.站点大小(Google认为站点越大说明更大的资金支持、更好的组织、更好的架构，因此它会是好的站点)

　　37.站点年龄(越老越好)

　　38.页面的年龄与站点上其他页面的年龄排名不利因素(三)

　　39.在图像的form中有文字描述，但Body中没真正的文字描述;

　　40.镜像站点

　　41.过度优化

　　42.链接一个坏站点(不要链接frame....，定期检查每个外部链接站点在Google的状态)

　　43.重定向或刷新metatags(除非用户点击，否则不要自动跳转页面)

　　44.不要使用一些不文明的词汇

　　45.毒药单词

　　46.过多的横向链接(在你的WEB服务器中有多个站点，它们的横向链接会被视为无效的投票)

　　47.图片、文字的反盗链

　　48.关键词重复填充(降级处理)

　　49.关键词稀释(页面存在过多的非相关关键词，将会降低你真实内容的重要性)

　　50.页面内容编辑会降低一致性(定期会对老的cache与新的cache进行比对，如果发现关键词、主题变化了，

　　将会影响它的评价，这是针对SEO的有效工具)

　　51.内容改变频率( 过于频繁是不利的)

　　52.锚文本更新率(过于频繁是不利的)

　　53.动态页面(这是搜索引擎的缺陷，可采用缩短URL,减少变量等办法，最好不要使用动态页面)

　　54.过多的JS代码(不要使用重定向和隐藏链接功能)

　　55.Flash页面(搜索引擎的蜘蛛是不能抓取flash内容的，如果要用flash页面，须同时有一个静态入口页面)

　　56.使用frame

　　57.Robot中设置了"no index"的tag

　　58.单个像素的链接(会被认为是一个鬼祟的链接)

　　59.不可见的文字(文字与背景色相同，页面上不可见，但能被蜘蛛检索到)

　　60.门页

　　61.内容重复(通常选一个最老的推送到前面，把其他的推送下去)

　　62.HTML代码需符合W3C标准

　　目前，国内外的SEO都在研讨网站排名的要素，听说有一百多种。不过可以把握的技巧无非都是最根本的那几种。目前，只需你可以针对你的网站把以上的办法都做好，那么在google上得到一个好的排名应该是天经地义的事情

点击展开全文

标签：

声明：此文信息来源于网络，登载此文只为提供信息参考，并不用于任何商业目的。如有侵权，请及时联系我们：yongganaa@126.com

评论留言

我要留言

昵称：*

邮箱：

网址：

验证码*

内容：

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。