谷歌搜索算法

资料百科

谷歌算法始于来自PageRank,这是1997年拉里·佩奇(Larry P360百科age)在斯坦福大学读博士学位时开发的。佩奇的创新性想法是:把整个互联网复制到本地数据库,然后对网页上所有的链接进行分析。基于入链接的数量和重要性、及锚文本对网页的受欢迎程度进行评级,也就是通过网络的集体智慧确定哪些网站最有用。随着谷歌迅速成为互联网上最成功的搜索引擎,佩奇和谷歌的另一名创始人塞吉·布林(Sergey Brin)将PageRank这一简单概念看做谷歌的最根本创新。PageRank具有其优势,为带来高质量的搜索结果做出了贡献。但这种过度依靠外链分析单一算法也具有弊端,那就是很多站长采取作弊手法来增加网站的外链,因此网络上有很多垃圾外链。为了应对这种情况谷歌13年更新了其核心算法,那就是蜂鸟算法(Hummmingbird)。在此套算法中,PageRank仍旧起很大作用,但是已经不是唯一的排名机制!随着时间的推移,外链在排名中所起的作用将逐渐衰落!

  • 中文名称 谷歌搜索算法
  • 始于 PageRank
  • 时间 1997年
  • 人物 拉里·佩奇

算法简介

  谷歌搜索算法

  来自这是一个很普通的搜索,谷歌每天要处理成千上万济阻在顺号帝生触困临讨的这种搜索。但事实上这一搜索过程十分复杂,可能使一些搜索引擎误解。如果把这些单词输入到必应,第一个结果是美国国家橄榄球联盟的历年球员名单,其中有一个名叫Lawyer Milloy。搜索结果中的下面几页,也没有与律师Siwek相关的内容。

  这一对比显示出谷歌算法的强大,甚至可以说是智能,而这是通过反复的修正实现的。看起来谷歌拥有解读用户需求的神奇力量--不论是多么生僻的搜索,或是有拼写错误。谷歌将这种能力称为搜索质量,并且多年来一直竭力完善算法,以产生精确的搜索结果。

  2013年9月27日,谷歌公布已推出"蜂鸟"(Hummingbird)算法,彻底革新代替旧版搜索算法,以应对来自网络用360百科户更长、更复杂的查询。

算法创始

  但这并不是故事的全部。人们信赖PageRank是因为它是可以进行确认的升建家钟病未,但要提供最有用的结果还需要其他技术。这涉及对陆刘项而每答总某些信号、上下文的利用,这样对于任何查询搜索引擎都能将最有用的结果排在最前面。

背景知识

  网络搜索是一个多方过程。首先,谷歌机器人获取每个可访问来自网站的内容。这些数据将被分解成一个索引(通过文字进行组织,就像书本的目录),这样就可以根据内容找到任何页面。每当用户键入一个查询,谷歌就会在索引中搜寻相关页面,然后返回一个包含多达数百万页面的列表。最复杂的是对列表进行排序,也就是决定哪些页面应该出现在最上面。

 条井理敌叶旧除层香 此时,上下文便有了用武之地外停木论送啊切民了想皇。所有搜索引擎都会引入上下文,但没有一个像谷歌那样引入得那样多、应用那样自如。PageRank本身也是一个信号,同时也是页面的一个属性(指其相对于其他网页的重要性),该属性可以帮助确定其与查询内容的相关性,其中的一些信号在现在看来是显而易见的。

优化搜虽酸促作才川困赵氢叫

  一直以来,谷歌算法都对页面的标题给与特别的关注,因此标题成为确定相关性的重要信号。另一个重要技术是锚文本,指的是超链接中的360百科可见文本。因此, "当你进行搜判笑索时,搜索引擎总能给出正确的页面,即使该页面中没有你找的关键词。"这是谷歌早期架构师斯科特·哈桑(Scott Hassa)的观点,他曾与佩奇和布林一起在斯坦福工作。之后,搜索引擎关注的信号还包括新鲜度(对于一些查询,新近的页面比较早的页面更有价值)和地理位置(谷歌知道搜索者的大致地理坐标,会将本地信息排在前面)等。谷歌目前使用200多种信号来帮助确定搜索结果的排序。

  谷歌工程师发现,一些最重要的信号可能来自谷歌本身。PageRank将受欢迎程度植入余王了搜索引擎:成千上万的网站民主地决定将链接指向哪些网站。但辛格表示,谷服异存流团所压受突花歌工程师还利用了另一种民主 --成千上万使用谷歌搜索的用户。用户在搜索过程中产生的数据被证明同样很有价值,这些数据包括他们点击名第氢的若证似哪些结果、不满意时对关键词的更改、查询关键词与所处地理位置的关系等。这一过程的最直接例子就是谷歌所说的"个性化搜索"--这是一个可选功能,利用用户的搜索历史和地理位置来确定他想要找的内容(使用这项功能需要先登录谷信些固刚成令达它副加歌账号)。更通常的方法是,谷歌利用其收集的大量数据支持其算法,谷歌对此有极深的理解,可以解读隐秘查询的复杂意图。

识别语义

  谷歌以善于鼓励这些创新而闻名,每年公司都会举办"疯狂搜索创意"内部展示活动,以便鼓励那些离奇但有凯题应用潜力的创新。但大多数时候,改进的过程是充布线百标愿点格满艰辛的,需要矢志不金煤手械特采渝的精神,需要面对尝试过程中的打击。有一个不成功的搜索已经成践减初茶光物余卫架为传奇:2001年,辛格得知输入"audrey fino"时无法搜到预期内容,而只是返回一些赞扬奥黛丽·赫本(Audrey Hepburn)的印度网页,因为在印度语中"fino"是好的意思。辛格说:"我们知道audrey f座体甚作便留都球精ino是个人名,但我们的系统没这么聪明。"

  这一失败使辛格花了多年时间,批科试图改进谷歌对姓名的搜索结果--因为姓名占总搜索量高达8%。为了解决这一问题,他不得不掌握"bi-gram拆分",也就是将多个词分割成独立的单元。比如,"new york"合在一起组成一个b坐即要善晶李i-gram,指的是纽织供谈乱孙英班约。但也有三个字的情况,比如"new york times",意思是纽约时报,很明显二者指的仍州亲液航工不是同一样东西。如果用户输入的是"new york times square",意思又变成了纽约时代广场。人类可以很容易做出区分,而谷歌不是由人工控制的,它依靠的是算法。

  "Mike Siwek"这一搜索可以解释谷歌是如何解决这一问题的。辛格输入显示代码的命令后,我们就可以看到信号是如何决定搜索结果排序的:通过bi-gram可以确定mike siwek是一个人名,lawyer是一个同义词,mi是一个地名。辛格说:"从工程师的角度进行解构,系统会对这些词进行分割,它会发现lawyer不是姓氏,siwek不是中间名。同时lawyer也不是密歇根的一个镇,因此它是attorney的同义词。"

  这是谷歌从无数次搜索中获得的可贵知识。石头可以是"rock",可以是"stone",还可以是"boulder"(漂石)。如果用户输入"rokc",谷歌仍会知道他想找的是"rock"。但如果在"rokc"前加"little",谷歌则会知道这是"Arkansas"(阿肯色州)的首府。"Arkansas"的缩写是 "ark",与诺亚方舟同形,但谷歌会将二者区分开来。辛格说:"搜索中最重要的是理解用户的意图,因此你不是在匹配词语,而是在匹配意思。"

  谷歌一直在不断改进。近期,谷歌工程师莫琳·海曼斯(Maureen Heymans)发现了"Cindy Louise Greenslade"的搜索结果的问题。用户输入这些单词时,算法会认为应该找一个名叫Cindy Louise的人,于是在加利福尼亚的加登格罗夫市找到了一名心理学家,却没有把姓名为"Cindy Louise Greenslade"的人的网页放在结果的前十名。海曼斯发现,这是因为"Cindy Louise Greenslade"习惯将名字缩写成"Cindy L. Greenslade"。她表示:"我们的搜索引擎应该更聪明一点。"于是她增加了一个信号,用来寻找中间名的缩写。现在正确的结果已经被排在了第五位。

不断创新

  在任何时候,谷歌高效运转的测试系统都会进行几十个这种改进。谷歌在全世界专门雇佣了上百人,这些人坐在家里的电脑前判断更改后的结果是更好还是更差。但谷歌还有一个更大的测试团队,这就是成千上万的谷歌用户,他们不知不觉地加入了这项长期的质量实验。

  每当工程师想测试一项技术调整时,他们会在一小批随机用户中运行这些算法,而绝大多数的用户扮演的是参照组的角色。需要测试的更改太多,因此谷歌放弃了一次只测试一项技术调整的策略。搜索质量工程师帕特里克·赖利(Patrick Riley)表示:"在大多数搜索过程中,你同时都处于多个'实验组'和'参照组'之中。"但他随后又做出了更正:"事实上,所有搜索都被卷入了实验之中,因此用户每次用谷歌搜索,都作了一次'小白鼠'。"

  这种灵活性--增加信号、更改代码、立即测试的能力--就是谷歌团队为什么说他们可以应对来自必应、Twitter和Facebook的任何挑战的原因。事实上,在过去的六个月中,谷歌进行了200多项改进,其中一些似乎在模仿(但超越了)它的竞争对手(谷歌表示这只是巧合,称其多年来一直在增加新功能),其中之一就是实时搜索。

  佩奇数月前曾表示谷歌应该每一秒钟都搜索整个网络,因此使这一功能备受期待。当用户搜索具有时效性的话题时,谷歌结果页面的10个蓝色链接中会有一个"最新结果"框。该框带有拖动条,显示的是从新闻媒体、博客和Twitter等获得最新内容。同样,谷歌使用信号来确保最有用的tweet(Twitter上发布的消息)出现在实时信息框中。

  除了实时搜索,谷歌还引入了一项新功能,称作"Goggles"。该功能可以将用户手机上拍摄的照片视作搜索请求。谷歌一直努力将搜索变成一种随时随地的行为,"Goggles"也是该努力的一部分。有了摄像和语音识别功能,智能手机就会变成你的眼睛和耳朵。只要找到正确的信号,任何东西都可以变成搜索请求。

排名因素

  Google 排名 取决于以下各项,如果您的网站能够做到的话,在排名是有相当的位置的了。

  关键词:

  1.url中的关键词(第一和第二个字是最有价值的......)

  2.域名中的关键词(英文网站的优势)

  (Head部分)

  3.Title tag中的关键词及与页面正文的相关性(最佳长度为55个英文字符,包含空格等其他字符)

  4.Description tag的撰写,是否包含相关关键词及是否能很好的概述正文内容(最佳长度为155个英文字符,包含空格等其他符号。现在谷歌在搜索结果中不再完全依赖网页原有的title 及description,可根据搜索词摘取网页内容来自定义title及description)

  5.Keywords tag中的关键词(小于10个字,单个关键词必须在页面Body部分出现2次以上才有效,否则可能会被评估为Spam而受到处罚,官方曾说明说不再依据此参数评价,但其实仍在使用)

  (Body部分)

  6.关键词在Body文字部分的密度(5 - 20% - (all keywords/ total words))

  7.单个关键词密度(1 - 6% - (each keyword/ total words))

  8.在H1、H2、H3中的关键词(使用H1、H2、H3字体)

  9.关键词字体尺寸(使用黑体、粗体、斜体......)

  10.关键词接近度(2个关键词之间邻近的是最佳)

  11.关键词短语顺序

  (其他部分)

  12.关键词在Alt文字中(图形中的Alt属性)

  13.关键词在外部站点链接中(锚文本)

  导航-内部链接部分:

  14.内部页面的关键词(链接页面应该包含关键词)

  15.所有内部链接必须是有效的

  16.结构树(任何页面不超过4层深度链接)

  17.低级页面之间适当的链接

  导航-外部链接部分:

  18.外部页面的关键词(链接须指向优秀站点,不要链接frame)

  19.外部链接的锚文本(应该在此上展开主题和叙述)

  20.链接稳定性(避免链接随时变换)

  21.所有外部链接是有效的

  22.少于100个外部链接(官方称限制100个,实际容许2-3次2000个)

  页面上的其他因素:

  24.域名等级(.edu是最高等级,其次是.org,而.com由于包含很多spam信息,所以会受到严格审查)

  25.文件尺寸(页面尺寸绝对不要超过100K,小于40K的为最佳)

  26.URL中的连字符(1个或2个是最佳的,4个以上将被认为是spam,10个很可能被降级)

  27.页面更新率(对于新闻、零售、拍卖等站点更新越快越好)

  28.页面数量的更新率(老页面与新页面的比值)

  29.链接的的更新率(尚未能分析)

  30.更新频率(更新频率=蜘蛛的抓取频率)

  31.页面主题

  32.关键词衍生.....

  33.语义关联(同义词等...)

  34.潜在的语义索引

  35.URL长度(尽可能的小,在IE中只允许2000个字符以内,最好控制在100字符以内)

  36.站点大小(Google认为站点越大说明更大的资金支持、更好的组织、更好的架构,因此它会是好的站点)

  37.站点年龄(越老越好)

  38.页面的年龄与站点上其他页面的年龄排名不利因素(三)

  39.在图像的form中有文字描述,但Body中没真正的文字描述;

  40.镜像站点

  41.过度优化

  42.链接一个坏站点(不要链接frame....,定期检查每个外部链接站点在Google的状态)

  43.重定向或刷新metatags(除非用户点击,否则不要自动跳转页面)

  44.不要使用一些不文明的词汇

  45.毒药单词

  46.过多的横向链接(在你的WEB服务器中有多个站点,它们的横向链接会被视为无效的投票)

  47.图片、文字的反盗链

  48.关键词重复填充(降级处理)

  49.关键词稀释(页面存在过多的非相关关键词,将会降低你真实内容的重要性)

  50.页面内容编辑会降低一致性(定期会对老的cache与新的cache进行比对,如果发现关键词、主题变化了,

  将会影响它的评价,这是针对SEO的有效工具)

  51.内容改变频率( 过于频繁是不利的)

  52.锚文本更新率(过于频繁是不利的)

  53.动态页面(这是搜索引擎的缺陷,可采用缩短URL,减少变量等办法,最好不要使用动态页面)

  54.过多的JS代码(不要使用重定向和隐藏链接功能)

  55.Flash页面(搜索引擎的蜘蛛是不能抓取flash内容的,如果要用flash页面,须同时有一个静态入口页面)

  56.使用frame

  57.Robot中设置了"no index"的tag

  58.单个像素的链接(会被认为是一个鬼祟的链接)

  59.不可见的文字(文字与背景色相同,页面上不可见,但能被蜘蛛检索到)

  60.门页

  61.内容重复(通常选一个最老的推送到前面,把其他的推送下去)

  62.HTML代码需符合W3C标准

  目前,国内外的SEO都在研讨网站排名的要素,听说有一百多种。不过可以把握的技巧无非都是最根本的那几种。目前,只需你可以针对你的网站把以上的办法都做好,那么在google上得到一个好的排名应该是天经地义的事情

标签:
声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:yongganaa@126.com

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:yongganaa@126.com