1、搜索框
一切以任何人在网络上展开搜索为起点。任何关键词,比如:微码互联
2、域名服务器
Google域名服务器上的软件,运行于公司在全世界租用的或自有的数据中心上,其中包括在曼哈顿老港务局的一台电脑。它们唯一的目的,是计算出哪些集群此刻最不繁忙,以便尽可能高效的“指引”这些搜索进入Google的集群。
3、集群
这些搜索请求一刻不停地留入Google分布在全球的各地数据中心的至少200个集群中。
集群控制器,Google天赋表现在它的网络软件上,它能帮助一个集群中的成千上万台廉价的电脑像一个巨型硬盘一样工作。那些便宜的电脑允许Google在不停止整个“表演”的情况下替换局部组件:如果一台电脑死机了,至少有两台其他的电脑做好了替代它的准备,此间,工程师会把那台坏了的电脑换下。
4、网络服务器
这个程序把一个查询分摊给成千上万台机器,以便它们能在同一时刻为此次搜索服务。这种差异好比以前是你自己一个人去杂货店买东西,现在有100个人同时帮你找东西,然后把它扔到你的手推车里。
5、索引服务器
Google所以知道的一切都存储于一个巨大的数据库中。Google有上百台电脑同时扫描它的“卡片目录”以找到每一个相关的条目,而不是仅用一台电脑筛选这些十几亿的字节。热门的搜索词语会被缓此存储在内存中几个小时,而不是重新再搜索一遍。
6、档案服务器
在索引服务器把所有的结果汇编后,档案服务器抽出所有相关的文件---巨大的数据库里的链接和文章摘录。Google如何做到快速地搜索页面?其实它没有。Google在它已建立了索引的档案服务器中保存了三份互联网上的所有资料,这些资料都已经分门别类,做好了被使用的准备。
容量:基于一些Google发布的极有限的数据,专家猜测,Google服务器至少存储了20个perabytes的数据(1pb等于100万G)。不那么保守的《连线》杂志则说,Google可能有200个pb的容量。如果你的IPOD只有1perabytes,你就能存储大约2亿首歌。如果你要在高速互联网上下载1perabyte大小的东西,你的曾曾曾曾孙可能在2514年后一个字节传完时仍守在电脑左右。
7、拼写服务器
GOOGL并不阅读词汇。它寻找这些文字的模式,或者是英文或者是梵语。如果它根据你的搜索请求的模式得到1000个结果,但却找到一百万个由一个类似模式得到的结果,它会把这些点连接起来,并礼貌地询问你是否愿本想要查询这些词语,尽管你的肥手指可能把“对冲基金”错拼成“对葱基金”。
8、广告服务器
每一个查询都同时通过一个广告数据库,与之相匹配的数据会被送至页面服务器,以便它们能出现在搜索结果显示页。广告团队在跟搜索团队赛跑。Google立志尽可能提高搜索速度。如果广告匹配的结果所花费的时间比搜索结果用时更长,它就不会呈现在页面上,Google也就不能再此项搜索上赚到钱。
9、页面生成器
Google的页面服务器它对某一项查询的成千上万次搜索结果收集起来,组织所有的数据,然后把这些机灵而又简单的搜索结果呈现在你浏览器的窗口中,整个过程比你读这个局在所花的时间还要短。
10、显示结果
一般为0.25秒,或者更短。
Google机器人:
Google部署了一项称为蜘蛛(spiders)的项目,为的是建立它自己的互联网副本。在一些热门的网站,googlebot可能一小时内要跟踪若干次该网站的链接。每一次搜索,“蜘蛛们”就会把每一篇文章获带脉的每一个字都保存下来。原始数据将会被搜索集群中,穿过整个工厂,并且有计划地加速替换掉那些在索引服务器和档案服务器中的数据,从而保证搜索结果是新鲜的,而非静止的。
页面排序:
当GOOGLE形成了一个搜索结果清单时,通过对内容200多个因素分析,Google会决定一个网站有多可靠。这个网站的内容有多重要。Google方式的秘密是,它会通过每一个网站被其他不同网站链接的情况,对该网站的重要性做出评估,换言之,一个网站能否视为可靠,很大程度上取决于链接它的那些网站的质量。
电力:
只有一件事会限制Google的表现,那就是公司能买多少电。他最新的数据中心之一(编号:项目02)位于俄勒冈州的哥伦比亚河附近,这个数据中心使用着18亿瓦特低价的水力发电站的电。这并非偶然,这正是亚洲与美国网络的连接处。这个“字节工厂”有两个电脑中心,每一个都有一个足球场那么大。