Google的丧钟谁来敲响zt ::[Google 文学城

::[Google2004-05-08 15:53:24

从98年我使用Google起就一直对它抱有非常大的信心，看到今天google的规模和技术，感觉到高兴又有一些失望，因为5，6年过去了，google的新技术越来越少了，能让我感觉到兴奋的东西越来越稀有，虽然我每天还是依靠google来查询资料，不过，google的确应该淡出搜索舞台了。

在我准备正式进军搜索引擎市场之前，我希望写一系列的文章来表明我的观点和一些研究的技术（当然最新的技术我是不会在这里说出来的，但是就这里要谈到的技术也足够让google噎死。呵呵，开个玩笑，别当真）

1】网络搜索引擎
网络搜索引擎主要由网络机器人（Robot）、索引数据库和查询服务三个部分组成。网络机器人对互联网资源进行遍历，尽可能多地发现并采集新的信息；采用全文检索技术对采集到的信息建立索引存到索引数据库中，能够极大地提高信息检索的速度；查询服务接收并分析用户的查询，即将用户查询作为数据库提问式，根据一定的的匹配策略，如布尔模型、模糊布尔模型等方法遍历索引数据库，最后将达到一定的匹配程度的结果（包括标题项，简单文摘和链接地址）集合返回给用户。

2】Google的爬虫
Robot有各种定义，google定义为googlebot，就是Google+Robot的意思。下面看一个爬虫的例子：

crawler11.googlebot.com - - [08/Jan/2004:04:04:54 -0600] "GET /blog/archives/000010.html HTTP/1.0" 200 8953 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"

在2004年一月八日，来自crawler11.googlebot.com的爬虫抓取了我老站「http://vbguru.dhs.org」里的/blog/archives/000010.html这样一个文档。
在HTTP-Agent部分，显示了Googlebot/2.1 是版本号。

通常一台高效能的crawler服务器，每天可以送出5000万只爬虫，我纪录到的送爬虫的服务器，从crawl1-crawl37，2003年十月以后，google将之更名为crawler1-crawler37，一共是37台。这样计算的结果是每天可以抓取网页20亿，不可谓不大。

这个是今天早上的爬虫爬网站的纪录：
crawler15.googlebot.com - - [12/Jan/2004:00:48:06 -0600] "GET / HTTP/1.0" 200 20780 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"

继续阅读

Google的丧钟谁来敲响zt::[Google 2004-05-08 15:49:52 Google的丧钟谁来敲响zt::[Google 2004-05-08 15:47:45 Google的丧钟谁来敲响zt::[Google 2004-05-08 15:44:37 有谁知道DIRECTV天线在美国东部对的是哪颗卫星 2004-05-08 14:49:36 哭问，此IP来自哪里？跪谢！！ 2004-05-08 14:29:51 请教：那位能给个去除 spyware&adware 的好软件ukll2003 2004-05-08 13:47:44 我的REALONE 不工作了.重新安装后,还是不行,那位高手救命啊!救命~~~ 2004-05-08 13:32:41 下载难题，多谢大侠。。下载问题 2004-05-08 11:31:04 一个asp的问题aspusing 2004-05-08 10:58:32 诺顿企业版和个人版有什么区别?liadou2001 2004-05-08 10:34:49

同作者

Google的丧钟谁来敲响zt::[Google 2004-05-08 15:53:24 Google的丧钟谁来敲响zt::[Google 2004-05-08 15:49:52 Google的丧钟谁来敲响zt::[Google 2004-05-08 15:47:45 Google的丧钟谁来敲响zt::[Google 2004-05-08 15:44:37

Google的丧钟谁来敲响zt ::[Google2004-05-08 15:53:24