从98年我使用Google起就一直对它抱有非常大的信心,看到今天google的规模和技术,感觉到高兴又有一些失望,因为5,6年过去了,google的新技术越来越少了,能让我感觉到兴奋的东西越来越稀有,虽然我每天还是依靠google来查询资料,不过,google的确应该淡出搜索舞台了。
在我准备正式进军搜索引擎市场之前,我希望写一系列的文章来表明我的观点和一些研究的技术(当然最新的技术我是不会在这里说出来的,但是就这里要谈到的技术也足够让google噎死。呵呵,开个玩笑,别当真)
1】网络搜索引擎
网络搜索引擎主要由网络机器人(Robot)、索引数据库和查询服务三个部分组成。网络机器人对互联网资源进行遍历,尽可能多地发现并采集新的信息;采用全文检索技术对采集到的信息建立索引存到索引数据库中,能够极大地提高信息检索的速度;查询服务接收并分析用户的查询,即将用户查询作为数据库提问式,根据一定的的匹配策略,如布尔模型、模糊布尔模型等方法遍历索引数据库,最后将达到一定的匹配程度的结果(包括标题项,简单文摘和链接地址)集合返回给用户。
2】Google的爬虫
Robot有各种定义,google定义为googlebot,就是Google+Robot的意思。下面看一个爬虫的例子:
crawler11.googlebot.com - - [08/Jan/2004:04:04:54 -0600] "GET /blog/archives/000010.html HTTP/1.0" 200 8953 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"
在2004年一月八日,来自crawler11.googlebot.com的爬虫抓取了我老站「http://vbguru.dhs.org」里的/blog/archives/000010.html这样一个文档。
在HTTP-Agent部分,显示了Googlebot/2.1 是版本号。
通常一台高效能的crawler服务器,每天可以送出5000万只爬虫,我纪录到的送爬虫的服务器,从crawl1-crawl37,2003年十月以后,google将之更名为crawler1-crawler37,一共是37台。这样计算的结果是每天可以抓取网页20亿,不可谓不大。
这个是今天早上的爬虫爬网站的纪录:
crawler15.googlebot.com - - [12/Jan/2004:00:48:06 -0600] "GET / HTTP/1.0" 200 20780 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"