搜索引擎的基本结构之爬虫、蜘蛛和机器人
上次说到查询界面,今天了解一下搜索引擎基本结构的爬虫方面知识。
查询界面是用户唯一能看到的搜索引擎组件。搜索引擎的其他部分都隐藏在后台,就算开天都有在用搜索引擎的人也看不到。藏在幕后的部分并不重要,恰恰相反,这些看不到的部分才是搜索引擎最重要的部分。
关于爬虫、蜘蛛和机器人的深入探讨将会在将来作详细说明。
如果对互联网有所了解,那就应该听说过蜘蛛、爬虫以及机器人。这些小东西在互联网上抓取网页,并将其整理成可以搜索的数据。从基本原理来说,这三种程序–爬虫、蜘蛛和机器人都是一样的。它们都是逐个地“收集”每个URL的信息。
这些信息按照URL的位置进行整理,并存放到数据库中。当用户在搜索引擎中进行查询时,就会搜索数据库中相关信息,并将搜索结果返回给用户。上海SEO上次介绍数据库相关,期待下次。
- Unique Post
您必须登录 后才能发表评论.