`
ihuashao
  • 浏览: 4561931 次
  • 性别: Icon_minigender_1
  • 来自: 济南
社区版块
存档分类
最新评论

中文搜索引擎技术揭密:网络蜘蛛(3)

阅读更多
网站与网络蜘蛛
网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。今年4月,淘宝网(http://www.taobao.com)就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务器的不稳定。网站是否就无法和网络蜘蛛交流呢?其实不然,有多种方法可以让网站和网络蜘蛛进行交流。一方面让网站管理员了解网络蜘蛛都来自哪儿,做了些什么,另一方面也告诉网络蜘蛛哪些网页不应该抓取,哪些网页应该更新。

每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User-agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider,Yahoo网络蜘蛛的标识为Inktomi Slurp。如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以及读了多少数据等等。如果网站管理员发现某个蜘蛛有问题,就通过其标识来和其所有者联系。下面是博客中国(http://www.blogchina.com)2004年5月15日的搜索引擎访问日志:


网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下,如:http://www.blogchina.com/robots.txt。网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单,例如如果对目录没有任何限制,可以用以下两行来描述:

User-agent: *

Disallow:

当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。

网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如: <meta content="“NOINDEX”" name="“ROBOTS”">表示本网页不需要被抓取,但是网页内的链接需要被跟踪。

关于Robots.txt的语法和META Tag语法,有兴趣的读者查看文献[4]

现在一般的网站都希望搜索引擎能更全面的抓取自己网站的网页,因为这样可以让更多的访问者能通过搜索引擎找到此网站。为了让本网站的网页更全面被抓取到,网站管理员可以建立一个网站地图,即Site Map。许多网络蜘蛛会把sitemap.htm文件作为一个网站网页爬取的入口,网站管理员可以把网站内部所有网页的链接放在这个文件里面,那么网络蜘蛛可以很方便的把整个网站抓取下来,避免遗漏某些网页,也会减小对网站服务器的负担。
分享到:
评论

相关推荐

    中文搜索引擎技术揭密:网络蜘蛛.

    中文搜索引擎技术揭密:网络蜘蛛.

    中文搜索引擎技术揭密:网络蜘蛛.rar

    中文搜索引擎技术揭密:网络蜘蛛.rar

    中文搜索引擎技术

    内含: 中文搜索引擎技术揭密:系统架构.doc 中文搜索引擎技术揭密:网络蜘蛛.doc 中文搜索引擎技术揭密:排序技术.doc 中文搜索引擎技术揭密:中文分词.doc

    搜索引擎技术揭密之搜索蜘蛛系列文摘

    搜索引擎技术揭密之搜索蜘蛛系列文摘 资源全部在网络收集 个人觉得很好 编辑整理共享之

    .net网络蜘蛛源程序及搜索引擎技术揭密

    .net网络蜘蛛源程序及搜索引擎技术揭密,很好的学习搜索引擎技术的例子和介绍。

    搜索引擎网络蜘蛛程序

    搜索引擎网络蜘蛛程序,Nutch,Lucene,Larbin,中文分词程序代码

    搜索引擎-网络蜘蛛-源码

    一个简单的网络蜘蛛Java源码,是用Applet实现的,所以压缩包中也包含了调用此Applet的html文件。只需编译此java源代码用此html文件调用即可。

    搜索引擎网络蜘蛛

    搜索引擎完整源码自带网络爬虫功能,spider网络爬虫+数据库+界面源代码

    网络蜘蛛及搜索引擎原理

    高性能网络机器人是新一代Web智能搜索引擎的核心,网络机器人是否高效直接影响搜索引擎的效能的发挥。对开发高性能网络机器人所涉及的关键技术和算法进行了详细地分析。最后,给出了程序的关键类,有助于工程的实际...

    搜索引擎-网络蜘蛛程序源代码

    分词技术 排序技术 搜索引擎-网络蜘蛛程序源代码 搜索引擎机器人研究报告 中文全文检索网_全文检索相关知识介绍

    阿西搜索引擎蜘蛛爬行统计系统 v2.0

    百度蜘蛛爬行跟踪统计.0版本新增功能:对比1.0版本,我们增加了其它搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,雅虎,Bing搜索引擎蜘蛛,能准确抓取并记录。 为了防止数据库占用空间,同时新增了清空...

    搜索引擎蜘蛛捕捉php版

    Spider是搜索引擎的一个自动程序。它的作用是访问互联网上的...搜索引擎的“蜘蛛”同一天会对某些网站或同一网页进行多次爬行,知道蜘蛛的运动规律,对于更新网页、了解搜索引擎收录的收录情况等等有相当重要的作用。

    贼狗搜索引擎v2.1商业版带蜘蛛本地采集程序

    贼狗搜索引擎v2.1商业版带蜘蛛本地采集程序

    商剑分布式网络蜘蛛(网络爬虫-spider)

    商剑分布式网络蜘蛛,性能高速运转,能耗尽全部带宽,可批量采集海量数据的网页,若几百台服务器安装商剑...更是搜索引擎-网络蜘蛛-网络爬虫-spider-网页抓取等技术的必备工具之一。http://www.100spider.cn/wspider.rar

    网络蜘蛛网络蜘蛛网络蜘蛛

    网络蜘蛛网络蜘蛛网络蜘蛛网络蜘蛛网络蜘蛛网络蜘蛛

    百度搜索引擎 蜘蛛技术

    鸟马自动链程序结合了自动链+搜索引擎技术。 强大的广告系统,竞价排名系统 中文分词,索引系统,蜘蛛技术 智能识别各种网页编码,减少了乱码出现的情况 智能导航系统,可自由地在后台修改导航信息 首页导航采用...

    搜索引擎蜘蛛访问日志查看器

    这个软件可以查看搜索引擎的蜘蛛访问记录,根据这些记录可以看到蜘蛛什么时候来访问过你的站,抓取了什么内容。 使用方法: ----插入asp页面调用 ----插入html页面JS调用 bot.mdb 记录数据库 访问 zhizhu.asp ...

    基于_网络蜘蛛原理_的搜索引擎技术剖析

    中文搜索引擎的查全率需保证不遗漏某些重要的结果,而且能找到最新的网页,这需要搜索引擎有一个强大的网页收集器(称为″网络蜘蛛″),一个优秀的搜索引擎,需要不断的优化网络蜘蛛的算法,提升其性能。...

    适合练手、课程设计、毕业设计的Java项目源码:网络爬虫(蜘蛛).rar

    适合练手、课程设计、毕业设计的Java项目源码:网络爬虫(蜘蛛).rar 适合练手、课程设计、毕业设计的Java项目源码:网络爬虫(蜘蛛).rar 适合练手、课程设计、毕业设计的Java项目源码:网络爬虫(蜘蛛).rar 适合练手、...

    用java做的网络蜘蛛搜索引擎

    网络蜘蛛 搜索引擎 这是一个用纯java代码的,输入一个网址后就可以搜索抓取网址,点击网址还可以打开网站。其中还用到树型结构的知识,很好很强大

Global site tag (gtag.js) - Google Analytics