蜘蛛爬虫的原理和作用

九命猫 1个月前已收到1个回答举报

共回答了319个问题采纳率：92.9% 评论

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫.网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。　　相对于通用网络爬虫，聚焦爬虫还需要解决三个主要问题：　　(1)对抓取目标的描述或定义；　　(2)对网页或数据的分析与过滤；　　(3)对URL的搜索策略。　　抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。

17小时前

可能相似的问题

个人爬虫是什么意思

墨染青衣颜

查看 530

回答 2
蠕虫和爬虫的区别

脸好美

查看 77

回答 3
锦绣未央具体播出时间是

喜爱颓废

查看 334

回答 1
什么是网络爬虫

无爱一声轻

查看 91

回答 1
网络爬虫是什么意思

温玉碧竹

查看 10

回答 2
网络爬虫是什么意思

乞讨温柔

查看 340

回答 1
敦煌朗读者背景音乐

夫妻相呐誰

查看 690

回答 3
锦绣未央演员表介绍陈倩

想你好想你

查看 138

回答 1
千年敦煌原唱

活的很烦

查看 88

回答 1
敦煌飞天舞用什么样的背景音乐更好

血涩麒麟

查看 19

回答 1

猜你喜欢的问题

热门问题推荐

怎样去除拖鞋气味

1个月前5个回答
水果上的那个把子专业名称叫什么

3个月前3个回答
涮烤一体锅怎么样

2个月前2个回答
古代三载是什么意思

1个月前3个回答
捷达vs5怎么断电消故障

1个月前1个回答
元宵节点属相灯的讲究

1个月前1个回答
兵临城下二战转折点

3个月前2个回答
超级宝贝jojo伦敦大桥第几集

1个月前2个回答
台儿庄战役是抗日时期重要战役吗

1个月前6个回答