教育行业A股IPO第一股(股票代码 003032)

全国咨询/投诉热线:400-618-4000

天富娱乐登录网页版 优优平台电话【Python技术文章】

更新时间:2021年06月09日14时52分 来源:传智教育 浏览次数:

传智教育-一样的教育,不一样的品质

根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种。通用爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。聚焦爬虫,是“面向特定主题需求”的一种网络爬虫程序。接下来,就对这两种爬虫分别进行介绍。

1. 通用爬虫

通用爬虫又称全网爬虫(Scalable Web Crawler),它将爬取对象从一些种子 URL扩充到整个Web上的网站,主要用途是为门户站点搜索引擎和大型Web服务提供商采集数据。

这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。

2. 聚焦爬虫

聚焦爬虫(Focused Crawler),又称主题网络爬虫(Topical Crawler),是指选择性地爬行那些与预先定义好的主题相关的页面的网络爬虫。

和通用爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,从而极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。



猜你喜欢:

多线程爬虫是什么?多线程爬虫流程分析

Python爬虫支持的网页解析技术有哪些?

【Python面经题】爬虫数据为什么选择Mongodb存储?

传智教育python+大数据开发培训

0 分享到:
和我们在线交谈!