天富娱乐登录体育真人

首页Python+大数据技术文章正文

天富娱乐登录网页版优优平台电话【Python技术文章】

更新时间:2021年06月09日14时52分来源:传智教育浏览次数:

传智教育-一样的教育，不一样的品质

根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种。通用爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分，主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。聚焦爬虫，是“面向特定主题需求”的一种网络爬虫程序。接下来，就对这两种爬虫分别进行介绍。

1. 通用爬虫

通用爬虫又称全网爬虫（Scalable Web Crawler），它将爬取对象从一些种子 URL扩充到整个Web上的网站，主要用途是为门户站点搜索引擎和大型Web服务提供商采集数据。

这类网络爬虫的爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低，同时由于待刷新的页面太多，通常采用并行工作方式，但需要较长时间才能刷新一次页面。

2. 聚焦爬虫

聚焦爬虫（Focused Crawler），又称主题网络爬虫（Topical Crawler），是指选择性地爬行那些与预先定义好的主题相关的页面的网络爬虫。

和通用爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，从而极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好地满足一些特定人群对特定领域信息的需求。

猜你喜欢：

多线程爬虫是什么？多线程爬虫流程分析

Python爬虫支持的网页解析技术有哪些？

【Python面经题】爬虫数据为什么选择Mongodb存储？

传智教育python+大数据开发培训

上一篇：Scrapy框架的运行流程详解 下一篇：数据仓库的结构，数据仓库各部分详细介绍

天富娱乐注册官网平台

天富娱乐注册注册网站

0 分享到：

javaee

python

web

design

cloud

test

c

netmarket

pm

Linux

movies

robot

uids

Python

jdbc

北京校区

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

天富娱乐登录官方入口

首页|校区分布|师资力量| 关于我们| 报名流程

常见问题|技术资讯

江苏天富娱乐注册股份有限公司版权所有
Copyright 2006-2023, All Rights Reserved

在线咨询我要报名

和我们在线交谈！