精通Python网络爬虫:核心技术、框架与项目实战.1.1 初识网络爬虫
摘要 网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。此时,我们可以使用网络爬虫对数据信息进行自动采集,比如应用于搜索引擎中对站点进行爬取收录,应用于数据分析与挖掘中对数据进行采集,应用于金融分析中对金融数据进行采集,除此之外,还可以将网络爬虫应用于舆情监测与.....
《精通Python网络爬虫:核心技术、框架与项目实战》——1.3 网络爬虫的组成
本节书摘来自华章出版社《精通Python网络爬虫:核心技术、框架与项目实战》一书中的第1章,第1.3节,作者 韦 玮,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.3 网络爬虫的组成 接下来,我们将介绍网络爬虫的组成。网络爬虫由控制节点、爬虫节点、资源库构成。 图1-1所示是网络爬虫的控制节点和爬虫节点的结构关系。 可以看到,网络爬虫中可以有多个控制节点,每个控制节点下可以...
《精通Python网络爬虫:核心技术、框架与项目实战》——1.2 为什么要学网络爬虫
本节书摘来自华章出版社《精通Python网络爬虫:核心技术、框架与项目实战》一书中的第1章,第1.2节,作者 韦 玮,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.2 为什么要学网络爬虫 在上一节中,我们初步认识了网络爬虫,但是为什么要学习网络爬虫呢?要知道,只有清晰地知道我们的学习目的,才能够更好地学习这一项知识,所以在这一节中,我们将会为大家分析一下学习网络爬虫的原因。 当然,....
《精通Python网络爬虫:核心技术、框架与项目实战》——第一篇 Part 1 理论基础篇 第1章 什么是网络爬虫 1.1 初识网络爬虫
本节书摘来自华章出版社《精通Python网络爬虫:核心技术、框架与项目实战》一书中的第1章,第1.1节,作者 韦 玮,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 第一篇 Part 1 理论基础篇 第1章 什么是网络爬虫 第2章 网络爬虫技能总览 网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行....
《精通Python网络爬虫:核心技术、框架与项目实战》——导读
前 言 为什么写这本书 网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中。在搜索引擎中,主要使用通用网络爬虫对网页进行爬取及存储。 随着大数据时代的到来,我们经常需要在海量数据的互联网环境中搜集一些特定的数据并对其进行分析,我们可以使用网络爬虫对这些特定的数据进行爬取,并对一些无关的数据进行过滤,将目标数据筛选出来。对特定的数据进行爬取的爬虫,我们将其称为聚焦网络爬虫。在大数据....
《精通Python网络爬虫:核心技术、框架与项目实战》——3.8 小结
本节书摘来自华章出版社《精通Python网络爬虫:核心技术、框架与项目实战》一书中的第3章,第3.8节,作者 韦 玮,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.8 小结 1)聚焦网络爬虫,由于其需要有目的地进行爬取,所以对于通用网络爬虫来说,必须要增加目标的定义和过滤机制,具体来说,此时,其执行原理和过程需要比通用网络爬虫多出3步,即目标的定义、无关链接的过滤、下一步要爬取的U....
《精通Python网络爬虫:核心技术、框架与项目实战》——3.7 实例——metaseeker
本节书摘来自华章出版社《精通Python网络爬虫:核心技术、框架与项目实战》一书中的第3章,第3.7节,作者 韦 玮,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.7 实例——metaseeker metaseeker是一款比较实用的网站数据采集程序,使用该采集程序,可以让大家比较快速、形象地了解爬虫的工作过程。所以在本节中,会以metaseeker为例,跟大家一起学习如何采集当当....
《精通Python网络爬虫:核心技术、框架与项目实战》——3.5 身份识别
本节书摘来自华章出版社《精通Python网络爬虫:核心技术、框架与项目实战》一书中的第3章,第3.5节,作者 韦 玮,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.5 身份识别 在爬虫对网页爬取的过程中,爬虫必然需要访问对应的网页,正规的爬虫一般会告诉对应网页的网站站长其爬虫身份。网站的管理员则可以通过爬虫告知的身份信息对爬虫的身份进行识别,我们称这个过程为爬虫的身份识别过程。 那....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。