爬虫进阶scrapy抓取的相关内容

文章 2018-09-03 来自：开发者社区

爬虫进阶：Scrapy抓取科技平台Zealer

开篇这次的目标网站也是本人一直以来有在关注的科技平台：Zealer，爬取的信息包括全部的科技资讯以及相应的评论。默认配置下运行，大概跑了半个多小时，最终抓取了5000+的资讯以及10几万的评论。 Zealer Media 说明及准备开发环境：Scrapy、Redis、PostgreSQL 数据库表：tb_zealer_series、tb_zealer_media、tb_zea...

文章 2018-09-02 来自：开发者社区

爬虫进阶：Scrapy抓取慕课网

前言 Scrapy抓取慕课网免费以及实战课程信息，相关环境列举如下： scrapy v1.5.1 redis psycopg2 (操作并保存数据到PostgreSQL) 数据表完整的爬虫流程大致是这样的：分析页面结构 -> 确定提取信息 -> 设计相应表结构 -> 编写爬虫脚本 -> 数据保存入库；入库可以选择mongo这样的文档数据库，也可以选择mysql...