文章 2018-09-03 来自:开发者社区

爬虫进阶:Scrapy抓取科技平台Zealer

开篇   这次的目标网站也是本人一直以来有在关注的科技平台:Zealer,爬取的信息包括全部的科技资讯以及相应的评论。默认配置下运行,大概跑了半个多小时,最终抓取了5000+的资讯以及10几万的评论。 Zealer Media 说明及准备   开发环境:Scrapy、Redis、PostgreSQL   数据库表:tb_zealer_series、tb_zealer_media、tb_zea...

文章 2018-09-02 来自:开发者社区

爬虫进阶:Scrapy抓取慕课网

前言   Scrapy抓取慕课网免费以及实战课程信息,相关环境列举如下: scrapy v1.5.1 redis psycopg2 (操作并保存数据到PostgreSQL) 数据表   完整的爬虫流程大致是这样的:分析页面结构 -> 确定提取信息 -> 设计相应表结构 -> 编写爬虫脚本 -> 数据保存入库;入库可以选择mongo这样的文档数据库,也可以选择mysql...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

大数据

大数据计算实践乐园,近距离学习前沿技术

+关注
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问