用Scrapy和Selenium爬取动态数据

1年前作者：爱吃雪糕的小布丁分类：Toy博客阅读(16)违法举报

这篇具有很好参考价值的文章主要介绍了用Scrapy和Selenium爬取动态数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

文章参考千锋教育大佬的课程：
https://www.bilibili.com/video/BV1QY411F7Vt?p=1&vd_source=5f425e0074a7f92921f53ab87712357b
，多谢大佬的课程

一、用Selenium操作谷歌浏览器，登录TB账号获取Cookie

因为TB网的搜索功能需要登录之后才能使用，所以我们要通过程序去控制浏览器实现登录功能，然后再获取登录之后的Cookie.
首先创建一个Chrome浏览器对象，用这个对象去操控谷歌浏览器：文章来源地址https://www.toymoban.com/news/detail-785139.html

import json
from selenium import webdriver

def create_chrome_driver(*, headless=

到了这里，关于用Scrapy和Selenium爬取动态数据的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Python小姿势 - Python爬取数据的库——Scrapy
Python爬取数据的库——Scrapy 一、爬虫的基本原理爬虫的基本原理就是模拟人的行为，使用指定的工具和方法访问网站，然后把网站上的内容抓取到本地来。爬虫的基本步骤： 1、获取URL地址： 2、发送请求获取网页源码； 3、使用正则表达式提取信息； 4、保存数据。二、爬
2024年02月02日
浏览(6)
Python scrapy爬取带验证码的列表数据
首先所需要的环境：（我用的是Python2的，可以选择python3，具体遇到的问题自行解决，目前我这边几百万的数据量爬取）环境：直接贴代码具体需要注意的特殊颜色标出有注释 pipelines存数据库这个就不说了根据自己的业务注：目前我网站验证码比较简单可以直接使用pytess
2024年01月18日
浏览(7)
04 python38的scrapy和selenium处理异步加载的动态html页面
1.4.1 taobao_login.py模拟登陆生成cookies.json 1.4.2 taobao_login_after.py淘宝登陆后测试修改下载中间件配置 1.6.1 添加数据模型 1.6.2 修改爬虫代码 1.6.3 测试运行爬虫
2024年02月06日
浏览(12)
[数据爬取】国家知识产权局（2008及以后）专利统计数据的收集（request+lxml+selenium）
【数据爬取】国家知识产权局（2008及以后）专利统计数据的收集（request+lxml+selenium）寒假里补数据分析课的实验报告，断断续续写了三四天，在这里记录下我稚嫩的代码。还有许多值得改进的地方，希望和大家互相学习。 1、百度搜索：国家知识产权局首页，打开以上链接
2024年02月02日
浏览(90)
使用 Scrapy 和 Selenium 爬取 Boss 直聘职位信息（可视化结果）
在本博客中，我们将介绍如何使用 Scrapy 和 Selenium 来爬取 Boss 直聘网站上的职位信息。Boss 直聘是一个广受欢迎的招聘平台，提供了大量的职位信息，以及公司和 HR 的联系信息。通过本文的指南，你将学会如何创建一个爬虫来抓取特定城市的 Python 职位信息。在这个示例中，
2024年02月08日
浏览(12)
python爬取动态加载页面,selenium实现滚动到底
最近的写爬虫的时候遇到一些问题，就是页面是动态加载的，抓包的时候发现页码不规律，于是想到用selenium控制浏览器自动拖拽滚动到底，找了好多方法直接是加载js的不太好用，看到一个博主的能用方法，我把他贴一下。 selenium实现无限滚动、循环滚动到底这是我自己更
2024年02月11日
浏览(13)
Python爬虫入门系列之Selenium实现动态页面爬取
在前一篇博客中，我们学习了如何使用多线程优化爬虫程序。但是，如果要爬取的网页是动态生成的或者包含大量JavaScript代码，单纯的静态页面爬取就不足够了。为了解决这个问题，我们可以使用Selenium库来模拟真实的浏览器行为，从而实现动态页面的爬取。 Selenium是一个用
2024年02月11日
浏览(11)
【头歌】——数据分析与实践-python-网络爬虫-Scrapy爬虫基础-网页数据解析-requests 爬虫-JSON基础
第1关爬取网页的表格信息第2关爬取表格中指定单元格的信息第3关将单元格的信息保存到列表并排序第4关爬取div标签的信息第5关爬取单页多个div标签的信息第6关爬取多个网页的多个div标签的信息第1关 Scarpy安装与项目创建第2关 Scrapy核心原理第1关 XPath解析网页第
2024年01月22日
浏览(18)
利用Scrapy进行数据爬取
目录爬虫框架Scrapy简介 Scrapy爬取步骤 Step1：安装Scrapy Step2：新建项目 Step3：创建爬虫文件 Step4：编写爬虫代码 Step5：运行爬虫项目 Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy 是一个功能非常强大的爬虫框架，它不仅可以用于便
2024年02月10日
浏览(10)
Scrapy爬虫框架集成Selenium来解析动态网页
当前网站普遍采用了javascript 动态页面，特别是vue与react的普及，使用scrapy框架定位动态网页元素十分困难，而selenium是最流行的浏览器自动化工具，可以模拟浏览器来操作网页，解析元素，执行动作，可以处理动态网页，使用selenium处理1个大型网站，速度很慢，而且非常耗资
2024年02月15日
浏览(12)