python-scrapy框架(四)settings.py文件的用法详解实例

这篇具有很好参考价值的文章主要介绍了python-scrapy框架(四)settings.py文件的用法详解实例。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

settings.py文件是Scrapy框架中用来配置爬取相关设置的文件。在Scrapy中,我们可以通过修改settings.py文件来自定义爬虫的行为,包括设置全局变量、配置下载延迟、配置ua池、设置代理以及其他爬虫相关的配置项。下面是对settings.py文件用法的详细解释和一个实例:

1.设置全局变量
在settings.py文件中,我们可以定义一些全局变量,这些变量在整个爬虫过程中都可以使用。例如,我们可以定义一个USER_AGENT变量,用来设置请求的User-Agent头信息:
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
2.配置下载延迟
在settings.py文件中,可以通过设置DOWNLOAD_DELAY参数来配置下载延迟,以控制爬取速度。DOWNLOAD_DELAY的单位是秒,可以设置为1或更大的值。例如:
DOWNLOAD_DELAY = 1
3.配置UA池
为了防止网站对爬虫的识别,我们可以设置一个User-Agent池,让每个请求随机选择一个User-Agent进行发送。可以在settings.py文件中设置USER_AGENT_POOL,如下所示:
USER_AGENT_POOL = [
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:78.0) Gecko/20100101 Firefox/78.0',
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebK...
]

然后,在Spider中随机选择一个User-Agent进行请求发送:

from scrapy import Spider
from scrapy.utils.project import get_project_settings
from scrapy.utils.httpobj import urlparse_cached

class MySpider(Spider):
    name = 'my_spider'
    
    def __init__(self, name=None, **kwargs):
        self.settings = get_project_settings()
    
    def start_requests(self):
        # ...
        yield scrapy.Request(url, headers={'User-Agent': self.settings['USER_AGENT_POOL'][random.randint(0, len(self.settings['USER_AGENT_POOL'])-1)]})
4.设置代理
如果需要通过代理来进行爬取,可以在settings.py文件中设置PROXIES参数。例如:
PROXIES = [
    'http://proxy1.example.com:8888',
    'http://proxy2.example.com:8888',
    'http://proxy3.example.com:8888',
]

然后,在Spider中随机选择一个代理进行请求发送:

from scrapy import Spider
from scrapy.utils.project import get_project_settings
from scrapy.utils.httpobj import urlparse_cached

class MySpider(Spider):
    name = 'my_spider'
    
    def __init__(self, name=None, **kwargs):
        self.settings = get_project_settings()
    
    def start_requests(self):
        # ...
        yield scrapy.Request(url, meta={'proxy': self.settings['PROXIES'][random.randint(0, len(self.settings['PROXIES'])-1)]})
5.其他爬虫相关配置项
在settings.py文件中,还可以设置其他的爬虫相关配置项,如日志级别、保存路径、爬取深度等。以下是一些常见的配置项:
# 日志级别
LOG_LEVEL = 'INFO'

# 爬虫名称
BOT_NAME = 'my_bot'

# 爬取深度限制
DEPTH_LIMIT = 3

# 是否遵循robots.txt
ROBOTSTXT_OBEY = True

# 是否启用缓存
HTTPCACHE_ENABLED = True

# 缓存过期时间
HTTPCACHE_EXPIRATION_SECS = 0

# 缓存存储路径
HTTPCACHE_DIR = 'httpcache'

# 缓存存储方式
HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

这些只是settings.py文件中一些常见的配置项,你可以根据需要添加或修改更多的配置项。以下是更多可能用到的配置项:

6.开启并配置自定义的扩展
Scrapy框架允许开发者编写自定义的扩展来增强爬虫的功能。在settings.py文件中,可以通过EXTENSIONS参数来启用和配置这些扩展。例如,启用并配置自定义的扩展MyExtension:
EXTENSIONS = {
    'myextension.MyExtension': 500,
}
7.配置重试次数
在爬虫过程中,可能会发生请求失败的情况,可以通过配置RETRY_TIMES和RETRY_HTTP_CODES参数来控制自动重试的次数和HTTP响应状态码。例如,设置最大重试次数为3次,仅在遇到500和502的情况下进行重试:
RETRY_TIMES = 3
RETRY_HTTP_CODES = [500, 502]
8.配置并发请求数量
通过并发发送请求可以提高爬取效率,可以通过配置CONCURRENT_REQUESTS参数来设置同时发送的请求数量。例如,设置同时发送10个请求:
CONCURRENT_REQUESTS = 10
9.配置下载器中间件和爬虫中间件
Scrapy框架提供了下载器中间件和爬虫中间件,用于在请求和响应的处理过程中进行自定义的操作。可以通过配置DOWNLOADER_MIDDLEWARES和SPIDER_MIDDLEWARES参数来启用和配置这些中间件。例如,启用并配置自定义的下载器中间件MyDownloaderMiddleware和爬虫中间件MySpiderMiddleware:
DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.MyDownloaderMiddleware': 543,
}
SPIDER_MIDDLEWARES = {
    'myproject.middlewares.MySpiderMiddleware': 543,
}
10.配置请求头信息
可以通过设置DEFAULT_REQUEST_HEADERS参数来配置默认的请求头信息。例如,设置Referer和Cookie:
DEFAULT_REQUEST_HEADERS = {
    'Referer': 'http://www.example.com',
    'Cookie': 'session_id=xxxxx',
}
11.配置是否启用重定向
可以通过配置REDIRECT_ENABLED参数来控制是否启用请求的重定向。例如,禁用重定向:
REDIRECT_ENABLED = False
12.配置去重过滤器
Scrapy框架内置了去重过滤器,用于过滤已经爬取过的URL。可以通过配置DUPEFILTER_CLASS参数来选择使用的去重过滤器。例如,使用基于Redis的去重过滤器:
DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

这些只是settings.py文件中一些可能用到的配置项。根据实际需求,你可以根据Scrapy框架提供的各种功能来对settings.py文件进行自定义的配置,以满足你的爬虫需求。文章来源地址https://www.toymoban.com/news/detail-527533.html

到了这里,关于python-scrapy框架(四)settings.py文件的用法详解实例的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 【python爬虫】14.Scrapy框架讲解

    【python爬虫】14.Scrapy框架讲解

    前两关,我们学习了能提升爬虫速度的进阶知识——协程,并且通过项目实操,将协程运用于抓取薄荷网的食物数据。 可能你在体验开发一个爬虫项目的完整流程时,会有这样的感觉:原来要完成一个完整的爬虫程序需要做这么多琐碎的工作。 比如,要导入不同功能的模块

    2024年02月09日
    浏览(11)
  • Scrapy:Python中强大的网络爬虫框架

    Scrapy:Python中强大的网络爬虫框架

    在当今信息爆炸的时代,从互联网上获取数据已经成为许多应用程序的核心需求。Scrapy是一款基于Python的强大网络爬虫框架,它提供了一种灵活且高效的方式来提取、处理和存储互联网上的数据。本文将介绍Scrapy的主要特性和优势,以及如何使用它来构建强大的网络爬虫。

    2024年02月19日
    浏览(14)
  • python爬虫之Scrapy框架--保存图片(详解)

    python爬虫之Scrapy框架--保存图片(详解)

    目录 Scrapy 使用ImagePipeline 保存图片 使用图片管道  具体步骤 安装相关的依赖库 创建Scrapy项目 配置settings.py   定义Item  编写Spider 运行Spider Scrapy 自定义ImagePipeline 自定义图片管道 Scrapy提供了一个 ImagePipeline ,用来下载图片这条管道,图片管道 ImagesPipeline  提供了方便并具有

    2024年02月11日
    浏览(10)
  • Python爬虫开发:Scrapy框架与Requests库

    Python爬虫开发中有两个非常流行的工具:Scrapy框架和Requests库。它们各自有自己的优点和适用场景。 Scrapy Scrapy是一个为了爬取网站并提取结构化数据而编写的应用框架,可以非常方便地实现网页信息的抓取。Scrapy提供了多种可配置、可重用的组件,如调度器、下载器、爬虫和

    2024年02月19日
    浏览(8)
  • Scrapy框架之MongoDB通过配置文件管理参数--Linux安装MongoDB--图形管理工具

    Scrapy框架之MongoDB通过配置文件管理参数--Linux安装MongoDB--图形管理工具

    目录 MongoDB通过配置文件 问题 解决方案  步骤 提示 Linux安装MongoDB 环境 下载依赖与安装包 解压安装  MongoDB GUI管理工具  独立软件GUI软件 Robo 3T使用 VSCode集成GUI插件 问题 启动MongoDB时,编写参数太麻烦 解决方案 通过配置文件统一管理 找到MongoDB的配置文件:在MongoDB的安装目

    2024年02月12日
    浏览(13)
  • 【100天精通python】Day45:python网络爬虫开发_ Scrapy 爬虫框架

    目录 1 Scrapy 的简介 2 Scrapy选择器 3 快速创建Scrapy 爬虫 4 下载器与爬虫中间件

    2024年02月11日
    浏览(17)
  • 网络爬虫(Python:Selenium、Scrapy框架;爬虫与反爬虫笔记)

    网络爬虫(Python:Selenium、Scrapy框架;爬虫与反爬虫笔记)

    Selenium是一个模拟浏览器浏览网页的工具,主要用于测试网站的自动化测试工具。 Selenium需要安装浏览器驱动,才能调用浏览器进行自动爬取或自动化测试,常见的包括Chrome、Firefox、IE、PhantomJS等浏览器。 注意:驱动下载解压后,置于Python的安装目录下;然后将Python的安装目

    2024年01月18日
    浏览(33)
  • Python爬虫之Scrapy框架系列(23)——分布式爬虫scrapy_redis浅实战【XXTop250部分爬取】

    先用单独一个项目来使用scrapy_redis,讲解一些重要点!

    2024年02月16日
    浏览(11)
  • scrapy----setting配置

    #1 了解 BOT_NAME = \\\"firstscrapy\\\"  #项目名字,整个爬虫名字 #2 爬虫存放位置    了解 SPIDER_MODULES = [\\\"firstscrapy.spiders\\\"] NEWSPIDER_MODULE = \\\"firstscrapy.spiders\\\" #3  记住 是否遵循爬虫协议,一般都设为False ROBOTSTXT_OBEY = False # 4 记住 USER_AGENT = \\\"firstscrapy (+http://www.yourdomain.com)\\\" #5  记住  日志级别

    2024年02月16日
    浏览(7)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包