【python】爬取斗鱼直播照片保存到本地目录【附源码+文末免费送书】

这篇具有很好参考价值的文章主要介绍了【python】爬取斗鱼直播照片保存到本地目录【附源码+文末免费送书】。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

英杰社区https://bbs.csdn.net/topics/617804998

一、导入必要的模块:

    这篇博客将介绍如何使用Python编写一个爬虫程序,从斗鱼直播网站上获取图片信息并保存到本地。我们将使用requests模块发送HTTP请求和接收响应,以及os模块处理文件和目录操作。

        如果出现模块报错

【python】爬取斗鱼直播照片保存到本地目录【附源码+文末免费送书】,爬虫案例100,python,爬虫,http

        进入控制台输入:建议使用国内镜像源

pip install requests -i https://mirrors.aliyun.com/pypi/simple

         我大致罗列了以下几种国内镜像源:

        

清华大学
https://pypi.tuna.tsinghua.edu.cn/simple

阿里云
https://mirrors.aliyun.com/pypi/simple/

豆瓣
https://pypi.douban.com/simple/ 

百度云
https://mirror.baidu.com/pypi/simple/

中科大
https://pypi.mirrors.ustc.edu.cn/simple/

华为云
https://mirrors.huaweicloud.com/repository/pypi/simple/

腾讯云
https://mirrors.cloud.tencent.com/pypi/simple/

    

二、发送GET请求获取响应数据:

        设置了请求头部信息,以模拟浏览器的请求,函数返回响应数据的JSON格式内容。

def get_html(url):
    header = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
    }
    response = requests.get(url=url, headers=header)
    # print(response.json())
    html = response.json()
    return html

        如何获取请求头:

        火狐浏览器:
  1. 打开目标网页并右键点击页面空白处。
  2. 选择“检查元素”选项,或按下快捷键Ctrl + Shift + C(Windows)
  3. 在开发者工具窗口中,切换到“网络”选项卡。
  4. 刷新页面以捕获所有的网络请求。
  5. 在请求列表中选择您感兴趣的请求。
  6. 在右侧的“请求标头”或“Request Headers”部分,即可找到请求头信息。

     将以下请求头信息复制出来即可【python】爬取斗鱼直播照片保存到本地目录【附源码+文末免费送书】,爬虫案例100,python,爬虫,http

3.解析响应数据中的图片信息

        用于解析响应数据中的图片信息。通过分析响应数据的结构,提取出每个图片的URL和标题,并将其存储在一个字典中,然后将所有字典组成的列表返回。
def parse_html(html):
    image_info_list = []
    for item in html['data']:
        image_url = item['image_url']
        title = item['title']
        image_info = {'url': image_url, 'title': title}
        image_info_list.append(image_info)
    return image_info_list

4.保存图片到本地:

用于保存图片到本地。首先创建一个目录"directory",如果目录不存在的话。然后遍历图片信息列表,依次下载每个图片并保存到目录中,图片的文件名为标题加上".jpg"后缀。

def save_to_images(img_info_list):
    directory = 'images'
    if not os.path.exists(directory):
        os.makedirs(directory)

    for img_info in img_info_list:
        image_url = img_info['url']
        title = img_info['title']
        response = requests.get(image_url)
        with open(os.path.join(directory, f'{title}.jpg'), 'wb') as f:
            f.write(response.content)

【python】爬取斗鱼直播照片保存到本地目录【附源码+文末免费送书】,爬虫案例100,python,爬虫,http

源码:

如果你对互联网变现感兴趣:可以关注:https://bbs.csdn.net/topics/617804998


#导入了必要的模块requests和os
import requests
import os


# 定义了一个函数get_html(url),
# 用于发送GET请求获取指定URL的响应数据。函数中设置了请求头部信息,
# 以模拟浏览器的请求。函数返回响应数据的JSON格式内容
def get_html(url):
    header = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
    }
    response = requests.get(url=url, headers=header)
    # print(response.json())
    html = response.json()
    return html


# 定义了一个函数parse_html(html),
# 用于解析响应数据中的图片信息。通过分析响应数据的结构,
# 提取出每个图片的URL和标题,并将其存储在一个字典中,然后将所有字典组成的列表返回
def parse_html(html):
    rl_list = html['data']['rl']
    # print(rl_list)
    img_info_list = []
    for rl in rl_list:
        img_info = {}
        img_info['img_url'] = rl['rs1']
        img_info['title'] = rl['nn']
        # print(img_url)
        # exit()
        img_info_list.append(img_info)
    # print(img_info_list)
    return img_info_list


# 定义了一个函数save_to_images(img_info_list),用于保存图片到本地。
# 首先创建一个目录"directory",如果目录不存在的话。然后遍历图片信息列表,
# 依次下载每个图片并保存到目录中,图片的文件名为标题加上".jpg"后缀。
def save_to_images(img_info_list):
    dir_path = 'directory'
    if not os.path.exists(dir_path):
        os.makedirs(dir_path)
    for img_info in img_info_list:
        img_path = os.path.join(dir_path, img_info['title'] + '.jpg')
        res = requests.get(img_info['img_url'])
        res_img = res.content
        with open(img_path, 'wb') as f:
            f.write(res_img)
        # exit()

#在主程序中,设置了要爬取的URL,并调用前面定义的函数来执行爬取、解析和保存操作。
if __name__ == '__main__':
    url = 'https://www.douyu.com/gapi/rknc/directory/yzRec/1'
    html = get_html(url)
    img_info_list = parse_html(html)
    save_to_images(img_info_list)

效果图:

【python】爬取斗鱼直播照片保存到本地目录【附源码+文末免费送书】,爬虫案例100,python,爬虫,http

        【python】爬取斗鱼直播照片保存到本地目录【附源码+文末免费送书】,爬虫案例100,python,爬虫,http

【文末送书】

        如果你对免费获取图书感兴趣:https://bbs.csdn.net/topics/617804998

        【python】爬取斗鱼直播照片保存到本地目录【附源码+文末免费送书】,爬虫案例100,python,爬虫,http

内容简介

        《Python网络爬虫从入门到精通》从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python实现网络爬虫开发应该掌握的技术。全书共分19章,内容包括初识网络爬虫、了解Web前端、请求模块urllib、请求模块urllib3、请求模块requests、高级网络请求模块、正则表达式、XPath解析、解析数据的BeautifulSoup、爬取动态渲染的信息、多线程与多进程爬虫、数据处理、数据存储、数据可视化、App抓包工具、识别验证码、Scrapy爬虫框架、Scrapy_Redis分布式爬虫、数据侦探。书中所有知识都结合具体实例进行介绍,涉及的程序代码给出了详细的注释,读者可轻松领会网络爬虫程序开发的精髓,快速提高开发技能。

作者简介

        明日科技,全称是吉林省明日科技有限公司,是一家专业从事软件开发、教育培训以及软件开发教育资源整合的高科技公司,其编写的教材非常注重选取软件开发中的必需、常用内容,同时也很注重内容的易学、方便性以及相关知识的拓展性,深受读者喜爱。其教材多次荣获“全行业优秀畅销品种”“全国高校出版社优秀畅销书”等奖项,多个品种长期位居同类图书销售排行榜的前列。

        购买链接:https://item.jd.com/13291912.html

参与活动

1️⃣参与方式:关注、点赞、收藏,评论(人生苦短,我用python)
2️⃣获奖方式:程序随机抽取 3位,每位小伙伴将获得一本书
3️⃣活动时间:截止到 2023-12-31 22:00:00文章来源地址https://www.toymoban.com/news/detail-762026.html

注:活动结束后会在我的主页动态如期公布中奖者,包邮到家。

到了这里,关于【python】爬取斗鱼直播照片保存到本地目录【附源码+文末免费送书】的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • Python多线程爬取链家房源,保存表格,实现数据可视化分析!

    使用Python来爬取二手房源数据,并保存表格,实现数据分析! Python 3.8 Pycharm 模块   创建文件   发送请求, 模拟浏览器 对于 url地址 发送请求 模拟浏览器   请求网址/网站   发送请求   获取数据, 获取网页源代码 获取服务器返回响应数据 解析数据, 提取我们想要的数据内容

    2024年02月05日
    浏览(15)
  • Python爬虫-爬取文档内容,如何去掉文档中的表格,并保存正文内容

    Python爬虫-爬取文档内容,如何去掉文档中的表格,并保存正文内容

    前言 本文是该专栏的第58篇,后面会持续分享python爬虫干货知识,记得关注。 做过爬虫项目的同学,可能或多或少爬取过文档数据,比如说“政务网站,新闻网站,小说网站”等平台的文档数据。爬取文档数据,笔者这里就不过多详述,而本文, 笔者将主要介绍在爬取文档

    2024年02月08日
    浏览(17)
  • Python爬取读书网的图片链接和书名并保存在数据库中

    Python爬取读书网的图片链接和书名并保存在数据库中

    一个比较基础且常见的爬虫,写下来用于记录和巩固相关知识。 本项目采用 scrapy 框架进行爬取,需要提前安装 由于需要保存数据到数据库,因此需要下载 pymysql 进行数据库相关的操作 同时在数据库中创立对应的表 在终端进入准备存放项目的文件夹中 1、创建项目 创建成功

    2024年02月06日
    浏览(13)
  • 【Python】TVBox本地直播源高效检测

    ##市面上,度娘,公众号对TvBox直播源都是胡乱的嗮在一起,检测工具也就检测连通性,而且检测较慢,自己搞了下脚本,用的还行,分享 检测过程及结果说明: [文件越大,相同host越多,越到后面速度越快] #待检测的tvbox直播源本地文件 /storage/emulated/0/TVBoxx/lives/agit_live.txt #待

    2024年02月04日
    浏览(5)
  • Python爬虫入门之2022软科中国大学排名爬取保存到csv文件

    Python爬虫入门之2022软科中国大学排名爬取保存到csv文件

    1、获得“2022软科中国大学排名”数据,从【软科排名】2022年最新软科中国大学排名|中国最好大学排名网页中获得排名数据信息,并将数据保存到csv文件中。 2、调用两个CSV文件,将他们合成一个文件,并按排名先后对其进行排序 3、将合并文件储存为txt文件和json文件 我们采

    2024年02月07日
    浏览(15)
  • python入门实战:爬取图片到本地

    python入门实战:爬取图片到本地

        简单记录一下爬取网站图片保存到本地指定目录过程,希望对刚入门的小伙伴有所帮助!     目标网站就是下图所示页面: 实现步骤:     1.爬取每页的图片地址集合     2.下载图片到本地     3. 获取指定页数的页面路径 以下是实现代码:

    2024年02月07日
    浏览(13)
  • Python爬虫之Scrapy框架系列(21)——重写媒体管道类实现保存图片名字自定义及多页爬取

    spider文件中要拿到图片列表并yield item; item里需要定义特殊的字段名:image_urls=scrapy.Field(); settings里设置IMAGES_STORE存储路径,如果路径不存在,系统会帮助我们创建; 使用默认管道则在s

    2024年02月10日
    浏览(51)
  • 贴吧照片和酷狗音乐简单爬取

    贴吧照片和酷狗音乐简单爬取

    很简单,主要是两大步 这里注意找准对应资源的 url ,如果对应资源不让程序代码访问,这里可以伪装成浏览器发起请求。 这里解析看具体情况,一般是筛选标签之中的信息或者资源,有很多筛选的第三方包和方法 导入 requests 和 lxml 两个第三方包,没有需要下载 找到我们需

    2024年02月12日
    浏览(12)
  • 用selenium爬取直播信息(2)

    用selenium爬取直播信息(2)

    1.解析数据的函数 2.保存数据的函数 3.主函数设计 四、完整代码 总结 前言 ================================================================= 目前是直播行业的一个爆发期,由于国家对直播行业进行整顿和规范,现在整个直播行业也在稳固发展。随着互联网和网络直播市场的快速发展,相信

    2024年04月22日
    浏览(21)
  • python 身份证读取 照片并通过摄像头实时 比对相似度 人证比对软件 源码

    python 身份证读取 照片并通过摄像头实时 比对相似度 人证比对软件 源码

    最近朋友需要一个人证比对软件需要实现以下功能: 通过摄像头实时采集人脸图像 通过身份证读卡器采集身份证信息 和 身份证照片 使用实时人脸照片 和 身份证照片做相似度比对 比对后返回相似度,或者返回同一人,非同一人 实时采集照片 和 身份证信息照片存档,方便

    2024年02月11日
    浏览(12)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包