【爬虫案例】用Python爬取百度热搜榜数据!

这篇具有很好参考价值的文章主要介绍了【爬虫案例】用Python爬取百度热搜榜数据!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录
  • 一、爬取目标
  • 二、编写爬虫代码
  • 三、同步视频讲解
  • 四、完整源码

一、爬取目标

您好,我是@马哥python说,一名10年程序猿。

本次爬取的目标是:百度热搜榜
【爬虫案例】用Python爬取百度热搜榜数据!

分别爬取每条热搜的:

热搜标题、热搜排名、热搜指数、描述、链接地址。

下面,对页面进行分析。
经过分析,此页面有XHR链接,可以针对接口进行爬取。

打开Chrome浏览器,按F12进入开发者模式,依次点击:

  1. 点击Network,选择网络
  2. 点击XHR,选择XHR请求
  3. 选择目标链接地址
  4. 击Preview,选择预览
  5. 查看返回数据

操作过程,如下图所示:
【爬虫案例】用Python爬取百度热搜榜数据!

二、编写爬虫代码

首先,导入需要用到的库:

import requests  # 发送请求
import pandas as pd  # 存入excel数据

定义一个百度热搜榜接口地址:

# 百度热搜榜地址
url = 'https://top.baidu.com/api/board?platform=wise&tab=realtime'

构造一个请求头,伪装爬虫:

# 构造请求头
header = {
	'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36',
	'Host': 'top.baidu.com',
	'Accept': 'application/json, text/plain, */*',
	'Accept-Language': 'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
	'Accept-Encoding': 'gzip, deflate, br',
	'Referer': 'https://top.baidu.com/board?tab=novel',
}

向百度页面发送requests请求:

# 发送请求
r = requests.get(url, header)

返回的数据是json格式的,直接用r.json()接收:

# 用json格式接收请求数据
json_data = r.json()

这里,需要注意的是,页面上有2种热搜:

百度热搜榜最上面一条是置顶热搜,下面从1到30是普通热搜,接口返回的数据也是区分开的:
【爬虫案例】用Python爬取百度热搜榜数据!
所以,爬虫代码需要分开处理逻辑:

置顶热搜:

# 爬取置顶热搜
top_content_list = json_data['data']['cards'][0]['topContent']

普通热搜:

# 爬取普通热搜
content_list = json_data['data']['cards'][0]['content']

然后再分别进行json解析,对应的字段(标题、排名、热搜指数、描述、链接地址)。
最后,保存结果数据到excel即可。

df = pd.DataFrame(  # 拼装爬取到的数据为DataFrame
	{
		'热搜标题': title_list,
		'热搜排名': order_list,
		'热搜指数': score_list,
		'描述': desc_list,
		'链接地址': url_list
	}
)
df.to_excel('百度热搜榜.xlsx', index=False)  # 保存结果数据

最后,查看一下爬取到的数据:
【爬虫案例】用Python爬取百度热搜榜数据!

一共31条数据(1条置顶热搜+30条普通热搜)。
每条数据包含:热搜标题、热搜排名、热搜指数、描述、链接地址。

三、同步视频讲解

讲解视频:https://www.zhihu.com/zvideo/1490668062617161728

四、完整源码

get完整源码:【爬虫案例】用Python爬取百度热搜榜数据!


我是@马哥python说,持续分享python源码干货中!文章来源地址https://www.toymoban.com/news/detail-546680.html

到了这里,关于【爬虫案例】用Python爬取百度热搜榜数据!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【python】爬取百度热搜排行榜Top50+可视化【附源码】【送数据分析书籍】

        这篇博客将介绍如何使用Python编写一个爬虫程序,从斗鱼直播网站上获取图片信息并保存到本地。我们将使用 request s 模块发送HTTP请求和接收响应,以及 os 模块处理文件和目录操作。         如果出现模块报错         进入控制台输入:建议使用国内镜像源    

    2024年02月03日
    浏览(19)
  • python爬虫实战(3)--爬取某乎热搜

    1. 分析爬取地址 打开某乎首页,点击热榜 这个就是我们需要爬取的地址,取到地址 某乎/api/v3/feed/topstory/hot-lists/total?limit=50desktop=true 定义好请求头,从Accept往下的请求头全部复制,转换成json 2. 分析请求结果 通过请求可以看出, hot-lists/total?limit=50desktop=true 请求后的返回参数

    2024年02月11日
    浏览(17)
  • 【爬虫案例】用Python爬取抖音热榜数据!

    目录 一、爬取目标 二、编写爬虫代码 三、同步讲解视频 3.1 代码演示视频 四、获取完整源码 您好,我是@马哥python说,一名10年程序猿。 本次爬取的目标是:抖音热榜 共爬取到50条数据,对应TOP50热榜。含5个字段,分别是: 热榜排名,热榜标题,热榜时间,热度值,热榜标签。

    2024年02月16日
    浏览(19)
  • 【爬虫案例】用Python爬取知乎热榜数据!

    目录 一、爬取目标 二、编写爬虫代码 三、同步讲解视频 3.1 代码演示视频 3.2 详细讲解视频 四、获取完整源码 您好,我是@马哥python说,一名10年程序猿。 本次爬取的目标是:知乎热榜 共爬取到6个字段,包含: 热榜排名, 热榜标题, 热榜链接, 热度值, 回答数, 热榜描述。 用

    2024年02月15日
    浏览(14)
  • 〖Python网络爬虫实战㉕〗- Ajax数据爬取之Ajax 案例实战

    订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+                 python项目实战                  Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,

    2024年02月06日
    浏览(24)
  • 〖Python网络爬虫实战㉔〗- Ajax数据爬取之Ajax 分析案例

    订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+                 python项目实战                  Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,

    2024年02月07日
    浏览(34)
  • Python爬虫-爬取百度搜索结果页的网页标题及其真实网址

    cmd命令行输入安装requests库:pip3 install -i https://pypi.douban.com/simple requests 安装bs4库:pip3 install -i https://pypi.douban.com/simple beautifulsoup4   https://wwuw.lanzouj.com/i1Au51a0312d 解压文件后,需按照解压包内教程装载Cookie即可使用。 本py脚本文件较符合有需求者使用,更适合python爬虫初学者

    2024年02月08日
    浏览(13)
  • python爬虫如何写,有哪些成功爬取的案例

    编写Python爬虫时,常用的库包括Requests、Beautiful Soup和Scrapy。以下是三个简单的Python爬虫案例,分别使用Requests和Beautiful Soup,以及Scrapy。 1. 使用Requests和Beautiful Soup爬取网页内容: 2. 使用Requests和正则表达式爬取图片: 3. 使用Scrapy爬取网站: 首先,确保已安装Scrapy: 创建一个

    2024年01月19日
    浏览(48)
  • Python爬虫:一个爬取豆瓣电影人像的小案例

    从谷歌浏览器的开发工具进入 选择图片右键点击检查 ![在这里插入图片描述](https://img-blog.csdnimg.cn/1b38c2a942c441fb8cb545a28bb35015.png 翻页之后发现网址变化的只有start数值,每次变化值为30 Python代码 把爬取的图片全部放到新建的文件夹中存放

    2024年02月10日
    浏览(14)
  • 爬虫案例—京东数据爬取、数据处理及数据可视化(效果+代码)

            使用PyCharm(引用requests库、lxml库、json库、time库、openpyxl库和pymysql库)爬取京东网页相关数据(品牌、标题、价格、店铺等) 数据展示(片段):         京东网页有反爬措施,需要自己在网页登录后,获取cookie,加到请求的header中(必要时引入time库,设置爬取

    2024年02月09日
    浏览(15)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包