【python】爬取百度热搜排行榜Top50+可视化【附源码】【送数据分析书籍】

这篇具有很好参考价值的文章主要介绍了【python】爬取百度热搜排行榜Top50+可视化【附源码】【送数据分析书籍】。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

英杰社区https://bbs.csdn.net/topics/617804998

  一、导入必要的模块:

    这篇博客将介绍如何使用Python编写一个爬虫程序,从斗鱼直播网站上获取图片信息并保存到本地。我们将使用requests模块发送HTTP请求和接收响应,以及os模块处理文件和目录操作。

        如果出现模块报错

【python】爬取百度热搜排行榜Top50+可视化【附源码】【送数据分析书籍】,爬虫案例100,python,开发语言,计算机视觉,人工智能,爬虫

        进入控制台输入:建议使用国内镜像源

pip install requests -i https://mirrors.aliyun.com/pypi/simple

         我大致罗列了以下几种国内镜像源:

        

清华大学
https://pypi.tuna.tsinghua.edu.cn/simple

阿里云
https://mirrors.aliyun.com/pypi/simple/

豆瓣
https://pypi.douban.com/simple/ 

百度云
https://mirror.baidu.com/pypi/simple/

中科大
https://pypi.mirrors.ustc.edu.cn/simple/

华为云
https://mirrors.huaweicloud.com/repository/pypi/simple/

腾讯云
https://mirrors.cloud.tencent.com/pypi/simple/

    

二、发送GET请求获取响应数据:

        设置了请求头部信息,以模拟浏览器的请求,函数返回响应数据的JSON格式内容。

def get_html(url):
    header = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
    }
    response = requests.get(url=url, headers=header)
    # print(response.json())
    html = response.json()
    return html

        如何获取请求头:

        火狐浏览器:
  1. 打开目标网页并右键点击页面空白处。
  2. 选择“检查元素”选项,或按下快捷键Ctrl + Shift + C(Windows)
  3. 在开发者工具窗口中,切换到“网络”选项卡。
  4. 刷新页面以捕获所有的网络请求。
  5. 在请求列表中选择您感兴趣的请求。
  6. 在右侧的“请求标头”或“Request Headers”部分,即可找到请求头信息。

     将以下请求头信息复制出来即可

三、代码思路

  1. 导入所需的库:

import requests
from bs4 import BeautifulSoup
import openpyxl

requests 库用于发送HTTP请求获取网页内容。

BeautifulSoup 库用于解析HTML页面的内容。

openpyxl 库用于创建和操作Excel文件。

        2.发起HTTP请求获取百度热搜页面内容:

url = 'https://top.baidu.com/board?tab=realtime'
response = requests.get(url)
html = response.content

这里使用了 requests.get() 方法发送GET请求,并将响应的内容赋值给变量 html

        3.使用BeautifulSoup解析页面内容:

soup = BeautifulSoup(html, 'html.parser')

创建一个 BeautifulSoup 对象,并传入要解析的HTML内容和解析器类型。

        4.提取热搜数据:

hot_searches = []
for item in soup.find_all('div', {'class': 'c-single-text-ellipsis'}):
    hot_searches.append(item.text)

这段代码通过调用 soup.find_all() 方法找到所有 <div> 标签,并且指定 class 属性为 'c-single-text-ellipsis' 的元素。

然后,将每个元素的文本内容添加到 hot_searches 列表中。

        5.保存热搜数据到Excel:

workbook = openpyxl.Workbook()
sheet = workbook.active
sheet.title = 'Baidu Hot Searches'

使用 openpyxl.Workbook() 创建一个新的工作簿对象。

调用 active 属性获取当前活动的工作表对象,并将其赋值给变量 sheet

使用 title 属性给工作表命名为 'Baidu Hot Searches'

        6.设置标题:

sheet.cell(row=1, column=1, value='百度热搜排行榜—博主:Yan-英杰')

使用 cell() 方法选择要操作的单元格,其中 rowcolumn 参数分别表示行和列的索引。

将标题字符串 '百度热搜排行榜—博主:Yan-英杰' 写入选定的单元格。

        7.写入热搜数据:

for i in range(len(hot_searches)):
    sheet.cell(row=i+2, column=1, value=hot_searches[i])

使用 range() 函数生成一个包含索引的范围,循环遍历 hot_searches 列表。

对于每个索引 i,使用 cell() 方法将对应的热搜词写入Excel文件中。

        8.保存Excel文件:

workbook.save('百度热搜.xlsx')

使用 save() 方法将工作簿保存到指定的文件名 '百度热搜.xlsx'

        9.输出提示信息:

print('热搜数据已保存到 百度热搜.xlsx')

在控制台输出保存成功的提示信息。

四、完整代码:

        如果对CSDN周边以及有偿返现任务感兴趣:https://bbs.csdn.net/topics/617804998

私信博主进入交流群,一起学习探讨:
可添加博主:Yan--yingjie
如果想免费获取图书,也可添加博主微信,每周免费送数十本


import requests
from bs4 import BeautifulSoup
import openpyxl

# 发起HTTP请求获取百度热搜页面内容
url = 'https://top.baidu.com/board?tab=realtime'
response = requests.get(url)
html = response.content

# 使用BeautifulSoup解析页面内容
soup = BeautifulSoup(html, 'html.parser')

# 提取热搜数据
hot_searches = []
for item in soup.find_all('div', {'class': 'c-single-text-ellipsis'}):
    hot_searches.append(item.text)

# 保存热搜数据到Excel
workbook = openpyxl.Workbook()
sheet = workbook.active
sheet.title = 'Baidu Hot Searches'

# 设置标题
sheet.cell(row=1, column=1, value='百度热搜排行榜—博主:Yan-英杰')

# 写入热搜数据
for i in range(len(hot_searches)):
    sheet.cell(row=i+2, column=1, value=hot_searches[i])

workbook.save('百度热搜.xlsx')
print('热搜数据已保存到 百度热搜.xlsx')

效果图:

【python】爬取百度热搜排行榜Top50+可视化【附源码】【送数据分析书籍】,爬虫案例100,python,开发语言,计算机视觉,人工智能,爬虫

可视化完整代码:

    如果对CSDN周边以及有偿返现任务感兴趣:https://bbs.csdn.net/topics/617804998

私信博主进入交流群,一起学习探讨,如果对CSDN周边以及有偿返现任务感兴趣:
可添加博主:Yan--yingjie
如果想免费获取图书,也可添加博主微信,每周免费送数十本

import requests
from bs4 import BeautifulSoup
import matplotlib.pyplot as plt

# 发起HTTP请求获取百度热搜页面内容
url = 'https://top.baidu.com/board?tab=realtime'
response = requests.get(url)
html = response.content

# 使用BeautifulSoup解析页面内容
soup = BeautifulSoup(html, 'html.parser')

# 提取热搜数据
hot_searches = []
for item in soup.find_all('div', {'class': 'c-single-text-ellipsis'}):
    hot_searches.append(item.text)

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 绘制条形图
plt.figure(figsize=(15, 10))
x = range(len(hot_searches))
y = list(reversed(range(1, len(hot_searches)+1)))
plt.barh(x, y, tick_label=hot_searches, height=0.8)  # 调整条形图的高度

# 添加标题和标签
plt.title('百度热搜排行榜')
plt.xlabel('排名')
plt.ylabel('关键词')

# 调整坐标轴刻度
plt.xticks(range(1, len(hot_searches)+1))

# 调整条形图之间的间隔
plt.subplots_adjust(hspace=0.8, wspace=0.5)

# 显示图形
plt.tight_layout()
plt.show()

效果图:

【python】爬取百度热搜排行榜Top50+可视化【附源码】【送数据分析书籍】,爬虫案例100,python,开发语言,计算机视觉,人工智能,爬虫

【文末送书】 

参与活动
1️⃣参与方式:关注、点赞、收藏,评论(人生苦短,我用python)
2️⃣获奖方式:程序随机抽取 3位,每位小伙伴将获得一本书
3️⃣活动时间:截止到 2024-1- 3  22:00:00

【python】爬取百度热搜排行榜Top50+可视化【附源码】【送数据分析书籍】,爬虫案例100,python,开发语言,计算机视觉,人工智能,爬虫

内容简介

  《Pandas数据分析》详细阐述了与Pandas数据分析相关的基本解决方案,主要包括数据分析导论、使用PandasDataFrame、使用Pandas进行数据整理、聚合Pandas DataFrame、使用Pandas和Matplotlib可视化数据、使用Seabom和自定义技术绘图、金融分析、基于规则的异常检测、Python机器学习入门、做出更好的预测、机器学习异常检测等内容。此外,该书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。
  《Pandas数据分析》适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册。

购买链接:

        京东:https://item.jd.com/14065178.html

        当当:http://product.dangdang.com/29599087.html

注:活动结束后会在我的主页动态如期公布中奖者,包邮到家。
 文章来源地址https://www.toymoban.com/news/detail-770718.html

到了这里,关于【python】爬取百度热搜排行榜Top50+可视化【附源码】【送数据分析书籍】的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 贵金属实时行情看盘软件排行榜(top 10)

    贵金属实时行情看盘软件排行榜(top 10)

    贵金属实时行情看盘软件哪个好,还是得看MT4软件,MT4是俄罗斯软件公司MetaQuotes生产的一款以外汇和贵金属交易为主的软件,其功能十分全面,目前全球有超过100家贵金属公司和30个国家的银行选择MT4软件作为网络交易平台。MT4综合行情图表、技术分析、下单交易四大功能于

    2024年02月03日
    浏览(11)
  • 昨天,“支付宝崩了”上热搜; 4 月编程语言排行榜:PHP 跌至历史最低点;老乡鸡 “开源” 了;微信 WCDB 迎来重大升级

    昨天,“支付宝崩了”上热搜; 4 月编程语言排行榜:PHP 跌至历史最低点;老乡鸡 “开源” 了;微信 WCDB 迎来重大升级

    昨日,有许多网友反映支付宝无法使用,用不了蚂蚁能量收集等功能,#支付宝崩了# 话题冲上微博热搜。 支付宝客服人员回应称,确实有系统异常报错,工作人员正在紧急处理,很快恢复。用户的资金和信息安全不受影响。 昨天下午晚些时候,支付宝已经基本恢复正常。

    2024年04月15日
    浏览(12)
  • 【面试题】微博、百度等大厂的排行榜如何实现?

    【面试题】微博、百度等大厂的排行榜如何实现?

    现如今每个互联网平台都会提供一个排行版的功能,供人们预览最新最有热度的一些消息,比如百度: 再比如微博: 我们要知道,这些互联网平台每天产生的数据是非常大,如果我们使用MySQL的话,db实现小时、天、周、月的排行榜,难度及其大,而且表结构的设计也非常难

    2024年04月10日
    浏览(15)
  • 【Python大数据期末/课程设计】动态爬取“纵横中文网“小说排行榜数据并进行可视化处理 (flask框架/MySQL数据库/echarts数据可视化)

    【Python大数据期末/课程设计】动态爬取“纵横中文网“小说排行榜数据并进行可视化处理 (flask框架/MySQL数据库/echarts数据可视化)

    代写C语言、C++、Java、Python、HTML、JavaScript、vue、MySQL相关编程作业, 长期接单,信誉有保证,标价10-20每份,如有需要请加文章最下方QQ。 本文资源:https://download.csdn.net/download/weixin_47040861/89149396 题目描述: 爬取“纵横中文网” 1.利用爬虫技术爬取完整的一千条数据. 2.将爬

    2024年04月25日
    浏览(23)
  • 微博排行榜:获取微博用户和话题排行榜API接口

    微博排行榜:获取微博用户和话题排行榜API接口

    随着社交媒体的快速发展,微博已成为了人们获取信息的重要途径。而在微博中,用户和话题的排行榜更是引起了人们的广泛关注。那么如何获取微博用户和话题排行榜呢?下面介绍一下基于微博排行榜API接口的方法。     一、获取微博用户排行榜API接口 微博用户排行榜A

    2024年02月05日
    浏览(15)
  • 【lettuce-排行榜】

    【lettuce-排行榜】

    背景: 这次游戏中台采用lettuce的zset完成游戏内的本服和跨服排行榜,因此写一下案例。 pom.xml RedisManager.java RankManager.java RankItem.java RankInfo.java Main.java redis中查看下

    2024年01月21日
    浏览(13)
  • 爬虫:中国大学排行榜

            访问网址https://www.shanghairanking.cn/rankings,爬取排行榜数据,分析按区域的大学数量排行,得出有效结论。 爬取主榜数据并保存在文件中。 分析每个地区上榜大学的数量,保存在文件中。 分析前十名的地区的大学数量,绘制柱状图。 (4)说明爬虫爬取过程中可能

    2024年01月17日
    浏览(12)
  • 采购管理系统排行榜

    采购管理系统排行榜

    在这个数字化改变业务的年代,有哪些采购管理系统居于排行榜单的前列呢?作为一个自诩对该行业了如执掌的软件行业人员,给各位分享分享采购管理系统排行榜。 1、甄云数字化采购管理平台 国内做的一流的采购管理软件,算是行业内的老大哥,功能全面,也比较实用。

    2024年02月04日
    浏览(15)
  • 全球热门 AI 排行榜出炉!

    全球热门 AI 排行榜出炉!

    以下文章来源于无敌信息差 ,作者无敌 刚刚过去的 2023 年,可以说是 AI 元年。 随着技术的飞速发展,AI 行业在这一年再次迎来了爆炸式的增长。 近日,Writerbuddy 研究了  3000 多个 AI  的数据,出具了一份行业报告:该报告细致地盘点了 全球 50 大热门 AI 工具。 让无敌来带

    2024年02月22日
    浏览(17)
  • unity微信小游戏——排行榜

    unity微信小游戏——排行榜

    设置时记住排行榜唯一标识 此处建议使用官方案例的UI进行修改 minigame-unity-webgl-transform: Unity WebGL 微信小游戏适配方案 (gitee.com) DemoRanking这个项目就是 1.新建Canvas 此处要选择Overlay 否则排行榜会无法拖动 此处RankingBox默认状态为SetActive(false) bg:排行榜背景 也可以把背景让在

    2024年02月02日
    浏览(14)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包