如何使用Python抓取网页的结果并保存到 Excel 文件?

在进行网页爬虫时,常常会遇到如何将数据返回并保存到文件的问题。以下是一个基于Python的示例代码,展示了如何从特定网站提取数据,并将结果保存为Excel文件。此代码使用Pandas数据框架,以便于后续的数据操作。

from bs4 import BeautifulSoup as soup
from selenium import webdriver
import time
import pandas as pd

def checkproduct(url):
    driver = webdriver.Chrome()
    driver.get(url)

    driver.execute_script("window.scrollTo(0, 3000);")
    time.sleep(10)

    page_html = driver.page_source
    data = soup(page_html, 'html.parser')

    allproduct = data.findAll('div', {'class':'c16H9d'})
    list_title = []
    list_url = []
    list_price = []
    list_image = []

    for pd in allproduct:
        pd_title = pd.text
        pd_url = 'https:' + pd.a['href']
        list_title.append(pd_title)
        list_url.append(pd_url)

    allprice = data.findAll('span',{'class':'c13VH6'})
    for pc in allprice:
        pc_price = pc.text.replace('฿','').replace(',','') 
        list_price.append(float(pc_price))

    allimages = data.findAll('img',{'class':'c1ZEkM'})
    for productimages in allimages:
        list_image.append(productimages['src'])

    driver.close()
    return [list_title, list_price, list_url, list_image]

base_url = "https://www.lazada.co.th/shop-smart-tv?pages="
n = 3
rows = []

for i in range(1, n+1):
    url = base_url + f"{i}"
    print(url)
    results = checkproduct(url)
    rows.append(pd.DataFrame(results).T)

df = pd.concat(rows).reset_index(drop=True)
df.columns = ['Product', 'Price', 'URL', 'Images']
df.to_excel("Lazada_Product.xlsx")

代码解析

  1. 导入库:使用BeautifulSoup进行HTML解析,Selenium进行网页操作,pandas用于数据处理和保存。

  2. 定义函数checkproduct函数负责访问网页,提取产品信息并返回一个列表。

  3. 数据存储:在主循环中,我们构建了URL,并调用checkproduct函数来获取数据。将每次爬取的结果转换为DataFrame并存入列表。

  4. 合并数据并保存:最后,使用pandas将所有数据合并,并保存为Excel文件。

通过此方法,您可以有效地抓取网页数据,并使用Pandas进行简单的操作与保存,使数据的管理更加方便。文章来源地址https://www.toymoban.com/diary/python/782.html

到此这篇关于如何使用Python抓取网页的结果并保存到 Excel 文件?的文章就介绍到这了,更多相关内容可以在右上角搜索或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

原文地址:https://www.toymoban.com/diary/python/782.html

如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请联系站长进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用
上一篇 2024年10月28日 21:43
一分钟解决The `certs(***)` contains the merchants certificate serial number(***) which is not allowed here.
下一篇 2024年11月29日 15:29

相关文章

  • 如何使用 Python 爬虫抓取动态网页数据

    随着 Web 技术的不断发展,越来越多的网站采用了动态网页技术,这使得传统的静态网页爬虫变得无能为力。本文将介绍如何使用 Python 爬虫抓取动态网页数据,包括分析动态网页、模拟用户行为、使用 Selenium 等技术。 在进行动态网页爬取之前,我们需要先了解动态网页和静

    2023年04月24日
    浏览(77)
  • 如何使用Python的Selenium库进行网页抓取和JSON解析

    随着互联网的快速发展,网页抓取和数据解析在许多行业中变得越来越重要。无论是电子商务、金融、社交媒体还是市场调研,都需要从网页中获取数据并进行分析。Python的Selenium库作为一种自动化测试工具,已经成为许多开发者的首选,因为它提供了强大的功能和灵活性。

    2024年02月10日
    浏览(331)
  • 使用Python和Selenium抓取网页内容

    采集动态网页是困扰许多人的难题,不妨使用 Python 和 Selenium抓取网页数据。 微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩 你是否对从网站提取数据感兴趣,但发现自己被网络抓取的复杂性所困扰?不要害怕,我们在这篇文章中将展示如何利用 Selenium 和

    2024年02月07日
    浏览(78)
  • Python网页抓取- python selenium使用方法和代码示例

    Selenium可以模拟网页操作,抓取页面内容,主要通过webdriver模块实现,为了方便理解,按照实例的操作步骤逐一介绍(函数参数不具体展开,参考下面代码实例即可理解): 获取browser实例 通过webdriver.Chorme(), webdriver.Edge(), webdriver.Firefox(), 来获取browser实例: browser = webdriver.C

    2024年01月23日
    浏览(80)
  • python操作现有excel文件并修改其内容保存到excel文件

    最近需要实现一个功能,为了确保每次函数运行的时候count是唯一的,所以想读取excel中存储的icount,赋值完之后对其进行+1操作,并存入excel文件,确保下次读取的count是新的,没有出现过的。 具体实现 1、创建一个现有excel表,命名为test.xlsx,存储内容如下: 2、创建一个py文

    2024年02月11日
    浏览(42)
  • 【python读取excel文件保存为矩阵形式】

    python实现对excel表格不同文件形式的读取 我最近在用 pycharm 读取excel数据出现几个莫名其妙的问题, 我解决问题之后,觉得还是把这些坑都写清楚,方便 python 的初学者。  用xlrd库读取.xls文件  用库openpyxl读取.xlsx文件  \\\'.xls文件的读取\\\' \\\'.xlsx文件的读取\\\' 

    2024年02月13日
    浏览(57)
  • Python:使用爬虫抓取网页中的视频并下载(完整源码)

    Python:使用爬虫抓取网页中的视频并下载(完整源码) 在今天的程序开发世界中,网站是不可或缺的一部分。人们使用网站来获取有用的信息、购买商品和娱乐自己。这些网站的内容通常包含了各种类型的文件,其中最常见的就是视频。对于有经验的程序开发者来说,使用

    2024年02月16日
    浏览(81)
  • 100天玩转python——day67 使用Selenium抓取网页动态内容

    根据权威机构发布的全球互联网可访问性审计报告,全球约有四分之三的网站其内容或部分内容是通过JavaScript动态生成的,这就意味着在浏览器窗口中“查看网页源代码”时无法在HTML代码中找到这些内容,也就是说我们之前用的抓取数据的方式无法正常运转了。解决这样的

    2024年02月09日
    浏览(59)
  • Matlab如何将变量名和矩阵都保存在excel文件

    Matlab保存数据为excel的函数有很多,但是由于matlab每年都在更新,新的函数不断涌现,极大地方便我们运算矩阵。当我很懒没有更新最新版本的matlab时,有些矩阵运算,就只能用相对原始地方法来做。比如2018版本不能用writecell和writematrix函数直接将数据保存excel文件。 matlab

    2024年02月06日
    浏览(49)
  • 『爬虫四步走』手把手教你使用Python抓取并存储网页数据!

    爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据,**本文将基于爬取B站视频热搜榜单数据并存储为例,详细介绍Python爬虫的基本流程。**如果你还在入门爬虫阶段或者不清楚爬虫的具体工作流程,那么应该仔细阅读本文! 第一步:

    2024年02月04日
    浏览(69)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包