Python爬虫实战:selenium爬取电商平台商品数据

这篇具有很好参考价值的文章主要介绍了Python爬虫实战:selenium爬取电商平台商品数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目标


先介绍下我们本篇文章的目标,如图:

Python爬虫实战:selenium爬取电商平台商品数据,2024年程序员学习,python,爬虫,selenium

本篇文章计划获取商品的一些基本信息,如名称、商店、价格、是否自营、图片路径等等。

准备


首先要确认自己本地已经安装好了 Selenium 包括 Chrome ,并已经配置好了 ChromeDriver 。如果还没安装好,可以参考前面的前置准备。

分析


接下来我们就要分析一下了。

首先,我们的搜索关键字是 iPhone ,直接先翻到最后一页看下结果,发现有好多商品并不是 iPhone ,而是 iPhone 的手机壳,这个明显不是我们想要的结果,小编这里选择了一下品牌 Apple ,再翻到最后一页,这次就全都是手机了。

Python爬虫实战:selenium爬取电商平台商品数据,2024年程序员学习,python,爬虫,selenium

先把地址栏的地址 Copy 出来看一下,里面有很多无效参数:

https://search.jd.com/search?keyword=iPhone&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&ev=exbrand_Apple%5E&page=199&s=5933&click=0

如果问小编怎么知道是无效参数还是有效参数,emmmmmmmmm

这个要么靠经验,一般大网站的参数的命名都是比较规范的,当然也不排除命名不规范的。还有一种办法就是试,小编这边试出来的结果是这样滴:

https://search.jd.com/Search?keyword=iPhone&ev=exbrand_Apple

第一个参数 keyword 就是我们需要的商品名称,第二个参数 ev 是品牌的参数。

接下来我们看如何获取商品的详细信息,我们使用 F12 打开开发者模式,使用看下具体的信息都放在哪里:

Python爬虫实战:selenium爬取电商平台商品数据,2024年程序员学习,python,爬虫,selenium

可以看到,我们想要获取的信息在这个页面的 DOM 节点中都能获取到。

接下来因为我们是使用 Selenium 来模拟浏览器访问电商网站,所以后续的接口分析也就不需要做了,直接获取浏览器显示的内容的源代码就可以轻松获取到各种信息。

获取商品列表页面


首先,我们需要构造一个获取商品列表页面的 URL ,这个上面已经得到了,接下来就是使用 Selenium 来获取这个页面了:

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

driver = webdriver.Chrome()

driver.implicitly_wait(10)

driver.set_window_size(1280,800)

def index_page(page):

“”"

抓取索引页

:param page: 页码

“”"

print(‘正在爬取第’, str(page), ‘页数据’)

try:

url = ‘https://search.jd.com/Search?keyword=iPhone&ev=exbrand_Apple’

driver.get(url)

if page > 1:

input = driver.find_element_by_xpath(‘//*[@id=“J_bottomPage”]/span[2]/input’)

button = driver.find_element_by_xpath(‘//*[@id=“J_bottomPage”]/span[2]/a’)

input.clear()

input.send_keys(page)

button.click()

get_products()

except TimeoutException:

index_page(page)

这里我们依然使用隐式等待来进行 URL 访问,这里小编通过 xpath 的方式获取到了整个页面最下面的翻页组件:

Python爬虫实战:selenium爬取电商平台商品数据,2024年程序员学习,python,爬虫,selenium

小编这里的翻页实际上是使用这里的输入框和后面的确认按钮进行的。

获取商品详细数据


这里其实有一个坑,JD 的首页上的图片是懒加载的,就是当页面的滚动条没有滚到这个图片可以显示在屏幕上的位置的时候,这个图片是不会加载出来的。这就造成了小编一开始的只能获取到前 4 个商品的图片地址。

小编后来想了个办法,使用 JavaScript 来模拟滚动条滚动,先将所有的图片加载出来,然后再进行数据的获取,代码如下:

def get_products():

“”"

提取商品数据

“”"

js = ‘’’

timer = setInterval(function(){

var scrollTop=document.documentElement.scrollTop||document.body.scrollTop;

var ispeed=Math.floor(document.body.scrollHeight / 100);

if(scrollTop > document.body.scrollHeight * 90 / 100){

clearInterval(timer);

}

console.log(‘scrollTop:’+scrollTop)

console.log(‘scrollHeight:’+document.body.scrollHeight)

window.scrollTo(0, scrollTop+ispeed)

}, 20)

‘’’

driver.execute_script(js)

time.sleep(2.5)

html = driver.page_source

doc = PyQuery(html)

items = doc(‘#J_goodsList .gl-item .gl-i-wrap’).items()

i = 0

for item in items:

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
Python爬虫实战:selenium爬取电商平台商品数据,2024年程序员学习,python,爬虫,selenium
Python爬虫实战:selenium爬取电商平台商品数据,2024年程序员学习,python,爬虫,selenium
Python爬虫实战:selenium爬取电商平台商品数据,2024年程序员学习,python,爬虫,selenium
Python爬虫实战:selenium爬取电商平台商品数据,2024年程序员学习,python,爬虫,selenium
Python爬虫实战:selenium爬取电商平台商品数据,2024年程序员学习,python,爬虫,selenium
Python爬虫实战:selenium爬取电商平台商品数据,2024年程序员学习,python,爬虫,selenium

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Python开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024c (备注Python)
Python爬虫实战:selenium爬取电商平台商品数据,2024年程序员学习,python,爬虫,selenium

(1)Python所有方向的学习路线(新版)

这是我花了几天的时间去把Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

最近我才对这些路线做了一下新的更新,知识体系更全面了。

Python爬虫实战:selenium爬取电商平台商品数据,2024年程序员学习,python,爬虫,selenium

(2)Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然没有那么全面,但是对于入门来说是没问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

Python爬虫实战:selenium爬取电商平台商品数据,2024年程序员学习,python,爬虫,selenium

(3)100多个练手项目

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。

Python爬虫实战:selenium爬取电商平台商品数据,2024年程序员学习,python,爬虫,selenium文章来源地址https://www.toymoban.com/news/detail-847319.html

og.csdnimg.cn/d66e3ad5592f4cdcb197de0dc0438ec5.png#pic_center)

(3)100多个练手项目

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。

Python爬虫实战:selenium爬取电商平台商品数据,2024年程序员学习,python,爬虫,selenium

到了这里,关于Python爬虫实战:selenium爬取电商平台商品数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python爬取电商数据:商品采集接口 商品详情数据API 商品主图接口

    学习 Python 自动化的一个好办法就是构建一个价格追踪器。由于这项任务生成的脚本可以立即投入使用,所以对于初学者来说尤为方便。本文将向大家介绍如何用 Python 采集器建立一个可立即实现电商价格监控的可扩展价格追踪器。 价格监控的好处多多。对于您个人来说,通

    2023年04月24日
    浏览(20)
  • 爬虫——有关抖音商品数据的爬取(蝉妈妈数据平台)

    抖音带货的兴起,让抖音电商一跃成为与淘宝电商、京东电商等电商平台共同争夺电商市场的存在,与淘宝电商、京东电商等电商平台相比,抖音电商拥有独特的优势,抖音以短视频的形式能够带来巨大的流量和热度,抖音以此为基础带来全新的带货方式——短视频带货,除

    2024年02月08日
    浏览(22)
  • Python爬虫实战之爬淘宝商品--selenium+Xpath

    代码链接 利用selenium来自动翻页爬取淘宝商品的标题,价格,销量,产地信息。 导入库: 注意自己配置好python环境(谷歌驱动…) 利用selenium,手动登录获取cookie保存在本地用于登录平台(便于测试代码),访问商品页url通过Xpath选中对象拿数据,翻页,通过Xpath选中对象拿数据,翻页

    2024年02月04日
    浏览(11)
  • python爬虫实战 scrapy+selenium爬取动态网页

    最近学习了scrapy爬虫框架,想要找个目标练练手。由于现在很多网页都是动态的,因此还需要配合selenium爬取。本文旨在记录这次学习经历,如有疑问或不当之处,可以在评论区指出,一起学习。 对scrapy不了解的同学可以阅读这篇文章 爬虫框架 Scrapy 详解,对scrapy框架介绍的

    2024年02月07日
    浏览(36)
  • 用Python采集电商平台商品数据进行可视化分析

    前言 嗨喽~大家好呀,这里是魔王呐 ❤ ~! 环境使用: python 3.8 解释器 pycharm 编辑器 模块使用: 第三方模块 需要安装 requests — 发送 HTTP请求 内置模块 不需要安装 csv — 数据处理中经常会用到的一种文件格式 第三方模块安装: win + R 输入cmd 输入安装命令 pip install 模块名 (如果你

    2024年02月17日
    浏览(16)
  • 爬虫与数据分析项目实战2.1 Selenium爬取Boss招聘信息

    完成: 1.爬取信息 2.基于爬取结果筛选符合条件的信息    岗位名称、薪资、岗位要求、地区、公司名称、公司规模、细节链接 3.筛选base杭州的岗位保存到csv文件中 But容易出现网络不稳定造成的无法定位元素所在位置的情况,小范围爬取可以 4.基于csv分析后续

    2024年02月08日
    浏览(12)
  • Python爬虫|使用Selenium轻松爬取网页数据

    1. 什么是selenium? Selenium是一个用于Web应用程序自动化测试工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作浏览器一样。支持的浏览器包括IE,Firefox,Safari,Chrome等。 Selenium可以驱动浏览器自动执行自定义好的逻辑代码,也就是可以通过代码完全模拟成人类使用

    2024年02月04日
    浏览(14)
  • 【python爬虫】闲鱼爬虫,可以爬取商品

    目录 前言 一、介绍 二、爬虫流程 1. 确定并构造URL 2. 发送网络请求 3. 解析HTML并提取数据 4. 保存数据 三、使用代理IP 四、完整代码 五、总结 前言 闲鱼是一个很受欢迎的二手交易平台,但是由于没有开放API,我们需要使用爬虫来获取数据。本文将介绍如何使用Python爬

    2024年02月08日
    浏览(13)
  • 爬虫——python爬取京东商品用户评价

    以小米手环7为例,分别爬取小米手环7用户评价中的好评、中评、差评 使用工具:PyCharm Community 需要python库:requests 安装方法:File--Settings--Project --Python Interpreter 代码如下: 好评: 中评: 差评: 其中重要参数来源: 打开开发者工具,快捷键F12键,或鼠标右键--检查--网络

    2024年02月11日
    浏览(12)
  • Python爬虫实战——爬取新闻数据(简单的深度爬虫)

            又到了爬新闻的环节(好像学爬虫都要去爬爬新闻,没办法谁让新闻一般都很好爬呢XD,拿来练练手),只作为技术分享,这一次要的数据是分在了两个界面,所以试一下深度爬虫,不过是很简单的。  网页url 1.先看看网站网址的规律  发现这部分就是每一天的新闻

    2024年02月11日
    浏览(14)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包