XPath的安装与使用

这篇具有很好参考价值的文章主要介绍了XPath的安装与使用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、XPath简介

XPath即XML路径查询语言(XML Path Language),是一种用于确定XML文档中部分节点位置的语言。它起初只支持搜索XML文档,更新后能支持搜索HTML文档

XPath是如何搜索XML或HTML文档的?

XPath基于XML或HTML的节点树,沿着节点树的节点关系定位到目标节点所在的位置,并选取节点或节点集。为了形象地描述出搜索节点的路径,XPath提供简洁明了的路径表达式,通过路径表达式可以快速地定位与选取XML或HTML文档中的一个节点或者一组节点集。

路径表达式

路径表达式描述了从一个节点到另一个节点或一组节点的路径。这些路径与在常规的计算机文件系统中见到的路径非常相似。例如,“/学生名单/班级/学生/籍贯”就是一个路径表达式,该路径表达式也是用“/”字符进行分割的,只不过它分割的是节点,而不是目录。

XML文档,XML节点树与路径表达式的关系

XML文档
<bookstore>
    <book category="WEB">
        <title>Learing XML</title>
        <author>Erik T.Ray</author>
        <year>2003</year>
        <price>39,95</price>
    </book>
</bookstore>

xpath安装,爬虫,爬虫,python,chrome devtools

在上图中,从上到下,依次为XML文档、XML节点树和路径表达式。其中路径表达式为:“/bookstore/book/price”,它对应的路径为XML节点树种加粗的线条,用于选取节点price对应的文本39.95

二、XPath的安装(chrome)

本章选取的XPath版本为2.0.2,并在chrome中添加扩展,请保持chrome为最新版。

压缩包地址:XPath压缩包,密码:fxd1

1.下载解压到桌面。

2.打开chrome,打开设置在左边工具栏中找到扩展程序,点开就能看到所有的扩展程序,确保自己打开了开发者模式

xpath安装,爬虫,爬虫,python,chrome devtools

xpath安装,爬虫,爬虫,python,chrome devtools

3.将桌面上的解压缩文件拖到刚刚的界面进行添加程序。

xpath安装,爬虫,爬虫,python,chrome devtools

4.添加完成扩展程序中就新增了一个XPath Helper。

xpath安装,爬虫,爬虫,python,chrome devtools
5.可以通过浏览器右上角扩展程序将XPath添加到工具栏。

xpath安装,爬虫,爬虫,python,chrome devtools
6.检查是否成功添加XPath到浏览器。

点击XPath程序页面出现黑色输入框即为添加成功。

xpath安装,爬虫,爬虫,python,chrome devtools

三、如何使用XPath

我们要编写一个路径表达式,则要先了解XPath的语法,才能使用路径表达式正确的选取节点。

1.XPath语法

(1).选取节点

表达式 说明
节点名称 选取此节点的所有子节点
/ 从根节点开始选取直接子节点,相当于绝对路径
// 从当前节点开始选取后代节点,相当于相对路径
. 选取当前节点
选取当前节点的父节点
@ 选取属性节点

(2).常用的XPath函数

函数 说明
position() 返回当前被处理的节点位置
last() 返回当前节点集中的最后一个节点
count() 返回节点的总数目
max((arg,arg…)) 返回大于其他参数的参数
min((arg,arg…)) 返回小于其它参数的参数
name() 返回当前节点的名称
current-date() 返回当前的日期(带有时区)
current-time() 返回当前的时间(带有时区)
contains(string1,string2) 若string1包含string2,则返回True,否则返回False

(3).选取未知节点

通配符/函数 说明
* 匹配任何元素节点
@* 匹配任何属性节点
node() 匹配任何类型节点

(4).选取若干路径

在XPath中,我们可以使用“|”运算符连接多个路径表达式,根据多个路径选取对应的节点。

//book/title | //book/price     # 选取属于book的子节点title和price
//title | //price               # 选取所有title节点和price节点
/bookstore/book/title | //price   # 选取属于/bokstore/的所有title节点和文档中的所有节点

2.使用XPath插件

下面以豆瓣电影TOP250为例,来说明怎么获取所有的电影名称。

网址:豆瓣电影TOP250

1.打开豆瓣TOP250网站,按下F12进入开发者模式,可以看到该网页的HTML代码
xpath安装,爬虫,爬虫,python,chrome devtools
2.点击开发者模式左上角小箭头图标,进入检查模式。

xpath安装,爬虫,爬虫,python,chrome devtools
3.鼠标移到电影名称,点击,就会在开发者模式中看到电影名称的html标签。

xpath安装,爬虫,爬虫,python,chrome devtools
xpath安装,爬虫,爬虫,python,chrome devtools
4.鼠标右键名称,赋值XPath路径。

5.打开XPath插件,将刚刚赋值的路径粘贴到XPath输入框中。

xpath安装,爬虫,爬虫,python,chrome devtools
我们就看到了我们选取的电影名

6.要选取所有的电影名称我们就需要更改路径。

观察当前名称的html标签位置,找出规则。

所有电影名称的XPath路径为:

//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]

在XPath输入框中输入上述路径,得出所有电影名称。
xpath安装,爬虫,爬虫,python,chrome devtools
至此我们学会了怎么使用XPath。文章来源地址https://www.toymoban.com/news/detail-735016.html

到了这里,关于XPath的安装与使用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python爬虫学习笔记(四)————XPath解析

    目录 0.xpath最新下载地址和安装教程 1.xpath安装 2.xpath基本使用 3.xpath基本语法 4.实例 (1)xpath解析本地文件  (2)xpath解析服务器响应的数据 ①获取百度网站的“百度一下”四个字 ②获取站长素材网站情侣图片前十页的图片 0.xpath最新下载地址和安装教程 https://blog.csdn.net/

    2024年02月16日
    浏览(12)
  • 〖Python网络爬虫实战⑫〗- XPATH语法介绍

    订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+                 python项目实战                  Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,

    2023年04月14日
    浏览(14)
  • 【Python从入门到进阶】28、xpath的安装以及使用

    接上篇《27、Handler处理器使用及代理和Cookie登录实现》 上一篇我们讲解了urllib中Handler处理器的基本使用,以及实现代理访问和Cookie的登录。本篇我们来讲解HTML文档解析中的核心插件xpath的安装及使用。 XPath是由W3C(World Wide Web Consortium)组织发布的。W3C是一个国际性组织,负

    2024年02月05日
    浏览(19)
  • 浏览器插件下载以及安装----以chrome浏览器中安装Xpath插件进行演示

    初学Spider, 需要Xpath插件, 可是电脑没有自带的插件, 需要自己下载安装, 当然不会, 就来CSDN取经, 看了好多博客, 终于整理出来一套简单实用且全面的插件下载安装说明书! 说明书! 本文章以 chrome浏览器 为例, 因为常用的: 360浏览器, Edge浏览器, IE浏览器等, 它们的插件安装包和以

    2024年02月15日
    浏览(20)
  • 爬虫之xpath插件下载与使用

    国内下载地址:https://chrome.zzzmh.cn/info?token=hgimnogjllphhhkhlmebbmlgjoejdpjl

    2024年02月06日
    浏览(23)
  • 网络爬虫(二)——Xpath和Selenium的使用

    虽然正则表达式处理字符串的能力很强,但是在编写正则表达式的时候代码还是比较麻烦的,如果不小心写错一处,那么将无法匹配页面中所需要的数据,因为网页中包含大量的节点,而节点中又包含id、class等属性。如果在解析页面中的数据时,通过Xpath来定位网页中的数据

    2024年02月03日
    浏览(15)
  • python爬虫数据解析xpath、jsonpath,bs4

    解析数据的方式大概有三种 xpath JsonPath BeautifulSoup 打开谷歌浏览器扩展程序,打开开发者模式,拖入插件,重启浏览器,ctrl+shift+x,打开插件页面 安装在python环境中的Scripts下边,这里就是python库的位置,例如我的地址为:E:pythonpython3.10.11Scripts 解析本地文件etree.parse( \\\'xx.

    2024年02月13日
    浏览(11)
  • python-爬虫-xpath方法-批量爬取王者皮肤图片

    球员:乔尔-恩比德 - - - 球队:76人 球员:卢卡-东契奇 - - - 球队:独行侠 球员:达米安-利拉德 - - - 球队:开拓者 爬取一张图片 该角色有7个皮肤 爬取7个图片 获取这7个皮肤的名字 保存图片 获取所有英雄皮肤 把该行网址复制到网址栏,会自动下载该文件 https://pvp.qq.com/web20160

    2024年02月09日
    浏览(11)
  • Python爬虫实战之爬淘宝商品--selenium+Xpath

    代码链接 利用selenium来自动翻页爬取淘宝商品的标题,价格,销量,产地信息。 导入库: 注意自己配置好python环境(谷歌驱动…) 利用selenium,手动登录获取cookie保存在本地用于登录平台(便于测试代码),访问商品页url通过Xpath选中对象拿数据,翻页,通过Xpath选中对象拿数据,翻页

    2024年02月04日
    浏览(12)
  • 学习selenium+python使用 XPath 表达式来实现找到目标元素时智能封装等待,执行测试代码启动Chrome浏览器后,地址栏只显示data;

    学习使用 XPath 表达式来实现找到目标元素时智能封装等待 执行测试代码启动Chrome浏览器后,地址栏只显示 data; 看了好久找到了替代启动浏览器的方法:换成 self.driver.get(\\\'http://localhost:8080\\\') 就好了 然后开始琢磨两者的区别: 使用 self.driver.get(\\\'http://localhost:8080\\\') 时,driver 是

    2024年01月17日
    浏览(13)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包