【python】网络爬虫与信息提取--正则表达式

这篇具有很好参考价值的文章主要介绍了【python】网络爬虫与信息提取--正则表达式。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、正则表达式

        正则表达式是用来简洁表达一组字符串的表达式。是通用的字符串表达框架,简洁表达一组字符串的表达式,针对字符串表达“简洁”和“特征”思想的工具,判断某字符串的特征归属。

        用处:表达文本类型的特征;同时查找或替换一组字符串;匹配字符串的全部或部分。

        编译:将符合正则表达式语法的字符串转换成正则表达式特征。

        语法:正则表达式由字符和操作符构成。

        正则表达式的常用操作符:

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

        实例:

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

        

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

二、RE库的基本使用

        RE库是python的标准库,主要用于字符串的匹配。

        调用方法:import re

        RE库使用raw string类型来表达正则表达式,表示为:r'text',例如:r'[1-9]\d{5}';也使用string类型,但是由于string类型中将斜杠理解为转义符,所以会更加繁琐,例如:'[1-9]\\d{5}'。综上,当正则表达式包含转义符时使用raw string。

        re库的主要功能函数:

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

 re.search(pattern,string,flags=0)        

         pattern:正则表达式的字符串或原生字符串表示

        string:待匹配字符串

        flags:正则表达式使用时的控制标记

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

        例子:我们匹配的字符串是BIT100081

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

re.match(pattern,string,flags=0)

        pattern:正则表达式的字符串或原生字符串表示

        string:待匹配字符串

        flags:正则表达式使用时的控制标记

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

        仔细看下这个错误提示,NoneType这说明现在由match函数返回的变量match它并没有一个属性叫group,也就是说这个match是空的。我们知道,这边所用的正则表达式表示了一个中国区的邮政编码,而它从后边的string类型中,从起始位置开始匹配,但我们给出的string起始位置并不是邮政编码,因此它的正则表达式匹配结果应该是空。所以我们在使用之前一定要先判断这个match是不是空的。

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

re.findall(pattern,string,flags=0)

        pattern:正则表达式的字符串或原生字符串表示

        string:待匹配字符串

        flags:正则表达式使用时的控制标记

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

re.split(pattern,string,maxsplit=0,flags=0)

        pattern:正则表达式的字符串或原生字符串表示

        string:待匹配字符串

        maxsplit:最大分割数,剩余部分作为最后一个元素输出

        flags:正则表达式使用时的控制标记

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

        maxsplit=1表示只匹配第一个位置,匹配之后它将BIT分割出来

re.finditer(pattern,string,flags=0)

        pattern:正则表达式的字符串或原生字符串表示

        string:待匹配字符串

        flags:正则表达式使用时的控制标记

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

re.sub(pattern,repl,string,count=0,flags=0)

        pattern:正则表达式的字符串或原生字符串表示

        repl:替换匹配字符串的字符串

        string:待匹配字符串

        count:匹配的最大替换次数

        flags:正则表达式使用时的控制标记

 【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

RE库的另一种等价用法

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

        re.compile(pattern,flags=0):将正则表达式的字符串形式编译成正则表达式对象。pattern:正则表达式的字符串或原生字符串表示,flags:正则表达式使用时的控制标记。

三、RE库的match对象

        match对象就是一次匹配的结果,它包含了很多匹配的相关关系,

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

match对象的属性 

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

        只有经过compile的正则表达式才是真正的正则表达式,如果没经过,就是compile的一种表示。

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

四、Re库的贪婪匹配和最小匹配

        r'PY.*n'表示以PY字母开头,以N结尾,之间可以有若干个字母的字符串。

        贪婪匹配:RE库默认采用贪婪匹配,即输出匹配最长的子串。

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

        输出最短的子串:

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式

        最小匹配操作符: 

【python】网络爬虫与信息提取--正则表达式,python,爬虫,正则表达式文章来源地址https://www.toymoban.com/news/detail-826133.html

 

到了这里,关于【python】网络爬虫与信息提取--正则表达式的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 8.网络爬虫—正则表达式RE实战

    8.网络爬虫—正则表达式RE实战

    前言 : 🏘️🏘️个人简介:以山河作礼。 🎖️🎖️:Python领域新星创作者,CSDN实力新星认证 📝​📝​此专栏文章是专门针对网络爬虫基础,欢迎免费订阅! 📝​📝第一篇文章《1.认识网络爬虫》获得 全站热榜第一 ,python 领域热榜第一 , 第四篇文章《4.网络爬虫—

    2023年04月08日
    浏览(8)
  • python 自动化数据提取之正则表达式

     前    言 我们在做接口自动化的时候,处理接口依赖的相关数据时,通常会使用正则表达式来进行提取相关的数据,今天在这边和大家聊聊如何在python中使用正则表达式。 正则表达式 ,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular

    2024年02月14日
    浏览(12)
  • Python正则表达式提取文本中的IP地址

    Python正则表达式提取文本中的IP地址 在Python中,使用正则表达式可以方便地从文本中抽取符合规则的字符串。其中,IP地址是一个常见的需要抽取的内容之一。IP地址通常由四段数字组成,每段数字的取值范围是0~255。下面将演示如何在Python中使用正则表达式抽取文本中的IP地

    2024年02月16日
    浏览(15)
  • Python爬虫(十)_正则表达式

    Python爬虫(十)_正则表达式

    什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达

    2024年02月13日
    浏览(25)
  • Python爬虫基础之正则表达式

    Python爬虫基础之正则表达式

    目录 一、什么是正则表达式? 二、re.compile()编译函数 三、group()获取匹配结果函数 四、常用匹配规则 4.1匹配单个字符 4.2匹配前字符次数 4.3匹配原生字符串 4.4匹配字符串开头和结尾 4.5分组匹配 五、re.match()开头匹配函数 六、re.search()全文搜索函数 七、re.findall()查找所有函数

    2024年02月10日
    浏览(10)
  • python爬虫入门(三)正则表达式

    开源中国提供的正则表达式测试工具 http://tool.oschina.net/regex/,输入待匹配的文本,然后选择常用的正则表达式,就可以得出相应的匹配结果了 常用的匹配规则如下 模 式 描 述 w 匹配字母、数字及下划线 W 匹配不是字母、数字及下划线的字符 s 匹配任意空白字符,等价于

    2024年02月08日
    浏览(12)
  • python爬虫之正则表达式学习

    网络安全离不开脚本和工具的开发,python很多又需要正则表达式。 这是一个很好的学习正则表达式的项目 正则表达式其实就是在执行搜索时的格式,它由一些字母和数字组合而成。 例如:一个正则表达式  the ,它表示一个规则:由字母 t 开始,接着是 h ,再接着是 e, 正则

    2024年02月09日
    浏览(42)
  • python爬虫之正则表达式解析实战

    python爬虫之正则表达式解析实战

    先获取网址,URL:https://www.xiachufang.com/category/40076/ 定位想要爬取的内容 使用正则表达式爬取 导入模块 指定URL UA伪装(模拟浏览器) 发起请求,获取当前页面的数据内容,并使用通用爬虫爬取整个页面 编译正则表达式(提取想要的内容) 解析请求内容 指定图片存储路径 持

    2024年02月08日
    浏览(11)
  • Jmeter接口关联(三)【使用正则表达式提取值】以及正则表达式提取器中模板的含义及用法

    Jmeter接口关联(三)【使用正则表达式提取值】以及正则表达式提取器中模板的含义及用法

    文章目录 前言 一、Jmeter中使用正则表达式匹配 1、选择 RegExp Tester 2、在线程组------》添加------》后置处理器-------里面添加一个“正则表达式提取器” 二、关于正则表达式提取器里面字段的解释 参数说明 三、进一步解释Jmeter正则表达式提取器中的模板 1、当模板设置为$0$ 

    2024年02月13日
    浏览(26)
  • Jmeter正则表达式提取

    Jmeter正则表达式提取

    Jmeter提供边界值提取、正则表达式提取、JSON提取、xpath提取 可以提取接口返回体(响应结果)的内容。实现从上一个返回体中获取下一个请求体中需要的数据 例如: Jmeter接口测试时,许多请求都需要用到token,而账号登录返回的token是动态的。固定的token账号重新登录或退出

    2024年02月09日
    浏览(13)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包