轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!

这篇具有很好参考价值的文章主要介绍了轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

在以前的文章中,我们学习了通过playwright+python+requests可以实现绕过浏览器鉴权进行接口请求。

在曾经的一次数据爬取的时候,我尝试去获取Boss直聘的岗位信息,可是很不巧,boss直聘的反爬机制把我的IP直接封了,妙啊。

在这里给大家推荐一款工具:亮数据。

他可以使用真实IP进行代理,从而对目标网站数据进行获取。

注册

注册地址:点击注册免费试用

进入中文版首页页面如下:

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

我们填写相关信息进行注册,注意姓名尽量写英文,我第一次注册的时候写中文好像没有验证成功,邮箱填本土的就可以。

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

这里注册的时候要注意,我们的密码要包含英文大小写+数字+特殊符号,缺一不可。从这来讲,亮数据的安全性考虑的不错。

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

登录

注册成功登录后界面如下:

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

功能展示

代理&爬虫基础设施

这个是有什么用呢?这个相当于一个远程浏览器,不需要像谷歌浏览器、火狐浏览器一样下载到本地,你可以通过远程连接这个浏览器,进行相关爬虫操作(这样即使封IP也封不到自己了,嘿嘿嘿~),后文我会以python-playwright进行示列。

这个浏览器的核心优势:

自动绕过验证码、封锁和限制

兼容Puppeteer, Playwright、Selenium

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

看到第一个了吗。这个就是我们可以使用的亮数据浏览器,点进去里面会有相关信息。

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

在右侧我们可以获取demo进行运行,我们分别以python语言-selenium-playwright进行操作。

python-selenium演示

pip3 install selenium

这里的主机名和其他信息改成上文中截图的,用你们自己注册的哈。

from selenium.webdriver import Remote, ChromeOptions
from selenium.webdriver.chromium.remote_connection import ChromiumRemoteConnection

SBR_WEBDRIVER = 'https://brd-customer-hl_8dfe8c6c-zone-scraping_browser:y6ebvg0rhg72@brd.superproxy.io:9515'


def main():
    print('Connecting to Scraping Browser...')
    sbr_connection = ChromiumRemoteConnection(SBR_WEBDRIVER, 'goog', 'chrome')
    with Remote(sbr_connection, options=ChromeOptions()) as driver:
        print('Connected! Navigating to https://example.com...')
        driver.get('https://example.com')
        # CAPTCHA handling: If you're expecting a CAPTCHA on the target page, use the following code snippet to check the status of Scraping Browser's automatic CAPTCHA solver
        # print('Waiting captcha to solve...')
        # solve_res = driver.execute('executeCdpCommand', {
        #     'cmd': 'Captcha.waitForSolve',
        #     'params': {'detectTimeout': 10000},
        # })
        # print('Captcha solve status:', solve_res['value']['status'])
        print('Navigated! Scraping page content...')
        html = driver.page_source
        print(html)


if __name__ == '__main__':
    main()

python-playwright演示

pip3 install playwright

这里的主机名和其他信息改成上文中截图的,用你们自己注册的哈。

import asyncio
from playwright.async_api import async_playwright

SBR_WS_CDP = 'wss://brd-customer-hl_8dfe8c6c-zone-scraping_browser:y6ebvg0rhg72@brd.superproxy.io:9222'


async def run(pw):
    print('Connecting to Scraping Browser...')
    browser = await pw.chromium.connect_over_cdp(SBR_WS_CDP)
    try:
        page = await browser.new_page()
        print('Connected! Navigating to https://example.com...')
        await page.goto('https://example.com')
        # CAPTCHA handling: If you're expecting a CAPTCHA on the target page, use the following code snippet to check the status of Scraping Browser's automatic CAPTCHA solver
        # client = await page.context.new_cdp_session(page)
        # print('Waiting captcha to solve...')
        # solve_res = await client.send('Captcha.waitForSolve', {
        #     'detectTimeout': 10000,
        # })
        # print('Captcha solve status:', solve_res['status'])
        print('Navigated! Scraping page content...')
        html = await page.content()
        print(html)
    finally:
        await browser.close()


async def main():
    async with async_playwright() as playwright:
        await run(playwright)


if __name__ == '__main__':
    asyncio.run(main())

数据集展示

在亮数据中,我们可以看到很多现成的数据集。

进入数据商城,在右侧我们可以根据行业分类,看到各式各样的数据集,非常非常多

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

比如我们要查看TikTok的粉丝量大于一百万的,你可以选择CSV格式下载或者是JSON格式进行下载,这样大大方便了自己去爬取。

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

使用

进入代理&爬虫基础设施,选择亮数据浏览器

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

可以点击旁边的免费使用按钮,显示演示视频

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

这个功能适合以下需求的客户:

抓取过程需要需要交互(点击、悬停、在页面之间导航等)或JavaScript rendering以访问数据的网站。

核心优势:

自动绕过验证码、封锁和限制

兼容Puppeteer, Playwright、Selenium

scraping_browser

你还可以设置你自己的用户请求头和cookie信息

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

亮数据爬虫IDE

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

进来之后我们可以看到亮数据使用JS编写的爬取其他网站信息的源码,并且可以直接在线运行。(这里可以进行借鉴学习爬虫技巧。)

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

这里我选取了一个tiktok的爬虫demo,我们可以看到右侧可以直接展示当前爬虫的操作过程。

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

自定义自己的数据集

示列:爬取CSDN的数据。

步骤一:选择按需定制数据集

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

步骤二:新建数据集

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

步骤三:填入目标网址

爬取CSDN后端内容

https://blog.csdn.net/nav/back-end
https://blog.csdn.net/nav/web

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

步骤四:进行提交

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

提交后就会自动抓取

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

抓取完成后点击查看

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

亮数据会抓取很多字段,我们需要编辑对应的字段,可以根据自己的需求进行删减,也可以对字段进行相关的备注修改。

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

如果你不想自己自定义,也可以使用AI-defined schema

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

都编辑好了之后,就滑到最后面点击接受。

设置爬取的条数,这里我设置爬了100

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!,低代码,自动化,爬虫,python,playwright

点击提交,之后你可以对爬取到的数据进行直接下载。

更多内容直接注册亮数据即可免费试用:https://get.brightdata.com/szx9v3lbk0ty

点击注册免费试用文章来源地址https://www.toymoban.com/news/detail-770178.html

到了这里,关于轻松爬取网页数据:低代码&零编程技巧的自动化爬虫神器!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 探秘C语言数组:解锁高效数据管理与多维空间编程技巧"

    ✨✨ 欢迎大家来到贝蒂大讲堂✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:C语言学习 贝蒂的主页:Betty‘s blog 前面贝蒂给大家介绍了选择结构与循环结构,今天,贝蒂准备给大家介绍C语言中一个非常重要的结构——数组 数组到底是什么呢,顾名思义就是很多数的

    2024年03月09日
    浏览(22)
  • 欧姆龙SysmacStudio 关于模块化编程的使用技巧---全局变量和数据类型

    在平常使用欧姆龙SysmacStudio 编程时,有新建大量的结构体和全局变量,若不分类进行模块化,会造成查找不方便,下面分享的就是对全局变量和数据类型进行模块分类,方便查找,提高编程效率。 下图中是新建的一个系统周期时钟频率的FB块 为了方便在程序中使用,将FB的输

    2024年02月06日
    浏览(23)
  • 【SQL Server】数据库开发指南(三)面向数据分析的 T-SQL 编程技巧与实践

    本系列博文还在更新中,收录在专栏:#MS-SQL Server 专栏中。 本系列文章列表如下: 【SQL Server】 Linux 运维下对 SQL Server 进行安装、升级、回滚、卸载操作 【SQL Server】数据库开发指南(一)数据库设计的核心概念和基本步骤 【SQL Server】数据库开发指南(二)MSSQL数据库开发对

    2023年04月12日
    浏览(22)
  • Rust 编程小技巧摘选(6) Rust 编程小技巧(6)

    目录 Rust 编程小技巧(6) 1. 打印字符串 2. 重复打印字串 3. 自定义函数 4. 遍历动态数组 5. 遍历二维数组 6. 同时遍历索引和值 7. 检查数组是否包含某个值 8. 二维矩阵中查找某个值 附:迭代器方法的区别 Rust 打印主要用宏 print!()、println!(),打印宏的占位符使用 {}。 有多种方法

    2024年02月13日
    浏览(15)
  • Python爬虫|使用Selenium轻松爬取网页数据

    1. 什么是selenium? Selenium是一个用于Web应用程序自动化测试工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作浏览器一样。支持的浏览器包括IE,Firefox,Safari,Chrome等。 Selenium可以驱动浏览器自动执行自定义好的逻辑代码,也就是可以通过代码完全模拟成人类使用

    2024年02月04日
    浏览(14)
  • C++编程技巧

    #pragma GCC optimize(\\\"O3,unroll-loops\\\") 这是编译器指令,告诉GCC编译器使用最大优化级别(O3)和循环展开(unroll-loops)进行编译,以提高程序的运行速度 例如: 这会告诉编译器尽可能地优化代码以提高运行速度,有时候甚至会牺牲浮点数的精度。这里的程序是计算一个整型数组的所有元

    2024年02月05日
    浏览(15)
  • C#编程技巧--2

    1.使用泛型: 泛型允许你编写更加灵活和可重用的代码,同时提高类型安全性。 C# 中的泛型功能允许你编写更加灵活和可重用的代码,并且可以增加类型安全性。通过使用泛型,你可以编写适用于不同类型的代码,而无需为每种类型单独重写代码。 以下是一个简单的示例,展

    2024年03月13日
    浏览(14)
  • Python-字典和集合编程技巧

    hello,这里是Token_w的博客,欢迎您的到来 今天主要讲解Python字典和集合在实际编程中的使用技巧 整理不易,对您有所帮助,希望得到你的支持!感谢!!! 实际案例 案例1:过滤掉列表[3, 9, -1, 10, 20, -2, …] 中的负数 案例2:筛出字典{‘lisi’: 79, ‘Jin’: 88, ‘lucy’: 93, …

    2024年02月13日
    浏览(18)
  • 编程技巧 --- VS如何调试.Net源码

    如题,在VS中如何调试 .Net 源码呢? 一般来说,VS2022,都是默认启用 F12 转到定义能够看到源码,如果大家发现自己无法使用 F12 查看源码,可以在 \\\"工具\\\" - \\\"选项\\\" - \\\"文本编辑器\\\" - \\\"C#\\\" - \\\"高级\\\" - \\\"转到定义\\\",勾选所有选项就对了。 但是光以上的操作还是不够的,这样的可以查

    2024年02月05日
    浏览(21)
  • 高级编程技巧之Python装饰器详解

      装饰器是Python中一种强大而灵活的编程技巧,它可以用于修改或扩展函数的行为,同时又不需要修改函数的源代码。本文将介绍Python中的装饰器的基本概念、使用方法以及高级技巧,帮助你从入门到精通装饰器的使用。   在深入学习装饰器之前,我们首先需要了解一些基本

    2024年02月13日
    浏览(18)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包