Python爬虫实战(高级篇)—3百度翻译网页版爬虫(附完整代码)

这篇具有很好参考价值的文章主要介绍了Python爬虫实战(高级篇)—3百度翻译网页版爬虫(附完整代码)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

首先这篇文章是转载的,但是我看懂了,经过修改成功了!!

python百度翻译爬虫,Python爬虫,python,爬虫,开发语言

PS上一节课:请查看【爬虫专栏】

本文所需的库(其余为内置库):

安装
js2py pip install js2py
requests pip install requests

我依照原帖的思路讲一下:

第 1 步,进入百度翻译网页版:点我

第 2 步 分析所需参数

这里我们发现所需的参数:

1、sign(这是最重要的!!)

2、token

3、ts,时间戳

第 3 步 分析sign 加密代码,这里我就直接展示出来了

请将该文件命名【webtrans.js】

// webtrans.js

function n(r, o) {
    for (var t = 0; t < o.length - 2; t += 3) {
        var a = o.charAt(t + 2);
        a = a >= "a" ? a.charCodeAt(0) - 87 : Number(a),
        a = "+" === o.charAt(t + 1) ? r >>> a : r << a,
        r = "+" === o.charAt(t) ? r + a & 4294967295 : r ^ a
    }
    return r
}
function e(r) {
    var o = r.match(/[\uD800-\uDBFF][\uDC00-\uDFFF]/g);
    if (null === o) {
        var t = r.length;
        t > 30 && (r = "" + r.substr(0, 10) + r.substr(Math.floor(t / 2) - 5, 10) + r.substr(-10, 10))
    } else {
        for (var e = r.split(/[\uD800-\uDBFF][\uDC00-\uDFFF]/), C = 0, h = e.length, f = []; h > C; C++)
            "" !== e[C] && f.push.apply(f, a(e[C].split(""))),
            C !== h - 1 && f.push(o[C]);
        var g = f.length;
        g > 30 && (r = f.slice(0, 10).join("") + f.slice(Math.floor(g / 2) - 5, Math.floor(g / 2) + 5).join("") + f.slice(-10).join(""))
    }
    var u = void 0
      ,
        // l = "" + String.fromCharCode(103) + String.fromCharCode(116) + String.fromCharCode(107);
        i = null;
        u = null !== i ? i : (i = window[l] || "") || "";
    for (var d = u.split("."), m = Number(d[0]) || 0, s = Number(d[1]) || 0, S = [], c = 0, v = 0; v < r.length; v++) {
        var A = r.charCodeAt(v);
        128 > A ? S[c++] = A : (2048 > A ? S[c++] = A >> 6 | 192 : (55296 === (64512 & A) && v + 1 < r.length && 56320 === (64512 & r.charCodeAt(v + 1)) ? (A = 65536 + ((1023 & A) << 10) + (1023 & r.charCodeAt(++v)),
        S[c++] = A >> 18 | 240,
        S[c++] = A >> 12 & 63 | 128) : S[c++] = A >> 12 | 224,
        S[c++] = A >> 6 & 63 | 128),
        S[c++] = 63 & A | 128)
    }
    for (var p = m, F = "" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(97) + ("" + String.fromCharCode(94) + String.fromCharCode(43) + String.fromCharCode(54)), D = "" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(51) + ("" + String.fromCharCode(94) + String.fromCharCode(43) + String.fromCharCode(98)) + ("" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(102)), b = 0; b < S.length; b++)
        p += S[b],
        p = n(p, F);
    return p = n(p, D),
    p ^= s,
    0 > p && (p = (2147483647 & p) + 2147483648),
    p %= 1e6,
    p.toString() + "." + (p ^ m)
}

python百度翻译爬虫,Python爬虫,python,爬虫,开发语言

第 4 步:

在调用上述js函数前,需要获取网页中的【window.bdstoken】以及【window.gtk】,如下图

只有拿到这两个才能生成 sign

python百度翻译爬虫,Python爬虫,python,爬虫,开发语言

第 5 步

通过【js2py】库 调用刚刚保存的 【webtrans.js】,获取最终的 【sign】

目录结构

python百度翻译爬虫,Python爬虫,python,爬虫,开发语言文章来源地址https://www.toymoban.com/news/detail-720889.html

附上完整版代码1(自己的改写版,后面还附赠进阶版(面向对象))

注意事项(必看)

代码17行:token = ‘请您写上自己的token’

代码52行:token = ‘请您写上自己的token’

代码60行:cookies = {‘Cookie’: ‘请您写上自己的cookie’}

import json
import re
import time
import requests
import js2py




def get_token_gtk():
    '''获取token和gtk(用于合成Sign)'''
    url = 'https://fanyi.baidu.com/'
    resp = requests.get(url)
    html_str = resp.content.decode()
    # print(html_str)
    # token = re.findall(r"token: '(.*?)'", html_str)[0]
    token = '请您写上自己的token'
    # print('token: ',token)
    pattern = r'gtk = "(.*?)\"'
    gtk = re.search(pattern, html_str).group(1)
    # print('gtk: ',gtk)
    # gtk = re.match(r".gtk = '(.*?)'", html_str)
    # print(token, gtk)
    return token, gtk
# get_token_gtk()

word = input("请输入你想翻译的中文:")

def generate_sign(gtk):
    """生成sign"""
    # 1. 准备js编译环境
    context = js2py.EvalJs()
    with open('webtrans.js', encoding='utf8') as f:
        js_data = f.read()
        js_data = re.sub("window\[l\]",'"'+gtk+'"',js_data)
        # js_data = re.sub("window\[l\]", "\"{}\"".format(gtk), js_data)
        # print(js_data)
        context.execute(js_data)
    sign = context.e(word)
    return sign

# print(generate_sign(get_token_gtk()[1]))


params = {
'from': 'zh',
'to': 'en',
'query': word,
'transtype': 'realtime',
'simple_means_flag': '3',
'sign': generate_sign(get_token_gtk()[1]),
'token': '请您写上自己的token',
'domain': 'common',
'ts': int(time.time()),
}
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
}
cookies = {
'Cookie': '请您写上自己的cookie'
}
url2 = 'https://fanyi.baidu.com/v2transapi?from=zh&to=en'
res_data = requests.post(url=url2,params=params,headers=headers,cookies=cookies)
res_data.encoding= "utf-8"
data  = json.loads(res_data.text)
# print(data)
print(f"输入:{data['trans_result']['data'][0]['src']}")
print(f"翻译:{data['trans_result']['data'][0]['dst']}")

完整版2(面向对象版)

# 面向对象
# 百度翻译 -- 网页版(自动获取token,sign)
import requests
import js2py
import json
import re


class WebFanyi:
    """百度翻译网页版爬虫"""
    def __init__(self,query_str):
        self.session = requests.session()
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36",
        }
        self.session.headers = headers
        self.baidu_url = "https://www.baidu.com/"
        self.root_url = "https://fanyi.baidu.com/"
        self.lang_url = "https://fanyi.baidu.com/langdetect"
        self.trans_url = "https://fanyi.baidu.com/v2transapi"
        self.query_str = query_str

    def get_token_gtk(self):
        '''获取token和gtk(用于合成Sign)'''
        self.session.get(self.root_url)
        resp = self.session.get(self.root_url)
        html_str = resp.content.decode()
        # print(html_str)
        token = re.findall(r"token: '(.*?)'", html_str)[0]
        # print(token)
        pattern = r'gtk = "(.*?)\"'
        gtk = re.search(pattern, html_str).group(1)
        # print(gtk)
        # gtk = re.match(r".gtk = '(.*?)'", html_str)

        return token,gtk

    def generate_sign(self,gtk):
        """生成sign"""
        # 1. 准备js编译环境
        context = js2py.EvalJs()
        with open('webtrans.js', encoding='utf8') as f:
            js_data = f.read()
            js_data = re.sub("window\[l\]",'"'+gtk+'"',js_data)
            # js_data = re.sub("window\[l\]", "\"{}\"".format(gtk), js_data)
            print(js_data)
            context.execute(js_data)
        sign = context.e(self.query_str)
        return sign

    def lang_detect(self):
        '''获取语言转换类型.eg: zh-->en'''
        lang_resp = self.session.post(self.lang_url,data={"query":self.query_str})
        lang_json_str = lang_resp.content.decode()  # {"error":0,"msg":"success","lan":"zh"}
        lan = json.loads(lang_json_str)['lan']
        to = "en" if lan == "zh" else "zh"
        return lan,to


    def parse_url(self,post_data):
        trans_resp = self.session.post(self.trans_url,data=post_data)
        trans_json_str = trans_resp.content.decode()
        trans_json = json.loads(trans_json_str)
        result = trans_json["trans_result"]["data"][0]["dst"]
        print("{}: {}".format(self.query_str,result))

    def run(self):
        """实现逻辑"""
        # 1.获取百度的cookie,(缺乏百度首页的cookie会始终报错998)
        self.session.get(self.baidu_url)
        # 2. 获取百度翻译的token和gtk(用于合成sign)
        token, gtk = self.get_token_gtk()
        # 3. 生成sign
        sign = self.generate_sign(gtk)
        # 4. 获取语言转换类型.eg: zh-->en
        lan, to = self.lang_detect()
        # 5. 发送请求,获取响应,输出结果
        post_data = {
            "from": lan,
            "to": to,
            "query": self.query_str,
            "transtype": "realtime",
            "simple_means_flag": 3,
            "sign": sign,
            "token": token
        }
        self.parse_url(post_data)

if __name__ == '__main__':
    webfanyi = WebFanyi('西瓜')
    webfanyi.run()

原帖查看

希望对大家有帮助

我也正在努力学习爬虫,大家共同进步!!

都看到这了,关注+点赞+收藏=不迷路!!

到了这里,关于Python爬虫实战(高级篇)—3百度翻译网页版爬虫(附完整代码)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python爬虫-爬取百度搜索结果页的网页标题及其真实网址

    cmd命令行输入安装requests库:pip3 install -i https://pypi.douban.com/simple requests 安装bs4库:pip3 install -i https://pypi.douban.com/simple beautifulsoup4   https://wwuw.lanzouj.com/i1Au51a0312d 解压文件后,需按照解压包内教程装载Cookie即可使用。 本py脚本文件较符合有需求者使用,更适合python爬虫初学者

    2024年02月08日
    浏览(13)
  • Python:使用爬虫抓取网页中的视频并下载(完整源码)

    Python:使用爬虫抓取网页中的视频并下载(完整源码) 在今天的程序开发世界中,网站是不可或缺的一部分。人们使用网站来获取有用的信息、购买商品和娱乐自己。这些网站的内容通常包含了各种类型的文件,其中最常见的就是视频。对于有经验的程序开发者来说,使用

    2024年02月16日
    浏览(15)
  • Python 爬虫实战:驾驭数据洪流,揭秘网页深处

    爬虫,这个经常被人提到的词,是对数据收集过程的一种形象化描述。特别是在Python语言中,由于其丰富的库资源和良好的易用性,使得其成为编写爬虫的绝佳选择。本文将从基础知识开始,深入浅出地讲解Python爬虫的相关知识,并分享一些独特的用法和实用技巧。本文将以

    2024年02月12日
    浏览(13)
  • 〖Python网络爬虫实战②〗- Web网页基础

    订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+                 python项目实战                  Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,

    2023年04月26日
    浏览(13)
  • Python爬虫:汽车之家爬虫(完整代码)

    ⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ 🐴作者: 秋无之地 🐴简介:CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作,主要擅长领域有:爬虫、后端、大数据开发、数据分析等。 🐴欢迎小伙伴们 点赞👍🏻、收藏

    2024年02月04日
    浏览(14)
  • Python网页爬虫代码

    网页爬虫是一种自动化程序,可以自动地访问网页并提取其中的信息。它可以用于各种目的,例如搜索引擎的索引、数据挖掘、价格比较、舆情监测等。网页爬虫通常使用编程语言编写,例如Python、Java等。 以下是一个简单的示例,使用 Python 和 requests 库进行网页爬取: 在这

    2024年02月15日
    浏览(17)
  • Python爬虫完整代码模版

    以下是一个基本的Python爬虫代码模板,可以根据需要进行修改: ```python import requests from bs4 import BeautifulSoup # 设置请求头,模拟浏览器访问 headers = {     \\\'User-Agent\\\': \\\'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3\\\'} # 发送请求 response = r

    2024年02月11日
    浏览(13)
  • python爬虫实战 scrapy+selenium爬取动态网页

    最近学习了scrapy爬虫框架,想要找个目标练练手。由于现在很多网页都是动态的,因此还需要配合selenium爬取。本文旨在记录这次学习经历,如有疑问或不当之处,可以在评论区指出,一起学习。 对scrapy不了解的同学可以阅读这篇文章 爬虫框架 Scrapy 详解,对scrapy框架介绍的

    2024年02月07日
    浏览(37)
  • Python爬虫完整代码拿走不谢

    对于新手做Python爬虫来说是有点难处的,前期练习的时候可以直接套用模板,这样省时省力还很方便。 使用Python爬取某网站的相关数据,并保存到同目录下Excel。 直接上代码: 直接复制粘贴就行。 若要更改爬取网站,则需要更改URL以及相应的html格式(代码中的“item”)。

    2024年02月11日
    浏览(15)
  • 使用Python爬取给定网页的所有链接(附完整代码)

    💂 个人网站:【海拥】【摸鱼游戏】【神级源码资源网】 🤟 前端学习课程:👉【28个案例趣学前端】【400个JS面试题】 💅 想寻找共同学习交流、摸鱼划水的小伙伴,请点击【摸鱼学习交流群】 此脚本从给定的网页中检索所有链接,并将其保存为 txt 文件。(文末有完整源

    2024年02月08日
    浏览(26)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包