通过爬虫使用百度翻译

  在NLP任务中,通过数据增强(例如EDA、回译等)的方式增加训练集是一个非常常用的trick。其中回译就需要用到翻译系统。但由于构建翻译系统需要大规模的语料和算力,所以不如直接使用现有的翻译系统。除此之外,还有很多的场景均需要翻译,所以为了满足大家的需求,特花时间来给大家写一篇通过爬虫使用百度翻译的博客。

  这次的天选之子就是百度翻译,但事先说明下该脚本只是为了学习,请勿滥用、商用,否则后果自负。

  虽然在网上有很多类似的博客,但绝大多数讲的过粗,不利于新手的学习。所以就给大家准备一篇极为详细的博客。

文章目录

  • 1. 搭建环境
    • 1.1 安装Python库
    • 1.2 安装nodejs
  • 2. 原理分析和实战操作
    • 2.1 寻找对应的XHR项
    • 2.2 破解参数
  • 3. 代码

1. 搭建环境

1.1 安装Python库

pip install PyExecJS 
pip install requests

1.2 安装nodejs

  nodejs下载地址为:

你可能感兴趣的:(爬虫,python,爬虫,翻译)