怎样突破大语言模型字数限制?一键完成百万千万字的翻译任务,且翻译结果自动按句对齐

**本案例编号0003 作者:吕靖
学习本案例之前应掌握调用大语言模型API的方法,否则请先学习前期的文章,点击这里学习:如何调用大语言模型API.

文章目录

  • 1.目标描述
  • 2.具体方法:
  • 3.DeepSeek提示词
  • 4.提示词的秘诀
  • 5.基础作业(人人应能够完成)
  • 6.进阶作业(不强制)
  • 7.附录_本案例的Python代码


1.目标描述

1)自动从本地电脑指定位置读取大文档,自动批量拆分大文档,使每份子文档的字数不超过大模型单次任务的字数要求;

2)自动保存拆分结果至指定文件夹;

3)自动实现与大语言模型的对话,实现所有子文档批量翻译;

4)自动将翻译结果句对齐;

5)自动以excel格式保存句对齐结果至指定文件夹;

6)出一份总结报告,列出所有翻译失败的句子(个别句子可能会因网络拥堵或敏词原因而致翻译失败)。

总而言之,本案例能够实现:批量完成大文档的智能翻译,且将翻译结果句对齐,保存为excel格式。译者只需要在excel中做译后编辑即可!

本案例是典型的AI Python,即:用AI实现Python编程。学习者不需要编程基础,零基础也可以实现以上复杂任务。

2.具体方法:

1)将以下提示词,输入deepseek的官网窗口,deepseek会为我们实现编程(由于每次生成结果可能有所不同,如果你没有生成理想的代码,本文最后会附上经过调试、验证的代码);

2)将deepseek编写的代码复制粘贴到Jupyter Notebook;

3)将待目标大文档的路径、事先设置好的“切分结果”文件夹路径、“翻译失败报告”文件夹路径、“句对齐结果”文件夹路径、API KEY,填入代码中的相应位置;

4)最后点击Jupyter Notebook上的“运行”,然后观察运行结果,如果进度条正常滚动,没有报错,你就可以去喝咖啡、摸鱼了。过一段时间再来看看,翻译任务就全部完成了。

5)注意事项:如果出现类似报错信息

“ModuleNotFoundError: No module named ‘xxx’”,直接使用 pip install xxx安装所缺模块即可,但有一个例外,如果报错要求安装docx或python-docx时,请安装此版本:pip install python-docx==0.8.11

下面提供提示词。

3.DeepSeek提示词

你是一位使用python语言的高级程序员,请代我编写一个python脚本,满足以下要求:
1.有一个txt、doc、docx或pdf格式的大文档,请从本地电脑读出该文档;
2.将其切割成多份,每份不超过1000个tokens;
3.切割时,要保证段落的完整性,不能把段落切开了,如果段落的tokens数量超过1000,依然保留段落此时忽略tokens数量限制;
4.这里“段落”是指以换行符结尾的字符串,剔除空白行;
5.把切割结果格式化为json文档,以"段落"为主体字段,不同"段落"字段下还包含以下子字段:

-“句子编号”、“原文句子”,“译文句子”

–"句子编号"是指该句在本文档内的句子序号
–"原文句子"是指原文中以句号、问号、感叹号、省略号结尾的字符串,没有标点符号时以换行符为句标记
–“译文句子"暂时为空值,后面完成翻译后,用句子的译文填充,如果翻译失败,标记为"None”

6.将json文档保存于本地电脑指定的文件夹1
7.然后调用kimi的大语言模型,依次完成各份json文档的英译;
8.翻译时,向大模型提交整份文档,以便大模型掌握原文语境,但要求大模型按照json文档中的"原文句子"逐句翻译;
9.把各句的翻译结果填充到其相应的字段"译文句子"中去;
10.翻译失败的句子标记为"None",并生成一个txt文档,罗列出所有翻译失败的句子所属的json文档名、句子编号、原文句子;
11.调用大模型时,请控制请求速率,每分钟不超过3次请求(RPM:3);
12.最后,把各个json文档中除"段落"字段外的内容另外输出为excel格式的文档;
13.把excel文档保存于本地电脑指定的文件夹3。

4.提示词的秘诀

网上关于提示词写法的教程非常非常多,但说来说去都是在讨论提示词的模板框架,主要是:角色、背景、任务、目标之类的。这些大的条条框框,大家基本都懂,即使凭直觉,一般也不会有大的遗漏,本文不予讨论。这里只强调两点:

1)要求应“条呈化”。 有逻辑地按照1234顺序把任务要求列举出来,做到条分缕析;同时,这样处理也更容易延展,后续优化提示词时只需要增删条目即可。

2)数据应“结构化”。 传送给大语言模型的数据结构、格式越清晰越好。本文的提示词,要求deepseek编程将各子文档先格式化为:子文档-段落-句子-句子译文的层层嵌套格式。这样处理后,再把整个子文档上传给大语言模型来做翻译,既能够提供较大的翻译语境,又能够实现按句翻译,按句对齐。

题外话:虽说可以零基础入门,但真正能够实现自如应用还是要学会基础技能的,不然无法发出科学、有效的指令。因此,建议通过阅读、修改AI生成的代码来逐渐掌握python基础知识。

5.基础作业(人人应能够完成)

1)学会实际应用本案例调试的代码(具体代码见附录或去百度网盘下载:https://pan.baidu.com/s/1UL6Vkq3kgQRiH9BYoOn7Hg?pwd=runu 提取码: runu );

2)怎样修改代码,把1000tokens的切分标准,改为4000tokens的切分标准?

3)怎样修改代码,把调用kimi大模型换成调用deepseek大模型来完成翻译?

4)怎样修改代码,使其由汉译英转为英译汉?

6.进阶作业(不强制)

1)参照本案例提供的提示词,完整演绎一遍提示词调试、代码生成、代码优化、代码应用的过程;

2)把本文提供的Python代码再次上传给deepseek,让其修改代码,使之能够接受用户提供的各种不同大模型的API KEY用于翻译;

3)把本文提供的Python代码再次上传给deepseek,让其修改代码,使之能够将最后的句对齐结果转换为tmx格式保存(注:tmx格式是翻译记忆库通用格式);

4)把本文提供的Python代码再次上传给deepseek,让其参考该代码,另外再编写一份独立的程序,用于再次翻译本案翻译失败的句子;

5)把本文提供的Python代码再次上传给deepseek,完善其他你能想到的功能,然后让deepseek给你做出一个完整的应用程序,可以安装于普通电脑,供大众使用 。

欢迎留言分享作业问题、解决办法或作业心得。

7.附录_本案例的Python代码

**见本文上传的资源包**

欢迎转载,摘要、改编、引用等请注明出处,谢绝白嫖。

你可能感兴趣的:(语言模型,php,数据库)