基于大模型做txt文档拆分的方法

代码地址

链接:https://pan.baidu.com/s/1bM1UXKIJyRi9g8_w0r03Ow
提取码:1234

问答类txt拆分方法

1、通过代码step1得到疑似包含问答对的文本;
2、人工挑选出包含问答对的文本;
3、基于如下提示词模板,将包含多个问答对的文本内容输入大模型,输出得到包含所有问题的json数据,得到问题后可以根据问题所在行切割问答对。

"""请将已知信息中的所有问题挑选出来,以JSON格式输出,输出示例为:{"问题":["问题1","问题2","问题3"]}
要求:
1、千万不要总结或概括问题!请直接复制已知信息的字符作为答案,绝对不要增加或删除任何字符,绝对不要添加标点符号或语气词!
2、必须找出已知信息中所有提出的问题,不要遗漏;
3、如果已知信息中没有出现提问,不要强行作答,必须输出空Json:{"问题":[]};
4、超过50字的必须舍弃,不能作为候选问题!

##########################
已知信息:
台湾茶主要病虫害问答
问:乌龙茶枝条外表被黑色绒毛状物包裹,严重者造成枝条干枯,叶片萎凋。
答:经鉴定是为粘菌,一般均是通风不良及有机质充分时产生。
防治方法:罹病枝条剪除并保持通风良好,药剂可试用含铜杀菌剂防治。
问:茶(乌龙品种)叶片上表皮有凸起之淡黄化斑点,下表皮凹陷深褐色上布满白色网状物。
答:经显微镜检是为茶饼病。
茶饼病
防治方法:可用50%赐加落可湿性粉剂2000倍或84.2%三得芬乳剂2000倍或30%赛

输出:
{"问题":["问:乌龙茶枝条外表被黑色绒毛状物包裹,严重者造成枝条干枯,叶片萎凋。", "问:茶(乌龙品种)叶片上表皮有凸起之淡黄化斑点,下表皮凹陷深褐色上布满白色网状物。"]}

##########################
已知信息:
infomation

输出:
"""

非问答类文档txt拆分方法

–>文档内文本token数小于2200的文档不拆分,大于2200的长文档就拆分;
–>拆分长文档的思路是:找出文档中的一级标题,每个一级标题对应的内容拆分为一个txt文档;具体步骤如下:
1、按行读取长文档txt, 由于目标只是提取标题,标题行一般不会超过100字符,标题下面的文本内容可以不完整,于是将超过100字符长度的行通通缩减为100字符以内的句子,具体操作方法请看代码step2_normal_txt_process.py/simplify_line()函数;
2、文本按行缩减后,结合提示词一起输入大模型,大模型可以找出其中的标题。经测试,长文档按行大幅缩减字符后,大模型找出其中标题的准确度有所提升。
3、在大模型输出的标题列表中找出一级标题,具体请看get_target_title_from_title_list.py/get_first_level_title();
4、根据一级标题切割文档,第一个文档组成内容:引言+第1-N个标题,第2-N个文档组成内容:文档名+对应标题+标题下文本;

测试过3种提取标题的提示词,具体请看代码地址中的/prompt/title_prompt.py,/prompt/title_prompt2.py, /prompt/title_prompt3.py, 经过测试第3种提示词最通用最简单,如下:

"""请将```分隔号内文本的所有标题复制出来,以JSON格式输出,输出示例为:{"标题":["第1个标题","第2个标题","第3个标题"]}
要求:
1、完整复制标题行的所有字符;
2、必须忽略超过30个字的标题;
3、如果文本中没有出现标题,则输出空JSON:{"标题":[]};

文本:```infomation```
"""

以上提示词几乎可以让大模型找出txt文本中的所有标题,包括小级别标题,通过一定的规则可以找出标题中的一级标题。

长文档切割示例

原文档
茶树根部的主要病害及其防治
以下介绍几种茶树根部的主要病害及其防治方法--
1、 茶苗白绢病
1.1 分布及症状: 茶苗白绢病是一种常见的苗圃根部病害。
1.2 病原:是一种担子菌亚门薄膜革菌属的真菌。
2、茶根癌病(与茶苗立枯病比较)
2.1 分布及症状: 主要为害茶苗,在部分茶区发生严重,造成茶苗枯死。
2.2 病原:茶根癌病菌为野杆菌属[Agrobacterium tumefaciens(S.et T.) Conn.]细菌。
3、茶苗根结线虫病
3.1 分布及症状: 主要分布于温暖的产茶区。
3.2 防治方法:
①选择生荒地作苗圃,若是种过花生、瓜类、豆类、红薯等作物的地则不宜作苗圃,盛夏应将土壤深翻,在阳光下暴晒10天后再翻1次,可杀灭土壤中的线虫。
②对已发病的苗木应增施磷肥和钾肥;提高其抗病能力,同时用石灰消毒或用1:20的茶枯水施入土壤中也有较好的防治效果。
切分后的文档1
茶树根部的主要病害及其防治
以下介绍几种茶树根部的主要病害及其防治方法--
1、 茶苗白绢病
1.1 分布及症状: 茶苗白绢病是一种常见的苗圃根部病害。
1.2 病原:是一种担子菌亚门薄膜革菌属的真菌。
2、茶根癌病(与茶苗立枯病比较), 3、茶苗根结线虫病
切分后的文档2
茶树根部的主要病害及其防治
2、茶根癌病(与茶苗立枯病比较)
2.1 分布及症状: 主要为害茶苗,在部分茶区发生严重,造成茶苗枯死。
2.2 病原:茶根癌病菌为野杆菌属[Agrobacterium tumefaciens(S.et T.) Conn.]细菌。
切分后的文档3
茶树根部的主要病害及其防治
3、茶苗根结线虫病
3.1 分布及症状: 主要分布于温暖的产茶区。
3.2 防治方法:
①选择生荒地作苗圃,若是种过花生、瓜类、豆类、红薯等作物的地则不宜作苗圃,盛夏应将土壤深翻,在阳光下暴晒10天后再翻1次,可杀灭土壤中的线虫。
②对已发病的苗木应增施磷肥和钾肥;提高其抗病能力,同时用石灰消毒或用1:20的茶枯水施入土壤中也有较好的防治效果。

你可能感兴趣的:(算法,大模型,提示词,切割文档)