GPT学习笔记-文章的摘要

在多数针对GPT的应用中,很多都是希望通过GPT加载私有数据,为企业或个人做知识助理。对于海量的数据的处理方法应该是结合向量数据库和已有的文件数据库ES,Mongodb等。但是有一些已有的以文档形式记录的企业知识,怎么处理呢?下面我们看看,openai提供的一个把已有的pdf文档加载到GPT中的代码例子。

GPT-3可以帮助我们从过大而无法放入上下文窗口的文档中提取关键的数字、日期或其他重要内容。解决这个问题的一种方法是将文档分块并分别处理每个块,然后再将答案合并为一个列表。

在代码例子中中,将运行以下步骤:

  • 加载一个长PDF并提取出文本
  • 创建一个用于提取关键信息的提示
  • 将我们的文档分块并处理每个块以提取出任何答案
  • 最后将它们合并
  • 我们将这种简单的方法扩展到三个更难的问题上

方法

  • 设置:拿取一个PDF,一个关于动力单元的一级方程式财务规章文档,并从中提取文本进行实体提取。我们将使用这个来尝试提取埋藏在内容中的答案。
  • 简单的实体提取:通过以下步骤从文档的一部分中提取关键信息:
    1. 创建一个模板提示,包含我们的问题和它期望的格式的例子
    2. 创建一个函数,接受一段文本作为输入,与提示结合并获得一个响应
    3. 运行一个脚本来分块文本,提取答案并输出它们以便解析
  • 复杂的实体提取:提出一些需要更严格的推理才能解决的更难的问题

例子代码是openai的cookbook的examples/Entity_extraction_for_long_documents.ipynb

你可能感兴趣的:(gpt,学习,笔记)