自然语言处理从入门到应用——LangChain:索引(Indexes)-[文档加载器(Document Loaders)]

分类目录:《自然语言处理从入门到应用》总目录


合并语言模型和我们自己的文本数据是区分它们的一种强大方式,这样做的第一步是将数据加载到“文档”中,文档加载器的作用就是使这个过程变得简单。

LangChain提供了三种文档加载器:

  • 转换加载器
  • 公共数据集或服务加载器
  • 专有数据集或服务加载器

转换加载器

这些转换加载器将数据从特定格式转换为文档格式,例如有用于CSV和SQL的转换器。大多数情况下,这些加载器从文件中输入数据,有时也可以从URL中输入数据。许多这些转换器的主要驱动程序是Unstructured模块。该包可以将许多类型的文件(文本、PowerPoint、图像、HTML、PDF 等)转换为文本数据。

文档加载器提供的文件类型或数据类型包括:

  • Airtable
  • OpenAIWhisperParser
  • CoNLL-U
  • Copy Paste
  • CSV
  • Email
  • EPUB
  • EverNote
  • Microsoft Excel
  • Facebook Chat
  • File Directory
  • HTML
  • Images
  • Jupyter Notebook
  • JSON
  • Markdown
  • Microsoft PowerPoint
  • Microsoft Word
  • Open Document Format (ODT)
  • Pandas DataFrame
  • PDF
  • Sitemap
  • Subtitle
  • Telegram
  • TOML
  • Unstructured File
  • URL
  • Selenium URL Loader
  • Playwright URL Loader
  • WebBaseLoader
  • Weather
  • WhatsApp Chat

公共数据集或服务加载器

这些数据集和来源是为公共领域创建的,我们使用查询来搜索并下载所需的文档。。对于这些数据集和服务,我们不需要任何访问权限。下面是一些公共数据集或服务加载器的示例:

  • Arxiv
  • AZLyrics
  • BiliBili
  • College Confidential
  • Gutenberg
  • Hacker News
  • HuggingFace数据集
  • iFixit
  • IMSDb
  • MediaWikiDump
  • Wikipedia
  • YouTube 转录

专有数据集或服务加载器

这些数据集和服务不属于公共领域。这些加载器主要用于转换特定格式的应用程序或云服务的数据,e。我们需要访问令牌和其他参数才能访问这些数据集和服务。下面是一些专有数据集或服务加载器的示例:

  • Airbyte JSON
  • Apify Dataset
  • AWS S3 Directory
  • AWS S3 File
  • Azure Blob Storage Container
  • Azure Blob Storage File
  • Blackboard
  • Blockchain
  • ChatGPT Data
  • Confluence
  • Diffbot
  • Docugami
  • DuckDB
  • Fauna
  • Figma
  • GitBook
  • Git
  • Google BigQuery
  • Google Cloud Storage Directory
  • Google Cloud Storage File
  • Google Drive
  • Image Captions
  • Iugu
  • Joplin
  • Microsoft OneDrive
  • Modern Treasury
  • Notion DB 2/2
  • Notion DB 1/2
  • Obsidian
  • Psychic
  • PySpark DataFrame Loader
  • ReadTheDocs Documentation
  • Reddit
  • Roam
  • Slack
  • Snowflake
  • Spreedly
  • Stripe
  • Twitter
  • 2Markdown

参考文献:
[1] LangChain官方网站:https://www.langchain.com/
[2] LangChain ️ 中文网,跟着LangChain一起学LLM/GPT开发:https://www.langchain.com.cn/
[3] LangChain中文网 - LangChain 是一个用于开发由语言模型驱动的应用程序的框架:http://www.cnlangchain.com/

你可能感兴趣的:(自然语言处理从入门到应用,人工智能,深度学习,自然语言处理,langchain,文档加载器)