分类目录:《自然语言处理从入门到应用》总目录
合并语言模型和我们自己的文本数据是区分它们的一种强大方式,这样做的第一步是将数据加载到“文档”中,文档加载器的作用就是使这个过程变得简单。
LangChain提供了三种文档加载器:
- 转换加载器
- 公共数据集或服务加载器
- 专有数据集或服务加载器
转换加载器
这些转换加载器将数据从特定格式转换为文档格式,例如有用于CSV和SQL的转换器。大多数情况下,这些加载器从文件中输入数据,有时也可以从URL中输入数据。许多这些转换器的主要驱动程序是Unstructured
模块。该包可以将许多类型的文件(文本、PowerPoint、图像、HTML、PDF 等)转换为文本数据。
文档加载器提供的文件类型或数据类型包括:
- Airtable
- OpenAIWhisperParser
- CoNLL-U
- Copy Paste
- CSV
- Email
- EPUB
- EverNote
- Microsoft Excel
- Facebook Chat
- File Directory
- HTML
- Images
- Jupyter Notebook
- JSON
- Markdown
- Microsoft PowerPoint
- Microsoft Word
- Open Document Format (ODT)
- Pandas DataFrame
- PDF
- Sitemap
- Subtitle
- Telegram
- TOML
- Unstructured File
- URL
- Selenium URL Loader
- Playwright URL Loader
- WebBaseLoader
- Weather
- WhatsApp Chat
公共数据集或服务加载器
这些数据集和来源是为公共领域创建的,我们使用查询来搜索并下载所需的文档。。对于这些数据集和服务,我们不需要任何访问权限。下面是一些公共数据集或服务加载器的示例:
- Arxiv
- AZLyrics
- BiliBili
- College Confidential
- Gutenberg
- Hacker News
- HuggingFace数据集
- iFixit
- IMSDb
- MediaWikiDump
- Wikipedia
- YouTube 转录
专有数据集或服务加载器
这些数据集和服务不属于公共领域。这些加载器主要用于转换特定格式的应用程序或云服务的数据,e。我们需要访问令牌和其他参数才能访问这些数据集和服务。下面是一些专有数据集或服务加载器的示例:
- Airbyte JSON
- Apify Dataset
- AWS S3 Directory
- AWS S3 File
- Azure Blob Storage Container
- Azure Blob Storage File
- Blackboard
- Blockchain
- ChatGPT Data
- Confluence
- Diffbot
- Docugami
- DuckDB
- Fauna
- Figma
- GitBook
- Git
- Google BigQuery
- Google Cloud Storage Directory
- Google Cloud Storage File
- Google Drive
- Image Captions
- Iugu
- Joplin
- Microsoft OneDrive
- Modern Treasury
- Notion DB 2/2
- Notion DB 1/2
- Obsidian
- Psychic
- PySpark DataFrame Loader
- ReadTheDocs Documentation
- Reddit
- Roam
- Slack
- Snowflake
- Spreedly
- Stripe
- Twitter
- 2Markdown
参考文献:
[1] LangChain官方网站:https://www.langchain.com/
[2] LangChain ️ 中文网,跟着LangChain一起学LLM/GPT开发:https://www.langchain.com.cn/
[3] LangChain中文网 - LangChain 是一个用于开发由语言模型驱动的应用程序的框架:http://www.cnlangchain.com/