项目地址:https://gitcode.com/gh_mirrors/fi/firecrawl
Firecrawl 是一个强大且灵活的API服务,专为将任何网站转换成适合语言模型(LLM)使用的Markdown或结构化数据而设计。此项目由Mendable AI及其社区共同构建,不仅支持基本的网页爬取,还具备高效的抓取和数据提取功能。通过遵守默认的robots.txt文件规则,它确保在进行网络爬虫活动时尊重目标网站的政策。Firecrawl提供了一套丰富的SDK,包括Python和Node.js等,使其易于集成到各种开发环境中。
首先,确保你的开发环境已安装了必要的工具,比如Node.js或Python,具体取决于你选择哪种SDK来工作。
安装Firecrawl Node.js SDK: 打开终端,执行以下命令安装SDK。
npm install @mendable/firecrawl-js
获取API Key: 访问Firecrawl官网注册并获取你的API Key。
简单示例: 设置API Key并尝试抓取一个网址。
require('dotenv').config(); // 如果你想通过环境变量管理API Key
const { FirecrawlApp } = require('@mendable/firecrawl-js');
const app = new FirecrawlApp({ apiKey: process.env.FIRECRAWL_API_KEY });
async function fetchData(url) {
try {
const data = await app.search({query: url});
console.log(data);
} catch (error) {
console.error("Error fetching data:", error);
}
}
fetchData('https://example.com');
安装Python SDK: 在Python环境下运行下面的命令。
pip install firecrawl-py
设置API Key并开始爬取:
from firecrawl.FirecrawlApp import FirecrawlApp
api_key = "YOUR_API_KEY"
app = FirecrawlApp(api_key)
# 爬取指定URL
crawl_result = app.crawl_url('https://example.com')
print(crawl_result)
最佳实践:
通过这些生态项目的整合,Firecrawl不再只是一个简单的爬虫工具,而是成为了一个强大的数据处理平台,服务于从数据采集到智能应用的全链路开发需求。
firecrawl Turn entire websites into LLM-ready markdown 项目地址: https://gitcode.com/gh_mirrors/fi/firecrawl