liugddx

3个最流行的开源大模型网络爬虫框架

在传统网络爬虫中，主要的挑战一直是手动操作的工作量。使用像 Beautiful Soup（BS4）和 Selenium 这样的工具时，我们需要为每个新网站编写解析代码，需要适配和适应不同的 HTML 结构。这种不断的修改既耗时又容易出错。然而，当出现了大模型之后就没那么复杂了。随着具备视觉功能的大型语言模型（LLM）的出现，我们现在可以创建几乎通用的网络爬虫代理，大大简化和自动化了这一过程。

在这篇博客中，我们的主要关注点是探讨三种强大的工具：ScrapeGraph、FireCrawl 和 AgentQL。这些创新的库在革命性地改变网络爬虫领域方面发挥了关键作用，提供了先进的功能，使我们能够创建高效且多功能的爬虫代理。通过深入的讨论和实际示例，我们将详细探讨这些工具如何简化网络爬虫过程，并实现构建由 LLM 模型驱动的爬虫代理的目标。

ScrapeGraph

ScrapeGraphAI 是一个开源框架，它利用大型语言模型（LLM）和直接图逻辑的力量来简化网络爬虫过程。使用 ScrapeGraphAI，为网站、文档和 XML 文件创建爬虫管道变得轻而易举。你只需指定要提取的信息，其余的工作由库来处理。其直观的界面和先进的功能使其成为开发人员寻求高效、精确的网络爬虫解决方案时的首选。

import os
from dotenv import load_dotenv
from scrapegraphai.graphs import SmartScraperGraph
from scrapegraphai.utils import prettify_exec_info
import json

# 从.env加载环境变量
load_dotenv()

# 从环境变量加载openai key
openai_key = os.getenv("OPENAI_APIKEY")

# 配置SmartScraperGraph
graph_config = {
   "llm": {
      "api_key": openai_key,
      "model": "gpt-3.5-turbo",
   },
}

# 创建SmartScraperGraph并运行
smart_scraper_graph = SmartScraperGraph(
   prompt="列举所有的产品和他们的价格",
   # 接收一个html网页页面
   source="https://s.taobao.com/search?page=1&q=iphone",
   config=graph_config
)

# 执行爬虫并保存结果
result = smart_scraper_graph.run()
with open("results.json", 'w', encoding='utf-8') as f:
      json.dump(result, f, indent=4)

我们导入了必要的模块和库，如 os、dotenv、SmartScraperGraph 和 json。首先，我们从 .env 文件中加载环境变量，这是安全存储像 API 密钥等敏感信息的常见做法。graph_config 字典包含 SmartScraperGraph 所需的配置设置。在本例中，它包含 OpenAI API 密钥并指定使用的 GPT 模型（gpt-3.5-turbo）。接下来，我们创建 SmartScraperGraph 类的实例，向其提供提示（查询）、源（要爬取的网页 URL）和配置设置。在 smart_scraper_graph 实例上调用 run() 方法来执行爬虫并从网页中提取数据。提取的数据存储在 result 变量中。最后，使用 json.dump() 方法将提取的数据保存到名为 “results.json” 的 JSON 文件中，供进一步处理或分析。

{
    "products": [
        {
            "Name": "Apple/苹果 iPhone 13 Pro Max苹果13promax 苹果13 pro 手机",
            "Price": "¥3238.00"
        },
        {
            "Name": "新款Apple/苹果 iPhone 15 Pro Max 苹果5G手机15ProMax 国行正品",
            "Price": "¥7428.00"
        },
        {
            "Name": "Apple/苹果 iPhone 15 支持移动联通电信5G 双卡双待手机",
            "Price": "¥6999.00"
        },
        {
            "Name": "Apple/苹果 iPhone14ProMax双卡原装正品苹果14Promax全网通全新",
            "Price": "¥5999.00"
        },
        {
            "Name": "Apple/苹果 iPhone 15 Pro Max",
            "Price": "¥9999.00"
        }
    ]
}

如果你想从不同的来源爬取数据，只需在代码中更改 URL。SmartScraperGraph 的灵活性允许你在不显著修改代码的情况下，针对各种网站或网页。这意味着你可以根据具体需求调整爬虫过程，轻松从各种来源收集数据。虽然 SmartScraperGraph 在处理某些网站的弹出窗口或拦截器时可能遇到限制，但需要注意的是，SmartScraperGraph 是一个开源库，这意味着你可以根据具体要求对其进行定制。

FireCrawl

Firecrawl 作为一个强大的解决方案，配备了一系列功能，旨在克服网络爬虫工作中的固有挑战。它高效地管理代理、缓存、速率限制等复杂性，确保数据检索过程的顺畅。Firecrawl 的爬取能力扩展到网站的所有可访问子页面，无论是否存在站点地图，保证全面的数据提取。即使面对通过 JavaScript 动态渲染的内容，Firecrawl 也能非常高效的地捕获每一条有价值的信息。其输出经过 Markdown 格式化，简化了与大型语言模型（LLM）和其他应用程序的集成。

你可以注册 Firecrawl 的免费套餐，获得基本的爬虫功能。通过在这注册，你可以爬取最多 500 个页面，限制为每分钟 5 次爬取以及 1 个并发爬取任务。

下面是一个使用FireCrawl爬取

from firecrawl import FirecrawlApp
from openai import OpenAI
from dotenv import load_dotenv
import os
import json
import pandas as pd
from datetime import datetime

def scrape_data(url):
    load_dotenv()
    # 初始化FirecrawlApp实例
    app = FirecrawlApp(api_key=os.getenv('FIRECRAWL_API_KEY'))

    # 爬取单个URL
    scraped_data = app.scrape_url(url, {'pageOptions': {'onlyMainContent': True}})

    # 检查是否爬取到了markdown数据
    if 'markdown' in scraped_data:
        return scraped_data['markdown']
    else:
        raise KeyError("The key 'markdown' does not exist in the scraped data.")

def save_raw_data(raw_data, timestamp, output_folder='output'):
    # 确保输出文件夹存在
    os.makedirs(output_folder, exist_ok=True)

    # 保存原始数据到Markdown文件
    raw_output_path = os.path.join(output_folder, f'rawData_{timestamp}.md')
    with open(raw_output_path, 'w', encoding='utf-8') as f:
        f.write(raw_data)
    print(f"Raw data saved to {raw_output_path}")

def format_data(data, fields=None):
    load_dotenv()
    # 初始化OpenAI实例
    client = OpenAI(api_key=os.getenv('OPENAI_APIKEY'))

    # 如果未提供字段列表，则使用默认字段
    if fields is None:
        fields = ["名称","价格","地址", "链接"]

    # 定义系统消息内容
    system_message = f"""你是一个智能文本提取和转换助手。你的任务是从给定的文本中提取结构化信息，并将其转换为纯JSON格式。JSON
    应仅包含从文本中提取的结构化数据，不包含任何额外的评论、解释或无关的信息。你可能会遇到无法找到所需字段数据的情况，或者数据会以外语形式出现。请处理以下文本，并以纯JSON格式提供输出，JSON前后不应有任何文字。:"""

    # 定义用户消息内容
    user_message = f"请提供要处理的文本和需要提取的信息字段。:\nPage content:\n\n{data}\n\nInformation to extract: {fields}"

    response = client.chat.completions.create(
        model="gpt3.5",
        response_format={"type": "json_object"},
        messages=[
            {
                "role": "system",
                "content": system_message
            },
            {
                "role": "user",
                "content": user_message
            }
        ]
    )

    # 检查API响应是否包含选择数据
    if response and response.choices:
        formatted_data = response.choices[0].message.content.strip()
        print(f"Formatted data received from API: {formatted_data}")

        try:
            parsed_json = json.loads(formatted_data)
        except json.JSONDecodeError as e:
            print(f"JSON decoding error: {e}")
            print(f"Formatted data that caused the error: {formatted_data}")
            raise ValueError("The formatted data could not be decoded into JSON.")

        return parsed_json
    else:
        raise ValueError("The OpenAI API response did not contain the expected choices data.")

def save_formatted_data(formatted_data, timestamp, output_folder='output'):
    # Ensure the output folder exists
    os.makedirs(output_folder, exist_ok=True)

    # 保存格式化数据到JSON文件
    output_path = os.path.join(output_folder, f'sorted_data_{timestamp}.json')

    with open(output_path, 'w', encoding='utf-8') as f:
        json.dump(formatted_data, f, indent=4)
    print(f"Formatted data saved to {output_path}")

    # 检查格式化数据是否为字典且只包含一个键
    if isinstance(formatted_data, dict) and len(formatted_data) == 1:
        key = next(iter(formatted_data))  # Get the single key
        formatted_data = formatted_data[key]

    # 转换格式化数据为pandas DataFrame
    df = pd.DataFrame(formatted_data)

    # 准换格式化数据为pandas DataFrame
    if isinstance(formatted_data, dict):
        formatted_data = [formatted_data]

    df = pd.DataFrame(formatted_data)

    # 保存格式化数据到CSV文件
    # excel_output_path = os.path.join(output_folder, f'sorted_data_{timestamp}.xlsx')
    df.to_csv(f"{timestamp}.csv", index=False)

if __name__ == "__main__":
    # 爬取的URL
    url = 'https://bj.ke.com/ershoufang/rs/'

    try:
        # 生成时间戳
        timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')

        # 爬取数据
        raw_data = scrape_data(url)

        # 保存原始数据
        save_raw_data(raw_data, timestamp)

        # 格式化数据
        formatted_data = format_data(raw_data)

        #   保存格式化数据
        save_formatted_data(formatted_data, timestamp)
    except Exception as e:
        print(f"An error occurred: {e}")

导入库 导入必要的库，例如 firecrawl、OpenAI、dotenv、os、json、pandas 和 datetime，以便实现爬取和数据处理所需的各种功能。

import firecrawl
import OpenAI
import dotenv
import os
import json
import pandas as pd
from datetime import datetime

爬取数据 scrape_data() 函数利用你的 API 密钥初始化一个 FirecrawlApp，并使用 Firecrawl 爬取一个 URL。它检索网页的主要内容并以 Markdown 格式返回。

def scrape_data(api_key, url):
    app = firecrawl.FirecrawlApp(api_key)
    content = app.scrape(url)
    return content

保存原始数据 save_raw_data() 函数将原始的 Markdown 数据保存到文件中，为便于识别，文件名附加时间戳。

def save_raw_data(data):
    timestamp = datetime.now().strftime("%Y%m%d%H%M%S")
    filename = f"raw_data_{timestamp}.md"
    with open(filename, 'w') as file:
        file.write(data)

格式化数据 format_data() 函数利用 OpenAI 的 GPT 模型从原始数据中提取结构化信息。它构建系统和用户消息，提示模型从文本中提取指定字段。提取的数据以 JSON 格式返回。

def format_data(api_key, raw_data):
    openai.api_key = api_key
    response = openai.Completion.create(
        model="text-davinci-003",
        prompt=f"从文本中提取结构化数据:\n\n{raw_data}",
        max_tokens=1000
    )
    return json.loads(response.choices[0].text)

保存格式化数据 save_formatted_data() 函数将格式化的数据以 JSON 格式保存到文件中，文件名附加时间戳。此外，它将 JSON 数据转换为 pandas DataFrame 并保存为 CSV 文件，以便进一步分析。

def save_formatted_data(data):
    timestamp = datetime.now().strftime("%Y%m%d%H%M%S")
    json_filename = f"formatted_data_{timestamp}.json"
    csv_filename = f"formatted_data_{timestamp}.csv"

    with open(json_filename, 'w') as json_file:
        json.dump(data, json_file)

    df = pd.DataFrame(data)
    df.to_csv(csv_filename, index=False)

主函数 在主函数中，指定要爬取的 URL（url）。脚本然后尝试爬取数据、保存原始数据、格式化数据并保存格式化数据。如果在这些步骤中的任何一步发生错误，它将被捕获并显示。

if __name__ == "__main__":
    api_key = os.getenv("FIRECRAWL_API_KEY")
    url = "https://example.com"  # 替换为要爬取的实际 URL

    try:
        raw_data = scrape_data(api_key, url)
        save_raw_data(raw_data)

        formatted_data = format_data(api_key, raw_data)
        save_formatted_data(formatted_data)

    except Exception as e:
        print(f"An error occurred: {e}")

JSON 格式的输出

[
    {
        "名称": "南向一居室户型好，中间楼层，老少居住皆宜。",
        "地址": "二里庄北里",
        "价格": "345万",
        "链接": "https://bj.ke.com/ershoufang/101125066609.html"
    },
    {
        "名称": "三里河 正规2 居室 随时可看 随时签约",
        "地址": "三里河三区",
        "价格": "798万",
        "链接": "https://bj.ke.com/ershoufang/101125059884.html"
    },
    {
        "名称": "骊龙园 3室2厅 南 北",
        "地址": "骊龙园",
        "价格": "559万",
        "链接": "https://bj.ke.com/ershoufang/101125057747.html"
    },
    {
        "名称": "南三环草桥马家堡南向一居室商品房社区",
        "地址": "玺萌鹏苑",
        "价格": "270万",
        "链接": "https://bj.ke.com/ershoufang/101125055143.html"
    },
    {
        "名称": "2018年次新小区 19号线10号线机场线草桥站",
        "地址": "今日草桥",
        "价格": "710万",
        "链接": "https://bj.ke.com/ershoufang/101125049365.html"
    },
    {
        "名称": "裕华园一区 1室1厅 南 北",
        "地址": "裕华园一区",
        "价格": "71万",
        "链接": "https://bj.ke.com/ershoufang/101125059731.html"
    },
    {
        "名称": "化工大院 南北通透两居室 不临街 平改坡 停车方便",
        "地址": "化工大院",
        "价格": "620万",
        "链接": "https://bj.ke.com/ershoufang/101125053322.html"
    },
    {
        "名称": "北辰福第二号院 高楼层采光视野好 满五唯一 无抵押",
        "地址": "北辰福第二号院",
        "价格": "409万",
        "链接": "https://bj.ke.com/ershoufang/101125048788.html"
    },
    {
        "名称": "海特花园西区三居室，户型方正，南北通透",
        "地址": "海特花园西区",
        "价格": "445万",
        "链接": "https://bj.ke.com/ershoufang/101125045278.html"
    },
    {
        "名称": "中国铁建国际城 3室1厅 南 北",
        "地址": "中国铁建国际城",
        "价格": "680万",
        "链接": "https://bj.ke.com/ershoufang/101125045266.html"
    }
]

使用 Firecrawl，我们可以毫不费力地爬取整个网页，而无需担心复杂的细节。只需更改 URL，我们就可以轻松地将爬取工作适应不同的来源。尽管 Firecrawl 在处理动态内容和速率限制等爬取挑战方面表现出色，但仍然需要爬取网站上的所有页面，并导航到后续页面直到到达最后一个页面。这时，AgentQL 提供了一个解决方案。

AgentQL

AgentQL for Web 通过使用自然语言查询提供了一种革命性的方法来与网页元素交互。借助 AgentQL，用户可以轻松定位和交互网页元素，而无需复杂的代码或特定选择器。这种直观的界面简化了网页自动化的过程，使用户能够轻松高效地执行任务。无论是点击按钮、填写表单还是浏览页面，AgentQL for Web 都简化了交互过程，使网页自动化对各类用户都变得易于访问。

from dotenv import load_dotenv
import agentql
#from agentql.sync_api import ScrollDirection
import csv

load_dotenv()

PRODUCTS = """
{
    results{
        products[]{
            product_name
            product_price
            num_reviews
            rating
        }
    }
}
"""
NEXT_PAGE_BTN ="""
{
    next_page_button_enabled
    next_page_button_disabled
}
"""
session = agentql.start_session("https://s.taobao.com/search?page=1&q=iphone")

session.driver.scroll_to_bottom()

pagination = session.query(NEXT_PAGE_BTN)
print("get pagination")
print(pagination.next_page_button_enabled)

with open("products.csv", "a",newline="") as file:
    fieldnames = ["product_name","product_price","num_reviews","rating"]
    writer = csv.DictWriter(file,fieldnames=fieldnames)
    writer.writeheader()
    
    print(f"enabled button : {pagination.to_data()['next_page_button_enabled']}")
    print(f"disabled button : {pagination.to_data()['next_page_button_disabled']}")
    
    while(
        pagination.to_data()['next_page_button_enabled'] and
        pagination.to_data()['next_page_button_disabled'] is None
    ):
        products = session.query(PRODUCTS)
        print("scraped product data")
        print(products.to_data())
        
        for product in products.to_data()['results']['products']:
            print(f"product: {product}")
            writer.writerow(product)
        print("data written to csv")

查询定义：定义了两个 GraphQL 查询：PRODUCTS 用于检索产品详细信息，而 NEXT_PAGE_BTN 用于检查分页的下一页按钮是否可用。
会话初始化：使用 agentql.start_session() 与目标 URL（"https://s.taobao.com/search?page=1&q=iphone"）建立会话。
滚动到底部：使用 session.driver.scroll_to_bottom() 将浏览器窗口滚动到页面底部。
分页检查：使用 NEXT_PAGE_BTN 查询确定下一页按钮的状态（启用或禁用），结果存储在 pagination 变量中。
CSV 文件初始化：创建一个名为“products.csv”的 CSV 文件，并定义产品信息的字段名称。
数据提取循环：在下一页按钮启用且未找到禁用按钮的情况下：使用 PRODUCTS 查询提取产品数据。每个产品的详细信息写入 CSV 文件。该过程持续进行，直到爬取完所有页面。

结论

ScrapeGraph、Firecrawl 和 AgentQL 代表了最新一代的网络爬虫框架。每个框架都有自己的优势，可以满足不同的爬取需求。 ScrapeGraph 利用 LLM 和直接图形逻辑实现多功能爬取管道，Firecrawl 擅长高效处理复杂的 Web 场景，AgentQL 引入自然语言交互以实现无缝 Web 元素操作。这些框架共同简化了从网络中提取有价值数据的过程，为开发人员提供了强大的工具来轻松处理爬取任务。

【Tailwind CSS】bg-red-50 和 bg-blue-50 的用法详解
文章目录一、TailwindCSS中的颜色背景类1.背景颜色的命名规则2.bg-red-50和bg-blue-50的颜色特点二、bg-red-50和bg-blue-50的基本用法示例三、bg-red-50和bg-blue-50的设计理念1.bg-red-50的使用场景2.bg-blue-50的使用场景四、实际应用场景解析1.信息提示框的使用2.页面分区的背景色3.使用交替背景色提升阅读性五、配合其
【Tailwind CSS】font-light 和 my-4 的样式详解 Peter-Lu #Tailwind css 前端 react.js javascript typescript
文章目录一、`font-light`与字体粗细的控制1.`font-light`的作用2.`font-weight`的等级划分3.使用示例二、`my-4`与垂直外边距的控制1.`my-4`的作用2.Tailwind的边距控制系统3.使用示例三、`font-light`和`my-4`的实际应用场景1.用于标题和描述文本的排版2.用于卡片组件的内容分隔3.用于导航菜单的轻量提示四、设计风格的提升：使用
Tesla的FSD 架构设计 WSSWWWSSW 智能驾驶汽车人工智能 FSD
特斯拉的FSD（完全自动驾驶）架构设计以端到端神经网络为核心，结合专用硬件加速、海量数据训练和持续OTA迭代，形成了一套高度集成的系统。以下从硬件、软件、算法、数据处理和安全机制五个维度展开分析：一、硬件架构：从HW3.0到AI5的算力跃迁HW3.0基础设计采用三星14nm工艺的定制SoC，包含12个Cortex-A72CPU核心、2个NPU（合计73.7TOPS算力）和Mali-G71GPU，支
2025 年前端主流框架对比和竞争格局及趋势发展
2025年前端框架的竞争格局呈现出主流框架稳定演进、新兴技术快速渗透的特点，同时全栈整合、跨端效能、AI集成成为核心发展方向。以下是基于最新行业动态和技术实践的深度解析：一、主流框架竞争态势与核心能力1.React：企业级生态的持续统治力市场地位：全球使用率超40%，尤其在金融、社交等数据密集型场景占据主导。字节跳动、腾讯等大厂的复杂Web应用仍以React为首选。技术突破：并发模式（Concur
深入解读MaaS技术架构：从模型服务到智能部署的全流程分析 Cc不爱吃洋葱架构人工智能大语言模型大模型智能部署 MaaS技术架构 LLM
随着人工智能（AI）的迅速发展，MaaS（ModelasaService，模型即服务）技术架构应运而生。它通过将复杂的AI模型封装为标准化服务，降低了模型的开发和部署门槛，帮助企业快速实现业务场景的智能化升级。本文将深入解析MaaS技术架构，详细阐述其各个组成部分以及如何在实际应用中高效发挥其功能。一、使用方层：从应用接入到业务赋能MaaS技术架构的顶层是使用方层，它主要面向第三方应用，是企业与M
企业级多模型服务架构（MaaS）私有部署实战指南：统一调度、模型隔离与服务编排全路径解析观熵架构人工智能私有化部署
企业级多模型服务架构（MaaS）私有部署实战指南：统一调度、模型隔离与服务编排全路径解析关键词：多模型服务架构、MaaS、私有化部署、模型管理、推理调度、模型编排、TritonInferenceServer、DeepSeek、模型隔离、企业级AI平台摘要：随着企业对多任务、多模型能力的需求日益增长，MaaS（Model-as-a-Service）架构已成为私有部署中的关键支撑技术之一。该文聚焦当前
StringBuilder练习项目代码及相关知识点
1.动态字符串操作需求：编写一个程序，接收用户输入的多个单词，并将它们组合成一个完整的句子，同时支持以下功能：动态添加单词删除某些单词将句子反转importjava.util.Scanner;publicclassStringBuilderDemo{publicstaticvoidmain(String[]args){StringBuildersb=newStringBuilder();Scann
ThinkPHP 如何在生产环境中配置日志？深山技术宅 PHP 经验数据库 php 后端 ThinkPHP
在ThinkPHP生产环境中配置日志时，需要重点关注稳定性、性能和安全。以下是最佳实践配置方案：生产环境推荐配置(config/log.php)return['default'=>env('log.channel','stack'),'channels'=>[//组合通道（核心配置）'stack'=>['type'=>'stack','channels'=>['daily','error_file
STM32的ADC校准过程
以下是STM32ADC校准的详细技术说明，包含实际操作步骤和注意事项：一、ADC校准的必要性误差来源分析：零点偏移误差（OffsetError）：输入0V时输出不为0增益误差（GainError）：满量程时的线性偏差非线性误差（DNL/INL）：转换曲线的阶梯偏差温度漂移（典型值±2℃时±4LSB）校准目标：12位ADC的有效精度达到±1LSB减少芯片个体差异影响补偿供电电压波动带来的误差二、ST
AI智能体——实现关键技术
1、CoT思维链CoT（Chainof‏Thought）思维链是一种让AI像人类一؜样“思考”的技术，帮助AI在处理复杂问题时能够按步骤思考。对于复杂的推理类问题，先思考后‌执行，效果往往更好。而且还可以让模型在生成答案时‏展示推理过程，便于我们理解和优化AI。CoT的实现方式其实很简单‏，可以在输入Prompt时，给模型提供额外的提示或؜引导，比如“让我们一步一步思考这个问题”，让模型以逐步推理
Spring Boot + 本地部署大模型实现：安全性与可靠性保障代码老y spring boot bootstrap 后端
在将大语言模型集成到SpringBoot应用中时，安全性和可靠性是两个关键因素。本地部署的大模型虽然提供了强大的功能，但也可能带来一些安全风险，如数据泄露、模型被恶意利用等。本文将介绍如何在SpringBoot应用中保障本地部署大模型的安全性和可靠性，确保应用的稳定运行。一、安全性保障（一）数据加密传输加密：确保模型生成的结果在传输过程中被加密，防止数据在传输过程中被窃取。可以使用HTTPS协议来
java项目报错405_405报错是什么原因_状态码405是什么错误跳动的数字 java项目报错405
今天网站遇到一个问题：httppost请求网页会出现405，分析了下原因：是因为Apache、IIS、Nginx等绝大多数web服务器，都不允许静态文件响应POST请求。下面是解决方案：将post请求改为get请求XF405/XF400支持拍摄4KUHD(3840x2160)50P影像。采用了一枚1.0型大尺寸影像传感器，该传感器的尺寸约为传统机型传感器的6.8倍。MP4格式的文件可设置为自动继续
存储延时数据，帮你选数据库和缓存架构呢喃coding 系统架构设计架构
1.理解存储媒介量化延时类别描述延时缓存/内存L1cachereference1ns缓存/内存L2cachereference4ns缓存/内存Mainmemoryreference（DDR4，5-10ns为补充说明）100ns网络传输SendpacketCA->Netherlands->CA150,000,000ns（150ms）磁盘存储HDD(HardDiskDrive)读写1-10ms磁盘存储
12.组件的实现原理青阳流月 vue3 前端 javascript vue.js
将一个大的页面分为多个组件,每个组件都可以完成独立的功能并且可以被复用。1.渲染组件从用户角度,是一个描述对象constmyComponent1={name:'myComponent1',data(){return{name:'wjt'}}}从渲染器角度,是一个特殊的虚拟DOMconstmyComponent2={//type:Fragment,//描述片段type:Text,//描述节点prop
Web-API-day1 DOM 文档对象模型码哥DFS 前端 javascript
获取DOM对象1.querySelector(")满足条件第一个元素2.querySelectorAll(")满足条件的元素集合返回伪数组3.了解其他方式1）getElementById2)getElementByTagname操作元素内容修改DOM文本内容1)innerText将文本内容添加/更细到任意标签位置，文本包含的标签不会被解析2)innerHTML将文本内容添加/更细到任意标签位置，文
【项目日记（一）】-仿mudou库one thread oneloop式并发服务器实现 @Aurora. 服务器运维
1、模型框架客户端处理思想：事件驱动模式事件驱动处理模式：谁触发了我就去处理谁。（如何知道触发了）技术支撑点：I/O的多路复用（多路转接技术）1、单Reactor单线程：在单个线程中进行事件驱动并处理对所有客户端进行IO事件监控、哪个客户端触发了事件，就去处理谁处理：接收它的请求，进行业务处理，进行响应。优点：单线程操作，操作都是串行化的，思想简单，（不需要考虑进程或者线程间的通信问题，以及安全问
全球86%企业已启程：SNP零中断迁移方案护航S/4HANA转型 snpgroupcn 云计算数据仓库运维
目录如何在RISE项目中取得成功全程赋能：SNP为RISE项目打造的六大核心优势1、更快实现价值2、更高的灵活性3、降低成本4、风险可控5、更高的用户接受度3、近乎零中断客户评价实践见证：全球领先企业的成功典范1、IBM2、Pfizer辉瑞3、Coop超越迁移：构建数据驱动型业务的未来在SNP，我们已成功指导数百家企业完成复杂的SAP系统迁移项目。这些经验已融入我们的软件和转型方法论，使您的迁移之
ERROR: failed to solve: failed to read dockerfile: open Dockerfile: no such file or directory Upper999 Docker 运维 linux docker
1通过Dockerfile方式，生成镜像时报错（如下）[zxx@192~]$dockerbuild-tmy_first_build_image.[+]Building0.1s(1/1)FINISHEDdocker:default=>[internal]loadbuilddefinitionfromDockerfile0.0s=>=>transferringdockerfile:2B0.0sERRO
Spark运行架构 EmoGP Spark spark 架构大数据
Spark框架的核心是一个计算引擎，整体来说，它采用了标准master-slave的结构如下图所示，它展示了一个Spark执行时的基本结构，图形中的Driver表示master，负责管理整个集群中的作业任务调度，图形中的Executor则是slave，负责实际执行任务。由上图可以看出，对于Spark框架有两个核心组件：DriverSpark驱动器节点，用于执行Spark任务中的main方法，负
什么是DO、DTO、VO、BO、AO，还在傻傻分不清？今天一文带你了解这些概率 Gq.xxu java 系统架构
在分层架构的Java应用中，DO、DTO、VO、BO、AO等概念用于解耦不同层级的数据传递和业务逻辑。它们分别承担不同职责，以下是对这些概念的详细解释：1.DO（DataObject/DomainObject）定义：与数据库表结构直接映射的对象，通常由DAO层操作。用途：在数据访问层（DAO）中承载数据库查询结果，如UserDO对应user表字段。特点：属性与数据库字段一一对应。仅包含数据，不包含
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
Docker 和 Kubernetes 入门到精通：运维工程师的实战笔记 (近5万字) 运维小贺运维 linux docker 容器 kubernetes 云原生 kubelet
文章目录1.Docker1.1Docker是什么？1.1.1容器服务原理1.2Docker的三大概念1.2.1镜像1.2.2容器1.2.3仓库1.2.4总结1.3Docker常用命令1.3.1镜像常用命令1.3.2容器常用命令1.4Dockerfile1.4.1commit的局限1.4.2Dockerfile是什么？1.4.3如何使用Dockerfile制作镜像?1.4.4Dockerfile中常
服务器间接口安全问题的全面分析百锦再@新空间包罗万象服务器安全运维 JWT TOKEN api net
一、服务器接口安全核心威胁文章目录**一、服务器接口安全核心威胁**![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/6f54698b9a22439892f0c213bc0fd1f4.png)**二、六大安全方案深度对比****1.IP白名单机制****2.双向TLS认证(mTLS)****3.JWT签名认证****4.OAuth2.0客户端凭证流****
大带宽服务器中冗余技术的功能 wanhengidc 服务器运维
随着企业对于网络流量需求的逐渐激增，在业务运行的稳定性要求也在不断提高，大带宽服务器作为支撑高负载应用的基础设施，为了能够保障业务的正常运行，大带宽服务器中的冗余设计起着关键的作用，合理的冗余机制，能够在发生网络故障的情况下，依旧确保业务的可用性。下面，我们就来共同了解一下大带宽服务器中冗余技术的功能都有哪些吧！大带宽服务器中的冗余设计是指通过配置多个物理或者逻辑网络连接，保证待单一链路发生故障时
「源力觉醒创作者计划」_以FastDeploy为例部署ERNIE-4.5-21B大模型全流程实践 cooldream2009 大模型基础 AI技术文心大模型 FastDeploy
目录前言1环境准备与依赖安装1.1硬件要求1.2Python环境与pip升级2下载ERNIE-4.5模型权重2.1安装HuggingFaceCLI工具2.2设置国内镜像加速（可选）2.3下载模型文件3安装FastDeploy与Paddle推理引擎3.1安装PaddlePaddle-GPU版本3.2安装FastDeploy-GPU4启动ERNIE-4.5本地服务4.1启动OpenAI兼容API服务4
Ubuntu下搜狗输入法安装记录（解决安装好后仍旧无法输入中文的问题）
主要参考为博客https://blog.csdn.net/fangshuo_light/article/details/123634224以及搜狗官方给到的安装指南https://shurufa.sogou.com/linux/guide遇到问题使用dpkg安装在搜狗官网下载的Linuxdeb安装包sudodpkg-isogoupinyin_4.2.1.145_amd64.deb此时，按照官方的安
llamaindex SimpleDirectoryReader的使用需要重新演唱 Loading llamaindex RAG llamaindex
SimpleDirectoryReader概念解释SimpleDirectoryReader是LlamaIndex中加载本地文件数据的最简单方式。对于生产用例，你可能更倾向于使用LlamaHub上提供的众多读取器之一，但SimpleDirectoryReader是开始使用的好方法。支持的文件类型默认情况下，SimpleDirectoryReader会尝试读取它找到的任何文件，并将它们都视为文本文件
深入理解Tomcat 基本架构水木石画室 tomcat 架构 java
Tomcat是Apache软件基金会旗下的开源Servlet容器，实现了JavaEE（现JakartaEE）的Servlet、JSP等规范，广泛用于JavaWeb应用的部署和运行。其架构设计围绕高效处理HTTP请求、灵活管理Web应用和支持扩展展开。以下从核心组件、层级结构、关键机制三个维度深入解析Tomcat的基本架构。一、Tomcat核心组件与层级结构Tomcat的架构采用分层容器模型，核心组
Python打卡：Day46 剑桥折刀s python打卡 python
importtorchimporttorch.nnasnnimporttorch.optimasoptimimporttorchvisionfromtorchvisionimportdatasets,transformsfromtorch.utils.dataimportDataLoaderfromtorch.utils.tensorboardimportSummaryWriterimportnu
AI初学者如何对大模型进行微调？——零基础保姆级实战指南
仅需8GB显存，三步完成个人专属大模型训练四步实战：从环境配置到模型发布步骤1：云端环境搭建（10分钟）推荐使用阿里魔塔ModelScope免费GPU资源：#注册后执行环境初始化pip3install--upgradepippip3installbitsandbytes>=0.39.0gitclone--depth1https://github.com/hiyouga/LLaMA-Factory.
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

3个最流行的开源大模型网络爬虫框架

ScrapeGraph

FireCrawl

AgentQL

结论

你可能感兴趣的:(AI,GPT,大模型,人工智能,AIAGENT)