OpenVINO 中文社区

开发者实战 | AI分割一切——用OpenVINO™加速Meta SAM大模型

点击蓝字

关注我们,让开发变得更有趣

以下文章来源于英特尔物联网，作者武卓

ChatGPT的火爆让大家看到了通用AI大模型的威力，也带动了近期一批自然语言处理（NLP）领域大模型的不断被推出。你方唱罢我登场，最近，计算机视觉领域也迎来了自己的物体分割大模型，由Meta开源的 “万物可分割（Segment Anything Model, SAM）”物体分割模型。

物体分割是计算机视觉中的核心任务之一，旨在识别图像中属于特定对象的像素。通常实现图像分割的方法有两种，即交互式分割和自动分割。交互式分割可以对任何类别的对象进行分割，但需要人工引导，并通过反复精细化掩码来完成。而自动分割可以对预定义的特定对象类别进行分割，但需要大量手动标注的对象进行训练，同时需要大量的计算资源和具有技术专业知识的人员来训练分割模型。然而，这两种方法都没有提供一种通用的、完全自动的分割方法。

SAM是这两种方法的泛化，它是一个单一的模型，可以轻松地执行交互式分割和自动分割。SAM可以从输入提示（例如点或框）生成高质量的对象掩码，并且可以用于生成图像中所有对象的掩码。它已经在一个包含1.1亿个掩码的1100万个图像数据集上进行了训练，并且在各种分割任务上具有较强的零样本性能。它创建了一个通用的物体分割模型，可以在从分析科学图像到编辑照片各种应用程序中使用。

图1. SAM推理结果示例

这个强大的通用分割模型，我们的OpenVINO™ 当然也是可以对它进行优化以及推理的加速，使其可以方便快速地在英特尔® 的CPU上部署运行起来。为了方便各位开发者的使用，我们同样提供了Jupyter Notebook形式的源代码，大家只需要跟随我们代码里的步骤，就可以在自己的机器上运行SAM，对图像进行任意分割了。

SAM模型由三个部分组成。

图像编码器（Image Encoder）：这是一个Vision Transformer模型（VIT），使用Masked Auto Encoders方法（MAE）对图像进行编码，将图像转换为嵌入空间。图像编码器对每个图像运行一次，可以在向模型输入提示之前应用它。

提示编码器（Prompt Encoder ）：这是一个用于分割条件的编码器。可以使用以下条件进行分割提示：

1. 点（points）- 与应分割的对象相关的一组点。Prompt编码器使用位置编码将点转换为嵌入值。

2. 框（boxes）- 应分割的对象所在的边界框。类似于points，边界框的坐标通过位置编码来进行编码。

3. 分割掩码-由用户提供的分割掩码使用卷积进行嵌入，并与图像嵌入进行element-wise求和。

4. 文本（text）- 由CLIP模型编码的文本表示。

掩码解码器（Mask Decoder）：掩码解码器有效地将图像嵌入、提示嵌入和输出标记映射到掩码。

下图描述了SAM生成掩码的流程图。

左右滑动查看更多

接下来，我们一起来看看运行利用OpenVINO™ 来优化加速SAM的推理有哪些重点步骤吧。

注意：以下步骤中的所有代码来自OpenVINO™ Notebooks开源仓库中的237-segment-anything notebook 代码示例，您可以点击以下链接直达源代码。

https://github.com/openvinotoolkit/openvino_notebooks/tree/main/notebooks/237-segment-anything

第一步：安装相应工具包、加载模型并转换为OpenVINO™ IR格式

本次代码示例需要首先安装SAM相应工具包。

!pip install -q "segment_anything" "gradio>=3.25"

向右滑动查看完整代码

然后下载及加载相应的PyTorch模型。

有几个SAM checkpoint可供下载。在本次代码示例中，我们将使用基于vit_b的模型，但模型加载的方法是通用的，也适用于其他SAM模型。将下面的模型URL、保存checkpoint的路径和模型类型设置为对应的SAM模型checkpoint，然后使用SAM_model_registry加载模型。

import sys
  
  sys.path.append("../utils")
  from notebook_utils import download_file
  
  checkpoint = "sam_vit_b_01ec64.pth"
  model_url = "https://dl.fbaipublicfiles.com/segment_anything/sam_vit_b_01ec64.pth"
  model_type = "vit_b"
  
  download_file(model_url)

向右滑动查看完整代码

加载模型

from segment_anything import sam_model_registry
  
  sam = sam_model_registry[model_type](checkpoint=checkpoint)

向右滑动查看完整代码

正如我们已经讨论过的，每个图像可以使用一次图像编码器，然后可以多次运行更改提示、提示编码器和掩码解码器来从同一图像中检索不同的对象。考虑到这一事实，我们将模型分为两个独立的部分：image_encoder和mask_pr预测器（提示编码器和掩码解码器的组合）。

第二步：定义图像编码器和掩码预测器

图像编码器输入是NCHW格式的形状为1x3x1024x1024的张量，包含用于分割的图像。图像编码器输出为图像嵌入，张量形状为1x256x64x64。代码如下

import warnings
  from pathlib import Path
  import torch
  from openvino.tools import mo
  from openvino.runtime import serialize, Core
  
  core = Core()
  
  ov_encoder_path = Path("sam_image_encoder.xml")
  
  if not ov_encoder_path.exists():
      onnx_encoder_path = ov_encoder_path.with_suffix(".onnx")
      if not onnx_encoder_path.exists():
          with warnings.catch_warnings():
              warnings.filterwarnings("ignore", category=torch.jit.TracerWarning)
              warnings.filterwarnings("ignore", category=UserWarning)
              
              torch.onnx.export(sam.image_encoder, torch.zeros(1,3,1024,1024), onnx_encoder_path)
      
      ov_encoder_model = mo.convert_model(onnx_encoder_path, compress_to_fp16=True)
      serialize(ov_encoder_model, str(ov_encoder_path))
  else:
      ov_encoder_model = core.read_model(ov_encoder_path)
  ov_encoder = core.compile_model(ov_encoder_model)

向右滑动查看完整代码

掩码预测器

本次代码示例需要导出的模型带有参数return_single_mask=True。这意味着模型将只返回最佳掩码，而不是返回多个掩码。对于高分辨率图像，这可以在放大掩码开销大的情况下提升运行时速度。

组合提示编码器和掩码解码器模型具有以下输入列表：

image_embeddings：从image_encoder中嵌入的图像。具有长度为1的批索引。

point_coords：稀疏输入提示的坐标，对应于点输入和框输入。方框使用两个点进行编码，一个用于左上角，另一个用于右下角。坐标必须已转换为长边1024。具有长度为1的批索引。

point_labels：稀疏输入提示的标签。0是负输入点，1是正输入点，2是左上角，3是右下角，-1是填充点。*如果没有框输入，则应连接标签为-1且坐标为（0.0，0.0）的单个填充点。

模型输出：

掩码-预测的掩码大小调整为原始图像大小，以获得二进制掩码，应与阈值（通常等于0.0）进行比较。

iou_predictions-并集预测上的交集。

low_res_masks-后处理之前的预测掩码，可以用作模型的掩码输入。

第三步：在交互式分割模式下运行OpenVINO™ 推理

加载分割用的测试图片。

import numpy as np
  import cv2
  import matplotlib.pyplot as plt
  
  download_file("https://raw.githubusercontent.com/facebookresearch/segment-anything/main/notebooks/images/truck.jpg")
  image = cv2.imread('truck.jpg')
  image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

向右滑动查看完整代码

原始图片如下，

plt.figure(figsize=(10,10))
  plt.imshow(image)
  plt.axis('off')
  plt.show()

预处理及可视化函数定义：

为图像编码器准备输入，包含以下步骤：

将BGR图像转换为RGB

调整图像保存纵横比，其中最长尺寸等于图像编码器输入尺寸1024。

归一化图像减去平均值（123.675、116.28、103.53）并除以标准差（58.395、57.12、57.375）

将HWC数据布局转换为CHW并添加批次维度。

根据图像编码器预期的输入形状，按高度或宽度（取决于纵横比）向输入张量添加零填充。

视频编码

要开始处理图像，我们应该对其进行预处理，并使用ov_encoder获得图像嵌入。我们将在所有实验中使用相同的图像，因此可以运行一次视频编码、生成一次图像嵌入，然后重用它们。

preprocessed_image = preprocess_image(image)
  encoding_results = ov_encoder(preprocessed_image)
  
  image_embeddings = encoding_results[ov_encoder.output(0)]

向右滑动查看完整代码

现在，我们可以尝试为掩码生成提供不同的提示。

点输入举例

在本例中，我们选择一个点作为输入（input_point）。绿色星形符号在下图中显示了它的位置。

input_point = np.array([[500, 375]])
  input_label = np.array([1])
  
  plt.figure(figsize=(10,10))
  plt.imshow(image)
  show_points(input_point, input_label, plt.gca())
  plt.axis('off')
  plt.show()

向右滑动查看完整代码

添加一个批索引，连接一个填充点，并将其转换为输入张量坐标系。

coord = np.concatenate([input_point, np.array([[0.0, 0.0]])], axis=0)[None, :, :]
  label = np.concatenate([input_label, np.array([-1])], axis=0)[None, :].astype(np.float32)
  coord = resizer.apply_coords(coord, image.shape[:2]).astype(np.float32)

向右滑动查看完整代码

将输入打包以在掩码预测器中运行。

inputs = {
      "image_embeddings": image_embeddings,
      "point_coords": coord,
      "point_labels": label,
  }

预测一个掩码并设置阈值以获得二进制掩码（0-无对象，1-对象）。

results = ov_predictor(inputs)
  
  masks = results[ov_predictor.output(0)]
  masks = postprocess_masks(masks, image.shape[:-1])
  masks = masks > 0.0

向右滑动查看完整代码

绘制结果

plt.figure(figsize=(10,10))
  plt.imshow(image)
  show_mask(masks, plt.gca())
  show_points(input_point, input_label, plt.gca())
  plt.axis('off')
  plt.show()

向右滑动查看完整代码

多点输入举例

input_point = np.array([[500, 375], [1125, 625], [575, 750])
  input_label = np.array([1, 1, 1])

向右滑动查看完整代码

模型输入的提示反应在测试图片上为

plt.figure(figsize=(10,10))
  plt.imshow(image)
  show_points(input_point, input_label, plt.gca())
  plt.axis('off')
  plt.show()

向右滑动查看完整代码

像上面单点输入的例子一样，讲输入点变换为张量坐标系，进而将输入打包成所需格式，最后获得的分割结果如下图所示

带负标签的框和点输入

在这个例中，我们使用边界框和边界框内的点来定义输入提示。边界框表示为其左上角和右下角的一组点。点的标签0表示该点应从掩码中排除。

input_box = np.array([425, 600, 700, 875])
  input_point = np.array([[575, 750]])
  input_label = np.array([0])

向右滑动查看完整代码

反应在测试图片中为

添加批次索引，连接方框和点输入，为方框角添加适当的标签，然后进行变换。本次没有填充点，因为输入包括一个框输入。

box_coords = input_box.reshape(2, 2)
  box_labels = np.array([2,3])
  
  coord = np.concatenate([input_point, box_coords], axis=0)[None, :, :]
  label = np.concatenate([input_label, box_labels], axis=0)[None, :].astype(np.float32)
  
  coord = resizer.apply_coords(coord, image.shape[:2]).astype(np.float32)

向右滑动查看完整代码

打包输入，并进行预测

inputs = {
      "image_embeddings": image_embeddings,
      "point_coords": coord,
      "point_labels": label,
  }
  
  results = ov_predictor(inputs)
  
  masks = results[ov_predictor.output(0)]
  masks = postprocess_masks(masks, image.shape[:-1])
  masks = masks > 0.0

向右滑动查看完整代码

结果如图所示

第四步：在自动分割模式下运行OpenVINO™ 推理

由于SAM可以有效地处理提示，因此可以通过在图像上采样大量提示来生成整个图像的掩码。automatic_mask_generation函数实现了这一功能。它的工作原理是在图像上的网格中对单点输入提示进行采样，SAM可以从每个提示中预测多个掩码。然后，对掩码进行质量过滤，并使用非最大抑制进行去重复。额外的选项允许进一步提高掩模的质量和数量，例如对图像的多个裁剪进行预测，或对掩模进行后处理以去除小的断开区域和孔洞。

from segment_anything.utils.amg import (
      MaskData, 
      generate_crop_boxes, 
      uncrop_boxes_xyxy, 
      uncrop_masks, 
      uncrop_points, 
      calculate_stability_score, 
      rle_to_mask, 
      batched_mask_to_box, 
      mask_to_rle_pytorch, 
      is_box_near_crop_edge,
      batch_iterator,
      remove_small_regions,
      build_all_layer_point_grids,
      box_xyxy_to_xywh,
      area_from_rle
)
  from torchvision.ops.boxes import batched_nms, box_area
  from typing import Tuple, List, Dict, Any

向右滑动查看完整代码

在自动掩码生成中有几个可调参数，用于控制采样点的密度以及去除低质量或重复掩码的阈值。此外，生成可以在图像的裁剪上自动运行，以提高对较小对象的性能，后处理可以去除杂散像素和孔洞。

定义自动分割函数

def automatic_mask_generation(
      image: np.ndarray, min_mask_region_area: int = 0, points_per_side: int = 32, crop_n_layers: int = 0, crop_n_points_downscale_factor: int = 1, crop_overlap_ratio: float = 512 / 1500, box_nms_thresh: float = 0.7, crop_nms_thresh: float = 0.7
) -> List[Dict[str, Any]]:
      """
      Generates masks for the given image.
      
      Arguments:
        image (np.ndarray): The image to generate masks for, in HWC uint8 format.
      
      Returns:
         list(dict(str, any)): A list over records for masks. Each record is
           a dict containing the following keys:
             segmentation (dict(str, any) or np.ndarray): The mask. If
               output_mode='binary_mask', is an array of shape HW. Otherwise,
               is a dictionary containing the RLE.
             bbox (list(float)): The box around the mask, in XYWH format.
             area (int): The area in pixels of the mask.
             predicted_iou (float): The model's own prediction of the mask's
               quality. This is filtered by the pred_iou_thresh parameter.
             point_coords (list(list(float))): The point coordinates input
               to the model to generate this mask.
             stability_score (float): A measure of the mask's quality. This
               is filtered on using the stability_score_thresh parameter.
             crop_box (list(float)): The crop of the image used to generate
               the mask, given in XYWH format.
      """
      point_grids = build_all_layer_point_grids(
          points_per_side,
          crop_n_layers,
          crop_n_points_downscale_factor,
      )
      mask_data = generate_masks(
          image, point_grids, crop_n_layers, crop_overlap_ratio, crop_nms_thresh)
      
      # Filter small disconnected regions and holes in masks
      if min_mask_region_area > 0:
          mask_data = postprocess_small_regions(
              mask_data,
              min_mask_region_area,
              max(box_nms_thresh, crop_nms_thresh),
          )
      
      mask_data["segmentations"] = [
          rle_to_mask(rle) for rle in mask_data["rles"]]
      
      # Write mask records
      curr_anns = []
      for idx in range(len(mask_data["segmentations"])):
          ann = {
              "segmentation": mask_data["segmentations"][idx],
              "area": area_from_rle(mask_data["rles"][idx]),
              "bbox": box_xyxy_to_xywh(mask_data["boxes"][idx]).tolist(),
              "predicted_iou": mask_data["iou_preds"][idx].item(),
              "point_coords": [mask_data["points"][idx].tolist()],
              "stability_score": mask_data["stability_score"][idx].item(),
              "crop_box": box_xyxy_to_xywh(mask_data["crop_boxes"][idx]).tolist(),
          }
          curr_anns.append(ann)
      
      return curr_anns

向右滑动查看完整代码

运行自动分割预测

prediction = automatic_mask_generation(image)

向右滑动查看完整代码

以上automatic_mask_generation函数返回一个掩码列表，其中每个掩码都是一个包含有关掩码的各种数据的字典：

分割：掩码

面积：掩码的面积（以像素为单位）

bbox：XYWH格式的掩码的边界框

predicted_out：模型自己对掩模质量的预测

point_coords：生成此掩码的采样输入点

稳定性核心：衡量掩码质量的一个附加指标

crop_box：用于以XYWH格式生成此掩码的图像的裁剪

查看掩码的信息

print(f"Number of detected masks: {len(prediction)}")
  print(f"Annotation keys: {prediction[0].keys()}")

向右滑动查看完整代码

获得如下结果

左右滑动查看更多

绘制最后的分割结果

from tqdm.notebook import tqdm
  
  def draw_anns(image, anns):
      if len(anns) == 0:
          return
      segments_image = image.copy()
      sorted_anns = sorted(anns, key=(lambda x: x['area']), reverse=True)
      for ann in tqdm(sorted_anns):
          mask = ann["segmentation"]
          mask_color = np.random.randint(0, 255, size=(1, 1, 3)).astype(np.uint8)
          segments_image[mask] = mask_color
      return cv2.addWeighted(image.astype(np.float32), 0.7, segments_image.astype(np.float32), 0.3, 0.0)

向右滑动查看完整代码

import PIL
  
  out = draw_anns(image, prediction)
  cv2.imwrite("result.png", out[:, :, ::-1])
  
  PIL.Image.open("result.png")

向右滑动查看完整代码

看看这些分割的效果，是不是非常的惊艳呢。其实除了以上我们介绍的代码内容，在我们的Jupyter Notebook代码里，还为大家提供了窗口式鼠标点击输入提示的交互式分割体验，甚至可以在手机端输入URL地址体验即时的互动效果，如下图所示

这么多有趣又快速的OpenVINO™ 运行物体分割的方式，快在你本地的机器上克隆我们的代码示例，自己动手试试SAM的效果吧。

小结：

整个的步骤就是这样！现在就开始跟着我们提供的代码和步骤，动手试试用OpenVINO™ 和SAM吧。

关于英特尔OpenVINO™ 开源工具套件的详细资料，包括其中我们提供的三百多个经验证并优化的预训练模型的详细资料，请您点击https://www.intel.com/content/www/us/en/developer/tools/openvino-toolkit/overview.html

除此之外，为了方便大家了解并快速掌握OpenVINO™ 的使用，我们还提供了一系列开源的Jupyter notebook demo。运行这些notebook，就能快速了解在不同场景下如何利用OpenVINO™ 实现一系列、包括计算机视觉、语音及自然语言处理任务。OpenVINO™ notebooks的资源可以在GitHub这里下载安装：

https://github.com/openvinotoolkit/openvino_notebooks 。

--END--

你也许想了解(点击蓝字查看)⬇️➡️ 开发者实战系列资源包来啦！➡️ 以AI作画，祝她节日快乐；简单三步，OpenVINO™ 助你轻松体验AIGC
➡️ 还不知道如何用OpenVINO™作画？点击了解教程。➡️ 如何给开源项目做贡献? | 开发者节日福利➡️ 几行代码轻松实现对于PaddleOCR的实时推理，快来get！➡️ 使用OpenVINO 在“端—边—云”快速实现高性能人工智能推理➡️ 图片提取文字很神奇？试试三步实现OCR！➡️【Notebook系列第六期】基于Pytorch预训练模型，实现语义分割任务➡️使用OpenVINO™ 预处理API进一步提升YOLOv5推理性能

扫描下方二维码立即体验 
OpenVINO™ 工具套件 2022.3

点击阅读原文立即体验OpenVINO 2022.3

文章这么精彩，你有没有“在看”？

你可能感兴趣的:(人工智能,openvino,深度学习,机器学习,计算机视觉)

探索GigaChat与LangChain的完美结合：深度解析与实战指南 asdfujhgy langchain easyui 前端 python
探索GigaChat与LangChain的完美结合：深度解析与实战指南引言在人工智能的领域中，语言模型和嵌入技术正逐步改变我们与数据交互的方式。GigaChat作为一种创新的AI嵌入服务，结合LangChain可以提供强大的文本嵌入功能，促进自然语言处理任务的完成。本篇文章将带你深入了解如何结合GigaChat与LangChain进行文本嵌入，并提供实用的代码示例与解决方案。主要内容GigaCha
人工智能学习框架：深入解析与实战指南一ge科研小菜鸡人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言随着人工智能（AI）技术的飞速发展，深度学习、强化学习和自然语言处理等领域的应用愈加广泛。掌握人工智能学习框架（如TensorFlow、PyTorch、Keras等）已成为开发智能系统、研究前沿技术的必备技能。本指南将全面介绍人工智能主流学习框架的特点、安装方法、核心功能，以及通过实践案例展示如何使用这些框架进行AI模型开发、训练与优化。1.
【前沿聚焦】机器学习的未来版图：从自动化到隐私保护的技术突破网罗开发人工智能 AI 大模型机器学习人工智能
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，深度学习作为其主要驱动力之一，已经在各个领域取得了显著的成果。然而，随着模型规模的不断扩大，如何高效地搭建、训练和部署深度学习模型，成为一个亟待解决的问题。传统的单机训练方式在计算资源有限的情况
LeetCode - #195 Swift 实现打印文件中的第十行网罗开发 Swift vue.js leetcode swift
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
# 第一章：认识chatgpt 出门喝奶茶 chatgpt chatgpt
chatgpt发展背景详细介绍一、基础理论背景人工智能和自然语言处理的兴起早期理论:20世纪中期，人工智能（AI）初见端倪，目标是模拟人类智能。自然语言处理作为AI的重要分支，致力于让机器理解和生成人类语言。关键里程碑:1980年代的统计方法和2000年代的神经网络技术，使NLP实现了从规则驱动到数据驱动的转变。神经网络与深度学习2010年代，深度学习的兴起极大推动了NLP的发展。基于大规模语料库
机器学习&深度学习目录 UQI-LIUWJ 各专栏目录深度学习人工智能 1024程序员节
机器学习模型机器学习笔记：Transformer_刘文巾的博客-CSDN博客attention相关机器学习笔记：attention_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ELMOBERT_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ViT（论文AnImageIsWorth16X16Words:TransformersforImageRecognitionatScale）_UQ
使用Python调用OpenCV中的solvePnP函数 WzisTypescript python opencv 开发语言 OpenCV
OpenCV是一个广泛使用的计算机视觉库，它提供了许多用于处理图像和视频的功能。其中一个重要的功能是解决透视投影问题，也就是通过已知的3D点和对应的2D图像点来计算相机的位姿。在OpenCV中，solvePnP函数就是用于解决这个问题的。solvePnP函数使用了一种称为Perspective-n-Point（PnP）问题的算法，它可以估计相机的旋转和平移向量，从而确定相机在3D空间中的位置。这对
影视制作的未来：云渲染+虚拟制作+AI生成技术 LhcyyVSO AIGC 云渲染影视动画人工智能 3d 云渲染渲染农场 AI AICG 虚拟制作
在计算机技术和人工智能技术飞速发展的2024年，影视制作正在经历一场前所未有的变革。云渲染、虚拟制作和AI生成等新影视制作技术的结合，正在重新定义数字内容的创作流程，为影视产业带来了全新的可能性和机遇。这些前沿技术不仅提高了制作效率，还打开了无限的创作空间，有望引领未来的影视制作走向新的高峰。云渲染：加速创意实现影视的后期特效制作阶段需要大量的计算机参与渲染。传统的渲染过程耗时长且成本高，而云渲染
打造你的聊天助手：使用C#、OpenAI和Spectre.Console创建控制台ChatGPT客户端墨夶 C#学习资料1 c#chatgpt 开发语言
打造你的聊天助手：使用C#、OpenAI和Spectre.Console创建控制台ChatGPT客户端在这个人工智能飞速发展的时代，ChatGPT以其卓越的对话能力和智能回答在聊天领域引起了革命。你是否想过将这种能力融入到你的控制台应用中，让命令行界面也能拥有智能对话的体验？本文将带你一步步使用C#、OpenAI的API和Spectre.Console库，创建一个功能强大的控制台ChatGPT客户
软件测试中的AI-为什么它在软件自动化测试中很重要？测试界霄霄软件测试人工智能功能测试自动化测试软件测试程序人生职场和发展
通俗地说，人工智能（AI）是计算机科学的一个领域，它专注于使机器“智能化”。所谓智能，就是使系统能够像人类一样学习和做出决策。因此，人工智能机器将能够学习如何在特定情况下做出反应，然后根据其学习情况在未来场景中做出决策。人工智能（AI）在大多数领域的应用仍处于早期阶段，想要完美运行还需要很长时间。今天的人工智能（AI）技术可以帮助我们完成许多不需要复杂思考的重复性日常任务。接下来，让我们讨论软件测
遥感深度学习过程中图像分割的尺寸对模型训练结果的影响司南锤深度学习遥感深度学习人工智能
1.计算资源与显存占用大尺寸图像：需要更高的显存和计算资源，可能限制训练时的批大小（batchsize），甚至导致无法训练。解决方案：通常将大图裁剪为小尺寸的补丁（patches），例如256x256或512x512。小尺寸图像：显存占用低，但可能丢失全局上下文信息（如大面积地物分布），影响模型对复杂场景的理解。2.模型感受野与上下文信息小尺寸输入：模型感受野受限，可能无法捕捉大范围地物（如河流、
06-机器学习-数据预处理不会打代码呜呜呜呜机器学习机器学习人工智能
数据清洗数据清洗是数据预处理的核心步骤，旨在修正或移除数据集中的错误、不完整、重复或不一致的部分，为后续分析和建模提供可靠基础。以下是数据清洗的详细流程、方法和实战示例：一、数据清洗的核心任务问题类型表现示例影响缺失值数值型字段为空（NaN）模型无法处理缺失值，导致训练中断或偏差异常值年龄=200岁，房价=-100万扭曲统计指标（如均值），降低模型泛化性重复数据两行记录完全相同导致模型过拟合，降低
从零推导线性回归：最小二乘法与梯度下降的数学原理 Echo-Nie 机器学习机器学习线性回归人工智能梯度下降数学推导
欢迎来到我的主页：【Echo-Nie】本篇文章收录于专栏【机器学习】本文所有内容相关代码都可在以下仓库中找到：Github-MachineLearning1线性回归1.1什么是线性回归线性回归是一种用来预测和分析数据之间关系的工具。它的核心思想是找到一条直线（或者一个平面），让这条直线尽可能地“拟合”已有的数据点，通过这条直线，我们可以预测新的数据。eg：假设你想预测房价，你知道房子的大小（面积）
在计算机上本地运行 Deepseek R1 itmanll linux
DownloadOllamaonLinuxDownloadOllamaonWindowsDownloadOllamaonmacOSDeepseekR1是一个强大的人工智能模型，在科技界掀起了波澜。它是一个开源语言模型，可以与GPT-4等大玩家展开竞争。但更重要的是，与其他一些模型不同，您可以在自己的计算机上本地运行DeepseekR1。linux步骤第1步：下载Ollama并安装curl-fsSL
超实用的 30 段 Python 案例（上） Python之栈 python 开发语言
Python是目前最流行的语言之一，它在数据科学、机器学习、web开发、脚本编写、自动化方面被许多人广泛使用。它的简单和易用性造就了它如此流行的原因。如果你正在阅读本文，那么你或多或少已经使用过Python或者对Python感兴趣。在本文中，我们将会介绍30个简短的代码片段，你可以在30秒或更短的时间里理解和学习这些代码片段。1.检查重复元素下面的方法可以检查给定列表中是否有重复的元素。它使用了s
cv python_python里面cv是什么意思 weixin_40004659 cv python
OpenCV(OpenSourceComputerVisionLibrary)开放源代码计算机视觉库，主要算法涉及图像处理、计算机视觉和机器学习相关方法。OpenCV其实就是一堆C和C++语言的源代码文件，这些源代码文件中实现了许多常用的计算机视觉算法。OpenCV由一系列C函数和C++类构成，它有C，C++，Python和java接口，当前SDK(SoftwareDevelopmentKit软件
#深度学习：从基础到实践 single_ffish 深度学习 gpt 神经网络生成对抗网络 1024程序员节
深度学习是人工智能领域近年来最为火热的技术之一。它通过构建由多个隐藏层组成的神经网络模型，能够从海量数据中自动学习特征和表征,在图像识别、自然语言处理、语音识别等领域取得了突破性进展。本文将全面介绍深度学习的基础知识、主要算法和实践应用,帮助您快速掌握这一前沿技术。1.深度学习的基础1.1人工神经网络深度学习是基于人工神经网络(ArtificialNeuralNetwork,ANN)的一种机器学习
【深度学习|地学应用】遥感与深度学习：揭示梦柯冰川奥秘的前沿应用与实践解析 985小水博一枚呀深度学习地学应用深度学习人工智能
【深度学习|地学应用】遥感与深度学习：揭示梦柯冰川奥秘的前沿应用与实践解析【深度学习|地学应用】遥感与深度学习：揭示梦柯冰川奥秘的前沿应用与实践解析文章目录【深度学习|地学应用】遥感与深度学习：揭示梦柯冰川奥秘的前沿应用与实践解析前言一、使用高分6号遥感影像结合深度学习对梦柯冰川的研究方向1.冰川边界自动化提取2.冰川变化动态监测3.冰川分类与分布特征分析二、梦柯冰川（MunkuGlacier）的
机器学习入门——机器学习基本概念四月是你的机器学习
@机器学习什么是机器学习机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎简单来说机器学习就是机
基于R-CNN深度学习的无人机目标检测系统：数据集、模型和UI界面的完整实现 2025年数学建模美赛 R-CNN检测系统深度学习 cnn 无人机计算机视觉目标检测人工智能
摘要随着无人机技术的迅猛发展，无人机在军事、农业、环境监测等多个领域的应用日益广泛。无人机目标检测系统的建设成为提升无人机自主飞行和环境感知能力的重要环节。本文将详细介绍如何构建一个基于深度学习的无人机目标检测系统，采用R-CNN（区域卷积神经网络）算法，通过用户界面设计和数据集处理，实现高效的目标检测功能。通过本项目，旨在为无人机目标检测提供一种可行的解决方案，并提高其在复杂环境下的工作效率。目
基于Multi-Agent的无人机集群体系自主作战系统设计龙腾亚太无人机
源自：系统工程与电子技术作者：张堃,华帅,袁斌林,杜睿怡“人工智能技术与咨询”发布摘要针对无人集群自主作战体系设计中的关键问题,提出基于Multi-Agent的无人集群自主作战系统设计方法。建立无人集群各节点的Agent模型及其推演规则;对于仿真系统模块化和通用化的需求,设计系统互操作式接口和无人集群自主作战的交互关系;开展无人集群系统仿真推演验证。仿真结果表明,所提设计方案不仅能够有效开展并完成
python 基本知识达达玲玲 python 开发语言
Python：背景知识及环境安装什么是Python？Python是一种解释型、面向对象的高级编程语言。它的设计哲学强调代码的可读性和简洁性，因此被广泛应用于各种领域，包括：数据科学与机器学习：NumPy,Pandas,Matplotlib,Scikit-learn等库让Python成为了数据分析和机器学习的首选语言。Web开发：Django,Flask等框架提供了高效的Web开发解决方案。自动化：
用 Neo4j GraphRAG 工具开启你的智能应用之旅步子哥 AGI通用人工智能 neo4j 人工智能
在这个人工智能飞速发展的时代，Neo4j带来了一项令人激动的创新——GraphRAG生态系统工具。这组开源工具为开发人员提供了一个全新的途径，以构建基于知识图谱的智能应用，让机器更好地理解和回应我们的查询。接下来，让我们一起探索这些工具如何帮助我们构建更智能、更准确的应用。什么是GraphRAG?GraphRAG是一种结合了检索增强生成（RAG）技术和知识图谱的解决方案。它不仅解决了大型语言模型常
探索未来对话的边界：Mixture-of-Agents（MoA）——大型语言模型的集体智慧引擎潘俭渝Erik
探索未来对话的边界：Mixture-of-Agents（MoA）——大型语言模型的集体智慧引擎项目地址:https://gitcode.com/gh_mirrors/mo/MoA在当前人工智能的浪潮中，我们迎来了一个令人兴奋的技术突破——Mixture-of-Agents(MoA)，它标志着大型语言模型（LLM）能力提升的新纪元。本文将引领您深入探索这一革命性项目，揭示其技术精粹，展望应用前景，并
【Python】已解决：error: subprocess-exited-with-error 屿小夏 python 开发语言 linux
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
探索人工智能在计算机视觉领域的创新应用与挑战戒了9 人工智能学习方法
一、引言1.1研究背景与意义在科技飞速发展的当下，人工智能（ArtificialIntelligence,AI）已然成为引领新一轮科技革命和产业变革的重要驱动力。作为AI领域的关键分支，计算机视觉（ComputerVision,CV）致力于让计算机具备像人类一样理解和解析图像、视频等视觉信息的能力，近年来取得了令人瞩目的进展。二者的深度融合，更是为众多领域带来了前所未有的变革与机遇。从技术发展历程
人工智能前沿技术进展与应用前景探究戒了9 人工智能搜索引擎百度
一、引言1.1研究背景与意义人工智能作为一门极具变革性的前沿技术，正深刻地改变着人类社会的各个层面。从其诞生之初，人工智能便承载着人类对智能机器的无限遐想与探索。自20世纪中叶起，人工智能踏上了它的发展征程，历经了多个重要阶段，每一阶段都伴随着理论的突破、技术的革新以及应用领域的拓展。在初级阶段（1943-1956），沃伦・麦卡洛克和沃尔特・皮茨提出的人工神经网络基本模型，为人工智能的发展奠定了初
chatgpt赋能python：Python如何删除一个对象 atest166 ChatGpt chatgpt jvm java 计算机
Python如何删除一个对象Python是一种高级、面向对象、动态类型解释型语言，它有广泛的应用，尤其在数据分析、机器学习、人工智能和Web开发等领域。但是，在Python编程过程中，我们也可能需要删除对象。那么，Python如何删除一个对象呢？Python对象和变量在Python中，一切都是对象。对象是内存中的一块数据，有自己的身份、类型和值。变量是指向对象的引用，通过变量可以访问对象的属性和方
人工智能前沿技术进展与应用前景探究戒了9 搜索引擎
一、引言1.1研究背景与意义人工智能作为一门极具变革性的前沿技术，正深刻地改变着人类社会的各个层面。从其诞生之初，人工智能便承载着人类对智能机器的无限遐想与探索。自20世纪中叶起，人工智能踏上了它的发展征程，历经了多个重要阶段，每一阶段都伴随着理论的突破、技术的革新以及应用领域的拓展。在初级阶段（1943-1956），沃伦・麦卡洛克和沃尔特・皮茨提出的人工神经网络基本模型，为人工智能的发展奠定了初
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方