fydw_715

qwen_vl_utils代码分析

函数列表：

序号	函数名	简要说明
1	`round_by_factor(number: int, factor: int) -> int`	返回最接近 `number`，且能被 `factor` 整除的整数。
2	`ceil_by_factor(number: int, factor: int) -> int`	返回大于等于 `number`，且能被 `factor` 整除的最小整数。
3	`floor_by_factor(number: int, factor: int) -> int`	返回小于等于 `number`，且能被 `factor` 整除的最大整数。
4	`smart_resize(height: int, width: int, ...) -> tuple[int, int]`	根据给定的高和宽，调整图像尺寸，使其满足特定条件（如可被因数整除、像素数在范围内、保持长宽比）。
5	`to_rgb(pil_image: Image.Image) -> Image.Image`	将 PIL 图像转换为 RGB 模式，处理 RGBA 图像的透明通道。
6	`fetch_image(ele: dict, size_factor: int = IMAGE_FACTOR) -> Image.Image`	从各种输入（URL、本地路径、Base64、PIL.Image）获取图像，并进行尺寸调整。
7	`smart_nframes(ele: dict, total_frames: int, video_fps: int) -> int`	计算用于模型输入的视频帧数，确保帧数满足特定因数要求，并在最小和最大帧数范围内。
8	`_read_video_torchvision(ele: dict) -> (torch.Tensor, float)`	使用 `torchvision` 库读取视频，返回视频帧和帧率。
9	`is_decord_available() -> bool`	检查是否安装了 `decord` 库。
10	`_read_video_decord(ele: dict) -> (torch.Tensor, float)`	使用 `decord` 库读取视频，返回视频帧和帧率。
11	`get_video_reader_backend() -> str`	获取用于读取视频的后端库名称，优先使用 `decord`。
12	`fetch_video(ele: dict, image_factor: int = IMAGE_FACTOR, return_video_sample_fps: bool = False) -> torch.Tensor`	读取并处理视频，返回处理后的视频帧。
13	`extract_vision_info(conversations: list) -> list[dict]`	从对话中提取与视觉相关的信息，如图像或视频。
14	`process_vision_info(conversations: list, return_video_kwargs: bool = False) -> tuple`	处理视觉信息，获取图像和视频数据，以供模型使用。

调用关系图示：

process_vision_info
├── extract_vision_info
├── fetch_image (对于图像)
│   ├── to_rgb
│   └── smart_resize
│       ├── round_by_factor
│       ├── ceil_by_factor
│       └── floor_by_factor
└── fetch_video (对于视频)
    ├── get_video_reader_backend
    │   └── is_decord_available
    ├── _read_video_torchvision 或 _read_video_decord
    │   └── smart_nframes
    │       ├── round_by_factor
    │       ├── ceil_by_factor
    │       └── floor_by_factor
    └── smart_resize
        ├── round_by_factor
        ├── ceil_by_factor
        └── floor_by_factor

说明：

process_vision_info 是核心函数，它根据对话内容，分别处理图像和视频。
在处理图像时，主要通过 fetch_image、to_rgb 和 smart_resize 来获取并调整图像。
在处理视频时，主要通过 fetch_video、get_video_reader_backend、_read_video_torchvision 或 _read_video_decord、smart_nframes 和 smart_resize 来获取并处理视频帧。
数学计算函数 round_by_factor、ceil_by_factor、floor_by_factor 被多次调用，用于确保尺寸和帧数满足特定的因数要求。

常量定义：

IMAGE_FACTOR = 28：这是图像尺寸调整的因数，图像的高度和宽度都将被调整为 28 的倍数。
MIN_PIXELS = 4 * 28 * 28：图像的最小像素数，确保图像不小于特定大小。
MAX_PIXELS = 16384 * 28 * 28：图像的最大像素数，限制图像的最大尺寸，防止过大的图像占用过多内存。
MAX_RATIO = 200：图像的最大宽高比，用于防止过度拉伸或压缩的图像。
VIDEO_MIN_PIXELS = 128 * 28 * 28：视频帧的最小像素数。
VIDEO_MAX_PIXELS = 768 * 28 * 28：视频帧的最大像素数。
FRAME_FACTOR = 2：视频帧数需要是此因数的倍数。
FPS = 2.0：默认的视频采样帧率。
FPS_MIN_FRAMES = 4：视频采样的最小帧数。
FPS_MAX_FRAMES = 768：视频采样的最大帧数。
VIDEO_TOTAL_PIXELS：从环境变量 VIDEO_MAX_PIXELS 中获取视频的总像素数，如果未设置，则默认使用 128000 * 28 * 28 * 0.9，并将其转换为整数。这是对视频输入尺寸的限制。

1. `extract_vision_info` 函数

功能：

extract_vision_info 函数用于从对话内容（conversations）中提取所有与视觉相关的信息（如图像或视频），并将这些信息以列表的形式返回。

参数：

conversations: 类型为 list[dict] 或 list[list[dict]]，表示对话的列表。每个对话可以是一个包含消息字典的列表，或者直接是消息字典。

返回值：

vision_infos: 类型为 list[dict]，包含所有提取的视觉信息的字典。

代码解析：

初始化空列表 vision_infos：
```
vision_infos = []
```
确保 conversations 是列表的列表格式：
```
if isinstance(conversations[0], dict):
    conversations = [conversations]
```
- 如果 conversations 的第一个元素是字典，说明传入的是单个对话，而不是对话的列表。为了统一处理，将其包装成列表的列表形式。

遍历每个对话和消息：

for conversation in conversations:
    for message in conversation:

检查消息的内容是否为列表：
```
if isinstance(message["content"], list):
```
- 如果消息的内容是列表，说明它可能包含多个视觉元素。

提取视觉信息：

for ele in message["content"]:
    if (
        "image" in ele
        or "image_url" in ele
        or "video" in ele
        or ele["type"] in ("image", "image_url", "video")
    ):
        vision_infos.append(ele)

遍历消息内容中的每个元素 ele。
如果元素包含 "image"、"image_url" 或 "video" 键，或者其类型（ele["type"]）是 "image"、"image_url" 或 "video"，则将该元素添加到 vision_infos 列表中。

返回提取的视觉信息列表：
```
return vision_infos
```

2. `process_vision_info` 函数

功能：

process_vision_info 函数用于处理从对话内容中提取的视觉信息，包括读取和处理图像和视频数据，最终返回处理后的结果。

参数：

conversations: 类型为 list[dict] 或 list[list[dict]]，表示对话的列表。
return_video_kwargs: 类型为 bool，默认为 False。如果为 True，则在返回值中包含视频的额外参数（如帧率）。

返回值：

根据 return_video_kwargs 的值，返回不同的内容：
- 如果 return_video_kwargs 为 False：
  - (image_inputs, video_inputs)
    - image_inputs: 处理后的图像列表（list[Image.Image]），如果没有图像，则为 None。
    - video_inputs: 处理后的视频列表（list[torch.Tensor] 或 list[list[Image.Image]]），如果没有视频，则为 None。
- 如果 return_video_kwargs 为 True：
  - (image_inputs, video_inputs, {'fps': video_sample_fps_list})
    - 除了上述两个返回值外，额外返回一个包含视频帧率的字典。

代码解析：

提取视觉信息：
```
vision_infos = extract_vision_info(conversations)
```
- 调用 extract_vision_info 函数，从对话中提取所有的视觉信息，得到 vision_infos 列表。
初始化存储变量：
```
image_inputs = []
video_inputs = []
video_sample_fps_list = []
```
- image_inputs: 用于存储处理后的图像数据。
- video_inputs: 用于存储处理后的视频数据。
- video_sample_fps_list: 用于存储每个视频的采样帧率。
处理每个视觉信息：
```
for vision_info in vision_infos:
    if "image" in vision_info or "image_url" in vision_info:
        image_inputs.append(fetch_image(vision_info))
    elif "video" in vision_info:
        video_input, video_sample_fps = fetch_video(vision_info, return_video_sample_fps=True)
        video_sample_fps_list.append(video_sample_fps)
        video_inputs.append(video_input)
    else:
        raise ValueError("image, image_url or video should in content.")
```
- 遍历 vision_infos 列表，对每个视觉信息进行处理。
- 处理图像：
  - 如果 vision_info 中包含 "image" 或 "image_url" 键，调用 fetch_image 函数处理图像。
  - 将处理后的图像对象添加到 image_inputs 列表中。
- 处理视频：
  - 如果 vision_info 中包含 "video" 键，调用 fetch_video 函数处理视频，参数 return_video_sample_fps=True 表示需要返回视频的采样帧率。
  - 得到处理后的视频数据 video_input 和视频帧率 video_sample_fps。
  - 将视频数据添加到 video_inputs 列表，将帧率添加到 video_sample_fps_list 列表。
- 异常处理：
  - 如果既不包含图像也不包含视频，抛出 ValueError，提示内容中应包含 "image"、"image_url" 或 "video"。

处理可能的空列表：

if len(image_inputs) == 0:
    image_inputs = None
if len(video_inputs) == 0:
    video_inputs = None

如果 image_inputs 或 video_inputs 列表为空，则将其设置为 None。

根据参数返回结果：
```
if return_video_kwargs:
    return image_inputs, video_inputs, {'fps': video_sample_fps_list}
return image_inputs, video_inputs
```
- 如果 return_video_kwargs 为 True，则返回包含视频帧率信息的字典。
- 如果为 False（默认情形），则只返回图像和视频数据。

示例：

假设有如下对话内容：

conversations = [
    # 第一个对话
    [
        {'role': 'user', 'content': [
            {'type': 'text', 'data': '请查看这张图片。'},
            {'type': 'image', 'image_url': 'http://example.com/image1.jpg'}
        ]},
        {'role': 'assistant', 'content': '好的，我正在查看。'}
    ],
    # 第二个对话
    [
        {'role': 'user', 'content': [
            {'type': 'text', 'data': '这是一个视频。'},
            {'type': 'video', 'video': 'http://example.com/video1.mp4'}
        ]},
        {'role': 'assistant', 'content': '我正在处理视频。'}
    ]
]

调用 process_vision_info(conversations)：

提取视觉信息：
- extract_vision_info 函数遍历对话，找到包含视觉信息的元素。
- 得到 vision_infos 列表，包含两个元素：
  - 第一个是图像信息：{'type': 'image', 'image_url': 'http://example.com/image1.jpg'}
  - 第二个是视频信息：{'type': 'video', 'video': 'http://example.com/video1.mp4'}
处理视觉信息：
- 对于第一个元素，调用 fetch_image 读取并处理图像，结果添加到 image_inputs 列表。
- 对于第二个元素，调用 fetch_video 读取并处理视频，结果添加到 video_inputs 列表，同时帧率添加到 video_sample_fps_list。
返回结果：
- image_inputs 是一个包含处理后图像的列表。
- video_inputs 是一个包含处理后视频的列表。
- 如果 return_video_kwargs 为 True，还会返回视频帧率信息。

tuple[list[Image.Image] | None, list[torch.Tensor | list[Image.Image]] | None, Optional[dict]]

用于描述函数的返回值类型。让我们逐步解析这一复杂的类型注解，理解每个部分的含义。

元组类型 tuple[...]

tuple[...] 表示一个元组类型，元组中的每个元素的位置和类型都是固定的。
元组的元素按照顺序依次对应。

第一个元素：list[Image.Image] | None

list[Image.Image]：表示一个 Image.Image 对象（来自 PIL 库）的列表，即图像对象的列表。
| None：符号 | 表示类型的联合（Union），即该值可以是前面的类型或后面的类型。
list[Image.Image] | None：表示该元素要么是一个 Image.Image 对象的列表，要么是 None。

解释：函数可能返回一个包含图像的列表，如果没有图像，则返回 None。

第二个元素：list[torch.Tensor | list[Image.Image]] | None

内部类型 torch.Tensor | list[Image.Image]：
- torch.Tensor：表示一个 PyTorch 的张量，一般用于表示视频数据（如视频帧序列）。
- list[Image.Image]：表示一个 Image.Image 对象的列表，即图像对象的列表。
- torch.Tensor | list[Image.Image]：表示该元素可以是 torch.Tensor 或者 list[Image.Image]。
外部列表 list[...]：表示上述类型的列表，即列表中的每个元素可以是 torch.Tensor 或 list[Image.Image]。
| None：表示该值也可以是 None。
组合起来 list[torch.Tensor | list[Image.Image]] | None：表示该元素要么是一个列表，列表中的每个元素是 torch.Tensor 或 list[Image.Image]，要么是 None。

解释：函数可能返回一个视频数据的列表，如果没有视频，则返回 None。

第三个元素：Optional[dict]

Optional[dict]：Optional 是 typing 模块中的一个泛型类型，用于表示可选类型，即类型可以是指定的类型或 None。
Optional[dict] 等价于 dict | None。

解释：函数可能返回一个字典（如视频的额外参数），如果没有额外参数，则返回 None。

示例

假设：

函数提取并处理了两张图像和一个视频。
图像处理后得到一个 Image.Image 对象的列表。
视频处理后得到一个 torch.Tensor，表示视频帧数据。
视频的额外参数是帧率 fps。

返回值可能是：

(
    [image1, image2],                 # list[Image.Image]
    [video_tensor],                   # list[torch.Tensor]
    {'fps': [video_fps_value]}        # dict
)

或者，如果没有图像，只有视频：

(
    None,                             # 没有图像
    [video_tensor],                   # list[torch.Tensor]
    {'fps': [video_fps_value]}        # dict
)

或者，如果只有图像，没有视频：

(
    [image1, image2],                 # list[Image.Image]
    None,                             # 没有视频
    None                              # 没有额外参数
)

3. `round_by_factor(number: int, factor: int) -> int`

功能：将给定的数字 number 调整为最接近的、能被 factor 整除的整数。

实现：

def round_by_factor(number: int, factor: int) -> int:
    return round(number / factor) * factor

4. `ceil_by_factor(number: int, factor: int) -> int`

功能：将给定的数字 number 调整为大于或等于它的、能被 factor 整除的最小整数。

实现：

def ceil_by_factor(number: int, factor: int) -> int:
    return math.ceil(number / factor) * factor

5. `floor_by_factor(number: int, factor: int) -> int`

功能：将给定的数字 number 调整为小于或等于它的、能被 factor 整除的最大整数。

实现：

def floor_by_factor(number: int, factor: int) -> int:
    return math.floor(number / factor) * factor

6. `smart_resize(...) -> tuple[int, int]`

功能：根据给定的高度和宽度，智能地调整图像尺寸，使其满足以下条件：

高度和宽度都能被指定的 factor 整除。
图像的总像素数在 min_pixels 和 max_pixels 之间。
尽可能保持图像的宽高比。

参数：

height: 原始高度。
width: 原始宽度。
factor: 因数，默认为 IMAGE_FACTOR（28）。
min_pixels: 最小像素数，默认为 MIN_PIXELS。
max_pixels: 最大像素数，默认为 MAX_PIXELS。

实现：

def smart_resize(
    height: int, width: int, factor: int = IMAGE_FACTOR, min_pixels: int = MIN_PIXELS, max_pixels: int = MAX_PIXELS
) -> tuple[int, int]:
    # 检查宽高比是否过大
    if max(height, width) / min(height, width) > MAX_RATIO:
        raise ValueError(
            f"absolute aspect ratio must be smaller than {MAX_RATIO}, got {max(height, width) / min(height, width)}"
        )
    # 调整高度和宽度，使其能被factor整除
    h_bar = max(factor, round_by_factor(height, factor))
    w_bar = max(factor, round_by_factor(width, factor))
    # 调整像素数在指定范围内
    if h_bar * w_bar > max_pixels:
        beta = math.sqrt((height * width) / max_pixels)
        h_bar = floor_by_factor(height / beta, factor)
        w_bar = floor_by_factor(width / beta, factor)
    elif h_bar * w_bar < min_pixels:
        beta = math.sqrt(min_pixels / (height * width))
        h_bar = ceil_by_factor(height * beta, factor)
        w_bar = ceil_by_factor(width * beta, factor)
    return h_bar, w_bar

解释：

首先检查图像的宽高比是否超过了 MAX_RATIO，如果超过，则抛出错误，防止图像过于拉伸或压缩。
然后使用 round_by_factor 将高度和宽度调整为最接近的、能被 factor 整除的值，且不小于 factor。
接下来，根据图像总像素数与 max_pixels 和 min_pixels 的关系，调整高度和宽度：
- 如果调整后的像素数超过了 max_pixels，则计算一个缩放系数 beta，通过 floor_by_factor 函数减少高度和宽度。
- 如果调整后的像素数小于了 min_pixels，则计算一个放大系数 beta，通过 ceil_by_factor 函数增加高度和宽度。
最终返回调整后的高度和宽度。

7. `to_rgb(pil_image: Image.Image) -> Image.Image`

功能：将给定的 PIL 图像对象转换为 RGB 模式。如果图像是带有透明度的 RGBA 模式，则将其转换为 RGB 模式，并填充白色背景。

实现：

def to_rgb(pil_image: Image.Image) -> Image.Image:
      if pil_image.mode == 'RGBA':
          white_background = Image.new("RGB", pil_image.size, (255, 255, 255))
          white_background.paste(pil_image, mask=pil_image.split()[3])  # 使用alpha通道作为掩码
          return white_background
      else:
          return pil_image.convert("RGB")

解释：

检查图像的模式：
- 如果是 RGBA 模式，表示图像带有透明度通道，需要将透明部分填充为白色。
- 创建一个白色背景的 RGB 图像 white_background，大小与原图相同。
- 使用 paste 方法，将原始图像粘贴到白色背景上，使用 alpha 通道作为掩码，以保留透明度信息。
- 返回合成后的 RGB 图像。
如果图像已经是其他模式，直接转换为 RGB 模式并返回。

8. `fetch_image(ele: dict, size_factor: int = IMAGE_FACTOR) -> Image.Image`

功能：根据给定的图像信息，从多种来源（如 URL、本地路径、Base64 编码、PIL.Image 对象）获取图像，并进行预处理，包括转换为 RGB 模式和调整尺寸。

参数：

ele: 包含图像信息的字典。
size_factor: 调整尺寸的因数，默认为 IMAGE_FACTOR（28）。

实现：

def fetch_image(ele: dict[str, str | Image.Image], size_factor: int = IMAGE_FACTOR) -> Image.Image:
    # 获取图像数据
    if "image" in ele:
        image = ele["image"]
    else:
        image = ele["image_url"]
    image_obj = None
    # 根据图像数据类型进行处理
    if isinstance(image, Image.Image):
        image_obj = image
    elif image.startswith("http://") or image.startswith("https://"):
        response = requests.get(image, stream=True)
        image_obj = Image.open(BytesIO(response.content))
    elif image.startswith("file://"):
        image_obj = Image.open(image[7:])
    elif image.startswith("data:image"):
        if "base64," in image:
            _, base64_data = image.split("base64,", 1)
            data = base64.b64decode(base64_data)
            image_obj = Image.open(BytesIO(data))
    else:
        image_obj = Image.open(image)
    if image_obj is None:
        raise ValueError(f"Unrecognized image input, support local path, http url, base64 and PIL.Image, got {image}")
    # 转换为RGB模式
    image = to_rgb(image_obj)
    ## 调整尺寸
    if "resized_height" in ele and "resized_width" in ele:
        resized_height, resized_width = smart_resize(
            ele["resized_height"],
            ele["resized_width"],
            factor=size_factor,
        )
    else:
        width, height = image.size
        min_pixels = ele.get("min_pixels", MIN_PIXELS)
        max_pixels = ele.get("max_pixels", MAX_PIXELS)
        resized_height, resized_width = smart_resize(
            height,
            width,
            factor=size_factor,
            min_pixels=min_pixels,
            max_pixels=max_pixels,
        )
    image = image.resize((resized_width, resized_height))
    return image

解释：

获取图像数据：
- 从传入的字典 ele 中获取图像信息，优先使用键 "image"，否则使用 "image_url"。
- 初始化 image_obj 为 None。
根据图像数据的类型进行处理：
- 如果 image 是一个 Image.Image 对象，直接赋值给 image_obj。
- 如果 image 是以 "http://" 或 "https://" 开头的字符串，表示是网络 URL：
  - 使用 requests 库获取图像内容。
  - 使用 Image.open 读取图像。
- 如果 image 是以 "file://" 开头的字符串，表示是本地文件路径：
  - 去除前缀 "file://"，然后使用 Image.open 读取图像。
- 如果 image 以 "data:image" 开头，表示是 Base64 编码的图像数据：
  - 解析 Base64 数据，解码后使用 Image.open 读取图像。
- 否则，假设 image 是本地文件路径，直接使用 Image.open 读取。
检查图像是否成功读取：
- 如果 image_obj 仍为 None，则抛出错误，提示无法识别的图像输入格式。
转换为 RGB 模式：
- 调用 to_rgb 函数，将图像转换为 RGB 模式，处理透明度问题。
调整图像尺寸：
- 如果 ele 中提供了 "resized_height" 和 "resized_width"，则使用这些值进行尺寸调整，调用 smart_resize 函数。
- 否则，使用图像的原始尺寸，并获取 min_pixels 和 max_pixels（如果未提供，则使用默认值）。
- 调用 smart_resize 函数，根据原始尺寸、因数和像素范围，计算新的高度和宽度。
- 使用 image.resize 方法调整图像尺寸。
返回处理后的图像：
- 最终返回调整尺寸后的图像对象。

9. `smart_nframes`

def smart_nframes(
    ele: dict,
    total_frames: int,
    video_fps: int | float,
) -> int:
    ...

功能：

smart_nframes 函数用于计算用于模型输入的视频帧数，确保帧数满足一定的条件和限制。

参数：

ele: 包含视频配置信息的字典，支持以下键：
- nframes: 希望提取的帧数。
- fps: 希望以多少帧率来提取帧。
- min_frames: 当使用 fps 时，指定最小帧数。
- max_frames: 当使用 fps 时，指定最大帧数。
total_frames: 视频的总帧数。
video_fps: 视频的原始帧率。

流程：

检查冲突参数：
```
assert not ("fps" in ele and "nframes" in ele), "Only accept either `fps` or `nframes`"
```
这一步确保 ele 字典中不能同时既有 fps 又有 nframes，否则抛出断言错误。

根据配置计算帧数：

如果提供了 nframes：
```
if "nframes" in ele:
    nframes = round_by_factor(ele["nframes"], FRAME_FACTOR)
```
使用 round_by_factor 函数将 nframes 四舍五入到最近的 FRAME_FACTOR 的倍数，确保帧数是特定因子的整数倍。

如果提供了 fps：

else:
    fps = ele.get("fps", FPS)
    min_frames = ceil_by_factor(ele.get("min_frames", FPS_MIN_FRAMES), FRAME_FACTOR)
    max_frames = floor_by_factor(ele.get("max_frames", min(FPS_MAX_FRAMES, total_frames)), FRAME_FACTOR)
    nframes = total_frames / video_fps * fps
    if nframes > total_frames:
        logger.warning(f"smart_nframes: nframes[{nframes}] > total_frames[{total_frames}]")
    nframes = min(min(max(nframes, min_frames), max_frames), total_frames)
    nframes = floor_by_factor(nframes, FRAME_FACTOR)

获取期望的 fps，如果未提供则使用默认值 FPS。
计算 min_frames 和 max_frames，确保它们是 FRAME_FACTOR 的倍数。
根据原始总帧数、原始帧率和期望的帧率计算需要的帧数 nframes。
发出警告如果计算的 nframes 超过了总帧数。
将 nframes 限制在 min_frames 和 max_frames 之间，并确保不超过总帧数。
使用 floor_by_factor 将 nframes 向下取整到最近的 FRAME_FACTOR 的倍数。

验证帧数是否合理：

if not (FRAME_FACTOR <= nframes and nframes <= total_frames):
    raise ValueError(f"nframes should in interval [{FRAME_FACTOR}, {total_frames}], but got {nframes}.")

确保计算出的 nframes 在有效范围内，否则抛出 ValueError。

返回计算的帧数：
```
return nframes
```

10. `_read_video_torchvision`

def _read_video_torchvision(
    ele: dict,
) -> (torch.Tensor, float):
    ...

功能：

使用 torchvision 库的 io.read_video 函数读取视频文件，并返回视频帧的张量和采样后的帧率。

参数：

ele: 包含视频配置信息的字典，支持以下键：
- video: 视频路径，支持本地路径、file://、http://、https://。
- video_start: 视频起始时间（秒）。
- video_end: 视频结束时间（秒）。

流程：

处理视频路径：

video_path = ele["video"]
if version.parse(torchvision.__version__) < version.parse("0.19.0"):
    if "http://" in video_path or "https://" in video_path:
        warnings.warn("torchvision < 0.19.0 does not support http/https video path, please upgrade to 0.19.0.")
    if "file://" in video_path:
        video_path = video_path[7:]

如果 torchvision 版本低于 0.19.0：

不支持通过 http:// 或 https:// 读取视频，提示用户升级。
如果视频路径以 file:// 开头，去掉前面的 file://。

读取视频：

st = time.time()
video, audio, info = io.read_video(
    video_path,
    start_pts=ele.get("video_start", 0.0),
    end_pts=ele.get("video_end", None),
    pts_unit="sec",
    output_format="TCHW",
)

使用 io.read_video 读取视频，指定起始和结束时间，输出格式为 (T, C, H, W)，即帧数、通道数、高度、宽度。

获取视频信息：

total_frames, video_fps = video.size(0), info["video_fps"]
logger.info(f"torchvision:  {video_path=}, {total_frames=}, {video_fps=}, time={time.time() - st:.3f}s")

获取视频的总帧数和原始帧率，记录读取时间。

计算需要的帧数：

nframes = smart_nframes(ele, total_frames=total_frames, video_fps=video_fps)

调用之前的 smart_nframes 函数计算需要的帧数。

从视频中采样帧：
```
idx = torch.linspace(0, total_frames - 1, nframes).round().long()
sample_fps = nframes / max(total_frames, 1e-6) * video_fps
video = video[idx]
```
- 使用 torch.linspace 生成一个索引列表，从视频帧中均匀采样 nframes 帧。
- 计算采样后的帧率 sample_fps。
- 根据索引提取对应的帧。
返回视频张量和采样帧率：
```
return video, sample_fps
```

11. `is_decord_available`

def is_decord_available() -> bool:
    import importlib.util
    return importlib.util.find_spec("decord") is not None

功能：

检查 decord 库是否可用。

流程：

使用 importlib.util.find_spec("decord") 检查是否可以找到 decord 模块的规格（spec）。
如果找到了则返回 True，否则返回 False。

12. `_read_video_decord`

def _read_video_decord(
    ele: dict,
) -> (torch.Tensor, float):
    ...

功能：

使用 decord 库的 VideoReader 读取视频文件，并返回视频帧的张量和采样后的帧率。

参数：

ele: 包含视频配置信息的字典，支持以下键：
- video: 视频路径，支持本地路径、file://、http://、https://。
- video_start: 视频起始时间（暂不支持）。
- video_end: 视频结束时间（暂不支持）。

流程：

导入 decord 库：
```
import decord
```
处理视频路径：
```
video_path = ele["video"]
st = time.time()
```
获取视频路径，记录开始时间。
创建 VideoReader 实例：
```
vr = decord.VideoReader(video_path)
```
使用 decord 的 VideoReader 读取视频。
暂不支持起始和结束时间：
```
if 'video_start' in ele or 'video_end' in ele:
    raise NotImplementedError("not support start_pts and end_pts in decord for now.")
```
目前暂不支持通过 decord 指定起始和结束时间，如果发现有这样的参数，抛出 NotImplementedError。

获取视频信息：

total_frames, video_fps = len(vr), vr.get_avg_fps()
logger.info(f"decord:  {video_path=}, {total_frames=}, {video_fps=}, time={time.time() - st:.3f}s")

获取视频的总帧数和平均帧率，记录读取时间。

计算需要的帧数：

nframes = smart_nframes(ele, total_frames=total_frames, video_fps=video_fps)

调用 smart_nframes 计算需要的帧数。

从视频中采样帧：

idx = torch.linspace(0, total_frames - 1, nframes).round().long().tolist()
video = vr.get_batch(idx).asnumpy()
video = torch.tensor(video).permute(0, 3, 1, 2)  # Convert to TCHW format
sample_fps = nframes / max(total_frames, 1e-6) * video_fps

使用 torch.linspace 生成索引列表，均匀采样 nframes 帧。
使用 vr.get_batch(idx) 获取对应帧，转换为 NumPy 数组。
将 NumPy 数组转换为 PyTorch 张量，并调整维度顺序为 (T, C, H, W)。
计算采样后的帧率。

返回视频张量和采样帧率：
```
return video, sample_fps
```

13. `get_video_reader_backend`

@lru_cache(maxsize=1)
def get_video_reader_backend() -> str:
    if FORCE_QWENVL_VIDEO_READER is not None:
        video_reader_backend = FORCE_QWENVL_VIDEO_READER
    elif is_decord_available():
        video_reader_backend = "decord"
    else:
        video_reader_backend = "torchvision"
    print(f"qwen-vl-utils using {video_reader_backend} to read video.", file=sys.stderr)
    return video_reader_backend

功能：

根据环境变量或库的可用性，确定使用哪个视频读取后端。

流程：

检查环境变量：

if FORCE_QWENVL_VIDEO_READER is not None:
    video_reader_backend = FORCE_QWENVL_VIDEO_READER

如果环境变量 FORCE_QWENVL_VIDEO_READER 被设置，则强制使用该后端。

检查 decord 库是否可用：

elif is_decord_available():
    video_reader_backend = "decord"

如果 decord 库可用，则使用 decord。

默认使用 torchvision：
```
else:
    video_reader_backend = "torchvision"
```
如果不满足上述条件，默认使用 torchvision。

输出使用的后端信息并返回：

print(f"qwen-vl-utils using {video_reader_backend} to read video.", file=sys.stderr)
return video_reader_backend

打印使用的后端信息，返回后端名称。

注解：

使用了 @lru_cache(maxsize=1) 装饰器，表示函数的返回值会被缓存，当再次调用时直接返回缓存值，避免重复计算。

14. `fetch_video`

def fetch_video(ele: dict, image_factor: int = IMAGE_FACTOR, return_video_sample_fps: bool = False) -> torch.Tensor | list[Image.Image]:
    ...

功能：

根据提供的配置，获取并处理视频数据，返回适用于模型输入的视频张量或图像列表。

参数：

ele: 包含视频配置信息的字典，支持以下键：
- video: 视频路径，或包含一系列图像的列表。
- 其他参数如 min_pixels、max_pixels、resized_height、resized_width 等，用于调整视频尺寸。
image_factor: 调整尺寸时使用的因子，默认值为 IMAGE_FACTOR。
return_video_sample_fps: 是否返回采样后的帧率，布尔值。

流程：

判断 ele["video"] 的类型：
```
if isinstance(ele["video"], str):
    ...
else:
    ...
```
- 如果是字符串，表示视频路径，需要读取视频文件。
- 如果是列表或元组，表示已经提供了帧图像的列表。

处理视频文件：

video_reader_backend = get_video_reader_backend()
try:
    video, sample_fps = VIDEO_READER_BACKENDS[video_reader_backend](ele)
except Exception as e:
    logger.warning(f"video_reader_backend {video_reader_backend} error, use torchvision as default, msg: {e}")
    video, sample_fps = VIDEO_READER_BACKENDS["torchvision"](ele)

使用 get_video_reader_backend() 确定后端，然后调用对应的读取函数获取视频张量和采样帧率。
如果发生异常，记录警告信息，默认使用 torchvision 读取视频。

获取视频尺寸信息和像素限制：

nframes, _, height, width = video.shape
min_pixels = ele.get("min_pixels", VIDEO_MIN_PIXELS)
total_pixels = ele.get("total_pixels", VIDEO_TOTAL_PIXELS)
max_pixels = max(min(VIDEO_MAX_PIXELS, total_pixels / nframes * FRAME_FACTOR), int(min_pixels * 1.05))
max_pixels_supposed = ele.get("max_pixels", max_pixels)
if max_pixels_supposed > max_pixels:
    logger.warning(f"The given max_pixels[{max_pixels_supposed}] exceeds limit[{max_pixels}].")
max_pixels = min(max_pixels_supposed, max_pixels)

获取视频的帧数、高度和宽度。
计算 min_pixels 和 max_pixels，以限制视频的总像素数，避免内存占用过大。

调整视频帧尺寸：

if "resized_height" in ele and "resized_width" in ele:
    resized_height, resized_width = smart_resize(
        ele["resized_height"],
        ele["resized_width"],
        factor=image_factor,
    )
else:
    resized_height, resized_width = smart_resize(
        height,
        width,
        factor=image_factor,
        min_pixels=min_pixels,
        max_pixels=max_pixels,
    )
video = transforms.functional.resize(
    video,
    [resized_height, resized_width],
    interpolation=InterpolationMode.BICUBIC,
    antialias=True,
).float()

如果提供了 resized_height 和 resized_width，则使用这些值进行尺寸调整。
否则，使用 smart_resize 根据原始尺寸和像素限制计算新的高度和宽度。
使用 transforms.functional.resize 调整视频帧尺寸。

返回结果：
```
if return_video_sample_fps:
    return video, sample_fps
return video
```
- 如果需要返回采样帧率，则返回 (video, sample_fps)。
- 否则，只返回视频张量。

处理帧图像列表：

else:
    assert isinstance(ele["video"], (list, tuple))
    process_info = ele.copy()
    process_info.pop("type", None)
    process_info.pop("video", None)
    images = [
        fetch_image({"image": video_element, **process_info}, size_factor=image_factor)
        for video_element in ele["video"]
    ]
    nframes = ceil_by_factor(len(images), FRAME_FACTOR)
    if len(images) < nframes:
        images.extend([images[-1]] * (nframes - len(images)))
    if return_video_sample_fps:
        return images, process_info.pop("fps", 2.0)
    return images

如果 ele["video"] 是一个图像列表，遍历每一帧图像，调用 fetch_image 处理。
确保总帧数是 FRAME_FACTOR 的倍数，不足的话用最后一帧填充。
根据是否需要返回采样帧率，返回结果。

decord 和 torchvision

1. Decord

Decord 是一个专为深度学习和视频处理设计的高性能视频读取库。它旨在提供高效、简洁、易用的视频数据加载接口，方便在深度学习模型中使用视频数据。

主要特点：

高性能： Decord 使用多线程和高效的解码技术，能够快速读取和解码视频数据，大大提高了视频数据处理的效率。
易于集成： 提供了与主流深度学习框架（如 PyTorch、MXNet 等）兼容的接口，可以直接将视频数据转换为框架支持的张量格式。
随机访问： 支持对视频帧的随机访问，方便进行数据增强和批量处理。
轻量级： Decord 旨在提供最小的依赖和轻量级的包装，以减少安装和使用的复杂性。

使用示例：

import decord
from decord import VideoReader
decord.bridge.set_bridge('torch')  # 设置与 PyTorch 兼容的桥接

# 创建视频读取器
vr = VideoReader('path/to/your/video.mp4')

# 获取视频的总帧数
total_frames = len(vr)

# 读取特定帧，例如第10帧
frame_10 = vr[9]  # 索引从0开始

# 批量读取帧
indices = [0, 5, 10, 15, 20]
frames = vr.get_batch(indices)  # 返回指定帧的批量数据

2. Torchvision

Torchvision 是 PyTorch 官方的计算机视觉工具包，提供了常用的数据集、模型和图像视频处理工具。它是 PyTorch 生态系统中处理视觉数据的核心库。

主要组件：

torchvision.datasets： 提供常用的计算机视觉数据集，如 MNIST、CIFAR10、ImageNet 等的下载和加载接口。
torchvision.models： 包含预训练的深度学习模型，如 ResNet、AlexNet、VGG 等，可用于迁移学习和特征提取。
torchvision.transforms： 提供一系列图像预处理和数据增强的方法，如裁剪、缩放、翻转、归一化等。
torchvision.io： 提供读取和写入图像、视频数据的接口，包括 read_image、read_video 等方法。

使用示例：

图像处理：

from torchvision import transforms
from PIL import Image

# 定义图像转换方法
transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),  # 将图像转换为张量，并将像素值归一化到 [0,1]
    transforms.Normalize(mean=[0.485, 0.456, 0.406],  # 标准化
                         std=[0.229, 0.224, 0.225])
])

# 加载和处理图像
image = Image.open('path/to/your/image.jpg')
image_tensor = transform(image)

视频处理：

import torchvision.io as io

# 读取视频
video_path = 'path/to/your/video.mp4'
video, audio, info = io.read_video(video_path, pts_unit='sec')

# video 是形状为 [T, H, W, C] 的张量，T 是帧数
# 可以进行帧采样或其他处理

！

你可能感兴趣的:(qwen,计算机视觉,人工智能)

Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
如果让计算机理解人类语言- One-hot 编码（One-hot Encoding，1950s）
如果让计算机理解人类语言-One-hot编码（One-hotEncoding，1950s）flyfish如果让计算机理解人类语言-One-hot编码（One-hotEncoding，1950s）如果让计算机理解人类语言-词袋模型（BagofWords,BoW，1970s）如果让计算机理解人类语言-Word2Vec（WordtoVector，2013）如果让计算机理解人类语言-Qwen3Embedd
多模态大模型发展全景：从架构创新到应用突破陈敬雷-充电了么-CEO兼CTO python 大模型多模态大模型 AIGC 机器学习深度学习 DeepSeek
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】《GPT多模态大模型与AIAgent智能体》新出书籍配套视频【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录GPT多模态大模型系列四多模态大模型发展全景：从架构创新到应用突破更多技术内容总结GPT多模态大模型系列四多模态大模型
ollama v0.9.6版本发布详解：修复启动屏幕样式及新增工具名称参数支持福大大架构师每日一题文心一言vschatgpt ollama
作为近年来备受瞩目的开源对话式人工智能框架之一，ollama持续更新优化其产品，致力于为开发者带来更稳定、高效的使用体验。2025年7月8日，ollama发布了v0.9.6版本，这一版本在用户界面和API的可用性方面做出了重要改进，进一步增强了开发和集成的便捷性。本文将对ollamav0.9.6版本的更新内容进行全面解析，详细介绍新特性、修复的具体问题、应用示例及最佳实践，帮助开发者快速掌握和应用
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
深入解读 Qwen3 技术报告（一）：引言小爷毛毛（卓寿杰）大模型AIGC 深度学习基础/原理人工智能自然语言处理 python 语言模型深度学习
重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展1.引言：迎接大型语言模型的新纪元我们正处在一个由人工智能（AI
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
边缘人工智能与医疗AI融合发展路径：技术融合与应用前景（上） Allen_Lyb 数智化医院2025 人工智能健康医疗算法
引言人工智能技术正以前所未有的速度改变着医疗保健领域，从辅助诊断到个性化治疗，AI应用的广度和深度不断拓展。在这一浪潮中，边缘人工智能（EdgeAI）作为一种新兴技术范式，正成为推动医疗AI创新的关键力量。边缘AI区别于传统的云计算模式，它将数据处理和AI模型部署在数据源头附近，实现快速响应和隐私保护。这种特性使其在医疗保健领域具有独特优势，特别是在实时监测、紧急响应和患者隐私保护等方面。边缘AI
OpenCvSharp 实现环形文字识别OCR实例（C#） XisVisual_Basic ocr c#计算机视觉 C#
近年来，随着计算机视觉和图像处理的不断发展，光学字符识别（OCR）技术也变得愈发成熟。OCR技术可以将图像中的文字转换为可编辑和可搜索的文本，为人们带来了极大的便利。在本篇文章中，我们将介绍如何使用OpenCvSharp库来实现环形文字的识别。首先，在使用OpenCvSharp之前，我们需要确保已经在项目中引用了该库，并添加相应的命名空间。usingOpenCvSharp;接下来，我们需要准备一张
Python|OpenCV-实现识别弧形文字(17) 写python的鑫哥 OpenCV入门与进阶 python opencv 人工智能计算机视觉弧形文字环形文字识别
前言本文是该专栏的第19篇，后面将持续分享OpenCV计算机视觉的干货知识，记得关注。我们知道，OCR可以识别文字方面的需求，但是如果遇到那些目标文字是“弧形文字”，需要怎么去识别呢？遇到想要识别“弧形文字”的需求，这个时候你可以借助于Opencv+OCR技术来实现。而本文，笔者将针对上述问题需求，利用OpenCV结合OCR来实现“弧形文字”的识别。废话不多说，具体的细节部分以及详细的解决方案，跟
AI人工智能领域中AI作画的技术优势 AI大模型应用之禅人工智能 AI作画 ai
AI人工智能领域中AI作画的技术优势关键词：AI作画、技术优势、人工智能、艺术创作、图像生成摘要：本文深入探讨了AI人工智能领域中AI作画的技术优势。从背景介绍出发，阐述了AI作画的起源与发展，明确了文章的目的、范围、预期读者以及文档结构。接着详细分析了AI作画的核心概念，包括其原理和架构，并通过Mermaid流程图进行直观展示。对核心算法原理进行了深入剖析，结合Python代码示例进行讲解。同时
快速掌握Python编程基础张彦峰ZYF python
干货分享，感谢您的阅读！备注：本博客将自己初步学习Python的总结进行分享，希望大家通过本博客可以在短时间内快速掌握Python的基本程序编码能力，如有错误请留言指正，谢谢！（持续更新）一、快速了解Python和环境准备（一）Python快速介绍Python是一种简洁、强大、易读的编程语言，广泛应用于Web开发、数据分析、人工智能、自动化运维等领域。它由GuidovanRossum在1991年设
人工智能开源的大模型训练微调框架LLaMA-Factory
LLaMA-Factory是一个开源的大模型训练微调框架，具有模块化设计和多种高效的训练方法，能够满足不同用户的需求。用户可以通过命令行或Web界面进行操作，实现个性化的语言模型微调。LLaMA-Factory是一个专注于高效微调LLaMA系列模型的开源框架（GitHub项目地址：https://github.com/hiyouga/LLaMA-Factory）。它以极简配置、低资源消耗和对中文任
OpenSearch 向量搜索与Qwen3-Embedding 集成示例 ZHOU_CAMP RAG 数据库 docker RAG opensearch agent
本项目演示了如何将OpenSearch的k-NN(k-NearestNeighbors)向量搜索功能与OpenAI的高级文本嵌入模型（如Qwen3-Embedding）相结合，以实现强大的语义搜索。核心概念文本嵌入(TextEmbedding):将文本（单词、句子、段落）转换为一个高维的数字向量。语义上相似的文本在向量空间中的距离会更近。Qwen3-Embedding:我们调用Qwen3-Embe
智慧城市大脑解决方案
智慧城市大脑背景与意义智慧城市大脑作为城市管理的创新模式，通过集成大数据、人工智能等技术，实现了对城市运行的全面感知与智能决策。它不仅提升了城市管理效率，还为市民带来了更加便捷、安全的生活体验。智慧城市大脑建设历程某城市作为智慧城市大脑的创新策源地，自2016年起便与阿里巴巴集团深度合作，投入巨资自主研发城市数据大脑“交通小脑”平台。该平台成功接入了大量视频和数据，实现了对道路和时间资源的再分配，
csdn-AI测评 Right.W 人工智能
一、你平时会使用这类AI工具吗？你对这类型的工具有什么看法？AI工具灵活、多样、能够回答各种问题，大为方便了人们日常学习、工作、生活的需要。目前很流行的chartgpt就是一款超火爆的ai工具，可以写论文、敲代码各种功能十分强大，为各个领域的数字化和智能化进程给予了很大帮助。但是人的智慧和意识是机器无法取代的，人类对人工智能不能过度依赖，人工智能只是改善生活、提高效率的工具而已。二、你可以花几分钟
智慧城市大脑：城市治理的新引擎 Fulima_cloud 智慧城市人工智能
在科技日新月异的今天，智慧城市的概念已经深入人心。而智慧城市大脑，作为智慧城市的中枢神经系统，运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系，正逐步成为提升城市治理能力、优化城市服务、推动城市可持续发展的重要力量。智慧城市大脑是什么，简而言之，是运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系。它如同城市的“智慧中枢”，通过对城市全域运行数据的
【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线
一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理解它。比如说，它能认出这是个苹果，或者那边有辆车。除此之外，还能把拍到的照片或者视频转换成有用的信息，帮我们做决定。整个过程就是为了让机器能看懂图像，然后根据这些图像来做出聪明的选择。二、计算机视觉实现起来难吗？人类依赖视觉，找辆汽车轻而易举，毕竟汽车那么大，一眼就能看出来，所以常误以为计算机视觉简单，
【亲测免费】探索AudioSlicer：智能音频分割工具秦贝仁Lincoln
探索AudioSlicer：智能音频分割工具去发现同类优质开源项目:https://gitcode.com/项目介绍AudioSlicer是一个基于Python的轻量级工具，专门用于切割.wav音频文件。它通过检测静音段将音频拆分成多个独立样本，并生成一个.json文件，详细记录了每个切片的时间范围。该项目灵感源自AndrewPhillipDoss的工作，现在正向着人工智能适应的方向发展，有望实现
人工智能怎么入门？零基础入门指南：从小白到AI实战者的第一步 OpenCV图像识别人工智能人工智能计算机视觉自然语言处理神经网络机器学习
人工智能（AI）是当今最具前景的科技领域之一。从聊天机器人到自动驾驶，从图像识别到语音翻译，AI正在以前所未有的速度改变世界。但对于初学者来说，一个最常见的问题是：“我没有基础，也不是学数学或计算机的，人工智能还能学吗？我该怎么入门？”答案是：可以学，而且你并不孤单。越来越多的人正在以“跨专业、转行、自学”的方式进入AI领域。关键是，你需要一个清晰的入门路径，理解应该先做什么、学什么、避开什么误区
计算机视觉：Transformer的轻量化与加速策略 xcLeigh 计算机视觉CV 计算机视觉 transformer 人工智能 AI 策略
计算机视觉：Transformer的轻量化与加速策略一、前言二、Transformer基础概念回顾2.1Transformer架构概述2.2自注意力机制原理三、Transformer轻量化策略3.1模型结构优化3.1.1减少层数和头数3.1.2优化Patch大小3.2参数共享与剪枝3.2.1参数共享3.2.2剪枝3.3知识蒸馏四、Transformer加速策略4.1模型量化4.2.2TPU加速4.
深度学习基础与应用：从理论到实战创新工场
本文还有配套的精品资源，点击获取简介：深度学习是人工智能的核心分支，通过模拟人脑神经网络处理大量数据以执行复杂任务。Python因其简洁性和强大的库支持成为深度学习研究的首选语言。本文概述了深度学习基础概念、核心算法、Python框架，并假设了一个包含教程、示例代码、数据集、交互式学习环境、性能评估指标和进阶主题的“deep-learning-study-main”压缩包内容，旨在帮助学习者深入理
从点子到原型只需10分钟：用 Copilot 快速验证产品功能网罗开发 AI 大模型 Python 技术汇总人工智能 copilot
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
阿里开源WebSailor：超越闭源模型的网络智能体新星
WebSailor简介与开源背景在人工智能领域持续创新的浪潮中，阿里通义实验室于2025年7月正式开源了其突破性成果——WebSailor网络智能体。这一开源项目标志着中国企业在复杂推理与检索技术领域的重要突破，其设计初衷直指开源生态中长期存在的关键短板：面对超高不确定性任务时的系统性推理能力缺失。填补开源生态的关键空白WebSailor的诞生源于一个被长期忽视的技术鸿沟。根据斯坦福大学《2025
RAG实战指南 Day 11：文本分块策略与最佳实践在未来等你 RAG实战指南 RAG 检索增强生成文本分块语义分割文档处理 NLP 人工智能
【RAG实战指南Day11】文本分块策略与最佳实践文章标签RAG,检索增强生成,文本分块,语义分割,文档处理,NLP,人工智能,大语言模型文章简述文本分块是RAG系统构建中的关键环节，直接影响检索准确率。本文深入解析5种主流分块技术：1)固定大小分块的实现与调优技巧；2)基于语义的递归分割算法；3)文档结构感知的分块策略；4)LLM增强的智能分块方法；5)多模态混合内容处理方案。通过电商知识库和科
Spring AI：Tool Calling 虾条_花吹雪 Spring AI ai java
工具调用（也称为函数调用）是人工智能应用程序中的一种常见模式，允许模型与一组API或工具交互，以增强其功能。工具主要用于：信息检索。此类工具可用于从外部源（如数据库、web服务、文件系统或web搜索引擎）检索信息。目标是增强模型的知识，使其能够回答否则无法回答的问题。因此，它们可用于检索增强生成（RAG）场景。例如，一个工具可用于检索给定位置的当前天气，检索最新的新闻文章，或查询数据库中的特定记录
AI产品经理技术篇：从传统AI到生成式AI，解密大模型的核心概念让我看看好学吗人工智能产品经理学习深度学习自然语言处理
在人工智能技术飞速发展的今天，AI产品经理不仅需要理解业务逻辑，还需深入技术底层，把握从传统AI到生成式AI的演进脉络。传统AI以分类、预测和规则驱动为核心，而生成式AI则颠覆了这一范式，通过大模型实现内容创作、对话生成等创造性任务。这种转变背后，是参数规模、模型架构和训练方式的根本性革新。作为AI产品经理，理解大模型的核心概念至关重要。从“参数”的意义到“Token”的向量化，从Transfor
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

qwen_vl_utils代码分析

函数列表：

调用关系图示：

说明：

常量定义：

1. extract_vision_info 函数

2. process_vision_info 函数

3. round_by_factor(number: int, factor: int) -> int

4. ceil_by_factor(number: int, factor: int) -> int

5. floor_by_factor(number: int, factor: int) -> int

6. smart_resize(...) -> tuple[int, int]

7. to_rgb(pil_image: Image.Image) -> Image.Image

8. fetch_image(ele: dict, size_factor: int = IMAGE_FACTOR) -> Image.Image

9. smart_nframes

10. _read_video_torchvision

11. is_decord_available

12. _read_video_decord

13. get_video_reader_backend

14. fetch_video

decord 和 torchvision

1. Decord

主要特点：

使用示例：

2. Torchvision

主要组件：

使用示例：

你可能感兴趣的:(qwen,计算机视觉,人工智能)

1. `extract_vision_info` 函数

2. `process_vision_info` 函数

3. `round_by_factor(number: int, factor: int) -> int`

4. `ceil_by_factor(number: int, factor: int) -> int`

5. `floor_by_factor(number: int, factor: int) -> int`

6. `smart_resize(...) -> tuple[int, int]`

7. `to_rgb(pil_image: Image.Image) -> Image.Image`

8. `fetch_image(ele: dict, size_factor: int = IMAGE_FACTOR) -> Image.Image`

9. `smart_nframes`

10. `_read_video_torchvision`

11. `is_decord_available`

12. `_read_video_decord`

13. `get_video_reader_backend`

14. `fetch_video`