视频编码小菜鸟

learned video compression 论文理解翻译（1）

Learned Video Compression

基于机器学习的视频压缩

Abstract

摘要

We present a new algorithm for video coding, learned end-to-end for the low-latency mode. In this setting, our approach outperforms all existing video codecs across nearly the entire bitrate range. To our knowledge, this is the first ML-based method to do so.

对于低延迟模式的视频编码，我们提出了一种新的端到端学习算法。在几乎整个码率范围上，我们的方法优于现有的所有编码器，据我们所知，这是第一个基于机器学习的视频编码，

We evaluate our approach on standard video compression test sets of varying resolutions, and benchmark against all mainstream commercial codecs in the low-latency mode. On standard-definition videos, HEVC/H.265, AVC/H.264 and VP9 typically produce codes up to 60% larger than our algorithm. On high-definition 1080p videos, H.265 and VP9 typically produce codes up to 20% larger, and H.264
up to 35% larger. Furthermore, our approach does not suffer from blocking artifacts and pixelation, and thus produces videos that are more visually pleasing.

我们在不同分辨率的视频压缩测试集上评估了我们的方法，并且在低延迟模式下与所有主流商业编码器进行基准测试。在标清视频上，HEVC，AVC，VP9与我们的算法相比会多出60%的码率，在高清视频上HEVC，VP9多20%的码率，AVC多35%。此外，我们的方法不受块效应，和像素化的影响，压缩后的视频在视觉感受上更好

We propose two main contributions. The first is a novel architecture for video compression, which (1) generalizes motion estimation to perform any learned compensation beyond simple translations, (2) rather than strictly relying on previously transmitted reference frames, maintains a state of arbitrary information learned by the model, and (3) enables jointly compressing all transmitted signals (such as optical flow and residual).

我们提出两项主要贡献。第一种是一种新的视频压缩体系结构，它（1）将运动估计推广到除了简单的平移之外的任何学习补偿，（2）不严格依赖先前传输的参考帧，保持从模型学习到的任意信息的状态，以及（3）能够联合压缩所有发送的信号（例如光流和残差）。（译者注：这一段我理解的不是太清楚，先跳过）

Secondly, we present a framework for ML-based spatial rate control — a mechanism for assigning variable bitrates across space for each frame. This is a critical component for video coding, which to our knowledge had not been developed within a machine learning setting.

第二，我们提出了一个基于机器学习的空间速率控制框架-一种为每个帧跨空间分配可变比特率的机制。这是视频编码的一个关键部分，据我们所知，它不是用机器学习方法开发的。

1. Introduction

1. 背景介绍

Video content consumed more than 70% of all internet traffic in 2016, and is expected to grow threefold by 2021 [1]. At the same time, the fundamentals of existing video compression algorithms have not changed considerably over the last 20 years [46, 36, 35, . . . ]. While they have been very well engineered and thoroughly tuned, they are hard-coded, and as such cannot adapt to the growing demand and increasingly versatile spectrum of video use cases such as social media sharing, object detection, VR streaming, and so on.

2016年，视频内容占据了所有互联网流量的70%以上，预计到2021年将增长三倍。同时，在过去的20年里，现有视频压缩算法的基本原理并没有大的改变. 虽然它们经过了很好的设计和彻底的调整，但它们是硬编码的，因此无法适应日益增长的需求和日益多样化的视频应用，如社交媒体共享，对象检测、虚拟现实流等等。

Meanwhile, approaches based on deep learning have revolutionized many industries and research disciplines. In particular, in the last two years, the field of image compression has made large leaps: ML-based image compression approaches have been surpassing the commercial codecs by significant margins, and are still far from saturating to their full potential (survey in Section 1.3).

同时，基于以深度学习的方法也给许多行业和研究学科带来了革命性的变化。特别是，在过去的两年里，图像压缩领域取得了巨大的飞跃：基于机器学习的图像压缩方法已经大大超过了商用编解码器，而且还远未达到饱和，无法充分发挥其潜力（见第1.3节）。

The prevalence of deep learning has further catalyzed the proliferation of architectures for neural network acceleration across a spectrum of devices and machines. This hardware revolution has been increasingly improving the performance of deployed ML-based technologies—rendering video compression a prime candidate for disruption.

深度学习的流行进一步促进了神经网络加速架构在各种设备和机器中的扩散。这场硬件革命日益提高了部署的基于机器学习的技术的性能，使视频压缩成为下一个机器学习的应用领域。

In this paper, we introduce a new algorithm for video coding. Our approach is learned end-to-end for the low latency mode, where each frame can only rely on information from the past. This is an important setting for live transmission, and constitutes a self contained research problem and a stepping-stone towards coding in its full generality. In this setting, our approach outperforms all existing video codecs across nearly the entire bitrate range.

本文介绍了一种新的视频编码算法。我们的方法是端到端学习的，低延迟模式，其中每个帧只能依赖于过去的信息。这是实时传输的一个重要设置，构成了一个独立的研究问题，也是实现其全部通用性的一个前提。在此设置中，我们的方法在几乎整个比特率范围内都优于所有现有的视频编解码器。

We thoroughly evaluate our approach on standard datasets of varying resolutions, and benchmark against all modern commercial codecs in this mode. On standard definition (SD) videos, HEVC/H.265, AVC/H.264 and VP9 typically produce codes up to 60% larger than our algorithm. On high-definition (HD) 1080p videos, H.265 and VP9 typically produce codes up to 20% larger, and H.264 up to 35% larger. Furthermore, our approach does not suffer from blocking artifacts and pixelation, and thus produces videos that are more visually pleasing (see Figure 1).

我们在不同分辨率的标准数据集上彻底评估我们的方法，并在此模式下与所有现代商业编解码器进行基准测试。在标准清晰度（SD）视频中，HEVC/H.265、AVC/H.264和VP9通常产生的代码比我们的算法大60%。在高清1080p视频中，H.265和VP9通常会产生高达20%的代码，而H.264则高达35%的代码。此外，我们的方法不受块效应和像素化的影响，因此生成的视频在视觉上更令人满意（参见图1）。

In Section 1.1, we provide a brief introduction to video coding in general. In Section 1.2, we proceed to describe our contributions. In Section 1.3 we discuss related work, and in Section 1.4 we provide an outline of this paper.

在第1.1节中，我们简要介绍了视频编码的大体情况。在第1.2节中，我们继续描述我们的方法。在第1.3节中，我们讨论了文章里的方法的相关工作，在第1.4节中，我们提供了本文的概要。

1.1. Video coding in a nutshell

1.1. 视频编码概述

1.1.1 Video frame types

1.1.1 编码视频帧类型

Video codecs are designed for high compression efficiency,and achieve this by exploiting spatial and temporal redundancies within and across video frames ([51, 47, 36, 34] provide great overviews of commercial video coding techniques).Existing video codecs feature 3 types of frames:

1. I-frames (”intra-coded”), compressed using an image codec and do not depend on any other frames;

2. P-frames (”predicted”), extrapolated from frames in the past; and

3. B-frames (”bi-directional”), interpolated from previously
transmitted frames in both the past and future.

While introducing B-frames enables higher coding efficiency,it increases the latency: to decode a given frame,future frames have to first be transmitted and decoded.

视频编码器是为了高效压缩视频而设计的，它利用了视频帧内的空间冗余和帧间的时间冗余（参考文献51，47，36，34提供了商业编码器的很好的概述）。当前的视频编码器存在3种帧类型。
1，I帧，帧内编码，图像压缩，不依赖其他帧
2，P帧，预测帧，从前面恢复的参考帧推断而来
3，B帧，双向预测帧。由前面和后面的参考帧推断，插入得到
虽然引入B帧可以提高编码效率，但它增加了延迟：要解码B帧，必须先传输和解码B帧后面的帧。

1.1.2 Compression procedure

1.1.2 视频压缩过程

In all modern video codecs, P-frame coding is invariably accomplished via two separate steps: (1) motion compensation, followed by (2) residual compression.
Motion compensation.
The goal of this step is to leverage temporal redundancy in the form of translations. This is done via block-matching (overview at [30]), which reconstructs the current target, say xt for time step t, from a handful of previously transmitted reference frames. Specifically, different blocks in the target are compared to ones within the reference frames, across a range of possible displacements. These displacements can be represented as an optical flow map f t, and block-matching can be written as a special case of the flow estimation problem (see Section1.3). In order to minimize the bandwidth required to transmit the flow f t and reduce the complexity of the search, the flows are applied uniformly over large spatial blocks, and discretized to precision of half/quarter/eighth-pixel.
Residual compression.
Following motion compensation,the leftover difference between the target and its motion compensated approximation mt is then compressed. This difference t = xt − mt is known as the residual, and is independently encoded with an image compression algorithm adapted to the sparsity of the residual.
在所有现代视频编解码器中，P帧编码总是通过两个独立的步骤来完成：（1）运动补偿，然后（2）残差压缩。
运动补偿
这个步骤的目标是利用时间冗余。这是通过块匹配（在[30]处概述）来完成的，块匹配从几个先前发送的参考帧重建当前帧。具体地说，目标中的块与参考帧中的块进行比较，然后会找到一个与当前块最相似的块，当前块与最相似的块之间的距离就是当前块的位移。这些位移可以表示为光流图f t，块匹配可以写为流估计问题的一个特例（见第1.3节）。为了最小化传输f t所需的带宽并降低搜索的复杂度，将流均匀地应用于大空间块上（译者注：这个大空间，也就是块，共用一个位移），并离散到半/四分之一/八分之一像素的精度（亚像素搜索运动估计）。
残差压缩
在运动补偿之后，压缩目标（当前块）与其运动补偿近似mt（参考帧中的相似块）之间的差异。这种差异 t＝xt－mt被称为残差，并且用适应残差稀疏性的图像压缩算法独立地编码。

1.2. Contributions

1.2. 这篇文章所做的工作

This paper presents several novel contributions to video codec design, and to ML modeling of compression:
Compensation beyond translation.
Traditional codecs are constrained to predicting temporal patterns strictly in the form of motion. However, there exists significant redundancy that cannot be captured via simple translations. Consider, for example, an out-of-plane rotation such as a person turning their head sideways. Traditional codecs will not be able to predict a profile face from a frontal view. In contrast, our system is able to learn arbitrary spatio-temporal
patterns, and thus propose more accurate predictions, leading to bitrate savings.
本文介绍了对视频编解码器设计，机器学习的压缩模型的建模的一些新贡献：
超过传统上的只简单传输平面运动
传统的编解码器只能严格地以运动的形式预测时间模式。但是，存在大量冗余，无法通过简单的转换捕获。例如，考虑一个平面外的旋转，比如一个人把头侧向转动。传统的编解码器无法从正面预测轮廓面。相比之下，我们的系统能够学习任意时空模式，从而提出更准确的预测，从而节省比特率。
Propagation of a learned state.
In traditional codecs all “prior knowledge” propagated from frame to frame is expressed strictly via reference frames and optical flow maps, both embedded in raw pixel space. These representations are very limited in the class of signals they may characterize,and moreover cannot capture long-term memory.In contrast, we propagate an arbitrary state autonomously learned by the model to maximize information retention
先验信息的传播
在传统的编码器中，先验信息严格地通过参考帧和光流图传播，两者都嵌入在原始像素空间。这样的表示方法能力有限，不能捕获长期信息。相反，我们传播由模型自主学习的任意状态，以最大限度地保留信息。
Joint compression of motion and residual.
Each codec must fundamentally decide how to distribute bandwidth among motion and residual. However, the optimal tradeoff between these is different for each frame. In traditional methods, the motion and residual are compressed separately, and there is no easy way to trade them off. Instead, we jointly compress the compensation and residual signals using the same bottleneck. This allows our network to reduce redundancy by learning how to distribute the bitrate among them as a function of frame complexity.
联合压缩运动和残。
每个编解码器必须从根本上决定如何分配带宽给运动信息和残差。然而，对于每一帧，这两者之间的最佳选择是不同的。在传统的方法中，运动和残差是分开压缩的，没有一种简单的方法来权衡它们。相反，我们使用相同的约束联合压缩运动补偿和残差信号。我们的网络通过学习如何为运动补偿和残差信息分配带宽来减少冗余。
Flexible motion field representation.
In traditional codecs, optical flow is represented with a hierarchical block structure where all pixels within a block share the same motion. Moreover, the motion vectors are quantized to a particular sub-pixel resolution. While this representation is chosen because it can be compressed efficiently, it does not capture complex and fine motion. In contrast, our algorithm has the full flexibility to distribute the bandwidth so that areas that matter more have arbitrarily sophisticated motion
boundaries at an arbitrary flow precision, while unimportant areas are represented very efficiently. See comparisons in Figure 2.
灵活的运动场表示。
在传统的编解码器中，光流是用一个分层的块结构来表示的，其中块中的所有像素共享相同的运动。此外，运动矢量被量化到特定的亚像素分辨率。虽然选择这种表示是因为它可以被有效地压缩，但它不能捕捉复杂而精细的运动。相比之下，我们的算法具有充分的灵活性来分配带宽，使得更重要的区域在任意流精度下具有任意复杂的运动边界，而不重要的区域被非常有效地表示。参见图2中的比较。
Multi-flow representation.
Consider a video of a train moving behind fine branches of a tree. Such a scene is highly inefficient to represent with traditional systems that use a single flow map, as there are small occlusion patterns that break the flow. Furthermore, the occluded content will have to be synthesized again once it reappears. We propose a representation that allows our method the flexibility to decompose a complex scene into a mixture of multiple simple flows and preserve occluded content.
流多路表示（具体是编码中的什么流我暂时还没搞清楚）
想象一下这样的视频，一辆火车在一颗有很多细枝条的树后面行驶。这样的场景用传统的编码方案很难被高效表示，因为传统方案用单一的流图，这样的阻塞式的场景会中断这个流。另外，阻塞的内容再出现时不得不被重新综合。我们提出的表示方法可以更灵活地分解复杂场景，分解成简单流的组合，保留阻塞的内容。
Spatial rate control. It is critical for any video compression approach to feature a mechanism for assigning different bitrates at different spatial locations for each frame. In ML-based codec modeling, it has been challenging to construct a single model which supports R multiple bitrates, and achieves the same results as R separate, individual
models each trained exclusively for one of the bitrates. In
this work we present a framework for ML-driven spatial rate
control which meets this requirement.
空间码率控制。
对于任何视频压缩方法来说，为每帧在不同的空间位置分配不同比特率的机制都是至关重要的。在基于机器学习的编解码器建模中，构建一个支持多种比特率的单个模型，并获得与多个单独的模型组合而成的模型相同的结果一直是一个挑战（译者注：一个模型可以分配多个码率，不需要多个模型）。本文提出了一个基于机器学习驱动的空间速率控制框架。
1.3. RelatedWork
ML-based image compression
In the last two years, we have seen a great surge of ML-based image compression approaches [15, 44, 45, 5, 4, 14, 25, 43, 38, 23, 2, 27, 6, 3, 10, 32, 33]. These learned approaches have been reinventing
many of the hard-coded techniques developed in traditional
image coding: the coding scheme, transformations into and
out of a learned codespace, quality assessment, and so on.
在过去两年里出现了许多基于机器学习的图像压缩方法，这些机器学习方法，让基于硬编码的传统图像编码技术面目一新。改变了传统编码的方案，或者在传统方案与机器学习之间的转换，还改变了传统的质量估计方法等等。

jvm执行i++代码的步骤，内存中数据的流转过期小朋友、 jdk
大家好，今天看了一个java面试讲解课程，里面说i++，在jvm执行时，会被分成四步：1.主存中i的数值放到线程工作内存2.加一3.加一的值放回线程工作内存中4.线程工作内存中的值放回主存中使用idea编写了一个例子，获取jvm的汇编指令，使用指令说明，翻译过来在内存中数值流转。发现2,3是一个命令iadd。具体如下:例子：packagecom.wmr.jvmtest;publicclassIPl
Teacher Forcing--------一种用于序列生成任务的训练技巧 AI扶我青云志自然语言处理人工智能
好的，我们来详细介绍一下TeacherForcing，这是一种在训练序列生成模型（如循环神经网络RNN、长短期记忆网络LSTM、门控循环单元GRU、以及后来的Transformer）时常用的重要技术。核心概念目标：训练一个模型，使其能够根据给定的输入序列（如前一个词、图像编码、时间步数据等）预测下一个输出元素（如下一个词、下一个音符、下一个时间点的值等）。这在机器翻译、文本摘要、对话生成、语音合成
Unity反射机制 future1412 unity 游戏引擎
反射知识点回顾编译器是一种翻译程序它用于将源语言程序翻译为目标语言程序源语言程序：某种程序设计语言写成的,比如C#、C、C++、Java等语言写的程序目标语言程序:二进制数表示的伪机器代码写的程序知识点一什么是程序集程序集是经由编译器编译得到的，供进一步编译执行的那个中间产物在WINDOWS系统中，它一般表现为后缀为·dll（库文件）或者是·exe（可执行文件）的格式说人话：程序集就是我们写的一个
聚焦的伟力：注意力机制与Transformer的创世纪田园Coder 人工智能科普人工智能科普
当LSTM和GRU凭借其精密的门控系统，成功驯服了时间的长河，让神经网络能够跨越数十甚至数百步记住关键信息，并在机器翻译、文本生成等领域大放异彩时，一个看似微小却影响深远的瓶颈逐渐浮出水面，尤其是在序列到序列（Seq2Seq）框架中。在标准的Seq2Seq模型（如用于神经机器翻译）里，编码器（通常是一个RNN如LSTM）需要将整个输入序列（如一个英语句子）的信息压缩成一个固定长度的上下文向量（Co
happy-llm 第一章 NLP 基础概念 weixin_38374194 自然语言处理人工智能学习
文章目录一、什么是NLP？二、NLP发展三大阶段三、NLP核心任务精要四、文本表示演进史1.传统方法：统计表征2.神经网络：语义向量化课程地址：happy-llmNLP基础概念一、什么是NLP？核心目标：让计算机理解、生成、处理人类语言，实现人机自然交互。现状与挑战：成就：深度学习推动文本分类、翻译等任务达到近人类水平。瓶颈：歧义性、隐喻理解、跨文化差异等。二、NLP发展三大阶段时期代表技术核心思
程序环境和预处理晚云与城 c语言
程序的翻译环境1.翻译环境：将源代码转为可执行的机器指令。程序的执行环境1.执行环境：用于实际执行代码。详解：C语言程序的编译+链接1.要了解的名词：源文件（c），目标文件（obj）编译器，链接器，链接库，可执行程序。2.源文件（可多个）——>编译器（每个源文件对应一个）——>目标文件——>链接器(将目标文件捆在一起)——>可执行程序。链接库——>链接器——>可执行程序。（会引入标准C函数库中任何
【字节跳动】数据挖掘面试题0005：在旋转有序数组中查找是否存在元素key 言析数智数据挖掘常见面试题算法面试题数据挖掘二分查找法
文章大纲方法思路代码解释问题场景：在“打乱”的有序数组里找数核心思路：每次排除一半可能性分步骤找数（以数组[7,8,9,10,1,2,3]为例，找数字10）再举个反例：找数字5（数组中没有）用“左右有序”的逻辑来总结代码的“人话”翻译为什么时间复杂度是O(logn)？要在旋转后的有序数组中以O(logn)时间复杂度查找元素，可利用二分查找的变体。关键在于确定哪一半数组仍然有序，并判断目标值是否在该
提示技术系列（六）——链式提示 AIGC包拥它提示技术人工智能 prompt python langchain
什么是提示技术？提示技术是实现提示工程目标的具体技术手段，是提示工程中的“工具库”。什么又是提示工程？提示工程是指通过设计、优化和迭代输入到大语言模型（LLM）的提示（Prompt），系统性提升模型输出质量（如相关性、准确性、可控性）的实践领域。它是一个覆盖全流程的方法论，包括：明确目标任务（如生成教学内容、问答、翻译）；设计提示结构（如指令、上下文、示例）；选择模型与参数（如温度、top_p）；
南昌大学《编译原理》期末考试试卷（含答案）创创大帝(水印很浅-下载的文档) 编译器
南昌大学《编译原理》期末考试试卷1．简答题（15分）（1）简述编译程序的概念及构成。编译程序是现代计算机系统的基本组成部分.从功能上看，一个编译程序就是一个语言翻译程序，它把一种语言(称作源语言)书写的程序翻译成另一种语言(称作目标语言)的等价的程序.（2）什么是文法？一个文法G是一个四元组(VT,VN,S,P)，其中：VT是一个非空有穷终结符号集合；VN是一个非空有穷的非终结符号集合，且VT∩V
编译原理简答题
编译过程一般可以分为哪些阶段？各自的作用是什么？涉及到四元式，三地址码的阶段有哪些？一般可以划分为五个工作阶段：(1)词法分析，对构成源程序的字符串进行扫描和分解，识别出一个个的单词(2)语法分析，根据语言的语法规则，把单词符号串分解成各类语法单位(3)语义分析与中间代码生成，即对各类语法单位，分析其含义并进行初步翻译(4)代码优化，以期产生更高效的代码(5)目标代码生成，把中间代码变换成特定机器
编译原理期末考试概念简答复习有为肥宅复习资料学习
第一章1、编译器（编译程序）的组成部分及其任务：词法分析器（扫描器）：输入源程序，进行词法分析，输出单词符号；语法分析器（分析器）：对单词符号串进行语法分析（根据语法规则进行推导或归约），识别出各类语法单位，最终判断输入串是否构成语法上正确的“程序”；语义分析与中间代码产生器：按照语义规则对语法分析器归约（或推导）出的语法单位进行语义分析并将其翻译成一定形式的中间代码；优化器：对中间代码进行优化处
机器学习路径规划中的 net 和 netlist 分别是什么？勤奋的大熊猫 Machine Learning 机器学习人工智能自动寻路
机器学习路径规划中的net是什么？引言正文net含义netlist含义引言当我们使用机器学习训练自己的模型来进行自动寻路时，通常，我们会遇到一个名为net的词语，这里我们将对这个单词的意思进行解释。正文net含义net:中文翻译为网络，在机器学习中其中文应该翻译为连线任务。通常在连线任务中我们需要将给定的两个端点连接起来。比如给定的端点为：self.netlist=[('mmi:out1','mm
循环神经网络（RNN）：序列数据处理的强大工具 LNL13 rnn 人工智能深度学习
在人工智能和机器学习的广阔领域中，处理和理解序列数据一直是一个重要且具有挑战性的任务。循环神经网络（RecurrentNeuralNetwork，RNN）作为一类专门设计用于处理序列数据的神经网络，在诸多领域展现出了强大的能力。从自然语言处理中的文本生成、机器翻译，到时间序列分析中的股票价格预测、天气预测等，RNN都发挥着关键作用。本文将深入探讨RNN的工作原理、架构特点、训练方法、常见类型以及其
ubuntu2404命令备忘录 Eva215665 gitcode
ubuntu基础概念什么是BashShellBashShell‌（全称‌Bourne-AgainSHell‌）是Linux和macOS等类Unix系统中‌最常用的命令行解释器‌，也是Ubuntu的默认Shell。它既是用户与操作系统内核交互的“翻译官”，也是一种强大的脚本编程语言。用户输入文本命令（如ls、cd）→‌Bash解析并执行‌→调用系统内核功能（如文件操作、进程管理）→返回结果到终端‌。
AI大模型定义与应用概述水云桐程序员人工智能 ai 大模型
AI大模型，也成为基础模型或大规模预训练模型，指的是在海量数据上通过深度学习技术进行预训练的超大型人工智能模型。常见类型大型语言模型：这是目前最主流和成熟的大模型类型。擅长文本生成、文本理解、机器翻译、对话系统、代码生成与解释等。代表案例：GPT系列、通义千问、文心一言、KimiChat等。多模态大模型：擅长同时处理和生成多种模态的信息，如文生图、图生文、图文问答、视频理解、音频生成等。代表案例：
大语言模型应用提示工程Prompt Engineering 全栈你个大西瓜人工智能大模型自然语言处理 prompt 人工智能提示工程
提示工程（PromptEngineering）是指通过精心设计和优化输入提示（prompt），以引导人工智能模型（如大型语言模型）生成更符合预期的输出。一、提示工程的核心任务明确任务目标确定模型需要完成的具体任务（如文本生成、翻译、分类、问答等）。示例：需要模型生成一篇产品评测vs.需要模型总结文章要点。设计提示结构包含必要的上下文、示例、格式要求和约束条件。示例：请根据以下产品参数生成一段吸引人
探索提示词工程的魅力：提升你的AI应用到新高度杭律沛Meris
探索提示词工程的魅力：提升你的AI应用到新高度Prompt-Engineering-Guide-zh项目地址:https://gitcode.com/gh_mirrors/pr/Prompt-Engineering-Guide-zh在人工智能的快速发展前沿，提示词工程指南-中文版犹如一盏明灯，照亮了语言模型应用的新路径。本项目是由PartnerDAO精心翻译并维护，旨在构建一个全面的知识库，帮助开
破译AI黑箱：如何用20行Python理解ChatGPT？ Ven% 简单入门pytorch 人工智能 python chatgpt
文章目录一、核心概念：大模型本质二、代码逐行解析（以线性回归为例）三、关键概念详解四、与大模型的本质联系五、大模型训练核心思想六、如何扩展成真实大模型七、总结：AI训练的本质一、核心概念：大模型本质大模型=复杂数学函数+数据驱动训练现实任务（如图像识别、语言翻译）过于复杂，人类无法直接编写数学函数解决。解决方案：构建参数化的数学模型（如神经网络）用大量数据训练，自动寻找最优参数得到能解决特定任务的
python学习之路 - python的文件操作
目录一、python文件操作1、文件的编码a、概念b、编码分类2、文件的读取a、打开文件a、读取文件字节c、读取文件行d、for循环的读取3、文件的关闭4、文件的写入5、文件的追加6、文件操作综合a、案例一：读取字符个数b、案例二：复制文件一、python文件操作1、文件的编码a、概念计算机只能识别0和1，所以需要用编码技术将内容翻译成0和1b、编码分类UTF-8除非有特殊要求，否则一般都用此编码
mlflow案例
以下内容主要是翻译mlflow官方文档的一个教程。4.教程和示例4.1训练、服务和评估线性回归模型地址：Tutorial—MLflow2.4.1documentation本教程展示了如何使用MLflow端到端执行以下操作：（1）训练线性回归模型（2）将训练模型的代码打包为可重复使用和可复制的模型格式（3）将模型部署到一个简单的HTTP服务器中，使您能够对预测进行评分本教程使用的数据集将根据葡萄酒的
计算机编译原理ppt,编译原理课件.ppt 知知与终生计算机编译原理ppt
文档介绍：高级语言汇编语言SOURCEPROGRAMAssemblePROGRAM?翻译程序?TRANSLATER为什么要学****编译原理程序设计语言是计算机软件专业的重要核心学****编程的历程:C语言--汇编语言--数据结构Monday,July03,2017编译原理为什么要学****编译原理必修主干课程,操作系统和编译系统构成程序设计者与计算机之间的基本界面。通过学****该课程,掌握编译
Qt 使用QAxObject 快速写入execl失败问题 HL_风神 QT
最近工作开发需要写一个读翻译ts文件，ts文件实际上就是xml文件，数据量比较大所以写一个工具将ts文件中的原文和译文提取到execl中给翻译人员翻译，我用的是QAxObject，按范围写入数据：使用函数setProperty(“Value”,value)，函数返回总是false咨询别人才知道office支持的是setProperty(“Value”,value)电脑装的是wps的话，写入成功就需
Effective Go 编程技巧总结强哥之神 golang 人工智能 GPU调度 linux 语言模型云计算
Go是一种新兴的编程语言。尽管它借鉴了其他语言的许多特性，但也具备一些独特的属性，使得用Go编写的高效程序在风格上与其他语言编写的程序有所不同。直接将C++或Java程序翻译成Go代码，通常无法取得令人满意的结果——Java程序的编写方式是Java风格，而非Go风格。另一方面，如果从Go的语言特性出发去思考问题，可能会编写出风格截然不同但更为成功的程序。换句话说，要编写出优秀的Go代码，理解Go语
科普语音交互所需开源技术方案
以下是ASR（自动语音识别）、LLM（大语言模型）和TTS（文本转语音）三者结合的应用场景及开源方案：一、应用场景智能语音助手如百聆（Bailing），支持语音输入、意图理解、任务管理及语音输出，端到端延迟仅800ms，支持打断和记忆功能。车载语音交互系统（如蔚来、小鹏），结合ASR识别指令、LLM处理复杂查询（如"找有充电桩的高评分餐厅"）和TTS提供语音反馈。语音到语音翻译（S2ST）阿里Fu
GPT4.0带记忆API源码沐晨API php
以下为输出截图:需要在同路径中添加一个名为conversations的文件夹原本输出为英文，对接翻译接口沐晨API翻译:https://mcapi.muwl.xyz/api/fanyi2.php，可以自己改成别的，不过改了输出的格式不一样，代码也需要变动沐晨API:沐晨免费稳定API，沐晨收录站，欢迎前来申请代码json_encode($messages)]);//构建GET请求的查询字符串$ch
大模型算法工程师面试宝典：精选面试题及参考答案全解析，助你备战AI算法工程师岗位！大模型入门学习人工智能产品经理大数据机器学习程序员大模型大模型学习
大模型应该算是目前当之无愧的最有影响力的AI技术。它正在革新各个行业，包括自然语言处理、机器翻译、内容创作和客户服务等，正成为未来商业环境的重要组成部分。截至目前大模型已超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关面试也是越来越卷。我今天给大家分享一篇大模型的面试题总结，内容较长，喜欢记得收藏、关注、点赞。ii.为什么会出现LLMs复读机问题？出现LLMs复读机问题可能
python多线程高级锁知识：Semaphore信号量、Barrier栅栏在线程中的使用、高级event事件网小鱼的学习笔记 Python python 开发语言
Semaphore信号量Semaphore信号量可以翻译为信号量，这个信号量代表了最多允许线程访问的数量，可以使用Semaphore(n)设定，n是信号数量，这是一个更高级的锁机制，Semaphore管理一个计数器，每次使用acquire计数器将会减一，表示可以允许线程访问的数量少了一个，使用release计数器加1，表示可允许线程访问的数量多了一个，只有占用信号量的线程数量超过信号量时候才会阻塞
CVPR2024无监督Unsupervised论文17篇速览木木阳 CVPR 无监督 unsupervised
Paper1GuidedSlotAttentionforUnsupervisedVideoObjectSegmentation摘要小结:这段话的中文翻译如下：无监督视频对象分割旨在分割视频序列中最突出的对象。然而，复杂的背景和多个前景对象的存在使这项任务变得具有挑战性。为了解决这一问题，我们提出了一种引导式槽注意力网络，以加强空间结构信息并获得更好的前景-背景分离。初始化时带有查询引导的前景和背景
QT中翻译文件生成步骤小小码农Come on Qt qt
1、配置工具环境变量设置path：D:\Qt\Qt5.15\5.15.2\msvc2019_64\binD:\Qt\Qt5.15\5.15.2\msvc2019\bin主要使用工具：lupdate、linguist、lrelease都在如上路径的bin目录下2、提取翻译字符串(lupdate)用来生成/更新.ts翻译文件进入目录D:\Code\ds-cmifinaldetect\plugins\p
【翻译】Part4: Texture samplers.
AtripthroughtheGraphicsPipeline2011,part4|Therygblog欢迎回来。上一部分讲的是顶点着色器，还大致介绍了通用的GPU着色器单元。总的来说，它们只是向量处理器，但它们可以访问一种在其他向量处理架构中不存在的资源：纹理采样器。纹理采样器是GPU流水线不可或缺的一部分，其复杂程度（以及趣味性！）足以单独写一篇文章来介绍，那接下来就开始吧。纹理状态在开始实际
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

learned video compression 论文理解翻译（1）