七元权

论文阅读 - Joint Beat and Downbeat Tracking with Recurrent Neural Networks

文章目录

1 概述
2 信号预处理
3 分类神经网络
4 动态贝叶斯网络（HMM）
- 4.1 原始的bar pointer model
- 4.2 原始的bar pointer model的缺点
- 4.3 改进后的模型
5 预测
参考资料

1 概述

最近在做音乐卡点相关的项目，需要对音乐的基本特征进行理解，比如beats和downbeats就是最基本的特征。madmom是我找到的一个对beats和downbeats的检测都有实现的第三方库，于是就认真学习了一下，把其中用到的方法和自己的理解记录下来。

madmom中的beats和downbeats检测就是复现了Joint Beat and Downbeat Tracking with Recurrent Neural Networks这篇论文，其核心思想就是HMM，如果对HMM没有扎实的理解的话，建议先看我写的另一篇搞懂HMM。本文不会对HMM的基本概念做详细的说明。

在说论文之前，我先来说明一些音乐上的专用术语，对齐一些概念，便于后文的叙述。有些术语在本文中可能不会再次出现，但有助于理解音乐，就一并写上了。

名词	名词解释
拍子(beat)	在音乐中，时间被分成均等的基本单位，每个单位叫做一个“拍子”或称一拍。
强拍(downbeat)	音乐中的强拍。是beats的子集。一般是每个小节的起始beat
小节(measure/bar)	音乐是由强拍和弱拍交替进行的，是按照一定的规律构成最小的节拍组织一小节，然后以此为基础循环往复。一个小节一般有2拍，3拍，4拍或者6拍等等
节拍(meter)	beats per measure，一首歌的节拍，一般表示为1/4拍或者2/4拍或者3/8拍等等。比如3/4拍表示4分音符为1拍，每小节有3拍，节拍强度为强、弱、弱。
全局节奏(tempo)	一般用bpm(beats per minute)来做单位，表示每分钟有多少个beats，用来衡量音乐的速度，一首音乐可以由不同的tempo演奏。
局部节奏(tempi)	每两个相邻的beats之间可以是有不同的1/16音符，或是1/8音符，或是1/4等组成的，这个就是局部节奏
onset	一个音符被乐器或者人发出声音的那个时刻点。
峰值(peak)	onset包络图的峰值，具体可见peak_pick。

再说回这篇论文。这篇论文概括地说就是把信号切成多个frames，每个frame会在RNN网络之后对应一个概率输出，表示该frame是beat还是downbeat还是都不是。HMM会在发射概率的计算中借助于这个RNN结果，把frame在measure当中的相对位置和tempi作为隐变量，得到最佳的隐变量路径，并把该路径解码为beats和downbeats。

下面会分步骤说明一下每个步骤，着重是HMM和预测部分。这两部分理解起来有点绕。

2 信号预处理

这部分其实就是一个类似于MFCC提取语音信号特征的过程，作为RNN的输入，这里简单说下。先是用汉宁窗对信号做了有交叠的分割，分成了100fps(frame per second)，并基于此做了短时傅里叶变换(STFT)。丢弃了相位特征，只保留幅值特征，因为人耳是听不出相位的。为了保证时域和频域的精度，做STFT时，分别用了1024，2048和4096三种窗口大小。把频段限制在了[30, 17000]Hz的的范围，并给每个八度分了3，6和12个频段，分别对应于1024，2048和4096三种窗口大小。同时也对频谱进行了一阶差分，也作为特征concat进去。最终，输入网络的特征维度为314。

3 分类神经网络

这部分用了由LSTM搭建而成的网络，目的是给每个frame进行分类，输出两个概率值，(是beat的概率，是downbeat的概率)，取较大的作为该frame的分类。为了避免混淆，downbeat不属于beat。

同时，也设置了 $\theta=0.05$ 的阈值，只有大于该阈值，才会被判为是beat或者downbeat。这是为了减小音乐头尾有空白的干扰。

既然每个frame是beat还是downbeat的概率都知道了，那我直接取每个frame最大概率的类别，两个概率都比较小的就认为既不是beat也不是downbeat，这事不就成了？

理想很美好，现实并非如此，不要被论文中的图片给误导了，来看下模型的实际输出是长啥样的。

图3-1 RNN网络输出示意图

模型的输出如上图3-1所示，这个是一条30s左右的实际样例。上半个图是每个frame为beat的概率，下半个图是每个frame为downbeat的概率。只看downbeat这部分的话，不难看出概率比较高的frame之间的间距有长有短，而在一个小节(bar)当中，强拍(downbeat)应该只会出现一次，次强拍的出现会对其产生干扰。RNN不知道强拍的出现是有周期性的，所以需要HMM来判断究竟哪些位置是强拍，哪些位置是弱拍，哪些位置什么都不是。

从另一个角度来思考，RNN这里并不知道音乐的meter是几几拍，没有这个信息，要RNN直接判断强拍和弱拍的难度是很大的。下一节的HMM的作用就是根据RNN的结果，去选一组最优的beats和downbeats。

4 动态贝叶斯网络（HMM）

这是重点部分，我们来详细讲一下。Joint Beat and Downbeat Tracking with Recurrent Neural Networks对这部分的说明很不清晰，我们直接看它沿用的An Efficient State-Space Model for Joint Tempo and Meter Tracking中的说明即可。

4.1 原始的bar pointer model

早在2006年的时候，Bayesian Modelling of Temporal Structure in Musical Audio就提出过用HMM解决beat tracking问题的方法。现在的方法，就是在它的基础上优化的，我们先来看看最早版本的HMM是怎么设计的。

我们令第 $k$ 个frame的隐变量为 $\bold{x}_k=[\Phi_k, \dot{\Phi}_k]$ 。 $\Phi_k \in \{1,2,...,M\}$ 表示第 $k$ 个frame在某个小节(bar)中的相对位置，1表示起始位置， $M$ 表示结束位置，这个bar被分成了M个相对位置，一般是均分的。 $\dot{\Phi}_k \in \{\dot{\Phi}_{min}, \dot{\Phi}_{min} + 1, ..., \dot{\Phi}_{max}\}$ 表示第 $k$ 个frame的tempi， $\dot{\Phi}_{min}$ 和 $\dot{\Phi}_{max}$ 是人为设置的上下界。说的通俗一点，把 $\Phi_k$ 看成位移的话， $\dot{\Phi}_k$ 就是速度， $k + 1$ 个frame的位置 $\Phi_{k + 1}$ 就是 $\Phi_k + \dot{\Phi}_k$ 。说的音乐一点，就是 $\dot{\Phi}_k$ 表示了第 $k$ 个frame是一个几分之几的音符，比如1/8音符，如果知道这首歌是4/4拍的话，第 $k$ 个frame就走了 $(1 / 8) / (4 * 1 / 4) = 1 / 8$ 个小节(bar)，这里使用离散的 $M$ 个数值来表示了。

观测变量就是我们的frames的特征序列，记为 $\{\bold{y}_1, \bold{y}_2, ..., \bold{y}_K\}$ 。我们想要找到一串隐变量的序列 $\bold{x}_{1:K}^*=\{\bold{x}_1^*, \bold{x}_2^*, ..., \bold{x}_K^*\}$ 使得

$\bold{x}_{1:K}^* = arg\max_{\bold{x}_{1:K}} P(\bold{x}_{1:K} | \bold{y}_{1:K}) \tag{4-1}$

式 $(4 - 1)$ 可以用viterbi算法来解，不清楚的可以参看我的搞懂HMM。求解式 $(4 - 1)$ 需要知道三个模型，一个是初始概率模型 $P(\bold{x}_1)$ ，第二个是状态转移模型 $P(\bold{x}_k|\bold{x}_{k-1})$ ，第三个是发射概率 $P(\bold{y}_k|\bold{x}_k)$ 。

（1）初始概率
初始概率 $P(\bold{x}_1)$ ，作者用了均匀分布初始化，后面用数据学就行，没啥说的。

（2）转移概率
转移概率是个比较关键的概率，我们来仔细看下

$\begin{aligned} P(\bold{x}_k | \bold{x}_{k-1}) &= P(\Phi_k, \dot{\Phi}_k | \Phi_{k-1}, \dot{\Phi}_{k-1}) \\ &=P(\Phi_k | \dot{\Phi}_k, \Phi_{k-1}, \dot{\Phi}_{k-1})P(\dot{\Phi}_k | \Phi_{k-1}, \dot{\Phi}_{k-1}) \end{aligned}$

我们把 $\Phi_k$ 理解成位移， $\dot{\Phi}_k$ 理解成速度，这应该也是为啥这两个变量的符号只差了一个一阶导的符号的原因。

$\Phi_k$ 是 $k$ 时刻的位置，它由上一刻的位置 $\Phi_{k-1}$ 和上一刻的速度 $\dot{\Phi}_{k-1}$ 决定，与 $k$ 时刻的速度无关，故有

$P(\Phi_k | \dot{\Phi}_k, \Phi_{k-1}, \dot{\Phi}_{k-1}) = P(\Phi_k | \Phi_{k-1}, \dot{\Phi}_{k-1})$

$\dot{\Phi}_k$ 是 $k$ 时刻的速度，它只与 $k - 1$ 时刻的速度有关，速度不太会突变，与位置无关，故有

$P(\dot{\Phi}_k | \Phi_{k-1}, \dot{\Phi}_{k-1}) = P(\dot{\Phi}_k | \dot{\Phi}_{k-1})$

于是有

$P(\bold{x}_k | \bold{x}_{k-1}) = P(\Phi_k | \Phi_{k-1}, \dot{\Phi}_{k-1})P(\dot{\Phi}_k | \dot{\Phi}_{k-1}) \tag{4-2}$

$P(\Phi_k | \Phi_{k-1}, \dot{\Phi}_{k-1})$ 就是一个位移的计算，可以定义为

$P(\Phi_k | \Phi_{k-1}, \dot{\Phi}_{k-1}) = \begin{cases} 1, &if \ (\Phi_{k-1} + \dot{\Phi}_{k-1} - 1) \% \ M + 1\\ 0, &otherwise \end{cases} \tag{4-3}$

也就是 $\Phi_k = (\Phi_{k-1} + \dot{\Phi}_{k-1} - 1) \% \ M + 1$ 的意思。这里取余是为了在下一个bar中，位置重新计数。为啥要先减1再取余再加1？我猜测是为了避免产生 $\Phi_k=0$ 的情况，使得 $\Phi_k$ 的取值在 ${1,2,...,M\}$ ，只是为了符号的统一。

$P(\dot{\Phi}_k | \dot{\Phi}_{k-1})$ 是一个速度变化的概率，定义为

$P(\dot{\Phi}_k | \dot{\Phi}_{k-1}) = \begin{cases} 1 - p, & \dot{\Phi}_k=\dot{\Phi}_{k-1} \\ \frac{p}{2}, & \dot{\Phi}_k=\dot{\Phi}_{k-1} + 1 \\ \frac{p}{2}, & \dot{\Phi}_k=\dot{\Phi}_{k-1} - 1 \end{cases} \tag{4-4}$

$p$ 是速度发生变化的一个概率，我们人为限制了速度只能在距离为1的速度上转移或者保持不变。在边界 $\dot{\Phi}_{min}$ 和 $\dot{\Phi}_{max}$ 上，略有不同，保持速度不超界即可。 $p$ 是需要学习得到的。

图4-1 原始状态转移示意图

原始状态转移示意图如图4-1所示，可以很明显滴看出位置和速度的关系。

（3）发射概率
这里是结合RNN的结果的地方。我们假设第 $k$ 个frame为beat的概率是 $b_k$ ，为downbeat的概率是 $d_k$ ，既不是beat也不是downbeat的概率为 $n_k$ 。那么发射概率就为

$P(\bold{y}_k | \bold{x}_k) = \begin{cases} b_k, &s_k \in B \\ d_k, &b_k \in D \\ \frac{n_k}{\lambda_0 - 1}, & otherwise \end{cases} \tag{4-5}$

$B$ 表示 $x_k$ 被认为是beat的集合， $D$ 表示 $x_k$ 被认为是downbeat的集合。怎么样的 $x_k$ 会被认为是beat或是downbeat呢？这点论文中没有细说，我看了A Multi-model Approach to Beat Tracking Considering Heterogeneous Music Styles中的做法，大概猜测了一下，是将位置在小节等分点附近的states作为beat或者downbeat，每个小节的第一个等分点附近为downbeat（每小节的第一拍为强拍），其他的等分点附近为beat。这个附近有多近，其实是个可以人为设置的范围。按几等份算，则是一个用户需要提前输入的参数，比如一首歌是3/4拍的，那每个小节就有3拍，就三等分，又比如一首歌是6/8拍的，那每个小节就有6拍，就六等份。如果不知道是几几拍的音乐的话，就一个个算过去，取概率最大的，这个在下一节会讲。

$\lambda_0$ 是个超参数，论文中取 $\lambda_0=16$ 得到了最好的实验结果。 $B$ 和 $D$ 的范围和 $\lambda_0$ 相关。

4.2 原始的bar pointer model的缺点

（1）位置（时间）分辨率
原文中说是时间分辨率，我这里直接说成位置分辨率了，这样比较方便理解。作者认为不同的速度下，需要的位置分辨率是不同的。速度快的，每次都大步大步跨，需要的位置分辨率很低；速度慢的，每次跨的步幅小，需要的位置分辨率就高了。一句话说，就是不同的速度条件下，要不同的位置分辨率。

（2）速度分辨率
原文中的tempo就是我这里的速度。作者认为人耳对于速度的变化感知，在不同的速度下是不一样。比如在速度为1的时候，速度加个1，变成2，听起来就变化很明显了。但是在速度为10的时候，速度价格1，变成11，听起来都没什么变化。也就是人耳的听觉不是linear的，而是log linear的。

（3）速度的稳定性
使用HMM时，有一个齐次马尔科夫假设，认为 $\Phi_k$ 只依赖于 $\dot{\Phi}_k$ ，这可能会导致同一个beat里，速度经过几个frames之后就产生比较大的变化，也就是速度的稳定性无法保证。

4.3 改进后的模型

论文针对4.2中提出的三点对模型进行了改进，改进都是针对状态转移的计算的。改进后的状态转移示意图，如下图4-2所示。

图4-2 改进后的状态转移示意图

（1）位置分辨率的改进
这里说白了就是根据速度来调整一个bar要被分成几份。从图4-2中的横向可以看出，tempo越大的，bar position就被分的越稀疏，反之越密。划分方式我们从具体madmom的实现来看，不看论文里说的，论文里说的有些模糊。

"""
max_bpm：用户输入，表示最大的beats per minute，默认为215
min_bpm：用户输入，表示最小的beats per minute，默认为55
fps：用户输入，frame per second

min_interval：计算得到，最小的frame per beat
max_interval：计算得到，最大的frame per beat
"""
# convert timing information to construct a beat state space
min_interval = 60. * fps / max_bpm # second per beat * frame per second = frame per beat
max_interval = 60. * fps / min_bpm

上面代码片中的min_interval和max_interval就是由最大的bpm和最小的bpm确定的每个beat被分为多少个frames。一个bar有多少个beats也是用户输入的，所以一个bar的bar positions也就根据速度的不同确定了。

（2）速度分辨率的改进
速度在min_bpm和max_bpm的范围内，按log linear的方式进行了划分。具体的实现可以看这一段https://github.com/CPJKU/madmom/blob/master/madmom/features/beats_hmm.py#L66。应该说实现中，没有速度这个东西，都转变成了位置。不同bpm下有不同的位置点，log linear的对象是位置。

（3）速度稳定性
作者为了保证速度的稳定性，速度只能在每个beat的位置上发生改变，改变时依赖于一个分布，这个分布是在实验中试了几个得到的。

当 $\Phi_k \in B$ 时

$P(\dot{\Phi}_k | \dot{\Phi}_{k-1}) = f(\dot{\Phi}_k, \dot{\Phi}_{k-1}) \tag{4-6}$

其中 $f(\dot{\Phi}_k, \dot{\Phi}_{k-1})$ 可以是各种各样的函数，效果比较好的是

$f(\dot{\Phi}_k, \dot{\Phi}_{k-1}) = exp(-\lambda \times |\frac{\dot{\Phi}_k}{\dot{\Phi}_{k-1}} - 1|) \tag{4-7}$

不难看出，当 $\dot{\Phi}_{k-1} = \dot{\Phi}_k$ 时概率最大。 $\lambda \in [1, 300]$ 是一个超参数，不同 $\lambda$ 下 $f(\dot{\Phi}_k, \dot{\Phi}_{k-1})$ 的结果如下图4-3所示。

图4-3 不同参数下f的结果图

当 $\Phi_k \notin B$ 时
$P(\dot{\Phi}_k | \dot{\Phi}_{k-1}) = \begin{cases} 1, & \dot{\Phi}_k = \dot{\Phi}_{k-1} \\ 0, & otherwise \end{cases} \tag{4-8}$

表示速度不变。

5 预测

madmom很清晰地把整个模型分成了两块，DBNDownBeatTrackingProcessor和RNNDownBeatProcessor。RNNDownBeatProcessor就是我们的RNN网络，DBNDownBeatTrackingProcessor是HMM的部分。从宏观上讲，beats和downbeats的位置是由RNN大致确定，然后由HMM根据周期性这个条件去决定最后的位置的。RNN可以理解为是针对局部的理解，HMM是针对全局的决策。

在预测的时候，我们会告诉模型这首歌每个bar的beat有几个，如果不确定的话，就把beats_per_bar=[2,3,4,6]全填上，让模型每个跑一边，然后取概率最大的就行了。

在每个beats_per_bar下，我们算一个最佳的隐变量路径

$\bold{x}_{1:K}^* = arg\max_{x_{1:K}}(\bold{x}_{1:K} | \bold{y}_{1:K}) \tag{5-1}$

解这个用viterbi算法就可以了。

最终的结果就是

$B^* = \{k : \bold{x}_k^* \in B\} \tag{5-2}$

$D^* = \{k : \bold{x}_k^* \in D\} \tag{5-2}$

确定了 $B^*$ 和 $D^*$ 之后，还会根据RNN的结果，把点修正到附近的概率峰值点上。

验证模型的时候，把误差在70ms以内的点都认为是正确的。madmom的效果还是很不错的。

参考资料

[1] madmom implementation
[2] Joint Beat and Downbeat Tracking with Recurrent Neural Networks
[3] An Efficient State-Space Model for Joint Tempo and Meter Tracking
[4] 百度百科-音乐节拍
[5] Bayesian Modelling of Temporal Structure in Musical Audio
[6] A Multi-model Approach to Beat Tracking Considering Heterogeneous Music Styles

算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI产品经理需要了解的算法知识 AI劳模人工智能产品经理 AI产品经理 AI产品经理入门零基础入门产品经理算法语言模型
1、自然语言生成（NLG）自然语言生成（NaturalLanguageGeneration，简称NLG）是一种人工智能技术，它的目标是将计算机的数据、逻辑或算法产生的信息转换成人类可读的自然语言文本。换句话说，NLG能让机器“学会”写文章、报告、故事或者其他任何形式的文字，就像人类作家那样。这项技术使得机器能够理解复杂的数据并将其转化为易于理解的语言，以适应不同的受众和情境。应用实例：金融报告自动
【Python】OpenAI API 宅男很神经 python 开发语言
【Python与OpenAIAPI深度探索：从基础到未来】第一章：OpenAIAPI概览与核心概念1.1OpenAIAPI是什么？能做什么？OpenAIAPI(ApplicationProgrammingInterface，应用程序编程接口)是一套允许开发者通过编程方式访问和使用OpenAI开发的各种先进人工智能模型的服务。这些模型经过海量数据的训练，能够在多种任务上达到甚至超越人类水平。通过AP
Python：操作 Word 对齐方式 Thomas Kant Python python word c#
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Python：操作Word对齐方式详解（左对齐/右对齐/居中/两端对齐）在日常办公自动化中，我们经常需要对Word文档中的段落设置对齐方式，如左对齐、右对齐、居中、两端对齐等。本文将带你使用python-docx库
TestCafe ➜ Playwright fixture 架构迁移指南 Thomas Kant 自动化测试 playwright testcafe typescript 测试架构
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】
医疗金融预测与语音识别中的模型优化及可解释性技术突破智能计算研究中心其他
内容概要随着人工智能技术的纵深发展，模型优化与可解释性技术正在重塑医疗诊断、金融预测及语音识别领域的应用范式。在医疗领域，基于自适应学习的动态参数调整机制，结合迁移学习的跨场景知识复用，显著提升了疾病筛查模型的泛化能力；而金融预测场景中，联邦学习框架通过分布式数据协作，在保障隐私安全的前提下，实现了风险预测模型的多维度优化。语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决
【kafka】在Linux系统中部署配置Kafka的详细用法教程分享景天科技苑 linux基础与进阶 shell脚本编写实战 kafka linux 分布式 kafka安装配置 kafka优化
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面应用开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，云原生K8S，Prometheus监控，数据分析，Django
AI技术全景图鉴：从模型开发到落地部署的全链路拆解大模型玩家人工智能 langchain 大模型产品经理学习 ai 程序员
人工智能（AI）技术的快速发展，使得企业在AI模型的开发、训练、部署和运维过程中面临前所未有的复杂性。从数据管理、模型训练到应用落地，再到算力调度和智能运维，一个完整的AI架构需要涵盖多个层面，确保AI技术能够高效、稳定地运行。本文将基于AI技术架构全景图，深入剖析AI的开发工具、AI平台、算力与框架、智能运维四大核心部分，帮助大家系统性地理解AI全生命周期管理。一、AI开发工具：赋能高效开发，提
铸造软件交付的“自动驾驶”系统——AI大模型如何引爆DevOps革命 LucianaiB 评测人工智能自动驾驶 devops
铸造软件交付的“自动驾驶”系统——AI大模型如何引爆DevOps革命嗨，我是LucianaiB！总有人间一两风，填我十万八千梦。路漫漫其修远兮，吾将上下而求索。摘要(Abstract)本文深入探讨了人工智能大模型（AILargeModels）如何驱动DevOps从“自动化”（Automation）向“自主化”（Autonomous）的革命性跃迁。文章指出，AI大模型正成为现代软件工厂的“中枢神经系
解读《生成式人工智能服务管理暂行办法》我的大模型服务需要备案还是登记？纵深企服人工智能 AIGC 安全
一、大模型备案和登记是什么？根据《暂行办法》及相关指引文件，大模型相关的合规路径主要分为“备案”和“登记”两种。准确理解二者的定义、适用情形及区别，是企业合规的第一步。1、大模型备案（生成式人工智能服务上线备案）定义：大模型备案，通常指的是生成式人工智能服务上线备案。根据《暂行办法》，“提供具有舆论属性或者社会动员能力的生成式人工智能服务的，应当按照国家有关规定开展安全评估，并按照《互联网信息服务
显卡GPU的架构和工作原理 InnoLink_1024 芯片人工智能 AGI 架构硬件架构人工智能
显卡GPU（图形处理单元）是专为并行计算和图形处理设计的芯片，广泛应用于游戏、科学计算、人工智能和数据中心等领域。以下详细介绍GPU的架构和工作原理，涵盖核心组件、计算流程和关键技术，尽量简洁清晰。一、GPU架构概述GPU架构与CPU不同，专注于高并行计算，适合处理大量简单、重复的任务。其核心设计目标是最大化吞吐量，而非单任务的低延迟。主流GPU厂商（如NVIDIA、AMD、Intel）架构虽有差
Github 2025-01-07Python开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-01-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目10TypeScript项目1C++项目1OpenHands:人工智能驱动的软件开发代理平台创建周期：195天开发语言：Python协议类型：MITLicenseStar数量：31753个Fork数量：3660次关注人数：31753人
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方