alokag

跨模态哈希综述（更新中）

基于哈希变换跨模态方法综述

概要
- 有关本文
- 本方向在做什么事情
方法的提出与完善
- 局部敏感哈希LSH(1998)
- 谱哈希SH(NIPS '08)
- 多视图哈希CVH(IJCAI '11)
- 迭代量化哈希ITQ(TPAMI '12)与锚点图哈希AGH方法(ICML '11)
- 潜在语义稀疏哈希LSSH(SIGIR '14)
- 集合矩阵分解CMFH(CVPR '14)
- 语义保存哈希SePH(CVPR '15)
- 离散跨模态哈希DCH(TIP '17)
- 矩阵分解的有监督哈希SMFH(TIP '16)
- 可扩展的跨模态检索离散矩阵分解散列SCRATCH(MM '18/TCSVT '19)
- 基于融合相似性的哈希学习FSH(CVPR '17)
- 离散潜在因子哈希DLFH(TIP '19)
- DOCH(PR '22)
- FCMH(TCYB '22)
- DJSAH(TCSVP '22)
- ASFOH(TCYB '23)
公式推导
- 一个工具：
- 矩阵分解推导范例
- t-SNE算法
- DCC in SDH:
- SVT算法

概要

有关本文

本文将综述浅层跨模态检索方法的相关研究，以及具体研究的思想以及其进步性。其中关注的浅层跨模态方法主要分两类，第一类是基于矩阵分解的跨模态方法(Matrix Factorization)；第二类是基于谱方法的跨模态方法（Spectral-based Hashing），这两类的研究是本文作者关注较多的浅层跨模态方法。
从整体的讲，跨模态检索方法有基于浅层的机器学习方法，也有基于深度学习的算法。深度学习的方法在检索的效果上有一定的优势，且可以直接对原始数据进行操作，但是相比于浅层模型，深度学习方法非常耗时，且不能够解释其目标函数，在大规模数据集上效率很低。本文关注浅层的哈希算法

本方向在做什么事情

无论浅层还是深层，跨模态检索的目的都是跨域语义鸿沟，即不同模态下，对某个事物存在的不同表示，比如描述一个人，用一段话描述和一张图片描述，所能够表达的信息是不同的，在不同的表示下，我们如果需要做到相互的检索，就需要从中分析出相同或相近的特征或语义，而这一步就是跨越语义鸿沟。不同的研究方法对于跨越语义鸿沟给出了不同的方法，而本综述中的跨越语义鸿沟的方法是需求一种映射关系，将不同模态的数据特征映射到一个共同的子空间，也叫子空间学习法或binary表示学习，将不同的数据模态映射到一个公共的汉明空间（Hamming Space），通过汉明距离（Hamming Distance）来检索。这种方式的优点是搜索性能很强，检索速度非常快，但是可能会带来信息损失，01编码会带来量化损失（quantization error）。很多研究也是基于如何优化这些浅层算法存在的问题而展开的，后文将详细阐述。
此外，跨模态方法还有有无监督之分，现阶段有监督的跨模态检索方法比无监督方法的检索效果要强，本文重点关注的方向的方法均为有监督方法，数据集中都有标签监督信息来辅助训练，但是早期的研究由于数据集的缺失等各种原因，大部分都是无监督方法，但是这些方法中的思想对于新的模型构建以及整个领域的发展都起着很关键的作用

方法的提出与完善

局部敏感哈希LSH(1998)

局部敏感哈希（Latent Semantic Hashing)为所有的跨模态哈希方法提供了思想基础，和传统的哈希避免碰撞，完成分类的思想不同，局部敏感哈希的目的就是产生碰撞，从而获取相似的内容。局部敏感哈希最开始主要应用于推荐系统领域，但推荐系统和跨模态检索解决的问题都是类似的检索问题，所以逐渐的，LSH也的思想也应用在了跨模态检索中。在LSH前，经历了NN到ANN再到LSH的过程，对于两个最近邻方法，本文不赘述

谱哈希SH(NIPS '08)

谱哈希（Spectral Hashing）是基于谱聚类的哈希方法的奠基作，将谱聚类思想引入到信息检索中。
谱哈希的方法还没有进入到跨模态的阶段，而是解决快速检索相似图像的问题。本文提出了可以通过编码后计算汉明距离来进行检索，并且对哈希函数提出了基本的要求。
首先对于哈希码，作者花了一定篇幅证明了，如果要优化一个最佳的二进制码，即使是只优化其中的某一个位，也是一个NP难问题，所以如何将问题简化是这篇文章算法的重点。本文提出了两个重要思想，首先是提出了一个优化函数的松弛版本，即消除对哈希码 ${-1,1\}$ 的约束，将其去离散化；
而解决这个问题用到了拉格朗日算子的思想:
首先， $Y$ 是一个 $n\times k$ 的矩阵，其中 $n$ 是样本的数量， $k$ 是我们要保留的特征数量。 $D$ 是一个 $n\times n$ 的对角矩阵，其对角线元素为样本的度数， $W$ 是 $n\times n$ 的邻接矩阵。
我们的目标是求出如下式子的最小值：
$\mathrm{trace}(Y^T(D-W)Y)$

为了求解这个问题，我们可以使用拉格朗日乘子法。具体来说，我们可以将约束条件 $Y^TY = I$ 加入到目标函数中，形成一个带有拉格朗日乘子的新目标函数，即：
$\mathrm{L}(Y, \Lambda) = \mathrm{trace}(Y^T(D-W)Y) + \mathrm{trace}(\Lambda(Y^TY - I))$

其中， $\Lambda$ 是一个 $k\times k$ 的拉格朗日乘子矩阵， $I$ 是一个 $k\times k$ 的单位矩阵。我们要对 $Y$ 求偏导数，并令其等于 $0$ ：
$\frac{\partial \mathrm{L}}{\partial Y}=2(D-W)Y+2\Lambda Y=0$

将上式改写为：
$(D-W)Y=Y\Lambda$

这是一个特征值问题，矩阵 $D - W$ 的特征向量组成的矩阵 $Y$ 和特征值组成的对角矩阵 $\Lambda$ 满足上式。因此， $Y$ 的列向量就是 $D - W$ 的 $k$ 个特征向量，对应的特征值就是 $\Lambda$ 的对角线元素。
最终，我们得到的 $Y$ 的解是 $D - W$ 的 $k$ 个特征向量。
谱哈希的在跨模态中的应用是很局限的：要求数据集是separable的，每个位的特征和其他位不相关，这是一种很理想的情况。

多视图哈希CVH(IJCAI '11)

多视图哈希（Cross-View Hashing）是谱哈希的多视图扩展，为后续的哈希方法提供了最初的数学框架以及优化算法，为优化的NP难问题提供了新的思路，被后续研究广泛引用。虽然本文的研究内容是有关多视图的，但是多模态和多视图中，将不同的视图的特征映射到相同汉明空间的思想和将不同模态数据的特征映射到共同汉明空间的思想是相同的，所以在早期的研究中，CVH也被作为一个跨模态检索的baseline。CVH基于子空间学习的思想，提出了优化函数
$d_{ij}=\sum_{k=1}^Kd(y_i^{(k)},y_j^{(k)})+\sum_{k=1}^K\sum_{k'>k}^Kd(y_i^{(k)},y_j^{(k')}) \\ \qquad\\ minimize: \overline d = \sum_{i=1}^{n}\sum_{j=1}^nW_{ij}d_{ij}\\ subject\space to: Y^{(k)}e= 0,\qquad \frac1nY^{(k)}{Y^{(k)}}^T = I_d,\qquad Y_{ij}^{(k)}\in\{-1,1\}\\ for\quad k = 1,...,K$
其中 $W$ 是实例间的相似矩阵
但是这个目标函数是NP难问题（当K=1时退化为单模态，而SH中证明了该情况的优化是NP-hard）。本文提出嵌入 $y_i^{(k)}$ 和 $x_i^{(k)}$ 线性关系 $y_i^{(k)}={A^{(k)}}^Tx_i^{(k)}$ ，让上述优化问题的求解变为了多项式的复杂度。(这篇文章提出了这个方法后并没有给出具体的闭式解的，但是给了一个闭式解的求解方法的论文引用，由于没有baseline，实验数量和内容都较少）

迭代量化哈希ITQ(TPAMI '12)与锚点图哈希AGH方法(ICML '11)

这两篇的内容不在本文中详细阐述，因为都不是直接的跨模态哈希方法，均是图哈希方法。

ITQ（Iterative Quantization: A Procrustean Approach to Learning Binary Codes for Large-Scale Image Retrieval）将谱哈希中对于主成分的处理进行了改进，谱哈希的思想是将方差最大的成分分配更多的bit，而ITQ的思想则是通过旋转矩阵使不同特征的分布方差接近。而文中论证了，这样做可以降低由于松弛带来的量化误差，所以通过优化出最优的旋转矩阵，可以得到最优的哈希码。ITQ方法增加了一个新的优化目标来对模型进行了改进，而正交旋转矩阵的引入也被后续的研究广泛引用。文中也提出了求解最优旋转矩阵的优化方法，通过迭代 $P\Omega Q=BV',R=QP'$ 来实现对B和R矩阵的学习。

AGH（Anchor Graph Hashing）是在Hashing with Graphs一文中，提出的一个基于锚点的数据间关系表示法，可以通过锚点构建的一个近似的邻接矩阵（如将其属于的聚类中心的距离来表示）来近似原本的一些方法中直接表示图片之间相似度的邻接矩阵，这样做可以很显著的提高效率。通过锚点来实现大数据集的简化，也在后续的文章中会有所体现。

潜在语义稀疏哈希LSSH(SIGIR '14)

潜在语义稀疏哈希（Latent Semantic Sparse Hashing for Cross-Modal Similarity Search）是最经典的跨模态哈希方法的基线方法。这篇文章和前面的方法最大的不同就是真正的实现了“跨模态”——提出了共同的潜在语义空间（latent semantic space）

如上图所示，前面几种哈希编码方法均是针对单个模态的，而不同模态的数据集有不同的哈希码。LSSH认为，不同模态的数据存在潜在的语义关联，所以学习的哈希码应该在一个共同的汉明空间中。而这样的共同子空间的学习，可以很直接的实现跨模态的检索（搜索时间和占用的空间均削减到一半一下）。

LSSH的思想是，先将模态数据投影到其潜在语义空间，再将潜在语义空间内容投影到一个抽象的公共空间。
第一步投影 $\mathcal P_I:\mathbb R^m \rightarrow \mathcal S_I^M,\quad\mathcal P_T:\mathbb R^d \rightarrow\mathcal S_T^D$

第二步投影到公共空间 $\textbf R_I:\mathcal S_I^M \rightarrow \mathcal A^k,\quad\textbf R_T:\mathcal S_T^D \rightarrow\mathcal A^k$

类似构建了一个两层网络，将两种不同模态的数据变换到同一个空间下的同一组编码上。
即 $\textbf R_I\mathcal P_I(x_i)=\textbf R_T\mathcal P_T(y_i), \quad\forall i$

最终这个共同空间可以被量化方法表示为一个共同编码集 $\mathcal H^k$
LSSH由于还是无监督方法，所以潜在语义空间需要通过对模态单独处理来获取，这个问题在引入监督信息后被简化。LSSH中，图像模态的处理基于稀疏编码，而文本模态采用了一般矩阵分解方法来学习。关于稀疏编码的内容参考SLEP方法进行优化。

集合矩阵分解CMFH(CVPR '14)

(CSDN编辑器吃我内容真的吐了，写了两天的这个没了，重写一遍可能之前有些我认为的细节会没有掉)

集合矩阵分解（Collective Matrix Factorization Hashing for Multimodal Data ）是一个框架非常简单，基于矩阵分解的跨模态方法。文中提出了两个重要的假设，后续很多的研究如SCRATCH等，都是基于该文章中的这两个假设来进行的：
1.相关联的两个模态数据应该具有相同的潜在语义表示
2.这种相同的潜在语义表示可以变投影变成相同的二进制码，如 $sign\bf(v)$
基于两个假设，提出了潜在语义空间和原本模态数据之间存在一个投影，该投影为带有偏置的线性变换，偏置将二进制码变为0均值，作者提出这样可以让二进制码保存最多的信息,但是在构建优化函数的时候，作者似乎把这个偏置项给消除掉了，最终学习的内容变成了潜在语义信息空间和原本数据集空间的相互映射关系。
优化函数如下：
$\lambda \Vert \textbf X^{(1)}-\textbf U_1\textbf V\Vert_F^2+ (1-\lambda )\Vert \textbf X^{(1)}-\textbf U_1\textbf V\Vert_F^2\\+\mu(\Vert\textbf V- \textbf P_1\textbf X^{(1)}\Vert_F^2+ \Vert\textbf V- \textbf P_2\textbf X^{(2)}\Vert_F^2)+\gamma\bf R$
R为正则项
本文的优化过程非常非常简单，最终的潜在语义空间直接通过符号可以映射为哈希码。以公式9为例，矩阵推导见后文公式推导部分，后续很多基于矩阵分解的方法中公式推导都遵循该部分的过程（这是个数学层面的问题，但是我线代学的不行这部分还是推了一段时间的）大体就是范数变为迹，再对迹拆分成各个子式，对子式求导求和
.

学到的 $\textbf V通过\text{\textbf B =sign(\textbf V)}$ 转化为最终的哈希码。CMFH同样存在很多问题以及进步空间，但是他提供的优化策略是最简单且最清晰的。

语义保存哈希SePH(CVPR '15)

语义保存哈希（Semantics-Preserving Hashing for Cross-View Retrieval）也是一个将语义信息提取并应用到跨模态检索中的基线方法。
SePH中提出了两种概率分布，第一种有关数据本身语义相关性的概率分布，不同于前文中几种方法构建的“相似矩阵”，本文将其用概率分布来表示。表示为 $\mathcal P$ ；第二种概率分布，是最终生成的哈希码的概率分布，通过汉明距离来刻画相关性，本文对此采用了t-SNE方法，具体内容再公式推导部分，该概率分布表示为 $\mathcal Q$ ，其中 $p_{i,j} = \frac{A_{i,j}}{\sum_{k\neq m}A_{k,m}}，\qquad q_{i,j}=\frac{(1+h(H_i,H_j))^{-1}}{\sum_{k\neq m}(1+h(H_k,H_m))^{-1}}$
其中h表示i实例和j实例的哈希码之间的汉明距离
参考t-SNE，需要最小化 $\mathcal P$ 和 $\mathcal Q$ 之间的KL-散度，于是可以构建出目标函数为
$\Psi = \min_{\hat H\in\mathbb R^{n\times d_c}}\sum_{i\neq j} p_{i,j} \log \frac{p_{i,j}}{q_{i,j}}+\frac\alpha C\Vert\vert\hat H\vert - \textbf I \Vert_2^2$
其中 $\hat H$ 表示的是在连续域上的哈希码，即在 $(- 1, 1)$ 内的哈希码。该优化函数为非凸的，所以通过局部的优化来实现整体的优化，本文中采用的是梯度下降的方法来学习哈希码，具体求导略。
在SePH中哈希码学习和哈希函数的学习是分开的，是一个典型的两阶段的跨模态哈希方法，作者将哈希函数的学习视为一个在每个哈希码位上的二分类问题，所以可以用许多种方法（如线性回归，SVM和logistic回归等）本文采用的是核化的logistic回归，核函数核化可以让原本的数据在不容易被线性可分的情况下使特征升维，使其线性可分，从而完成哈希函数的学习，每一个模态中的哈希函数独立。
每一位 $k$ 都有
$\Theta = \min_{\textbf w^{(k)}}\sum_{i=1}^n\log(1+e^{-\textbf h_i^{(k)}\phi (X_i)\textbf w^{(k)}})+\lambda\Vert\textbf w^{(k)}\Vert_2^2$

其中 $\textbf w^{(k)}$ 是训练空间中的向量的线性组合，即 $\textbf w^{(k)} = \Phi^T\textbf v^{(k)}$ ，其中 $\Phi$ 是核化特征矩阵。上式的计算量是很大的，所以本文提出选择 $s$ 个样本来进行计算。本文中对哈希码的计算是通过概率表示的，转化为哈希码的过程是比较+1位和-1位的概率大小。实验中，亲和矩阵用余弦相似矩阵替代，学习哈希函数采用了采样方法，采样采用了两种策略，第一种是k-means方法，第二种是随机采样，前者效果会略优。

离散跨模态哈希DCH(TIP '17)

DCH(Discrete Cross-modal Hashing)
这个方法的目标函数提出和CMFH的目标函数很接近，但由于标签监督信息的引入，所以将CMFH的目标函数中的前两项潜在语义学习的内容改成了标签监督信息学习。构建目标函数如下 $\Vert\textbf Y-\textbf W^T\textbf B \Vert_F^2+\mu_V\Vert\textbf B- \textbf P_V^T\textbf V\Vert_F^2+\mu_T \Vert\textbf B- \textbf P_\text T^T\textbf T\Vert_F^2)+\lambda\Vert \textbf W\Vert_F^2$

优化 $\bf W$ 和 $\bf Y$ 的方法是和之前方法相近的，但是优化 $\bf B$ 是NP-Hard的
DCH给出的优化方案是逐位优化B，但这也导致了效率低的问题。优化B的方法参考了SDH(Supervised Discrete Hashing(CVPR '15))的方法，但论文里好像公式写错了。该方法采用DCC方法，先将无关项简化为一个辅助矩阵，然后进行拆分，不断将无关项常数化后，最后可以得到简化的解（但也有缺点，比如收敛较慢，以及有可能收敛到局部最优解等）。DCH强调了“Discrete”的概念，具体的来讲，就是在训练过程中保持着对每个变量的约束。如DCH中，为了保持 $\textbf {B} \in \{-1,1\}$ 采用了逐位优化的方法。

矩阵分解的有监督哈希SMFH(TIP '16)

SMFH是基于CMFH的方法，其中还有一个SCMFH。

本文利用了标签信息来对潜在表示进行了学习，这个思路将监督信息成功的应用到了CMFH中。但是本文的优化方法存在一些问题。比如该方法不是离散的，用了松弛方法来进行优化，会导致量化损失。此外，优化用了拉格朗日矩阵，当方法应用于较大数据集的场景下会导致优化慢，作者提出用抽样的方法，但这也会导致信息损失。

可扩展的跨模态检索离散矩阵分解散列SCRATCH(MM '18/TCSVT '19)

可扩展的跨模态检索离散矩阵分解散列A Scalable Discrete Matrix Factorization Hashing for Cross-Modal Retrieval是前几种方法的结合

为什么引入旋转矩阵？旋转矩阵能够改变各个向量的方向并且不会改变向量的大小。它可以在训练期间保证优化问题离散，并直接产生离散的二进制码，可以避免一些大量化误差（这里引用了ITQ论文中“最优旋转矩阵可以降低量化误差”的思想）作者在此后又重申了一遍CMFH里面提到过的假设（这个地方不知道为什么要说是futher suppose）。用的是和CMFH里面一样的思路，将不同模态映射到相同潜在语义空间，表述为：
不同模态的结构是非线性且难以分析出其规律的，但也不需要去了解其规律如何。将其处理为线性可分的，可以提升检索性能，所以将其进行核函数处理，不再利用原始的特征。将前面式子中出现的^(() ) 全部由(^(() ))替代以提高效果
无论是DJSAH还是SCRATCH，都用的是径向基函数的方法核化。核化后，所有的数据集的维度均由锚点数量决定，本文的实验中锚点选择为500个。所以图文特征矩阵均被转化为500维的特征。综合后有最终的目标函数：

SCRATCH的结构简单，优化简单，且表现的效果很好，作为2018年的文章，在截至2023年的研究中依旧算是效果很好的模型。也像CMFH一样，成为很多后续研究的一个基本框架和对比对象，也是有监督的矩阵分解方法中最典型的方法之一。

基于融合相似性的哈希学习FSH(CVPR '17)

FSH(Cross-Modality Binary Code Learning via Fusion Similarity Hashing)是一个无监督方法，重点是提出了“fusion”的概念，简单的讲，就是许多此前的方法对不同模态的学习是通过自设参数来判断不同模态特征对语义的贡献程度（如 $\alpha\leftrightarrow 1-\alpha$ ），一些work很粗暴的设置为了 $a lp ha = 0.5$ 。而本文提出了一个不同模态的融合的融合相似性，在双模态中，将 $\alpha$ 变为可学习的参数，这样模型可以更加稳定的在更多场景下应用，拓展到多模态则是设置为总和为n的权重参数集。

上图为融合相似性的构建，总体目标函数如下：

离散潜在因子哈希DLFH(TIP '19)

DLFH(Discrete Latent Factors Hashing] 可以看做是DCMH(Deep Cross Modal Hashing)的浅层方法版。但是虽然是浅层方法，但是其效率和效果都甚至更好。DCMH除了提出了基于深度学习的方法来进行哈希码生成外，还提出了一个最大化 $\textbf{UV}$ 相似度的思路。本文是基于该思路的浅层方法探索，负对数的似然函数定义如下，其中 $\Theta = \textbf U\textbf V^T$ 。和以往F范数最小化刻画相似性不同，DCMH采用了负对数似然，在本文中也一样。下式为优化目标函数。

其中 $p(\textbf {S|U,V})=\left\{ \begin{array}{lr}\sigma(\Theta_{ij}), &&S_{ij}=0\\ 1-\sigma(\Theta_{ij}),&&S_{ij}=1\end{array}\right.\qquad s.t.\quad\sigma(\Theta_{ij})=\frac 1{1-e^{-\Theta_{ij}}}$
本文提出了一个优化下界的最大值优化方法，首先将优化问题表示为二阶导形式，再通过二阶导的最小值替代二阶导来简化问题，达到了不错的优化效果

DOCH(PR '22)

FCMH(TCYB '22)

DJSAH(TCSVP '22)

ASFOH(TCYB '23)

公式推导

一个工具：

学长给了我一个很好的矩阵计算求导工具，叫做Matrix Calculus

矩阵分解推导范例

我们可以使用矩阵求导数的链式法则来计算 $G$ 关于 $U$ 的偏导数。我们有以下公式：
$\frac{\partial}{\partial U}\text{Tr}(AB) = B^TA^T$
$\frac{\partial}{\partial U}\text{Tr}(AA^T) = 2A$
$\frac{\partial}{\partial U}\text{Tr}(UXU^T) = XU + X^TU$
如果 $\text{Tr}(AX)$ ，其中 $A$ 是一个矩阵，那么 $\frac{\partial f}{\partial X} = A^T$ 。
如果 $\text{Tr}(AXB)$ ，其中 $A$ 和 $B$ 是矩阵，那么 $\frac{\partial f}{\partial X} = AB^T$ 。
要求解 $G$ 关于 $U$ 的偏导数为零的最优解，我们可以使用求导数的方法来解决这个问题。
要求解 $G$ 关于 $U$ 的偏导数，我们需要使用矩阵求导数的规则。我们首先展开 $G$ 的定义：

$G=\lambda||X-UV||_F^2 + \gamma||U||_F^2=\lambda\text{Tr}[(X-UV)(X-UV)^T]+\gamma\text{Tr}(UU^T)$

然后，我们将 $G$ 对 $U$ 求偏导数：
$\frac{\partial G}{\partial U} = \frac{\partial}{\partial U}\left(\lambda\text{Tr}[(X-UV)(X-UV)^T]+\gamma\text{Tr}(UU^T)\right)$

使用矩阵求导数的规则，我们可以将其拆分为两个部分：
$\frac{\partial G}{\partial U} = \frac{\partial}{\partial U}\left(\lambda\text{Tr}(X(X-UV)^T-UV(X-UV)^T)+\gamma\text{Tr}(UU^T)\right)+2\gamma U$

将第一个式子整理一下:
$\frac{\partial G}{\partial U}=\frac{\partial }{\partial U}(2\lambda\text {Tr}(-UVX^T+UV(UV)^T))+2\gamma U\\=2\lambda(UVV^T-XV^T) + 2\gamma U$

将其设为零，得到：

$\lambda(UVV^T-XV^T) + \gamma U = 0$

移项并整理，得到：

$(VV^T+\frac{\gamma}{\lambda}I)U = XV$

接下来，我们将左侧的矩阵求逆，得到：

$XV^T(VV^T+\frac{\gamma}{\lambda}I)^{-1}$

这就是 $G$ 关于 $U$ 的偏导数为零时的最优解。

t-SNE算法

假设我们有 $n$ 个高维数据点 $x_1,x_2,...,x_n$ ，其中 $x_i \in \mathbb{R}^D$ ， $D$ 为数据的维度。我们要将这 $n$ 个数据点降维为 $k$ 维（通常为 $k = 2$ 或 $k = 3$ ），得到 $n$ 个低维数据点 $y_1,y_2,...,y_n$ ，其中 $y_i \in \mathbb{R}^k$ 。

计算高维空间中的相似度：
对于数据点 $x_i$ 和 $x_j$ ，t-SNE使用高斯分布 $p_{j|i}$ 来表示在高维空间中， $x_i$ 选择 $x_j$ 作为它的邻居的概率，公式如下：

$p_{j|i}=\frac{\exp(-\lVert x_i-x_j \rVert^2/2\sigma_i^2)}{\sum_{k\neq i}\exp(-\lVert x_i-x_k \rVert^2/2\sigma_i^2)}$

其中 $\sigma_i$ 是高斯分布的方差，它可以根据数据点的密度来自适应地调整。通常情况下，我们可以将 $\sigma_i$ 设置为所有点到其 $k$ 个最近邻点的距离的平均值。

计算低维空间中的相似度：
对于数据点 $y_i$ 和 $y_j$ ，t-SNE使用t分布 $q_{j|i}$ 来表示在低维空间中， $y_i$ 选择 $y_j$ 作为它的邻居的概率，公式如下：

$q_{j|i}=\frac{(1+\lVert y_i-y_j \rVert^2)^{-1}}{\sum_{k\neq i}(1+\lVert y_i-y_k \rVert^2)^{-1}}$

其中 $(1+\lVert y_i-y_j \rVert^2)^{-1}$ 是t分布的形式，它使得远离 $y_i$ 的点在低维空间中的概率分布趋向于0。t分布的自由度为1，也就是说，它只有一个自由度。

最小化KL散度：
t-SNE的目标是最小化高维空间和低维空间之间的KL散度，公式如下：

$\text{KL}(P||Q)=\sum_i\sum_j p_{j|i} \log \frac{p_{j|i}}{q_{j|i}}$

使用梯度下降方法最小化上述目标函数，即可得到最终的低维嵌入 $y_1,y_2,...,y_n$ 。

DCC in SDH:

SVT算法

Singular value thresholding (SVT) algorithm是一种矩阵优化算法，用于处理矩阵的低秩近似问题。该算法通常用于矩阵补全、矩阵降噪、矩阵压缩等领域。

在低秩近似问题中，给定一个矩阵 $A$ ，目标是找到一个秩为 $r$ 的矩阵 $X$ ，使得 $X$ 与 $A$ 的差异最小。其中， $r$ 是矩阵的秩，通常 $r$ 远小于矩阵的行数和列数。

SVT算法的基本思想是：将矩阵 $A$ 进行奇异值分解（SVD），得到矩阵 $U\Sigma V^T$ ，其中 $U$ 和 $V$ 是正交矩阵， $\Sigma$ 是对角矩阵，对角线上的元素是 $A$ 的奇异值。然后，对 $\Sigma$ 中的每个元素进行阈值处理，将小于阈值的元素置为0，大于等于阈值的元素保留，得到新的对角矩阵 $\Sigma'$ . 最后，将 $U\Sigma'V^T$ 作为 $A$ 的近似矩阵，完成矩阵的低秩近似。

具体来说，给定矩阵 $A$ ，假设其奇异值分解为 $A=U\Sigma V^T$ ，设阈值为 $\tau$ ，则SVT算法的迭代过程如下：

1.计算 $A$ 的SVD： $A=U\Sigma V^T$

2.将 $\Sigma$ 中的每个元素进行阈值处理： $\Sigma'{i,i} = \begin{cases} \Sigma{i,i}-\tau, \Sigma_{i,i}>\tau\ 0, |\Sigma_{i,i}|\leq\tau \ \Sigma_{i,i}+\tau, \Sigma_{i,i}<-\tau\end{cases}$

3.得到近似矩阵： $X=U\Sigma'V^T$

4.检查 $X$ 是否满足停止条件，如果满足，则返回 $X$ ，否则继续迭代。

SVT算法的停止条件可以是迭代次数、目标函数的收敛性等。该算法的优点是简单易实现，收敛速度较快。同时，由于奇异值分解的优良性质，SVT算法的近似矩阵具有较好的数学性质和性能。

R.E.D.算法：革新文本分类的半监督学习新范式真智AI 算法 r语言分类人工智能学习
随着大型语言模型（LLMs）在解决问题方面的应用进入新时代，只有少数问题仍然存在不尽如人意的解决方案。大多数分类问题（在概念验证层面）可以通过良好的提示工程技术和自适应的上下文学习（ICL）示例，利用LLMs以70-90%的精确度/F1分数来解决。当您希望持续实现高于此水平的性能时——当提示工程不再足够时，会发生什么？分类难题文本分类是监督学习中最古老且最易理解的示例之一。鉴于这一前提，构建能够处
Python文件加密库之cryptography使用详解 Rocky006 python 开发语言
概要在现代信息社会中，数据的安全性变得越来越重要。为了保护敏感信息，文件加密技术被广泛应用。Python的cryptography库提供了强大的加密功能，可以轻松实现文件加密和解密。本文将详细介绍如何使用cryptography库进行文件加密，包含具体的示例代码。cryptography库简介cryptography是Python中一个功能强大且易用的加密库，提供了对称加密、非对称加密、哈希算法、
【大模型学习路线】从月薪6K到年薪35W，普通二本生转行大模型的逆袭之路：我的500小时崩溃实录与实战秘籍（附保姆级学习路线） AGI大模型学习学习人工智能大模型应用程序员 AI 大模型 AI大模型
摘要：26岁机械专业零基础转大模型，被面试官羞辱“非科班别做梦”，5个月死磕源码，现拿下3个大厂offer。踩过所有新人会踩的坑，总结出普通人高效突围的4个阶段+7个杀手级项目。（文末送自研《大模型避坑指南》+120G学习资料包）一、血泪教训：这些弯路我替你走了（小白必看）2023年3月12日，我在工地上画完第108张CAD图纸后，突然收到大学班群消息：“XX同学入职字节AILab，年薪50W+”
数据结构：交换排序的实现 z_鑫数据结构数据结构排序算法算法 c语言
概要交换排序是一类通过比较和交换元素位置来实现排序的算法。其核心思想是在序列中进行两两比较，若元素顺序不符合排序要求，则交换它们的位置。常见的交换排序算法包括冒泡排序和快速排序，它们在不同场景下各有优劣。整体架构流程冒泡排序从数组的第一个元素开始，依次比较相邻的两个元素；如果前一个元素大于后一个元素（假设为升序排序），则交换这两个元素的位置；对数组中的每一对相邻元素都执行上述操作，经过一轮比较后，
如何在百度搜索上删除与自己名字相关的资料 weixin_locy06 百度
个人信息的网络足迹如同一张无形的网，将我们与世界的每一个角落紧密相连。然而，当某些与自己名字相关的资料不再希望被公众轻易检索到时，如何在百度搜索中有效“隐身”，成为了一个亟待解决的问题。面对复杂多变的网络环境，自行删除百度上的相关资料往往困难重重，但并非无解。本文腾轩科技传媒分享如何在百度搜索上删除与自己名字相关的资料。如果自己不懂怎么操作看左上方。一、为何自行删除难上加难？解决方案之前，重要的是
cryptography，一个神奇的 Python 库！ Sitin涛哥 Python python 开发语言
更多资料获取个人网站：ipengtao.com大家好，今天为大家分享一个神奇的Python库-cryptography。Github地址：https://github.com/pyca/cryptography在当今数字化时代，信息安全越来越受到重视。数据加密是保护数据安全的重要手段之一，而Python的cryptography库提供了丰富的功能来支持各种加密算法和协议。本文将深入探讨crypto
OpenRAND可重复的随机数生成库 novanova2009 elasticsearch 大数据搜索引擎
OpenRAND是一个C++库，旨在通过提供强大且可复制的随机数生成解决方案来促进可重复的科学研究。它是一个简单的仅头文件库，性能可移植，统计稳健，并且易于集成到任何HPC计算项目中。特征跨平台支持：OpenRAND旨在跨各种平台无缝工作，包括CPU和GPU。其仅标题库设计使其能够轻松集成到您的项目中。用户友好的API：OpenRAND提供了一个用户友好的API，可以直接在您的应用程序中生成随机数
跨域自监督学习：打破数据壁垒的创新突破 mslion 学习人工智能跨模态学习深度学习计算机视觉自监督表示学习
近年来，跨域学习和跨模态学习在多个应用领域中取得了显著的进展。尽管不同领域和模态之间的数据分布差异和标注数据稀缺常常带来挑战，但越来越多的研究集中在如何通过自监督学习和无监督领域适应技术来解决这些问题。自监督学习作为一种无需大量标注数据的方法，能够有效地从未标注数据中提取有用特征，并在跨域或跨模态设置中增强模型的迁移能力和泛化能力。此外，如何处理源域和目标域之间的差异，使得模型能够在多领域或跨模态
Leetcode-100 贪心算法 LuckyAnJo leetcode leetcode 贪心算法算法
贪心算法简介贪心算法（GreedyAlgorithm）是一种常见的优化算法，用于解决最优化问题。该算法的核心思想是每次选择当前情况下的最优解，并期望通过这些局部最优解得到全局最优解。贪心算法通常用于那些可以分解为若干个子问题，且每个子问题的最优解可以合成全局最优解的问题。贪心算法之所以有用，是因为它可以快速地做出决策，并能在某些问题上实现较高的效率，避免了回溯与暴力解法的复杂度。贪心算法思想贪心算
ubuntu设置开机自动运行应用李某学编程李某学ubuntu ubuntu 服务器运维
系统版本：Ubuntu24.04.1LTS桌面版按招网上的资料显示，当前版本主要的实现方式有以下两种，方式1：通过图形界面的【启动应用程序】设置开机自启动；方式2：配置为服务实现开机自启动。但是在我的电脑上方式2总是报Qt相关的错误，所以只能使用方式1，配置方法如下：拿截图软件snipaste来举例，在文件夹/usr/share/applications下配置文件snipaste.desktop，
在Mac M1/M2芯片上完美安装DeepCTR库：避坑指南与实战验证 ku_code_ku 机器学习 macos 推荐算法推荐系统
让推荐算法在AppleSilicon上全速运行概述作为推荐系统领域的最经常用的明星库，DeepCTR集成了CTR预估、多任务学习等前沿模型实现。但在AppleSilicon架构的Mac设备上，安装过程常因ARM架构适配、依赖库版本冲突等问题受阻。本文通过20+次环境搭建实测，总结出最稳定的安装方案。关键版本说明（2024年验证）组件推荐版本注意事项Python3.10.x向下兼容至3.7，但3.1
字节跳动算法高频题：动态规划最优模板知识产权13937636601 计算机算法动态规划
本文系统梳理字节跳动近三年算法面试中的动态规划（DP）高频题型，提炼出适用于80%场景的通用解题模板。通过背包问题、字符串处理、状态压缩等六大核心模块解析，结合跳槽、股票交易、编辑距离等15道真题案例，揭示动态规划的状态转移方程构建规律与维度优化技巧，助您在面试中实现时间复杂度与空间复杂度的双重最优解。第一章动态规划基础框架1.1动态规划三大特征特征判定标准真题案例重叠子问题递归树中存在重复计算节
macOS 使用 enca 识别文件编码类型（比 file 命令准确）知识搬运bot 软件工具/使用技巧 macos enca file iconv 文件编码
文章目录macOS上安装enca基本使用起因-iconv关于enca安装Encaenca&enconv其它用法macOS上安装encabrewinstallenca基本使用encafilepath.txt示例$enca动态规划算法.txt[0]SimplifiedChineseNationalStandard;GB2312CRLFlineterminators起因-iconv在macOS上打开一些
ubuntu 20.04安装visual studio code并配置C++编译环境 Android Coder #NDK与音视频 ubuntu
1.下载安装visualstudiocode我的系统是Ubuntu20.04，首先是下载安装包。进入官网，直接下载压缩包。https://code.visualstudio.com/Download下载完成后双击安装即可。2.C++运行环境配置插件的安装汉化：过于简单，直接按照教程操作：https://jingyan.baidu.com/article/7e44095377c9d12fc1e2ef
TDengine 入坑 xijieyu tdengine docker linux
的最近想折腾一个时序数据库，所以入坑了TDengine我的环境是WIN10+虚拟机ubuntu，开发语言是C#。在虚拟机里一开始使用docker来拉取TDengine镜像，后来发现docker的网络配置不熟，所以干脆直接在宿主机上安装TDengine直接使用。安装完了后，taos怎么都连接不上，显示"Unabletoestablishconnection"，根据官方教程中的解释，一步一步排除各类连
自动化测试 —— Pytest fixture及conftest详解程序员曦曦软件测试 pytest 功能测试软件测试自动化测试程序人生职场和发展
前言fixture是在测试函数运行前后，由pytest执行的外壳函数。fixture中的代码可以定制，满足多变的测试需求，包括定义传入测试中的数据集、配置测试前系统的初始状态、为批量测试提供数据源等等。fixture是pytest的精髓所在，类似unittest中setup/teardown，但是比它们要强大、灵活很多，它的优势是可以跨文件共享。一、Pytestfixture1.pytestfix
MySQL中基于机器学习的自适应缓存热点识别优化策略——开启数据库性能新纪元墨夶数据库学习资料1 数据库 mysql 机器学习
在数据驱动的世界里，数据库的性能直接影响到整个应用系统的响应速度和用户体验。随着业务量的增长和技术的发展，传统的缓存机制逐渐暴露出局限性。如何更智能地识别并利用热点数据进行缓存优化，成为提升数据库性能的关键所在。今天，我们将深入探讨一种创新的方法——基于机器学习的自适应缓存热点识别优化策略，并分享其在MySQL中的具体实现方案。为什么选择机器学习？‍传统上，开发者们依赖于手动配置或预设规则来决定哪
27寸显示屏，字体看着比较小，如何调大？＞? Gin387 学习
win+i打开设置点击辅助功能，然后选择文本大小，我的27寸，2k显示屏，然后字体设置的是110%的大小看着是比较舒服的。注意点：1.有些设置可能是需要重启之后才可以，更改的，比如我发的上一博客，（关于如何去掉桌面图标下面的文字的黑色背影的方法）这个就是需要重启之后才可以设置的东西。
OpenCV图像拼接（4）图像拼接模块的一个匹配器类cv::detail::BestOf2NearestRangeMatcher 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::BestOf2NearestRangeMatcher是OpenCV库中用于图像拼接模块的一个匹配器类，专门用于寻找两幅图像之间的最佳特征点匹配。它是基于“最近邻与次近邻距离比”原则来过滤匹配点对的，以提高匹配结果的准确性。这个类特别适用于需
股票市场的量化交易策略如何应对市场情绪变化？云策量化程序化炒股量化软件量化交易量化炒股 QMT 股票交易 PTrade 量化交易股票投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》股票市场的量化交易策略如何应对市场情绪变化？在股票市场中，量化交易策略是一种基于数学模型和算法的交易方式，它通过分析历史数据来预测未来价格走势，并据此制定交易决策。然而，市场情绪的变化对股票价格有着不可忽视的影响。本文将探讨量化交易策略如何应对市场情绪的变化，并提供一些具体的代码示例。一、市场情绪的重要性市场情绪是指投资者对市
算法笔记——前缀树、贪心算法（更新ing....... 不吃香菜的码农左神算法笔记算法数据结构贪心算法 leetcode 堆栈
前缀树、贪心算法一、前缀树1.什么是前缀树2.如何生成前缀树二、贪心算法1.拼接字符串2.金条问题3.项目会议时间问题4.项目收益最大化4.随时获得数据流的中位数一、前缀树1.什么是前缀树前缀树一般指字典树这是指一种结构而不是一类题（注意信息是在树的路上）典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
python 列表倒序输出小琳爱分享 python python
python列表倒序输出#使用reverseli1=[1,6,4,3,7,9]li2=['a','m','s','g']li1.reverse()li2.reverse()print(li1,li2)#利用list切片li1=[1,6,4,3,7,9]li2=['a','m','s','g']print(li1[::-1])print(li2[::-1])#利用算法进行转换，这里需要用到深层cop
基于WebAssembly的浏览器密码套件闲人编程 wasm 服务器易于集成跨平台性密码套件浏览器 WebAssembly
目录一、前言二、WebAssembly与浏览器密码套件2.1WebAssembly技术概述2.2浏览器密码套件的需求三、系统设计思路与架构3.1核心模块3.2系统整体架构图四、核心数学公式与算法证明4.1AES-GCM加解密公式4.2SHA-256哈希函数五、异步任务调度与GPU加速设计5.1异步任务调度5.2GPU加速六、GUI设计与功能模块七、完整代码实现九、代码自查与总结十、总结与展望一、前
密码学，算法在人工智能的实战利用 china—hbaby 人工智能密码学
在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息
力扣算法ing(35 / 100) 菥菥爱嘻嘻小白学习算法算法 leetcode typescript javascript
3.22104.二叉树的最大深度我的思路：dfs,深度优先搜索或者说能不能先根搜索，根层数3192nullmax=2202153nullmax=373nullmax=3我的代码：if(head.next===null)maxreturnfunctionmaxDepth(root:TreeNode|null):number{functionfindMax(root:TreeNode|null,dep
力扣算法ing(30 / 100) 菥菥爱嘻嘻小白学习算法算法 leetcode typescript javascript
3.1719.删除链表的倒数第n个结点给你一个链表，删除链表的倒数第n个结点，并且返回链表的头结点。示例1：输入：head=[1,2,3,4,5],n=2输出：[1,2,3,5]示例2：输入：head=[1],n=1输出：[]示例3：输入：head=[1,2],n=1输出：[1]删除指定的节点，给出头节点逆转链表，寻找第n个，删除不行不行，逆转录又要反转回去后面我想到了一个解决办法：利用数组计算总
力扣算法ing(9/100) 菥菥爱嘻嘻小白学习算法算法 leetcode 数据库 typescript
2.26438.找到字符串中所有字母的异位词438.找到字符串中所有字母异位词给定两个字符串s和p，找到s中所有p的异位词的子串，返回这些子串的起始索引。不考虑答案输出的顺序。示例1:输入:s="cbaebabacd",p="abc"输出:[0,6]解释:起始索引等于0的子串是"cba",它是"abc"的异位词。起始索引等于6的子串是"bac",它是"abc"的异位词。示例2:输入:s="abab
【C/C++】在排序数组中查找元素的第一个和最后一个位置（leetcode T34）勇士小蓝0727 c语言 c++leetcode 开发语言算法数据结构蓝桥杯
核心考点：法一双指针法;法二二分查找法题目描述：给你一个按照非递减顺序排列的整数数组nums，和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值target，返回[-1,-1]。你必须设计并实现时间复杂度为O(logn)的算法解决此问题。（示例见文末）答案详解：方法一：双指针法vectorsearchRange(vector&nums,inttarge
每日算法题-Nim 游戏 - 台阶晚夜微雨问海棠呀算法游戏
给定一个台阶数n，玩家每次可以选择跳跃1到m个台阶，最后一个台阶到达者获胜。假设两位玩家都采取最优策略，判断先手玩家是否会获胜。输入格式一行包含两个整数n和m（1≤n,m≤10^9）。输出格式如果先手玩家能获胜，输出"Yes"；否则输出"No"。n,m=map(int,input().split())ifnm时，若n%(m+1)≠0，先手可以通过策略使剩余台阶数变为(m+1)的倍数，将必败态转移给
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》