留白1992

字符串相似度算法

相似度算法

Jaccard Similarity Coefficient、JaroWinkler 、Cosine Similarity、Levenshtein 距离编辑算法案例。

Jaccard相似性系数衡量两个集合的相似程度，通过计算两个集合的交集大小除以并集大小得出。适用于处理文本、推荐系统、生物信息学等领域

Cosine Similarity 余弦相似度用于度量两个向量之间的夹角余弦值，适用于文本相似性、信息检索和推荐系统等领域。它将向量投影到多维空间中，衡量它们的方向相似程度。

Levenshtein 将一个字符串转换为另一个字符串所需的最小编辑操作数，包括插入、删除和替换。常用于拼写纠错、基因序列比对等领域。

Jaro-Winkler距离衡量两个字符串的相似性，考虑字符匹配和位置，适用于姓名匹配、数据清洗等领域。

一、java实现

1.1 引入Maven依赖

 <dependency>
     <groupId>org.apache.commonsgroupId>
     <artifactId>commons-textartifactId>
     <version>1.10.0version>
 dependency>

1.2 Java测试类

import org.apache.commons.text.similarity.CosineDistance;
import org.apache.commons.text.similarity.JaccardDistance;
import org.apache.commons.text.similarity.JaroWinklerDistance;
import org.apache.commons.text.similarity.LevenshteinDistance;

public class EditDistanceTest {

    private Map<String, String> testData(){
        String goalName = "Dexter Morgan";
        HashMap<String, String> data = Maps.newHashMap();
        data.put("Jackson Morgan", goalName);
        data.put("Dex Morgan", goalName);
        data.put("Deter Morgan", goalName);
        data.put("Morgan", goalName);
        data.put("Morgan Dexter", goalName);
        data.put("MorganDexter", goalName);
        data.put("Dexter Morgan", goalName);
        data.put("DexterMorgan", goalName);
        data.put("DexterMorgan ", goalName);
        return data;
    }

    @Test
    public void testEditDistance(){

        for (Map.Entry<String, String> entry : testData().entrySet()) {

            //最后得分越高说明相似度越大, 0分表示没有任何相似度，1分则代表完全匹配
            System.out.printf("JaroWinklerDistance [%s],[%s]相似度 ===> [%s]%n", entry.getKey(), entry.getValue(),  (1-new JaroWinklerDistance().apply(entry.getKey(), entry.getValue())));

            //余弦相似度用于度量两个向量之间的夹角余弦值，适用于文本相似性、信息检索和推荐系统等领域。它将向量投影到多维空间中，衡量它们的方向相似程度。
            System.out.printf("CosineDistance 余弦相似度[%s],[%s]相似度 ===> [%s]%n", entry.getKey(), entry.getValue(),  (1- new CosineDistance().apply(entry.getKey(), entry.getValue())));

            //Jaccard相似性系数衡量两个集合的相似程度，通过计算两个集合的交集大小除以并集大小得出。适用于处理文本、推荐系统、生物信息学等领域。
            System.out.printf("JaccardDistance 杰卡德系数[%s],[%s]相似度 ===> [%s]%n", entry.getKey(), entry.getValue(),   (1-new JaccardDistance().apply(entry.getKey(), entry.getValue())));

            //两个字串之间，由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。
            Integer editLen = new LevenshteinDistance().apply(entry.getKey(), entry.getValue());
            System.out.printf("LevenshteinDistance 莱文斯坦距离[%s],[%s]相似度 ===> [%s]%n%n", entry.getKey(), entry.getValue(),    1 - (double)editLen / Math.max(entry.getKey().length() , entry.getValue().length()));
        }
    }

}

运行结果

JaroWinklerDistance [Dex Morgan],[Dexter Morgan]相似度 ===> [0.8994871794871795]
CosineDistance 余弦相似度[Dex Morgan],[Dexter Morgan]相似度 ===> [0.4999999999999999]
JaccardDistance 杰卡德系数[Dex Morgan],[Dexter Morgan]相似度 ===> [0.9090909090909091]
LevenshteinDistance 莱文斯坦距离[Dex Morgan],[Dexter Morgan]相似度 ===> [0.7692307692307692]

JaroWinklerDistance [Deter Morgan],[Dexter Morgan]相似度 ===> [0.9794871794871796]
CosineDistance 余弦相似度[Deter Morgan],[Dexter Morgan]相似度 ===> [0.4999999999999999]
JaccardDistance 杰卡德系数[Deter Morgan],[Dexter Morgan]相似度 ===> [0.9090909090909091]
LevenshteinDistance 莱文斯坦距离[Deter Morgan],[Dexter Morgan]相似度 ===> [0.9230769230769231]

JaroWinklerDistance [Morgan],[Dexter Morgan]相似度 ===> [0.4145299145299146]
CosineDistance 余弦相似度[Morgan],[Dexter Morgan]相似度 ===> [0.7071067811865475]
JaccardDistance 杰卡德系数[Morgan],[Dexter Morgan]相似度 ===> [0.5454545454545454]
LevenshteinDistance 莱文斯坦距离[Morgan],[Dexter Morgan]相似度 ===> [0.46153846153846156]

JaroWinklerDistance [DexterMorgan],[Dexter Morgan]相似度 ===> [0.9846153846153847]
CosineDistance 余弦相似度[DexterMorgan],[Dexter Morgan]相似度 ===> [0.0]
JaccardDistance 杰卡德系数[DexterMorgan],[Dexter Morgan]相似度 ===> [0.9090909090909091]
LevenshteinDistance 莱文斯坦距离[DexterMorgan],[Dexter Morgan]相似度 ===> [0.9230769230769231]

JaroWinklerDistance [Jackson Morgan],[Dexter Morgan]相似度 ===> [0.5128205128205128]
CosineDistance 余弦相似度[Jackson Morgan],[Dexter Morgan]相似度 ===> [0.4999999999999999]
JaccardDistance 杰卡德系数[Jackson Morgan],[Dexter Morgan]相似度 ===> [0.4666666666666667]
LevenshteinDistance 莱文斯坦距离[Jackson Morgan],[Dexter Morgan]相似度 ===> [0.5]

JaroWinklerDistance [DexterMorgan ],[Dexter Morgan]相似度 ===> [0.9692307692307692]
CosineDistance 余弦相似度[DexterMorgan ],[Dexter Morgan]相似度 ===> [0.0]
JaccardDistance 杰卡德系数[DexterMorgan ],[Dexter Morgan]相似度 ===> [1.0]
LevenshteinDistance 莱文斯坦距离[DexterMorgan ],[Dexter Morgan]相似度 ===> [0.8461538461538461]

JaroWinklerDistance [Dexter Morgan],[Dexter Morgan]相似度 ===> [1.0]
CosineDistance 余弦相似度[Dexter Morgan],[Dexter Morgan]相似度 ===> [0.9999999999999998]
JaccardDistance 杰卡德系数[Dexter Morgan],[Dexter Morgan]相似度 ===> [1.0]
LevenshteinDistance 莱文斯坦距离[Dexter Morgan],[Dexter Morgan]相似度 ===> [1.0]

JaroWinklerDistance [MorganDexter],[Dexter Morgan]相似度 ===> [0.38247863247863245]
CosineDistance 余弦相似度[MorganDexter],[Dexter Morgan]相似度 ===> [0.0]
JaccardDistance 杰卡德系数[MorganDexter],[Dexter Morgan]相似度 ===> [0.9090909090909091]
LevenshteinDistance 莱文斯坦距离[MorganDexter],[Dexter Morgan]相似度 ===> [0.0]

JaroWinklerDistance [Morgan Dexter],[Dexter Morgan]相似度 ===> [0.41346153846153855]
CosineDistance 余弦相似度[Morgan Dexter],[Dexter Morgan]相似度 ===> [0.9999999999999998]
JaccardDistance 杰卡德系数[Morgan Dexter],[Dexter Morgan]相似度 ===> [1.0]
LevenshteinDistance 莱文斯坦距离[Morgan Dexter],[Dexter Morgan]相似度 ===> [0.07692307692307687]

二、MySQL实现

2.1 Levenshtein(莱文斯坦距离)算法实现

自定义levenshtein函数

CREATE FUNCTION `levenshtein`(s1 varchar(255), s2 varchar(255)) RETURNS int(11)
    DETERMINISTIC
BEGIN
    DECLARE s1_len, s2_len, i, j, c, c_temp, cost INT;
    DECLARE s1_char CHAR;
    DECLARE cv0, cv1 text;
    SET s1_len = CHAR_LENGTH(s1), s2_len = CHAR_LENGTH(s2), cv1 = 0x00, j = 1, i = 1, c = 0;
    IF s1 = s2 THEN
        RETURN 0;
    ELSEIF s1_len = 0 THEN
        RETURN s2_len;
    ELSEIF s2_len = 0 THEN
        RETURN s1_len;
    ELSE
        WHILE j <= s2_len
            DO
                SET cv1 = CONCAT(cv1, UNHEX(HEX(j))), j = j + 1;
            END WHILE;
        WHILE i <= s1_len
            DO
                SET s1_char = SUBSTRING(s1, i, 1), c = i, cv0 = UNHEX(HEX(i)), j = 1;
                WHILE j <= s2_len
                    DO
                        SET c = c + 1;
                        IF s1_char = SUBSTRING(s2, j, 1) THEN
                            SET cost = 0;
                        ELSE
                            SET cost = 1;
                        END IF;
                        SET c_temp = CONV(HEX(SUBSTRING(cv1, j, 1)), 16, 10) + cost;
                        IF c > c_temp THEN SET c = c_temp; END IF;
                        SET c_temp = CONV(HEX(SUBSTRING(cv1, j + 1, 1)), 16, 10) + 1;
                        IF c > c_temp THEN
                            SET c = c_temp;
                        END IF;
                        SET cv0 = CONCAT(cv0, UNHEX(HEX(c))), j = j + 1;
                    END WHILE;
                SET cv1 = cv0, i = i + 1;
            END WHILE;
    END IF;
    RETURN c;
END

自定义levenshtein_ratio百分比函数

CREATE FUNCTION `levenshtein_ratio`(s1 varchar(255), s2 varchar(255)) RETURNS int(11)
    DETERMINISTIC
BEGIN
    DECLARE s1_len, s2_len, max_len INT;
    SET s1_len = LENGTH(s1), s2_len = LENGTH(s2);
    IF s1_len > s2_len THEN
        SET max_len = s1_len;
    ELSE
        SET max_len = s2_len;
    END IF;
    RETURN ROUND((1 - LEVENSHTEIN(s1, s2) / max_len) * 100);
END

使用方式（查询lastname是 jackson的 top10，按照相似度倒排）

select levenshtein_ratio('jackson', last_name), last_name, first_name, full_name
from t_list_detail
where levenshtein_ratio('jackson', last_name) >= 40
order by levenshtein_ratio('jackson', last_name) desc
limit 10;

三、扩展：100余种相似性算法

算法	简介	应用场景
Jaccard相似性系数（Jaccard Similarity Coefficient）	相似性系数衡量两个集合的相似程度，通过计算两个集合的交集大小除以并集大小得出。	处理文本、推荐系统、生物信息学等领域。
余弦相似度（Cosine Similarity）	用于度量两个向量之间的夹角余弦值，它将向量投影到多维空间中，衡量它们的方向相似程度。	适用于文本相似性、信息检索和推荐系统等领域。
编辑距离（Edit Distance，Levenshtein Distance）	编辑距离计算将一个字符串转换为另一个字符串所需的最小编辑操作数，包括插入、删除和替换。	常用于拼写纠错、基因序列比对等领域。
汉明距离（Hamming Distance）	汉明距离用于比较等长字符串，衡量两个字符串在相同位置上不同字符的数量。	主要应用于错误检测和纠正码、信息编码等领域。
TF-IDF（Term Frequency-Inverse Document Frequency）	TF-IDF用于衡量文本中某个词对于整个语料库的重要性，结合了词频和逆文档频率。	信息检索、文本分类等领域有广泛应用。
Smith-Waterman算法	Smith-Waterman算法是一种用于局部序列比对的动态规划算法	常用于生物信息学中的DNA和蛋白质序列比对，能够找到相似片段而不仅仅是全局相似性。
Dice系数	Dice系数衡量两个集合的相似程度，通过计算两个集合的交集大小的两倍除以它们的总大小之和。	主要应用于图像分割、文本聚类等领域。
SimRank	SimRank基于图结构，衡量两个节点之间的相似性，考虑到它们相连的节点以及这些相连节点之间的相似性。	主要用于图数据、社交网络分析等领域。
Bert相似性算法	基于预训练的Transformer模型Bert，可以通过计算两个文本之间某些层的输出相似度来衡量文本相似性	适用于多种自然语言处理任务。
Monge-Elkan算法	Monge-Elkan算法基于一种分块匹配策略，将字符串分成多个子串，计算子串之间的相似度	适用于字符串匹配、信息检索等领域。
Damerau-Levenshtein距离	Damerau-Levenshtein距离是编辑距离的扩展，除了插入、删除、替换操作，还包括相邻字符交换操作	适用于拼写纠错等领域。
Rabin-Karp算法	Rabin-Karp算法使用哈希函数来在文本中寻找一个模式串，可以快速定位可能的匹配位置	适用于文本搜索、字符串匹配等领域。
Jaro-Winkler距离	Jaro-Winkler距离衡量两个字符串的相似性，考虑字符匹配和位置	适用于姓名匹配、数据清洗等领域。
Soundex算法	Soundex算法将单词映射到一组代表其发音的字符，用于在文本中查找发音相似的词	主要用于名字和姓氏匹配
BWT-索引（Burrows-Wheeler Transform）	BWT-索引通过将字符串转换为其Burrows-Wheeler变换，并构建索引以支持模式匹配和搜索	在压缩和字符串搜索领域有应用
时序字符串相似性（Time Series String Similarity）	时序字符串相似性算法结合时间序列和字符串信息	用于时间序列数据分析、模式匹配和相似性计算。
知识增强在字符串相似性中的应用（Knowledge Enhancement for String Similarity）	知识增强在字符串相似性中的应用方法通过整合外部知识库来提升相似性计算的准确性和语义理	知识增强在字符串相似性中的应用方法通过整合外部知识库来提升相似性计算的准确性和语义理解
复杂网络相似性	复杂网络相似性算法基于图结构，将字符串转化为网络节点，并通过网络特性来衡量字符串相似性	适用于网络分析和社交网络等领域
SkipGram模型	SkipGram模型是一种词向量表示方法，通过预测上下文来学习词之间的关系	适用于衡量词语之间的语义相似性
基于注意力机制的字符串相似性（Attention-based String Similarity）	基于注意力机制的字符串相似性算法通过计算字符级别的注意力权重，捕捉字符串中的关键信息	适用于文本匹配和语义表示
混合模型在字符串相似性中的应用（Hybrid Models for String Similarity）	混合模型在字符串相似性中的应用方法通过融合多种模型来平衡性能和准确性	适用于多样性数据和任务
基于自监督学习的字符串相似性（Self-Supervised String Similarity）	基于自监督学习的字符串相似性算法通过设计自监督任务来学习字符串表示	适用于无监督场景下的文本匹配和相似性计算
字符串频谱分析（String Spectral Analysis）	字符串频谱分析方法将字符串转化为频谱形式，通过频谱特征来计算字符串之间的相似性	适用于信号处理和模式识别
图卷积网络在字符串相似性中的应用（Graph Convolutional Networks for String Similarity）	图卷积网络在字符串相似性中的应用方法将字符串表示为图结构，并通过卷积操作来计算相似性	适用于图数据和关系挖掘
FuzzyWuzzy	FuzzyWuzzy是Python库，提供了多种模糊字符串匹配算法，如Levenshtein距离、部分字符串匹配等	适用于拼写纠错、数据清洗等任务
Locality Sensitive Hashing (LSH)	局部敏感哈希是一种用于高维数据相似性搜索的技术，通过哈希函数将相似的数据映射到相同的桶中	适用于大规模数据处理
字符串卷积（String Convolution）	字符串卷积是一种将两个字符串转化为多维向量，并进行卷积运算来衡量相似性的方法	适用于文本分类和信息检索
计数-最小哈希（Count-Min Hashing）	计数-最小哈希是一种用于频率统计和近似相似性计算的方法	适用于大规模数据处理和推荐系统
主题模型（Topic Model）	主题模型是一种用于文本分析的方法，通过将文本表示为主题的分布来衡量文本之间的相似性	适用于文本聚类和推荐系统
概率有限状态自动机（Probabilistic Finite State Automaton）	概率有限状态自动机是一种可以处理概率和不确定性的自动机模型	适用于字符串识别、语音识别等领域
高阶近似匹配（High-Order Approximate Matching）	高阶近似匹配算法通过考虑多个字符之间的关系来进行模糊匹配	适用于模糊匹配和序列比对
主动学习在字符串相似性中的应用（Active Learning for String Similarity）	主动学习在字符串相似性中的应用方法通过策略性地选择样本来增强模型	适用于数据稀缺场景和标注成本较高的情况
网络嵌入在字符串相似性中的应用（Network Embedding for String Similarity）	网络嵌入在字符串相似性中的应用方法通过将字符串映射到网络嵌入空间来计算相似性	适用于关系分析和数据挖掘
生成对抗网络在字符串相似性中的应用（Generative Adversarial Networks for String Similarity）	生成对抗网络在字符串相似性中的应用方法通过对抗训练来提升字符串表示和相似性计算的性能	适用于生成和匹配任务
编辑脚本（Edit Script）	编辑脚本是一个记录从一个字符串转换为另一个字符串的编辑操作序列的表示方法	常用于序列比对和版本控制
基于知识图谱的相似性计算（Knowledge Graph-based Similarity）	基于知识图谱的相似性计算算法利用实体关系和属性信息来计算字符串之间的相似性	适用于知识图谱匹配和数据链接
词法相似性匹配（Lexical Similarity Matching）	词法相似性匹配算法通过考虑词汇相似性来计算字符串之间的相似性	适用于词汇分析和自然语言处理
Sørensen-Dice系数	Sørensen-Dice系数是Dice系数的一种变体，衡量两个集合的相似程度	通过计算两个集合的交集大小的两倍除以它们的总大小之和的平均
点云字符串匹配（PointCloud String Matching）	点云字符串匹配算法将字符串转化为点云形式，通过点云匹配来计算字符串相似性	适用于图像处理和文本检索
半监督学习在字符串相似性中的应用（Semi-Supervised Learning for String Similarity）	半监督学习在字符串相似性中的应用方法通过利用有限标注数据和大量未标注数据来提升相似性计算的性能	适用于数据稀缺场景
字符串分类器融合（String Classifier Fusion）	字符串分类器融合方法将多个字符串分类器的输出进行融合，以提高分类和相似性计算的性能	适用于文本分类和匹配任务
多模态字符串相似性（Multimodal String Similarity）	多模态字符串相似性算法结合多种模态数据（文本、图像等）来计算字符串之间的相似性	适用于多源数据和多模态任务
NGRAST	NGRAST（Next Generation Rapid Sequence Similarity Tool）是一种用于高速DNA序列比对的算法	借助于哈希函数和Bloom过滤器来提高匹配效率
进化算法在字符串相似性中的应用（Evolutionary Algorithms for String Similarity）	进化算法在字符串相似性中的应用方法通过模拟自然进化过程来优化字符串匹配和相似性计算	适用于复杂优化问题
多粒度字符串相似性（Multi-Granularity String Similarity）	多粒度字符串相似性算法考虑多个不同粒度的特征来计算相似性	从而捕捉字符串的多样性特征
字符串核函数（String Kernel）	字符串核函数通过将字符串映射到高维空间，通过核方法衡量它们的相似性	常用于文本分类、信息检索等领域
Trigram相似性	Trigram相似性基于字符级别的N-gram模型，将文本切分成三个字符一组的片段	用于衡量文本相似性
滑动窗口匹配	滑动窗口匹配是一种基于窗口大小的方法，用于在文本中寻找模式串的位置	适用于字符串搜索和文本处理
近邻链接（Nearest-Neighbor Join）	近邻链接是一种数据库连接方法，基于相似性度量将两个表中的行连接起来	适用于数据挖掘和关联分析
基于概率有限状态自动机的匹配（Probabilistic Finite State Automaton Matching）	基于概率有限状态自动机的匹配算法结合自动机和概率模型，用于模式匹配和字符串搜索	适用于语音识别和文本匹配
Hamming树	Hamming树是一种用于快速计算Hamming距离的数据结构，通过在每一层划分字符集合来加速匹配计算	常用于DNA序列比对等领域
缺失数据处理在字符串相似性中的应用（Missing Data Handling for String Similarity）	缺失数据处理在字符串相似性中的应用方法通过处理缺失数据来提高相似性计算的鲁棒性和性能	适用于实际数据场景
预训练模型在字符串相似性中的应用（Pretrained Models for String Similarity）	预训练模型在字符串相似性中的应用方法通过在大规模数据上预训练模型，然后微调来提升相似性计算的性能	适用于少样本和多任务场景
Ragel	Ragel是一个用于构建有限状态机的工具，常用于文本解析和字符串匹配	可以生成高效的匹配器用于文本分析等任务
Fingerprinting	指纹算法将字符串映射为一组固定长度的哈希值，用于文本去重、查重等场景	如Simhash算法、Minhash算法等
字符串重构（String Reconstruction）	字符串重构方法通过从碎片信息中重建原始字符串	用于文本恢复、信息提取和密码学等领域
基于位置的字符串相似性	基于位置的字符串相似性算法考虑字符在字符串中的位置信息，通过位置对齐来衡量字符串的相似程度	适用于基因序列比对等领域
集成学习在字符串相似性中的应用（Ensemble Learning for String Similarity）	集成学习在字符串相似性中的应用方法通过整合多个基础模型来提升相似性计算的准确性和稳定性	适用于多样性数据
Fuzzy String Matching	模糊字符串匹配通过考虑字符替换、插入、删除等操作来衡量字符串的相似性	适用于容错匹配、拼写纠错等场景
参数化后缀树（Parameterized Suffix Tree）	参数化后缀树是一种用于字符串搜索和模式匹配的数据结构	通过将模式串加入到后缀树中来实现高效匹配
深度字符串嵌入（Deep String Embedding）	深度字符串嵌入方法利用神经网络模型，将字符串映射到低维向量空间	适用于文本相似性计算和特征提取
加权字符串编辑距离（Weighted String Edit Distance）	加权字符串编辑距离考虑不同字符之间的权重，适用于文本匹配和语音识别等领域	能够更准确地衡量相似性
字符串语义编码（String Semantic Encoding）	字符串语义编码通过结合字符级别和词级别的表示，捕捉字符串的语义信息	适用于文本聚类和主题建模
Pattern Hunter	Pattern Hunter是一种多模式匹配算法，使用预处理步骤和散列技术来加速模式匹配	适用于大规模文本搜索
Wu-Manber算法	Wu-Manber算法是一种用于多模式匹配的快速算法，适用于在文本中同时匹配多个模式串	如敏感词过滤
Skip-gram with Negative Sampling (SGNS)	Skip-gram with Negative Sampling是词向量训练的一种方法，通过对负样本进行采样来学习词语之间的关系	适用于词向量表示和文本相似性计算
Gotoh算法	Gotoh算法是一种局部序列比对算法，引入了Affine Gap模型来处理序列间的间隔	用于蛋白质序列比对和DNA序列比对等领域
BLOSUM矩阵	BLOSUM（Blocks Substitution Matrix）矩阵是一种用于衡量蛋白质序列相似性的评分矩阵	常用于蛋白质比对和结构预测领域
线性散列字符串匹配（Linear Hashing String Matching）	线性散列字符串匹配算法通过哈希函数和散列桶来加速模式匹配	适用于大规模数据处理和文本搜索
Smith-Waterman-Gotoh算法	SW-Gotoh算法在Smith-Waterman算法基础上优化，引入了Affine Gap模型，提供更准确的局部序列比对	适用于生物信息学领域
Anagram算法	Anagram算法用于判断两个字符串是否是字母重排后得到的，通过对字符进行排序或计数	适用于文本处理、词汇分析等领域
动态规划在字符串匹配中的优化（Dynamic Programming Optimization for String Matching）	动态规划在字符串匹配中的优化方法通过减少重复计算来提高匹配效率	常用于序列比对和编辑距离计算
BioPython	BioPython是一个用于生物信息学分析的Python库，其中包含了多种字符串比对算法	如Smith-Waterman、Needleman-Wunsch等
在线学习在字符串相似性中的应用（Online Learning for String Similarity）	在线学习在字符串相似性中的应用方法通过逐步更新模型来适应新数据	适用于数据流和实时匹配场景
Smith-Waterman-Cox算法	SW-Cox算法是Smith-Waterman算法的扩展，考虑了序列间的线性空隙和线性惩罚，用于更精细的序列比对	特别适用于生物信息学中的蛋白质比对
Winnowing算法	Winnowing算法通过选择散列值的最小值来提取文本的指纹，用于文本查重和抄袭检测	适用于互联网内容分析等领域
字符串特征选择（String Feature Selection）	字符串特征选择方法通过选择最具有信息量的特征来进行相似性计算	适用于维度高的数据和模型解释性要求
N-gram模型	N-gram模型将文本切分成连续的n个字符或词	用于衡量文本之间的相似性。常用于语言模型、文本分类等自然语言处理任务
指导性聚类在字符串相似性中的应用（Guided Clustering for String Similarity）	指导性聚类在字符串相似性中的应用方法通过加入外部信息来引导聚类过程	提高聚类的准确性和解释性
特征哈希法（Feature Hashing）	特征哈希法通过哈希函数将字符串特征映射到固定大小的特征空间	用于高维特征表示和文本分类
基于遗传算法的字符串匹配（Genetic Algorithm-based String Matching）	基于遗传算法的字符串匹配方法通过模拟生物遗传过程来优化字符串匹配和相似性计算	适用于复杂优化问题
Bitap算法	Bitap算法用于模式串匹配，通过位运算和动态规划来实现	适用于模糊匹配、正则表达式匹配等领域
Diff算法（Myers差分算法）	Diff算法是一种用于比较两个字符串之间的差异的算法，基于Myers差分算法	常用于版本控制和文本差异比较
解码器-编码器结构在字符串相似性中的应用（Decoder-Encoder Architecture for String Similarity）	解码器-编码器结构在字符串相似性中通过解码器和编码器的协同工作来捕捉字符串关系	适用于序列生成和相似性计算
不确定性建模在字符串相似性中的应用（Uncertainty Modeling for String Similarity）	不确定性建模在字符串相似性中的应用方法通过引入不确定性估计来处理噪声和不确定数据	提高相似性计算的鲁棒性
模糊集理论在字符串相似性中的应用（Fuzzy Set Theory for String Similarity）	模糊集理论在字符串相似性中的应用方法通过考虑不确定性和模糊性来计算相似性	适用于模糊数据和不确定性问题
Longest Common Subsequence (LCS)	最长公共子序列是一种动态规划算法，用于计算两个序列的最长公共子序列	适用于DNA序列比对、版本控制等领域
随机投影在字符串相似性中的应用（Random Projection for String Similarity）	随机投影在字符串相似性中的应用方法通过随机映射来降低数据维度	提高相似性计算的效率和准确性
SuperString Graph	超级字符串图是一种基于图论的方法，将一组字符串表示为一个有向图	通过计算最短超级字符串来衡量字符串的相似性
字符串对齐方法（String Alignment）	字符串对齐方法通过考虑字符之间的对齐关系来计算字符串相似性	适用于序列比对和文本匹配等领域
Rabin-Scott模型	Rabin-Scott模型是一种自动机模型，用于模式匹配和字符串搜索	可以高效地查找多个模式在文本中的位置
多序列比对	多序列比对算法用于比较多个序列之间的相似性，通过考虑多个序列的关系来实现更精确的比对	常用于生物信息学领域
迁移学习在字符串相似性中的应用（Transfer Learning for String Similarity）	迁移学习在字符串相似性中的应用方法利用从其他任务学到的模型来提升字符串相似性计算的性能	适用于数据稀缺场景
压缩字符串比对	压缩字符串比对算法利用压缩技术来加速字符串比对，通过在压缩域中寻找相似性	适用于大规模数据处理和数据压缩
Tversky系数	Tversky系数是一种通用的集合相似性度量，可以通过调整参数来加权考虑交集和差集	用于文本分类、推荐系统等领域
基于图的字符串相似性（Graph-based String Similarity）	基于图的字符串相似性算法将字符串映射到图结构，并通过图算法来计算相似性	适用于文本聚类和关系挖掘
局部灵活对齐（Partial Flexible Alignment）	局部灵活对齐是一种在序列比对中允许不完全匹配的方法	通过考虑部分匹配和相似性来捕捉序列之间的相似性
RapidMiner	RapidMiner是一款数据挖掘和机器学习工具，其中包含各种字符串相似性匹配算法，如编辑距离、余弦相似度等	用于文本分析、数据挖掘等领域
Shingling方法	Shingling方法将文本转化为一组k个相邻的词或字符，然后计算它们的相似性	常用于文本去重、抄袭检测等任务
基于语义的字符串相似性（Semantic-based String Similarity）	基于语义的字符串相似性算法利用词向量或知识图谱来捕捉字符串之间的语义关系	适用于文本相似性计算和推荐系统

你可能感兴趣的:(Java,数据库,算法,java,相似度,jaccard,levenshtein,similarity,mysql)

网页中间件安全加固 jasonwgz 中间件安全 tomcat
一、APACHEWEB服务器软件，apache的程序名是httpd，服务的控制：systemctlstart/stop/statushttpdApache是一个静态网站程序，不能直接支持动态页面；若要支持动态页面，则需要整合其它程序，如要支持PHP动态页面：yuminstallphp-fpmphp-commonphp-develphp-mysqlndphp-mbstringphp-mcrypt安装
Java Stream API中的状态性操作与陷阱 2501_90323865 java python 开发语言个人开发
在Java编程中，StreamAPI为我们提供了一种高效且简洁的方式来处理集合数据。然而，在使用StreamAPI时，开发者常常会遇到状态性（stateful）操作和行为参数的问题。这些问题如果不加以注意，可能会导致代码的非确定性结果，甚至引发线程安全问题。本文将详细介绍状态性操作的原理、潜在问题以及如何避免这些问题，同时结合实例进行说明。一、状态性操作与无状态操作在StreamAPI中，操作可以
Kafka 压缩算法详细介绍王多鱼的梦想～ kafka 分布式运维 apache
文章目录一、Kafka压缩算法概述二、Kafka压缩的作用2.1降低网络带宽消耗2.2提高Kafka生产者和消费者吞吐量2.3减少Kafka磁盘存储占用2.4减少KafkaBroker负载2.5降低跨数据中心同步成本三、Kafka压缩的原理3.1Kafka压缩的基本原理3.2.Kafka压缩的工作流程3.3Kafka压缩的数据存储格式四、Kafka压缩方式配置4.1Kafka生产者（Produce
Java 9模块开发：IntelliJ IDEA实战指南 2501_90323865 hystrix java 开发语言个人开发
在Java9中，模块化是一个重要的特性，它可以帮助我们更好地组织和管理代码。而IntelliJIDEA作为一个强大的集成开发环境，为Java9模块的开发提供了全面的支持。本文将通过一个实际的项目示例，详细讲解如何在IntelliJIDEA中开发和运行Java9模块。环境准备在开始之前，确保你已经安装了以下软件：Java9：Java9是开发Java9模块的基础，可以从Oracle官网下载并安装。In
Django ORM解决Oracle表多主键的问题 zZeal django python 后端 oracle
现状以Django3.2为例DjangoORM设计为默认使用单一主键（通常是自增的id字段），这一选择主要基于以下核心原因：简化ORM设计与操作统一访问方式外键关联简化避免歧义冲突主键语义明确防止隐式依赖性能与数据库兼容索引效率优化跨数据库兼容替代方案成熟unique_together约束Oracle现状原始业务表，很多都使用多主键。使用Django映射现有Oracle数据库无法处理多主键问题。O
Java重要面试名词整理（二十一）：SpringSecurity 正在绘制中 Java面试 java 面试开发语言
文章目录SpringSecurity篇概念用户授权（访问控制）JWTJWT续期问题SpringAuthorizationServer是什么OAuth2.0协议介绍角色OAuth2.0的运行流程授权模式详解客户端模式密码模式授权码模式简化模式token刷新模式OAuth2.1协议介绍授权码模式+PKCE扩展设备授权码模式拓展授权模式OpenIDConnect1.0协议SpringAuthorizat
力扣【1049. 最后一块石头的重量 II】Java题解（背包问题） hamster2021 leetcode java 算法
让石头分成重量相同的两堆（尽可能相同），相撞之后剩下的石头就是最小的。进一步转化成容量为重量总喝一半的背包最多可以装多少质量的石头。这样就转化成了背包问题。最后求结果时，我们所最多能装的时dp[target]，那另一半石头就是sum-dp[target]，我们所求的就是(sum-dp[target])-dp[target]，也就是sum-dp[target]*2。classSolution{pub
基于Python的Selenium详细教程总结（极简版） weixin_41663997 python selenium 开发语言
基于Python的Selenium详细教程总结一、PyCharm安装配置Selenium使用环境:Windows11,Python3.10.5,PyCharm2022.1.3,Selenium4.3.0需要技术:Python,HTML,CSS,JavaScriptSelenium安装:查看已安装的Python包:piplist安装Selenium4.3.0:pipinstallselenium==
java访问数据库视图_java 访问数据库视图金小夕 java访问数据库视图
工作多年调用视图到多次,自己写代码使用视图还是头一回,也觉得新鲜,那就开始呗,数据库系统是Oracle1我用的数据库连接客户端是Navicat,首先创建视图,其实视图就是调用表的操作,提取自己需要的数据放到视图下面,相对于java来说,可以把视图看成是特殊的表对待,这里说的特殊指的是通过hql语句调用访问数据库的时候涉及到关联表的问题.创建视图如下:然后通过myeclipse的hiberanger
java ddd 领域事件_领域驱动设计(DDD) 领域事件呵吁 java ddd 领域事件
何时and为什么使用领域事件领域事件往往需要发布到外部系统，比如发布到另一个限界上下文中，由于这样的事件需要由订阅方处理，它将对本地和远程上下文产生深远的影响。当领域事件到达目的地后，不论是本地还是外部系统，我们通常将领域事件用于维护事件的一致性，例如聚合的其中一个原则是单个事务只允许对一个聚合实例进行修改，由此产生的其他改变。另外，领域事件还可以使远程依赖系统与本地系统保持一致，而二者解耦有助于
MySQL优化系列9-MySQL控制查询优化器Hints 只是甲 MySQL从小工到专家之路 #MySQL优化 mysql hints MySQL调整执行计划
备注:测试数据库版本为MySQL8.0文章目录一.控制查询计划评估二.可切换的优化三.优化器的Hints3.1优化器Hints概述3.2优化器Hints语法3.3连接顺序优化器Hints3.4表级别的优化器Hints3.5索引级别优化器Hints3.6子查询相关优化器的Hints3.7语句执行时间优化器Hints3.8可变设定Hints语法3.9资源组Hint语法3.10命名查询块的优化器Hint
实验三数据库完整性技术计算机小白的笔记数据库 database
实验三数据库完整性技术【实验目的】1、掌握完整性的概念；2、熟悉MySQL的完整性技术。3、了解MySQL的违反完整性处理措施。【实验性质】验证性实验【实验学时】2H【实验内容】写出完整、详尽的SQL语句，根据实验记录结果并总结。(空位不够请自行续页)一、定义完整性。(5分)/*创建表s、p、j、spj*/定义s表；sno主码，sname非空、city缺省值定义p表；pno主码，pname非空、c
实验三数据库完整性 (头歌) 霸敛笔记数据库 sql oracle
实验三数据库完整性(头歌)制作不易！点个关注！给大家创造更多的价值！目录实验三数据库完整性(头歌)`制作不易！点个关注！给大家创造更多的价值！`第一关：定义s表完整性相关知识MySQL约束概述主键约束非空约束默认值约束查看表中的约束编程要求第二关：定义p表完整性相关知识MySQL检查约束（CHECK）编程要求代码如下：第3关：定义j表完整性编程要求代码如下：第4关：定义spj表完整性相关知识MyS
「译」2024 年的 5 个 JavaScript 安全最佳实践泯泷浏览器前端安全 javascript 安全开发语言
链接：https://thenewstack.io/5-javascript-security-best-practices-for-2024/作者：AlexanderT.Williams原标题：5JavaScriptSecurityBestPracticesfor2024网络安全已成为一个瞬息万变的战场，JavaScript应用程序的安全性也不例外。Web应用程序已成为黑客试图获取敏感数据和财务
深入理解Java泛型 wh柒八九核心知识点 java相关 java 面试
作为一个Java程序员，日常编程早就离不开泛型。泛型自从JDK1.5引进之后，真的非常提高生产力。一个简单的泛型T，寥寥几行代码，就可以让我们在使用过程中动态替换成任何想要的类型，再也不用实现繁琐的类型转换方法。文章目录概述Java泛型实现方式类型擦除带来的缺陷不支持基本数据类型运行效率运行期间无法获取泛型实际类型Java泛型历史背景本文小结概述泛型虽然我们每天都在用，但是还有很多同学可能并不了解
Python Django ORM qq_15654157 Python python
一、ORM介绍1.什么是ORM?ORM全拼Object-RelationMapping.中文意为对象-关系映射.在MVC/MVT设计模式中的Model模块中都包括ORM2.ORM优势（1）只需要面向对象编程,不需要面向数据库编写代码.对数据库的操作都转化成对类属性和方法的操作.不用编写各种数据库的sql语句.（2）实现了数据模型与数据库的解耦,屏蔽了不同数据库操作上的差异.不在关注用的是mysql
【Oracle篇】使用impdp导入报错ORA-39001:ORA-39000:ORA-39142:incompatible version number xxx in dump file的问题解决奈斯DB Oracle专栏 oracle 数据库
《博主介绍》：✨又是一天没白过，我是奈斯，从事IT领域✨《擅长领域》：✌️擅长阿里云AnalyticDBforMySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控；并对SQLserver、NoSQL(MongoDB)有了解✌️大佬们都喜欢静静的看文章，并且也会默默的点赞收藏加关注如标题所示这篇文章是记录并分享一下使用数据泵导入时的报错，这个报错是博主在一年之
计算机毕业设计JAVA房屋租赁系统mybatis 煦洋cxsj985 mybatis java 开发语言
计算机毕业设计JAVA房屋租赁系统mybatis计算机毕业设计JAVA房屋租赁系统mybatis+源码+调试部署+系统+数据库+lw本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5.7/8.0源码地址：https://pan
大数据分析案例-基于逻辑回归算法构建抑郁非抑郁推文识别模型艾派森大数据分析案例合集机器学习人工智能 python 数据挖掘回归
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集
JAVA面试题目整理 qq~374327792 java java
JAVA基础JAVA中的几种基本数据类型是什么，各自占用多少字节。String类能被继承吗，为什么。String，Stringbuffer，StringBuilder的区别。ArrayList和LinkedList有什么区别。讲讲类的实例化顺序，比如父类静态数据，构造函数，字段，子类静态数据，构造函数，字段，当new的时候，他们的执行顺序。用过哪些Map类，都有什么区别，HashMap是线程安全的
Oracle 导入jar包:ora-29532 two_rain oracle jar oracle java
加载JAVA包loadjava‐u用户名/密码‐v‐resolvejar包.java**删除JAVA包：dropjava‐u用户名/密码‐vjar包.javajava引用报错需要加权限：SQL>GRANTEXECUTEONdbms_cryptoTO用户名;SQL>GRANTEXECUTEONdbms_javaTO用户名;SQL>此处省略创建sm4_encrypt函数SQL>selectsm4_en
多线程与高并发（6）——CAS详解（包含ABA问题）李王家的翠花 java 多线程 java 开发语言
一、乐观锁和悲观锁乐观锁和悲观锁都是用于解决并发场景下的数据竞争问题，不局限于某种编程语言或数据库。1、乐观锁：就是很乐观，每次去拿数据的时候都认为别人不会修改，所以不会上锁，但是在更新的时候会判断一下在此期间别人有没有去更新这个数据。乐观锁的实现方式：主要有两种，一种是CAS机制，一种是版本号机制。（1）版本号机制：在数据中增加一个version字段用来表示该数据的版本号，每当数据被修改版本号就
Java并发CAS中的ABA问题 fragrans Java Java 并发编程 CAS ABA
1.ABA产生的原因CAS会导致“ABA问题”。CAS算法实现一个重要前提需要取出内存中某时刻的数据并在当下时刻比较并替换，那么在这个时间差类会导致数据的变化。比如说一个线程1从内存位置V中取出A，这时候另一个线程2也从内存中取出A，并且线程2进行了一些操作将值变成了B，然后线程2又将V位置的数据变成了A，这时候线程1进行CAS操作发现内存中仍然是A，然后线程1操作成功。只关注开始和结尾，不关心中
深入理解Java中的泛型编程 egzosn java 开发语言
深入理解Java中的泛型编程大家好，我是微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！1.泛型的基础概念在Java中，泛型编程是一种强大的编程范式，它允许我们编写可以操作各种类型的代码，而不必在每次使用时重复编写代码。泛型提供了类型安全性和代码重用的机制。1.1定义泛型类和方法登录后复制packagecn.juwatech.generics;publicclassBox{pri
Django ORM查询示例：获取主键为1的记录标题 Leon_Jinhai_Sun django 数据库 oracle
>>>Entry.objects.values_list('headline',flat=True).get(pk=1)'Firstentry'这段代码是使用Django框架的ORM（Object-RelationalMapping，对象关系映射）系统来查询数据库中的一条记录。下面是代码的详细解释：Entry.objects.values_list('headline',flat=True).ge
数据库用户管理比特知识工坊 MySQL专栏数据库 adb android
数据库用户管理1.创建用户MySQL在安装是，会默认创建一个名位root的用户，该用户拥有超级权限，可以控制整个MySQL服务器。在对MySQL的日常管理和操作中，通常创建一些具有适当权限的用户，尽可能的不用或少用root登录系统，以此来确保数据的安全访问。可以使用createuse语句创建用户，并设置相应密码：createuser用户[indentifiedby[password]'passwo
第七章 C - D 开头的术语 yaoxin521123 IRIS相关术语 oracle 数据库
文章目录第七章C-D开头的术语当前设备(currentdevice)当前目录(currentdirectory)基于游标的SQL(cursor-basedSQL)游标(cursor)自定义存储(customstorage)以D开头的术语数据库(database)数据库缓存(databasecache)数据库加密(databaseencryption)数据库加密密钥(database-encrypt
实验九视图的使用无尽罚坐的人生数据库 oracle java
实验九视图的使用一、实验目的1．熟悉视图的操作。二、实验内容及要求用SQL语句完成下列功能。使用数据库为SCHOOL数据库。1．建立一视图View_CSTeacher，列出计算机系各个老师的资料(姓名、性别、职称)。createviewView_CSTeacher(姓名,性别,职称)asselectteac_id,teac_sex,techpostfromteachert,deparmentdwh
Java重要面试名词整理（二十三）：DDD架构正在绘制中 Java面试 java 面试架构
文章目录DDD如何应对软件核心复杂性？技术主动理解业务“刚刚好”解决问题。概念通用语言-定义上下文的含义领域和子域-确定逻辑边界领域子域限界上下文（BoundedContext）-定义领域边界的利器上下文映射图（ContextMapping）-集成三种集成方式上下文映射的种类DDD的战术设计实体和值对象实体（Entity）值对象（ValueObject）聚合和聚合根聚合聚合根领域事件（Domain
mybatis（78/134）一缕叶 mybatis mybatis
前天学了很多，关于java的反射机制，其实跳过了new对象，然后底层生成了字节码，创建了对应的编码。手搓了一遍源码，还是比较复杂的。对于多表联立，假设2表需要1表的主键（外键），但是原本是自增字段，那么就需要在标签中设useGeneratedKeys="true"keyProperty="id"，来返回对应需要的主键如：idinsertintot_carvalues(null,#{carNum},
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =