雪飞静

经典算法1---相似度--模糊查询，查抄袭，语言识别

from http://wdhdmx.iteye.com/blog/1343856#bc2319361

1.百度百科介绍：

Levenshtein 距离，又称编辑距离，指的是两个字符串之间，由一个转换成另一个所需的最少编辑操作次数。

许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

编辑距离的算法是首先由俄国科学家Levenshtein提出的，故又叫Levenshtein Distance。

2.用途

模糊查询

3.实现过程

a.首先是有两个字符串,这里写一个简单的 abc和abe

b.将字符串想象成下面的结构。

A处是一个标记，为了方便讲解，不是这个表的内容。

	abc	a	b	c
abe	0	1	2	3
a	1	A处
b	2
e	3

c.来计算A处出得值

它的值取决于：左边的1、上边的1、左上角的0.

按照Levenshtein distance的意思：

上面的值和左面的值都要求加1，这样得到1+1=2。

A处由于是两个a相同，左上角的值加0.这样得到0+0=0。

这是后有三个值，左边的计算后为2，上边的计算后为2，左上角的计算为0，所以A处取他们里面最小的0.

d.于是表成为下面的样子

	abc	a	b	c
abe	0	1	2	3
a	1	0
b	2	B处
e	3

在B处会同样得到三个值，左边计算后为3，上边计算后为1，在B处由于对应的字符为a、b，不相等，所以左上角应该在当前值的基础上加1，这样得到1+1=2，在（3,1,2）中选出最小的为B处的值。

e.于是表就更新了

	abc	a	b	c
abe	0	1	2	3
a	1	0
b	2	1
e	3	C处

C处计算后：上面的值为2，左边的值为4，左上角的：a和e不相同，所以加1，即2+1，左上角的为3。

在（2,4,3）中取最小的为C处的值。

f.于是依次推得到

		a	b	c
	0	1	2	3
a	1	A处 0	D处 1	G处 2
b	2	B处 1	E处 0	H处 1
e	3	C处 2	F处 1	I处 1

I处: 表示abc 和abe 有1个需要编辑的操作。这个是需要计算出来的。

同时，也获得一些额外的信息。

A处: 表示a 和a 需要有0个操作。字符串一样

B处: 表示ab 和a 需要有1个操作。

C处: 表示abe 和a 需要有2个操作。

D处: 表示a 和ab 需要有1个操作。

E处: 表示ab 和ab 需要有0个操作。字符串一样

F处: 表示abe 和ab 需要有1个操作。

G处: 表示a 和abc 需要有2个操作。

H处: 表示ab 和abc 需要有1个操作。

I处: 表示abe 和abc 需要有1个操作。

g.计算相似度

先取两个字符串长度的最大值maxLen，用1-（需要操作数除maxLen），得到相似度。

例如abc 和abe 一个操作，长度为3，所以相似度为1-1/3=0.666。

4.代码实现

直接能运行，复制过去就行。

 
     package code;  
  
/** 
 * @className:MyLevenshtein.java 
 * @classDescription:Levenshtein Distance 算法实现 
 * 可以使用的地方：DNA分析 　　拼字检查 　　语音辨识 　　抄袭侦测 
 * @author:donghai.wan 
 * @createTime:2012-1-12 
 */  
public class MyLevenshtein {  
  
    public static void main(String[] args) {  
        //要比较的两个字符串  
        String str1 = "今天星期四";  
        String str2 = "今天是星期五";  
        levenshtein(str1,str2);  
    }  
  
    /** 
     * 　　DNA分析 　　拼字检查 　　语音辨识 　　抄袭侦测 
     *  
     * @createTime 2012-1-12 
     */  
    public static void levenshtein(String str1,String str2) {  
        //计算两个字符串的长度。  
        int len1 = str1.length();  
        int len2 = str2.length();  
        //建立上面说的数组，比字符长度大一个空间  
        int[][] dif = new int[len1 + 1][len2 + 1];  
        //赋初值，步骤B。  
        for (int a = 0; a <= len1; a++) {  
            dif[a][0] = a;  
        }  
        for (int a = 0; a <= len2; a++) {  
            dif[0][a] = a;  
        }  
        //计算两个字符是否一样，计算左上的值  
        int temp;  
        for (int i = 1; i <= len1; i++) {  
            for (int j = 1; j <= len2; j++) {  
                if (str1.charAt(i - 1) == str2.charAt(j - 1)) {  
                    temp = 0;  
                } else {  
                    temp = 1;  
                }  
                //取三个值中最小的  
                dif[i][j] = min(dif[i - 1][j - 1] + temp, dif[i][j - 1] + 1,  
                        dif[i - 1][j] + 1);  
            }  
        }  
        System.out.println("字符串\""+str1+"\"与\""+str2+"\"的比较");  
        //取数组右下角的值，同样不同位置代表不同字符串的比较  
        System.out.println("差异步骤："+dif[len1][len2]);  
        //计算相似度  
        float similarity =1 - (float) dif[len1][len2] / Math.max(str1.length(), str2.length());  
        System.out.println("相似度："+similarity);  
    }  
  
    //得到最小值  
    private static int min(int... is) {  
        int min = Integer.MAX_VALUE;  
        for (int i : is) {  
            if (min > i) {  
                min = i;  
            }  
        }  
        return min;  
    }  
  
}   
     
 
     
 
    

5.猜测原理

from http://www.lanceyan.com/tech/arch/simhash_hamming_distance_similarity.html

通过采集系统我们采集了大量文本数据，但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复，如何选择和设计文本的去重算法？常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用，如果我们的爬虫每天采集的数据以千万计算，我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本和数据库中所有的文本比较一遍如果是重复的数据就标示为重复。看起来很简单，我们来做个测试，就拿最简单的两个数据使用Apache提供的 Levenshtein for 循环100w次计算这两个数据的相似度。代码结果如下：

                   
     String s1  
     =  
     "你妈妈喊你回家吃饭哦，回家罗回家罗"  
     ; 
     
              
     String s2  
     =  
     "你妈妈叫你回家吃饭啦，回家罗回家罗"  
     ; 
     
 
     
              
     long t1  
     =  
     System. 
     currentTimeMillis 
     ( 
     ) 
     ; 
     
 
     
              
     for  
     ( 
     int i  
     =  
     0 
     ; i  
     <  
     1000000 
     ; i 
     ++ 
     )  
     { 
     
                     
     int dis  
     = StringUtils . 
     getLevenshteinDistance 
     (s1, s2 
     ) 
     ; 
     
              
     } 
     
 
     
              
     long t2  
     =  
     System. 
     currentTimeMillis 
     ( 
     ) 
     ; 
     
 
     
              
     System.  
     out . 
     println 
     ( 
     " 耗费时间： "  
     +  
     (t2  
     - t1 
     )  
     +  
     "  ms " 
     ) 
     ; 
    

耗费时间： 4266 ms

大跌眼镜，居然计算耗费4秒。假设我们一天需要比较100w次，光是比较100w次的数据是否重复就需要4s，就算4s一个文档，单线程一分钟才处理15个文档，一个小时才900个，一天也才21600个文档，这个数字和一天100w相差甚远，需要多少机器和资源才能解决。

为此我们需要一种应对于海量数据场景的去重方案，经过研究发现有种叫 local sensitive hash 局部敏感哈希的东西，据说这玩意可以把文档降维到hash数字，数字两两计算运算量要小很多。查找很多文档后看到google对于网页去重使用的是simhash，他们每天需要处理的文档在亿级别，大大超过了我们现在文档的水平。既然老大哥也有类似的应用，我们也赶紧尝试下。simhash是由 Charikar 在2002年提出来的，参考《Similarity estimation techniques from rounding algorithms》。介绍下这个算法主要原理，为了便于理解尽量不使用数学公式，分为这几步：

1、分词，把需要判断文本分词形成这个文章的特征单词。最后形成去掉噪音词的单词序列并为每个词加上权重，我们假设权重分为5个级别（1~5）。比如：“ 美国“51区”雇员称内部有9架飞碟，曾看见灰色外星人 ” ==> 分词后为 “ 美国（4） 51区（5）雇员（3）称（1）内部（2）有（1） 9架（3）飞碟（5）曾（1）看见（3）灰色（4）外星人（5）”，括号里是代表单词在整个句子里重要程度，数字越大越重要。
2、hash，通过hash算法把每个词变成hash值，比如“美国”通过hash算法计算为 100101,“51区”通过hash算法计算为 101011。这样我们的字符串就变成了一串串数字，还记得文章开头说过的吗，要把文章变为数字计算才能提高相似度计算性能，现在是降维过程进行时。
3、加权，通过 2步骤的hash生成结果，需要按照单词的权重形成加权数字串，比如“美国”的hash值为“100101”，通过加权计算为“4 -4 -4 4 -4 4”；“51区”的hash值为“101011”，通过加权计算为 “ 5 -5 5 -5 5 5”。
4、合并，把上面各个单词算出来的序列值累加，变成只有一个序列串。比如 “美国”的 “4 -4 -4 4 -4 4”，“51区”的 “ 5 -5 5 -5 5 5”，把每一位进行累加， “4+5 -4+-5 -4+5 4+-5 -4+5 4+5” ==》 “9 -9 1 -1 1 9”。这里作为示例只算了两个单词的，真实计算需要把所有单词的序列串累加。
5、降维，把4步算出来的 “9 -9 1 -1 1 9” 变成 0 1 串，形成我们最终的simhash签名。如果每一位大于0 记为 1，小于0 记为 0。最后算出结果为：“1 0 1 0 1 1”。

整个过程图为：

大家可能会有疑问，经过这么多步骤搞这么麻烦，不就是为了得到个 0 1 字符串吗？我直接把这个文本作为字符串输入，用hash函数生成 0 1 值更简单。其实不是这样的，传统hash函数解决的是生成唯一值，比如 md5、hashmap等。md5是用于生成唯一签名串，只要稍微多加一个字符md5的两个数字看起来相差甚远；hashmap也是用于键值对查找，便于快速插入和查找的数据结构。不过我们主要解决的是文本相似度计算，要比较的是两个文章是否相识，当然我们降维生成了hashcode也是用于这个目的。看到这里估计大家就明白了，我们使用的simhash就算把文章中的字符串变成 01 串也还是可以用于计算相似度的，而传统的hashcode却不行。我们可以来做个测试，两个相差只有一个字符的文本串，“你妈妈喊你回家吃饭哦，回家罗回家罗” 和 “你妈妈叫你回家吃饭啦，回家罗回家罗”。

通过simhash计算结果为：

1000010010101101111111100000101011010001001111100001001011001011

1000010010101101011111100000101011010001001111100001101010001011

通过 hashcode计算为：

1111111111111111111111111111111110001000001100110100111011011110

1010010001111111110010110011101

大家可以看得出来，相似的文本只有部分 01 串变化了，而普通的hashcode却不能做到，这个就是局部敏感哈希的魅力。目前Broder提出的shingling算法和Charikar的simhash算法应该算是业界公认比较好的算法。在simhash的发明人Charikar的论文中并没有给出具体的simhash算法和证明，“量子图灵”得出的证明simhash是由随机超平面hash算法演变而来的。

现在通过这样的转换，我们把库里的文本都转换为simhash 代码，并转换为long类型存储，空间大大减少。现在我们虽然解决了空间，但是如何计算两个simhash的相似度呢？难道是比较两个simhash的01有多少个不同吗？对的，其实也就是这样，我们通过海明距离（Hamming distance）就可以计算出两个simhash到底相似不相似。两个simhash对应二进制（01串）取值不同的数量称为这两个simhash的海明距离。举例如下： 10101 和 00110 从第一位开始依次有第一位、第四、第五位不同，则海明距离为3。对于二进制字符串的a和b，海明距离为等于在a XOR b运算结果中1的个数（普遍算法）。

为了高效比较，我们预先加载了库里存在文本并转换为simhash code 存储在内存空间。来一条文本先转换为 simhash code，然后和内存里的simhash code 进行比较，测试100w次计算在100ms。速度大大提升。

未完待续：

1、目前速度提升了但是数据是不断增量的，如果未来数据发展到一个小时100w，按现在一次100ms，一个线程处理一秒钟 10次，一分钟 60 * 10 次，一个小时 60*10 *60 次 = 36000次，一天 60*10*60*24 = 864000次。我们目标是一天100w次，通过增加两个线程就可以完成。但是如果要一个小时100w次呢？则需要增加30个线程和相应的硬件资源保证速度能够达到，这样成本也上去了。能否有更好的办法，提高我们比较的效率？

2、通过大量测试，simhash用于比较大文本，比如500字以上效果都还蛮好，距离小于3的基本都是相似，误判率也比较低。但是如果我们处理的是微博信息，最多也就140个字，使用simhash的效果并不那么理想。看如下图，在距离为3时是一个比较折中的点，在距离为10时效果已经很差了，不过我们测试短文本很多看起来相似的距离确实为10。如果使用距离为3，短文本大量重复信息不会被过滤，如果使用距离为10，长文本的错误率也非常高，如何解决？

另：相似度方法综述！！！

from http://blog.csdn.net/wangzhiqing3/article/details/8293286

springboot 不加载mybatiesPlus的mapper.xml文件的解决方法奇纳尼 mapper.xml mybatiesPlus springboot
1:在pom.xml中加入src/main/java**/*.xmlfalse2:在application.properties中加入#配置mapperxml文件的路径,这个配置以后mybaties的xml文件就能被编译加载，还需要在pom.xml中配置，这个项目是父工程service#的pom.xml加的配置，，两个配置缺一不可mybatis-plus.mapper-locations=clas
Kafka单条消息长度限制详解及Java实战指南
在分布式消息系统中，Kafka以其高吞吐、低延迟的特性成为主流选择。但很多开发者在使用时会遇到一个常见问题：单条消息长度限制。本文将深入剖析Kafka的消息大小限制机制，并提供Java解决方案。一、Kafka消息长度限制核心参数Kafka通过多级配置控制消息大小，关键参数如下：配置项作用范围默认值说明message.max.bytesBroker1MB(1048588)Broker允许的最大消息尺
Kafka 如何优雅实现 Varint 和 ZigZag 编码
ByteUtils是Kafka中一个非常基础且核心的工具类。从包名common.utils就可以看出，它被广泛用于Kafka的各个模块中。它的主要职责是提供一套高效、底层的静态方法，用于在字节缓冲区(ByteBuffer)、字节数组(byte[])以及输入/输出流(InputStream/OutputStream)中读写Java的基本数据类型。ZigZag编解码过程的数学原理详解康托尔对角线映射。
Java IO流
目录一、IO流的分类（一）字节流1、InputStreamInputStream类中的成员方法FileInputStream的构造方法read()和read(byte[]b)代码示例：2、利用Scanner进行字符读取代码示例：3、OutputStreamOutputStream中的成员方法FileOutputStream代码示例示例一：示例二：示例三：示例四：示例五：追加写：（二）字符流1、Re
学习Java对象的使用颵麏
一、学习目的对象是整个面向对象程序设计的理论基础，由于面向对象程序中使用类来创建对象,所以可以将对象理解为一种新型的变量，它保存着一些比较有用的数据,但可以要求它对自身进行操作。对象之间靠互相传递消息而相互作用。消息传递的结果是启动了方法,完成一-些行为或者修改接收消息的对象的属性。学会如何使用对象对面向对象编程思想的培养有很大帮助二、学习内容1，对象创建后就可以访问对象成员访问方法是对象名.对象
LeetCode 25. K 个一组翻转链表 java题解
反转链表进阶版题目https://leetcode-cn.com/problems/reverse-nodes-in-k-group/代码/***Definitionforsingly-linkedlist.*publicclassListNode{*intval;*ListNodenext;*ListNode(){}*ListNode(intval){this.val=val;}*ListNod
Java 正则表达式详解 BigData_Hubert java基础正则表达式 regex java
正则表达式乍一看上去是一堆繁琐的、无规律的、令人头大的字符串，但是其简单易学，适用于各种语言；当你了解他之后，你就会知道它的强大。很多程序设计语言都支持用正则表达式来进行字符串的操作。正则表达式简介初识正则表达式正则表达式是使用单个字符串来描述、匹配一系列规则的字符串。正则表达式并不仅限于某一种语言（几乎所有的语言都有字符串），在每种语言中有细微的差别。一个正则表达式字符串：^p[a-zA-Z_]
JAVA API (三)：从基础爬虫构建到带条件数据提取 —— 详解 URL、正则与爬取策略钮祜禄.爱因斯晨 JAVA学习笔记 java 爬虫开发语言
个人主页-爱因斯晨文章专栏-Java学习相关文章：API(一)相关文章：API（二）持续努力中，感谢支持一、爬虫基础（一）爬虫的基本概念定义：爬虫是按照一定规则自动抓取网络信息的程序，在Java环境下，可借助URL、HttpURLConnection等API来实现。应用场景：广泛应用于数据采集，如电商平台的价格监控、各类新闻的聚合；还可用于信息分析，如舆情监测等。（二）Java实现简单爬虫的步骤建
【Redis】StringRedisTemplate 和 RedisTemplate 的区别星星点点洲 redis 缓存
StringRedisTemplate和RedisTemplate是SpringDataRedis提供的两种用于操作Redis的模板类，它们的核心区别在于序列化方式和操作的数据类型。以下是两者的主要区别和使用建议：✅1.数据类型支持类名支持的数据类型说明RedisTemplate支持所有Redis数据结构（如String、Hash、List、Set、ZSet）可以操作任意Java对象，但需要手动配
从Java到大模型应用：10天拿下5个Offer，我的转型逆袭之路 sky丶Mamba 感悟 java 开发语言
前言：本来准备5月发的，感觉现在的行情没有前几个月那么好了，培训机构出来了很多相关的人，然后就是有很多人也发现了这个方向不错，希望看到这篇文章的你能得到一些启发，个人真实经历。记住AI大模型是锦上添花，之前的那些架构能力，软件开发能力，编程思维才是内核。背景：Java开发的困境作为一名2年经验的Java程序员，我深刻感受到传统Java开发市场的“内卷”和瓶颈。根据2024年行业数据：Java岗位竞
49、Jython 类、实例与继承深度解析皮肤PHP Jython 类实例
Jython类、实例与继承深度解析1.封装、抽象与信息隐藏1.1基本概念封装是将多个实体组合成一个新的、通常为更高级的实体，如类。类将数据和相关功能封装到一个对象中，同时通过组织功能简化接口并隐藏实现细节，提供抽象。信息隐藏则是为了简化，只向用户展示他们需要看到的内容。Java使用如private和protected等属性权限修饰符来加强抽象，就像设置了“电子围栏”。而Jython的隐私机制则较为
MCP消息协议和传输协议（Java角度） sky丶Mamba LLM java 开发语言 MCP 大模型
作为Java程序员，你可以将MCP的消息协议和传输协议的关系类比为HTTP协议中“应用层”和“传输层”的分工。以下是具体解析：MCP定义了三种主流传输方式，适应不同场景需求：传输类型原理适用场景优缺点Stdio（标准输入/输出）通过本地进程的stdin/stdout通信本地命令行工具、敏感数据处理（如隐私计算）优点：简单、低延迟；缺点：仅限本地，不支持远程或高并发。SSE（Server-SentE
Kotlin多线程调试
在深入调试多线程应用程序的复杂性之前，了解Kotlin的并发原语至关重要。Kotlin运行在JVM上，因此可以使用Java的线程，它们是并发的基本单位。下面是一个在Kotlin中启动简单线程的示例：valthread=Thread{//在并行线程中运行的代码println("这段代码在独立线程中运行！")}thread.start()解释代码：这段代码创建了一个新的线程对象，并传入一个Lambda
JavaScript 基础语法与核心概念实战：从变量到定时器 Elieal javascript 开发语言 ecmascript
JavaScript作为前端开发的核心语言，其基础语法和数据类型是入门的关键。本文将通过实际代码示例，详解JavaScript的变量、数据类型、复合类型及常用交互功能，帮助初学者快速掌握核心概念。一、变量与基本数据类型变量是存储数据的容器，JavaScript中通过var（ES5）、let/const（ES6）声明。基本数据类型是构建复杂程序的基础，包括以下5种：//基本数据类型示例vara=10
javascript基本内容和标签 Sonnenblume_f IT 总结编程语言 javascript IT 总结
js概念:javascript是互联网上最流行的，可以嵌套到html代码中的，一种基于对象和事件驱动的，并具有安全性能的脚本语言。具有1）向html页面中增加交互行为；2）脚本语言，语法和java类似；3）解释性语言，边执行边解释;4）跨平台，每个浏览器都具有js解释器;作用：增删HTML和css中的代码,能够动态校验数据组成：ECMAScript（核心）BOM浏览器对象模型DOM文档对象模型引入
最新Java学习路线总结，搬砖工逆袭Java架构师 2401_84266286 程序员 java 学习开发语言
|一文读懂JVM类加载机制过程及原理||跟同事杠上了，ApacheBeanutils为什么被禁止使用？||Java中常见的编码集问题||为什么人们宁可用Lombok，也不把成员设为public？|2、java集合【Java集合1】Java集合基础知识总结（绝对经典）【Java集合2】List遍历删除元素remove()")【Java集合3】List＜T＞和List＜?＞的区别【Java集合4】Ja
Ajax与axios wwwwdn ajax okhttp 前端 javascript
本文是学习了网上的Ajax的课程总结，并加上了一些自己的总结。AjaxAjax（AsynchronousJavascriptAndXML），即是异步的JavaScript和XML，Ajax其实就是浏览器与服务器之间的一种异步通信方式。XMLHttpRequest（XHR）XMLHttpRequest（XHR）对象用于与服务器交互。通过XMLHttpRequest可以在不刷新页面的情况下请求特定UR
Cannot find tomcat目录/bin/setclasspath.sh This file is needed to run this program sailor7 linux tomcat
问题：Cannotfind/opt/tomcat/apache-tomcat-8.5.79/bin/setclasspath.shThisfileisneededtorunthisprogram原因：没有在setclasspath.sh上设置JAVA_HOME和JRE_HOME解决：打开setclasspath.sh，设置JAVA_HOME和JRE_HOMEsudovisetclasspath.s
注释Wordle游戏小飞LOVE霞游戏 java 深度优先
packagecsdn005;importjavax.swing.*;importjava.awt.*;importjava.util.Locale;/***@authorwangfei*/publicclassWorldleGameextendsJFrame{privateintcount=0;publicstaticvoidmain(String[]args){newWorldleGame()
JavaScript 类型转换之谜：为什么 [] + 0 = ‘0‘ 而 {} + 0 = 0？
在JavaScript面试中，表达式[]+0和{}+0的结果差异常令人困惑。它们揭示了JavaScript类型转换的核心机制，下面我们深入解析背后的原理。案例一：[]+0='0'（字符串拼接）转换步骤：数组[]转换为原始值JavaScript对对象（包括数组）执行ToPrimitive转换：优先调用valueOf()→返回数组本身（非原始值，继续下一步）调用toString()→空数组转为空字符串
全面指南：如何监控Kafka Topic的生产者客户端码农阿豪@新空间包罗万象 kafka 分布式
个人名片作者简介：java领域优质创作者个人主页：码农阿豪工作室：新空间代码工作室（提供各种软件服务)个人邮箱：[[email protected]]个人微信：15279484656个人导航网站：www.forff.top座右铭：总有人要赢。为什么不能是我呢？专栏导航：码农阿豪系列专栏导航面试专栏：收集了java相关高频面试题，面试实战总结️Spring5系列专栏：整理了Spring5重要知识点与
网络爬虫进阶 rooney2024 爬虫
目录一、进阶爬虫的核心挑战二、关键技术与最佳实践三、实战案例：爬取动态电商价格（伪代码示例）四、持续学习路径结语一、进阶爬虫的核心挑战动态渲染页面(JavaScript/AJAX)问题：数据由JavaScript动态加载生成，初始HTML中不存在。解决方案：浏览器自动化工具：Selenium,Playwright,Puppeteer。模拟真实浏览器行为，等待JS执行并渲染出完整DOM后再解析。无头
7篇1章7节：机器学习算法解读，与数值预测回归模型构建 MD分析用R探索医药数据科学机器学习算法回归 r语言数据挖掘
机器学习是当今数据分析和人工智能的核心工具之一，其算法广泛应用于分类、回归、排序和推荐等领域。本篇将详细讲解机器学习的四大经典算法类型，并以回归问题为例深入探讨数值预测的关键步骤，包括数据准备、线性回归模型构建、模型预测及误差评估，帮助读者更系统地理解和掌握机器学习的基础知识及实际应用。一、机器学习的算法在数据科学和人工智能的浪潮中，机器学习算法成为了解决各种数据问题的关键工具。机器学习主要处理四
ERROR OGG-15050 : Error loading Java VM runtime library 七齐起器
在搭建OGG链路目标端的时候，用OGG用户安装OGG目的端时，出现就java找不到运行时库的情况；查了一下是LD_LIBARAY_PATH没有配好，echo$LD_LIBARAY_PATH对应的所有指向lib文件夹是否存在，echo$JAVA_HOME看是不是配到了JDK的安装目录下；如果上述两个环境变量不存在，在OGG用户编辑vi~/.bash_profile，然后source~/.bash_p
Java并发必知必会：核心概念深度梳理与实战要点（二）码不停蹄的玄黓 java spring boot spring cloud spring jvm
1.Java中的synchronized关键字深度解析synchronized是Java并发编程中最核心的同步机制，通过内置锁实现线程安全。它在解决数据竞争、内存可见性和操作原子性问题上是不可或缺的。以下从七个维度全面剖析：1.1底层实现原理：监视器锁（Monitor）1.1.1对象头关联每个Java对象内置一个Monitor监视器锁（存储于对象头的MarkWord中）//使用jol-core查看
【TypeScript学习笔记】TypeScript 核心知识点 Zaly. Vue学习笔记 typescript 学习笔记
目录前言TypeScript核心概念基本类型与高级类型常用内置工具类型类型断言与类型守卫TypeScript在Vue3中的应用Vue3中TypeScript的作用范围Props和Emits的类型定义CompositionAPI中的类型支持前言TypeScript是微软开发的一个开源的编程语言，通过在JavaScript的基础上添加静态类型定义构建而成。TypeScript通过TypeScript编
入门指南：Vue.js的基本概念和用法是小韩呀 vue.js javascript 前端
引言：Vue.js是一种流行的JavaScript框架，用于构建现代化的Web应用程序。它以其简洁易用的API和响应式的数据绑定而闻名，使得开发人员能够更轻松地构建交互性强大的用户界面。本文将介绍Vue.js的基本概念和用法，帮助初学者快速入门。一、Vue.js是一个轻量级、渐进式的JavaScript框架，用于构建用户界面。它的设计目标是通过尽可能简单的API，让开发者能够更高效地开发交互性强大
nodejs关于后端服务开发的探究墨水白云 node.js
前提在当前的环境中关于webserver的主流开发基本上都是java、php之类的，其中javaspring系列基本上占了大头，而python之流也在奋起直追，但别忘了nodejs也是可以做这个服务的，只是位置有点尴尬，现在就来探究下nodejs做webserver的当前现状。nodejs简介Node.js是一个基于ChromeV8引擎的JavaScript运行环境。Node.js使用了一个事件驱
Java 并发编程深度解析：从线程基础到高并发实战 yy鹈鹕灌顶 java jvm 开发语言
一、并发编程核心概念1.1进程与线程进程：操作系统资源分配的基本单位，每个进程拥有独立的内存空间和系统资源。线程：CPU调度的最小单位，共享所属进程的资源，线程间切换成本低于进程。协程（Loom项目）：JDK19+引入的轻量级线程，基于用户态调度，可大幅降低高并发场景下的线程开销（目前为预览特性）。1.2Java线程生命周期Java线程状态包括以下六种：状态描述触发条件NEW新建状态，尚未启动ne
JavaWeb 文件上传和下载 dawsonenjoy
一、文件上传步骤前端部分1.提供一个post方法的表单，并设置enctype属性（设置请求内容的MIME类型）为multpart/from-data，代表该表单支持文件上传2.提供一个文件上传框：举例：后端部分将内容通过流读取进来，举例：publicvoiddoGet(HttpServletRequestrequest,HttpServletResponseresponse)throwsServl
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round