志青云集

文本挖掘之文本相似度判定

刘勇 Email:[email protected]

简介

针对文本相似判定，本文提供余弦相似度和SimHash两种算法，并根据实际项目遇到的一些问题，给出相应的解决方法。经过实际测试表明：余弦相似度算法适合于短文本，而SimHash算法适合于长文本，并且能应用于大数据环境中。

余弦相似度

原理

余弦定理：

图-1 余弦定理图示

性质：

余弦值的范围在[-1,1]之间，值越趋近于1，代表两个向量的方向越趋近于0°，他们的方向更加一致，相应的相似度也越高。需要指出的是，在文本相似度判定中，因为文本特征向量定义的特殊性，其余弦值范围为[0,1]，即向量夹角越趋向于90°，则两向量越不相似。

向量空间模型

VSM（Vector Space Model）把对文本内容的处理简化为向量空间中的向量运算。

概念：

1）文档（D）：泛指文档或文档片段，一般表征一篇文档。

2）词汇（T）：文本内容特征的基本语言单位，包含字、词、词组或短语。

3）权重（W）：表征词汇T的权重，在文档D中的重要程度。

权重：

目前表征一个字词在一个文本集或者语料库中某篇文本中的重要程度的统计方法为TF-IDF(term frequency–inverse document frequency)，词汇的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降，详细内容在此不赘述。但是本文在实际项目中面临的问题是，文本集是变动的，而且变化速率比较快，因此并不适用于采用TF-IDF方法。本文采用非常简单直观的方法，即以词频来表征该词汇在文本中的重要程度（即权重）。

向量对齐：

由于在实际应用中，表征文本特征的两个向量的长度是不同的，因此必然需要对上述向量进行处理。目前存在两种方法：1）剔除掉向量中不重要的词汇，从而使得两个向量长度保持一致，目前主要依靠经验设定一些关键词来处理，但是其准确率不可保证；2）归并向量，并根据原向量是否在新向量（归并后的向量）存在，若存在则以该词汇的词频来表征，若不存在则该节点置为0，示例如下：

Text1: 我/是/中国人/

Text2: 我们/是/中国人/

Vector: 我/是/中国人/我们/

Vector1 = (1, 1, 1, 0)

Vector2 = (0, 1, 1, 1)

上述“/”为采用IK分词，智能切分后的间隔符，则归并后的向量如Vector所示，对齐后的向量分别为Vector1 和Vector2。之后则根据两向量的余弦值确定相似度。

文本特例

由于在实际项目中，本文发现了2个特例，并相应给出了解决方案。

1）长句包含短句（无需完全包含）：

Text1：“贯彻强军目标出实招用实劲努力开创部队建设新局面”

Text2：“在接见驻浙部队领导干部时强调贯彻强军目标出实招用实劲努力开创部队建设新局面”

上述两个文本为网络上实际的网页标题，若简单以余弦相似度来判定，其误判率是比较高的。本文解决方案为：若长句长度（中文切分后以词汇为单位表征，并非以字符为单位）为短句的1.5倍，则针对长句选定短句长度的文本内容逐个与短句进行相似度判定，直至长句结束，若中间达到预设的阈值，则跳出该循环，否则判定文本不相似。

2）文本中存在同义表述

Text1：“台湾居民明日起持台胞证可通关无需办理签注”

Text2：“明起台胞来京无需办理签注电子台胞证年内实施”

上述两个文本中“台胞”和“台湾居民”，“明日起”和“明起”为同义表述，可以理解为近义词，但不完全为近义词范畴。本文解决方案为引入同义词词典，鉴于中文词汇的丰富性，其能在一定程度上缓解，仍然不是根本解决之法。

应用场景及优缺点

本文目前将该算法应用于网页标题合并和标题聚类中，目前仍在尝试应用于其它场景中。

优点：计算结果准确，适合对短文本进行处理。

缺点：需要逐个进行向量化，并进行余弦计算，比较消耗CPU处理时间，因此不适合长文本，如网页正文、文档等。

　　余弦相似度算法源程序：

 1 public class ElementDict {
 2     private String term;
 3     private int freq;
 4     
 5     public ElementDict(String term, int freq) {
 6         this.term = term;
 7         this.freq = freq;
 8     }
 9     
10     
11     public void setFreq (int freq) {
12         this.freq = freq;
13     }
14 
15     
16     public String getTerm() {
17         return term;
18     }
19 
20     
21     public int getFreq() {
22         return freq;
23     }
24 
25 }

Class Element

  1 import java.io.BufferedReader;
  2 import java.io.File;
  3 import java.io.FileInputStream;
  4 import java.io.FileReader;
  5 import java.io.IOException;
  6 import java.io.InputStreamReader;
  7 import java.util.HashMap;
  8 import java.util.List;
  9 import java.util.ArrayList;
 10 import java.util.Map;
 11 
 12 import org.apache.lucene.analysis.TokenStream;
 13 import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
 14 import org.wltea.analyzer.lucene.IKAnalyzer;
 15 
 16 
 17 public class TextCosine {
 18     private Map map= null; 
 19     
 20     public TextCosine() {
 21         map = new HashMap();
 22         try {
 23             InputStreamReader isReader = new InputStreamReader(new FileInputStream(TextCosine.class.getResource("synonyms.dict").getPath()), "UTF-8");
 24             BufferedReader br = new BufferedReader(isReader);
 25             String s = null;
 26             while ((s = br.readLine()) !=null) {
 27                 String []synonymsEnum = s.split("→");
 28                 map.put(synonymsEnum[0], synonymsEnum[1]);
 29             }
 30             br.close();
 31         } catch (IOException e) {
 32             e.printStackTrace();
 33         }
 34     }
 35     
 36     
 37     public List tokenizer(String str) {
 38         List list = new ArrayList();
 39         IKAnalyzer analyzer = new IKAnalyzer(true);
 40         try {
 41             TokenStream stream = analyzer.tokenStream("", str);
 42             CharTermAttribute cta = stream.addAttribute(CharTermAttribute.class);
 43             stream.reset();
 44             int index = -1;
 45             while (stream.incrementToken()) {
 46                 if ((index = isContain(cta.toString(), list)) >= 0) {
 47                     list.get(index).setFreq(list.get(index).getFreq() + 1);
 48                 }
 49                 else {
 50                     list.add(new ElementDict(cta.toString(), 1));
 51                 }
 52             }
 53             analyzer.close();
 54         } catch (IOException e) {
 55             e.printStackTrace();
 56         } 
 57         return list;
 58     }
 59     
 60     
 61     public int isContain(String str, List list) {
 62         for (ElementDict ed : list) {
 63             if (ed.getTerm().equals(str)) {
 64                 return list.indexOf(ed);
 65             } else if (map.get(ed.getTerm())!= null && map.get(ed.getTerm()).equals(str)) {
 66                 return list.indexOf(ed);
 67             }
 68         }
 69         return -1;
 70     }
 71     
 72     
 73     public List mergeTerms(List list1, List list2) {
 74         List list = new ArrayList();
 75         for (ElementDict ed : list1) {
 76             if (!list.contains(ed.getTerm())) {
 77                 list.add(ed.getTerm());
 78             } else if (!list.contains(map.get(ed.getTerm()))) {
 79                 list.add(ed.getTerm());
 80             }
 81         }
 82         
 83         for (ElementDict ed : list2) {
 84             if (!list.contains(ed.getTerm())) {
 85                 list.add(ed.getTerm());
 86             } else if (!list.contains(map.get(ed.getTerm()))) {
 87                 list.add(ed.getTerm());
 88             }
 89         }
 90         return list;
 91     }
 92     
 93     
 94     public int anslysisTerms(List list1, List list2) {
 95         int len1 = list1.size();
 96         int len2 = list2.size();
 97         if (len2 >= len1 * 1.5) {
 98             List newList = new ArrayList();
 99             for (int i = 0; i + len1 <= len2; i++) {
100                 for (int j = 0; j < len1; j++) 
101                     newList.add(list2.get(i+j));
102                 
103                 newList = adjustList(newList, list2, len2, len1, i);
104                 if (getResult(analysis(list1, newList))) 
105                     return 1;
106                 else 
107                     newList.clear();
108             }
109         } else if (len1 >= len2 * 1.5) {
110             List newList = new ArrayList();
111             for (int i = 0; i + len2 <= len1; i++) {
112                 for (int j = 0; j < len2; j++)
113                     newList.add(list1.get(i+j));
114                 
115                 newList = adjustList(newList, list1, len1, len2, i);
116                 if (getResult(analysis(newList, list2))) 
117                     return 1;
118                 else 
119                     newList.clear();
120             }
121         } else {
122             if (getEasyResult(analysis(list1, list2))) 
123                 return 1;
124         }
125         return 0;
126     }
127     
128     
129     public List adjustList(List newList, List list, int lenBig, int lenSmall, int index) {
130         int gap = lenBig -lenSmall;
131         int size = (gap/2 > 2) ? 2: gap/2;
132         if (index < gap/2) {
133             for (int i = 0; i < size; i++) {
134                 newList.add(list.get(lenSmall+index+i));
135             }
136         } else {
137             for (int i = 0; i > size; i++) {
138                 newList.add(list.get(lenBig-index-i));
139             }
140         }
141         return newList;
142     }
143     
144     
145     public double analysis(List list1, List list2) {
146         List list = mergeTerms(list1, list2);
147         List weightList1 = assignWeight(list, list1);
148         List weightList2 = assignWeight(list, list2);
149         return countCosSimilariry(weightList1, weightList2);
150     }
151     
152     
153     public List assignWeight(List list, List list1) {
154         List vecList = new ArrayList(list.size());
155         boolean isEqual = false;
156         for (String str : list) {
157             for (ElementDict ed : list1) {
158                 if (ed.getTerm().equals(str)) {
159                     isEqual = true;
160                     vecList.add(new Integer(ed.getFreq()));
161                 } else if (map.get(ed.getTerm())!= null && map.get(ed.getTerm()).equals(str)) {
162                     isEqual = true;
163                     vecList.add(new Integer(ed.getFreq()));
164                 }
165             }
166             
167             if (!isEqual) {
168                 vecList.add(new Integer(0));
169             }
170             isEqual = false;
171         }
172         return vecList;
173     }
174     
175     
176     public double countCosSimilariry(List list1, List list2) {
177         double countScores = 0;
178         int element = 0;
179         int denominator1 = 0;
180         int denominator2 = 0;
181         int index = -1;
182         for (Integer it : list1) {
183             index ++;
184             int left = it.intValue();
185             int right = list2.get(index).intValue();
186             element += left * right;
187             denominator1 += left * left;
188             denominator2 += right * right;
189         }
190         try {
191             countScores = (double)element / Math.sqrt(denominator1 * denominator2);
192         } catch (ArithmeticException e) {
193             e.printStackTrace();
194         }
195         return countScores;
196     }
197     
198     
199     public boolean getResult(double scores) {
200         System.out.println(scores);
201         if (scores >= 0.85)
202             return true;
203         else 
204             return false;
205     }
206     
207     
208     public boolean getEasyResult(double scores) {
209         System.out.println(scores);
210         if (scores >= 0.75)
211             return true;
212         else 
213             return false;
214     }
215 
216 }

Class TextCosine

　　备注：同义词词典“synonyms.dict”文件较大，完全可以自己构建，在此就不赘述了。

SimHash

SimHash为Google处理海量网页的采用的文本相似判定方法。该方法的主要目的是降维，即将高维的特征向量映射成f-bit的指纹，通过比较两篇文档指纹的汉明距离来表征文档重复或相似性。

过程

该算法设计十分精巧，主要过程如下：

1. 文档特征量化为向量；

2. 计算特征词汇哈希值，并辅以权重进行量化；

3. 针对f-bit指纹，按位进行叠加运算；

4. 针对叠加后的指纹，若对应位为正，则标记为1，否则标记为0。

　　备注：此处f-bit指纹，可以根据应用需求，定制为16位、32位、64位或者其它位数等。

如图-2所示，为SimHash作者Charikar在论文中的图示，本文结合实际项目解释如下：Doc表征一篇文本，feature为该文本经过中文分词后的词汇组合，按列向量组织，weight为对应词汇在文本中的词频，之后经过某种哈希计算得出哈希值，见图中1和0的组合，剩余部分不再赘述。需要指出，Charikar在论文中并未指定需要采用哪种哈希函数，本文作者认为，只要哈希计算值能够均衡化、分散化，哈希函数可以根据实际应用场景进行设计，本文在实际的项目中自行设计哈希函数，虽未经过完全验证，但是测试结果表明，该函数当前能够满足需求。

图-2 SimHash处理过程

汉明距离

汉明距离应用于数据传输差错控制编码，它表示两个（相同长度）字对应位不同的数量。鉴于SimHash最后计算出的指纹采用0和1进行组织，故而用其来衡量文档相似性或者重复性，该部分详细内容在此不再赘述。

应用场景与优缺点

本文目前将该算法应用于话题发现和内容聚合等场景中，同时也在尝试其它应用场景。

优点：文本处理速率快，计算后的指纹能够存储于数据库，因此对海量文本相似判定非常适合。

缺点：由于短文本的用于哈希计算的数据源较少，因此短文本相似度识别率低。

　　SimHash算法源程序：

 1 public class TermDict {
 2     private String term;
 3     private int freq;
 4     
 5     public TermDict(String term, int freq) 
 6     {
 7         this.term = term;
 8         this.freq = freq;
 9     }
10 
11     public String getTerm() {
12         return term;
13     }
14 
15     public void setTerm(String term) {
16         this.term = term;
17     }
18 
19     public int getFreq() {
20         return freq;
21     }
22 
23     public void setFreq(int freq) {
24         this.freq = freq;
25     }
26     
27 }

Class TermDict

  1 import java.io.IOException;
  2 import java.math.BigInteger;
  3 import java.util.List;
  4 import java.util.ArrayList;
  5 
  6 import org.wltea.analyzer.lucene.IKAnalyzer;
  7 import org.apache.lucene.analysis.TokenStream;
  8 import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
  9 
 10 public class SimHash {
 11     private String tokens;
 12     private int hashBits = 64;
 13     private int distance = 5;
 14     
 15     public SimHash(String tokens)
 16     {
 17         this.tokens = tokens;
 18     }
 19     
 20     
 21     public SimHash(String tokens, int hashBits, int distance)
 22     {
 23         this.tokens = tokens;
 24         this.hashBits = hashBits;
 25         this.distance = distance;
 26     }
 27     
 28     
 29     public List tokenizer()
 30     {
 31         List terms = new ArrayList();
 32         IKAnalyzer analyzer = new IKAnalyzer(true);
 33         try {
 34             TokenStream stream = analyzer.tokenStream("", this.tokens);
 35             CharTermAttribute cta = stream.addAttribute(CharTermAttribute.class);
 36             stream.reset();
 37             int index = -1;
 38             while (stream.incrementToken()) 
 39             {
 40                 if ((index = isContain(cta.toString(), terms)) >= 0)
 41                 {
 42                     terms.get(index).setFreq(terms.get(index).getFreq()+1);
 43                 }
 44                 else 
 45                 {
 46                     terms.add(new TermDict(cta.toString(), 1));
 47                 }
 48             }
 49             analyzer.close();
 50         } catch (IOException e) {
 51             e.printStackTrace();
 52         }
 53         return terms;
 54     }
 55     
 56     
 57     public int isContain(String str, List terms)
 58     {
 59         for (TermDict td : terms)
 60         {
 61             if (str.equals(td.getTerm()))
 62             {
 63                 return terms.indexOf(td);
 64             }
 65         }
 66         return -1;
 67     }
 68     
 69     
 70     public BigInteger simHash(List terms)
 71     {
 72         int []v = new int[hashBits];
 73         for (TermDict td : terms)
 74         {
 75             String str = td.getTerm();
 76             int weight = td.getFreq();
 77             BigInteger bt = shiftHash(str);
 78             for (int i = 0; i < hashBits; i++)
 79             {
 80                 BigInteger bitmask = new BigInteger("1").shiftLeft(i);
 81                 if ( bt.and(bitmask).signum() != 0)
 82                 {
 83                     v[i] += weight;
 84                 }
 85                 else
 86                 {
 87                     v[i] -= weight;
 88                 }
 89             }
 90         }
 91         
 92         BigInteger fingerPrint = new BigInteger("0");
 93         for (int i = 0; i < hashBits; i++)
 94         {
 95             if (v[i] >= 0)
 96             {
 97                 fingerPrint = fingerPrint.add(new BigInteger("1").shiftLeft(i));   // update the correct fingerPrint
 98             }
 99         }
100         return fingerPrint;
101     }
102     
103     
104     public BigInteger shiftHash(String str)
105     {
106         if (str == null || str.length() == 0)
107         {
108             return new BigInteger("0");
109         }
110         else 
111         {
112             char[] sourceArray = str.toCharArray();
113             BigInteger x = BigInteger.valueOf((long) sourceArray[0] << 7);
114             BigInteger m = new BigInteger("131313");
115             for (char item : sourceArray)
116             {
117                 x = x.multiply(m).add(BigInteger.valueOf((long)item));
118             }
119             BigInteger mask = new BigInteger("2").pow(hashBits).subtract(new BigInteger("1"));
120             boolean flag = true;
121             for (char item : sourceArray)
122             {
123                 if (flag)
124                 {
125                     BigInteger tmp = BigInteger.valueOf((long)item << 3);
126                     x = x.multiply(m).xor(tmp).and(mask);
127                 }
128                 else
129                 {
130                     BigInteger tmp = BigInteger.valueOf((long)item >> 3);
131                     x = x.multiply(m).xor(tmp).and(mask);
132                 }
133                 flag = !flag;
134             }
135             
136             if (x.equals(new BigInteger("-1")))
137             {
138                 x = new BigInteger("-2");
139             }
140             return x;
141         }
142     }
143     
144     
145     public BigInteger getSimHash()
146     {
147         return simHash(tokenizer());
148     }
149     
150     
151     public int getHammingDistance(SimHash hashData)
152     {
153         BigInteger m = new BigInteger("1").shiftLeft(hashBits).subtract(new BigInteger("1"));
154         System.out.println(getFingerPrint(getSimHash().toString(2)));
155         System.out.println(getFingerPrint(hashData.getSimHash().toString(2)));
156         BigInteger x = getSimHash().xor(hashData.getSimHash()).and(m);
157         int tot = 0;
158         while (x.signum() != 0)
159         {
160             tot += 1;
161             x = x.and(x.subtract(new BigInteger("1")));
162         }
163         System.out.println(tot);
164         return tot;
165     }
166     
167     
168     public String getFingerPrint(String str)
169     {
170         int len = str.length();
171         for (int i = 0; i < hashBits; i++)
172         {
173             if (i >= len)
174             {
175                 str = "0" + str;
176             }
177         }
178         return str;
179     }
180     
181     
182     public void getResult(SimHash hashData)
183     {
184         if (getHammingDistance(hashData) <= distance)
185         {
186             System.out.println("match");
187         }
188         else
189         {
190             System.out.println("false");
191         }
192     }
193     
194 }

Class SimHash

　　备注：源程序中“131313”只是作者挑选的一个较大的素数而已，不代表特别含义，该数字可以根据需求进行设定。

　　作者：志青云集
　　出处：http://www.cnblogs.com/lyssym/p/4880896.html
　　如果，您认为阅读这篇博客让您有些收获，不妨点击一下右下角的【推荐】。
　　如果，您希望更容易地发现我的新博客，不妨点击一下左下角的【关注我】。
　　如果，您对我的博客所讲述的内容有兴趣，请继续关注我的后续博客，我是【志青云集】。
　　本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接。

Scrum实施情况调查之案例分析 zhijie435 项目管理 thoughtworks 敏捷项目管理敏捷开发工作框架
导读：社区Agile主题敏捷实施,企业级敏捷标签Scrum作者李剑，在InfoQ中文站上发表了一篇"Scrum在中国——企业实施情况调查实录"。这份调查实录，分别调查了五个实施SCRUM的公司，其中三家公司实施成功，二家公司失败。我建议所有准备或者正在实施SCRUM的人们都能来读一下。在此，我们会对这篇文章中的案例分类进行分析、诊断。并探讨什么是敏捷开发方法、什么是SCRUM、使用敏捷方法需要什么
双指针之滑动窗口旧念25 算法数据结构
滑动窗口是双指针的一种所谓滑动窗口，就是不断的调节子序列的起始位置和终止位置，从而得出我们要想的结果。给定一个含有n个正整数的数组和一个正整数s，找出该数组中满足其和≥s的长度最小的连续子数组，并返回其长度。如果不存在符合条件的子数组，返回0。示例：输入：s=7,nums=[2,3,1,2,4,3]输出：2解释：子数组[4,3]是该条件下的长度最小的子数组暴力解法两层for循环嵌套，第一层for循
优化Apache Spark性能之JVM参数配置指南 weixin_30777913 jvm spark 大数据开发语言性能优化
ApacheSpark运行在JVM之上，JVM的垃圾回收（GC）、内存管理以及堆外内存使用情况，会直接对Spark任务的执行效率产生影响。因此，合理配置JVM参数是优化Spark性能的关键步骤，以下将详细介绍优化策略和配置建议。通过以下优化方法，可以显著减少GC停顿时间、提升内存利用率，进而提高Spark作业吞吐量和数据处理效率。同时，要根据具体的工作负载和集群配置进行调整，并定期监控Spark应
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
【MyDB】6-TabelManager 字段与表管理之2-SQL语句解析 -$_$- Java项目 sql python 数据库
【MyDB】6-TabelManager字段与表管理之2-SQL语句解析前言SQL语法Parser类具体实现入口方法Parse(byte[]statement)事务控制parseBegin()parseCommit()，parseAbortDDL(DataDefinitionLanguage)parseCreate()parseDrop()DML语句parseSelect()parseInsert
AI实干家：HK深度体验-【外2篇-香港“千年地契”解析之政策背景、优势与投资传承特点】 SZ0771 人工智能
香港的“千年地契”通常指999年租期的地契，这种超长租期在香港土地历史上确实存在，但在现代政策下已不常见。以下从香港土地政策、税收政策、投资价值和家庭传承角度，详细分析“千年地契”与普通租期地契的区别，并探讨太平山物业的情况。一、香港“千年地契”是什么？定义与历史背景香港的“千年地契”实际上是指999年租期的地契，而非真正的永久业权（Freehold）。在法律和实际操作中，999年租期被视为“准永
HarmonyOS实战开发-如何打造购物商城APP。码牛程序猿鸿蒙工程师 HarmonyOS 鸿蒙 harmonyos OpenHarmony 鸿蒙鸿蒙应用开发华为鸿蒙开发 HarmonyOS
今天给大家分享一个非常好的实战项目，购物商城，购物商城是一个集购物、娱乐、服务于一体的综合性平台，致力于为消费者提供一站式的购物体验。各种功能都有涉及，最适合实现学习。做好商城项目，肯定会把开发中遇到的百分之60的技术得到实战的经验。下面介绍一下商城的主要模块：首页1，搜索框，点击进入搜索页面2，顶部分类，通过不同分类查询对应信息3，广告轮播，自动切换图片，可以进行点击进入4，商品列表，展示每个项
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
AI编程系列之Claude 3.5 Sonnet：编码的未来已无限改变！ Claude 3.5 Sonnet 即将改变一切！知识大胖 NVIDIA GPU和大语言模型开发教程 AI编程信息可视化 claude
简介“编程并不是让你成为一个成功人士的必要条件。”Nvidia首席执行官黄仁勋。正如JensenHuang所说，LLM的最新特点让我们意识到了解编码可能并不像我们想象的那么重要。你知道吗，你可以在2分钟内创建一款贪吃蛇或俄罗斯方块游戏？在本文中，我们将探索Claude3.5Sonnet，你将明白为什么最近每个人都在谈论它。推荐文章《AnythingLLM教程系列之05AnythingLLM允许您创
深入分析串口使用rs485功能的内部机制之使用gpio控制传输方向读取rs485温湿度传感器数据（第一期） @曙光， linux 网络嵌入式
前言首先这是一篇涉及内核分析的，学习这篇文章最好是打开内核源码跟着我的分析去看，我参考的内核源码是linux5.4内核，也可以辅助ai去分析。ModbusRTU读取rs485温湿度传感器使用ModbusRTU读取rs485温湿度传感器有俩种方法，第一种采用gpio控制数据的传输方向：高电平表示主发从收，低电平表示主收从发。第二种采用硬件流控的方法使用串口的rts引脚和cts引脚自动控制收发方向，接
MySQL进阶——提高查询效率之添加索引的全部方式 1加1等于 MySQL sql mysql
索引提高查询效率，本文介绍优化查询时添加索引的多种方式。本文目录一、创建表时添加索引二、使用ALTERTABLE语句添加索引三、使用CREATEINDEX语句添加索引一、创建表时添加索引在使用CREATETABLE语句创建表的同时，可以为表中的列添加索引。适用于在设计表结构时就确定需要添加索引的情况。语法如下：CREATETABLEtable_name(column1datatype,column
Zynq PS端外设之IIC Mazy.v fpga开发
IIC协议高电平采样：时序电路的信号采样一般靠的是时钟上升沿采样，而IIC协议则是靠高电平采样。读写数据帧ZynqPS的IIC外设1.PS的I2C0I2C0的引脚既可以使用MIO，也可以使用EMIO。为了方便起见，可以直接OpenElaboratedDesign对EMIO进行管脚约束。2.SDK开发//iic用到的头文件#include"xiicps.h"#include"xparameters.
SpringMVC系列之整合Thymeleaf【Thymeleaf整合springmvc介绍及Thymeleaf基础概念、使用语法详解】吕鑫洋 SpringMVC系列 java html js spring mvc
Thymeleaf是java的模板引擎，可以将动态页面静态化；目前使用较多的模板引擎：Velocity、Freemarker、Thymeleaf一、Maven依赖Thymeleaf整合springmvc共需要两个jar：1.thymeleaf2.thymeleaf-spring5org.thymeleafthymeleaf3.0.9.RELEASEorg.thymeleafthymeleaf-sp
141.HarmonyOS NEXT系列教程之3D立方体旋转轮播案例讲解之IDataSource接口实现 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之3D立方体旋转轮播案例讲解之IDataSource接口实现效果演示1.IDataSource接口概述1.1接口作用IDataSource接口定义了数据源的标准接口，提供了：数据访问方法数据操作方法监听器管理方法1.2接口实现e
Selenium自动化之鼠标悬停操作 DansonC python 自动化 selenium 自动化鼠标悬停
#鼠标悬停，move_to_element，光标移到指定元素上，停留几秒fromselenium.webdriverimportActionChainsActionChains(self.driver).move_to_element§.perform()time.sleep(2)importunittestimporttimefromseleniumimportwebdriverfromsele
【Android 】零基础到飞升 | Git之使用GitHub搭建远程仓库 A little strawberry git java github python 编程语言
1.5.2Git之使用GitHub搭建远程仓库本节引言：在上一节中，我们学习了如何使用Git，构建我们的本地仓库，轻松的实现了版本控制以及代码还原，修改日志查看等；读者肯定不满足与本地是吧，假如是多个人一起来开发一个程序呢？我们需要一个作为服务器的远程仓库！当然搭建一个服务器是需要成本的，为什么不把项目托管到Github上呢？作为开源代码库以及版本控制系统，Github拥有140多万开发者用户。随
补偿算法之相位补偿算法傻童:CPU Qt 自动控制理论算法 android
补偿算法之相位补偿算法相位补偿算法：在一些控制系统中，系统的相位裕度可能不足，导致系统稳定性变差。相位补偿算法通过增加或减少特定频率下的相角来调整系统的相位特性。例如，在电机调速系统中，为了提高系统在高速运行时的稳定性，可能会采用相位超前补偿算法，通过在控制回路中添加适当的滤波器或控制器结构，使系统在高频段的相位提前，从而增加相位裕度，防止系统出现振荡或失稳现象。相位补偿算法的核心目标是对信号或系
python爬虫之scrapy框架入门，万字教学，从零开始到实战演练，超详细！！！（21）盲敲代码的阿豪 python之爬虫系统教学 python 爬虫 scrapy
文章目录前言1、scrapy的概念和流程1.1学习目标1.2scrapy的概念1.3scrapy框架的作用1.4scrapy的工作流程1.5总结2、scrapy的入门使用2.1学习目标2.2安装scrapy框架2.3scrapy项目开发流程2.4创建项目2.5创建爬虫文件2.6scrapy项目文件说明2.7案例演示2.8实战案例（抓取链家租房信息，存入本地）2.8.1修改items.py文件，在这
人工智能之数学基础：矩阵的范数每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能矩阵算法线性代数范数
本文重点在前面课程中，我们学习了向量的范数，在矩阵中也有范数，本文来学习一下。矩阵的范数对于分析线性映射函数的特性有重要的作用。矩阵范数的本质矩阵范数是一种映射，它将一个矩阵映射到一个非负实数。矩阵的范数前面我们学习了向量的范数，只有当满足几个条件的时候，此时才可以，那么矩阵也是一样的，当满足下面的条件的时候，才可以定义||A||为矩阵A的范数矩阵范数的性质连续性矩阵范数是连续的函数。即如果矩阵序
Oracle数据库从入门到精通系列之六：临时文件快乐骑行^_^ 数据库日常分享专栏 Oracle数据库临时文件
Oracle数据库从入门到精通系列之六：临时文件Oracle中的临时数据文件是一种特殊类型的数据文件。当内存不足时，Oracle会使用它来存储一些临时数据，比如说一些比较大的排序或散列操作的中间结果、临时表中的数据以及结果集数据等。自12c起，对临时表的操作所产生的undo也会放到临时表空间中永久性的表和索引永远不会存储在临时表空间中，但是临时表中的数据及其索引会存放在这里。也就是应用程序储存数据
python自定义函数的参数有多种类型_python自定义函数的参数之四种表现形式 weixin_39860755
(1)defa(x,y):printx,y这是最常见的定义方式，调用该函数，a(1,2)则x取1，y取2，形参与实参相对应，如果a(1)或者a(1,2,3)则会报错(2)defa(x,y=3):printx,y提供了默认值，调用该函数，a(1,2)同样还是x取1，y取2，但是如果a(1)，则不会报错了。上面这俩种方式，还可以更换参数位置，比如a(y=4,x=3)用这种形式也是可以的如果是defa(
140.HarmonyOS NEXT系列教程之3D立方体旋转轮播案例讲解之DataChangeListener接口 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之3D立方体旋转轮播案例讲解之DataChangeListener接口效果演示1.DataChangeListener接口概述1.1接口定义interfaceDataChangeListener{onDataReloaded()
137.HarmonyOS NEXT系列教程之3D立方体旋转轮播案例讲解之数据监听器管理 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之3D立方体旋转轮播案例讲解之数据监听器管理效果演示1.监听器管理方法1.1注册监听器registerDataChangeListener(listener:DataChangeListener):void{if(this.li
汇川EASY系列之以太网通讯（MODBUS_TCP做主站） Amos_ FAT 汇川EASY 网络网络协议经验分享信息与通信
汇川Easy系列以太网通讯中（MODBUSTCP,plc做主站），终于可以不用使用指令就可以完成了，全程通过简单的配置就可通讯。本文将通过EASY系列PLC与调试助手之间完成此操作。具体演示如下；关于主站和从站的介绍A／请求：即主动方向被动方发送的一个要求的信息。B／主站：发送请求的一方，整个通讯的发起方，在不同的软件中可能称呼不同，例如：Master、Client,对应的中文：主站，客户端。C/
六十天前端强化训练之第二十一天大师级详解 React Context API：从原理到实战编程星辰海 #前端前端 react.js javascript React Context API
=====欢迎来到编程星辰海的博客讲解======看完可以给一个免费的三连吗，谢谢大佬！目录一、庖丁解牛：深入理解ContextAPI1.1设计哲学与运转机制工作原理三步曲：1.2核心三剑客详解1.3性能优化要诀二、手把手实现主题切换系统2.1完整代码实现（逐行注释版）2.2配套CSS样式设计三、关键知识点拆解3.1状态初始化策略3.2CSS变量注入原理3.3性能优化实践3.4可访问性最佳实践四、
集合之Map（一）青柠过敏 java spring 开发语言
今天接着看看源码，Map是一个抽象接口，和昨天的Set很像。常见接口：size(),isEmpty(),containsKey(有个s），containsValue（s），Vget(Objectkey)（根据key获取value）,Vput(Kkey,Vvalue);(传入值），Vremove(Objectkey）根据key删除，如果map包含null，那么如果没找到，则会抛出Unsupporte
从零开始写C++3D游戏引擎（开发环境VS2022+OpenGL）之十一点二五光照贴图(lighting maps)的实现细嚼慢咽逐条读代码系列金沙阳 c++3d 游戏引擎
写在篇前的话作为一个曾经在代码堆里面苦苦挣扎的萌新，困惑的事情在于库，各种依赖，包换文件，链接库，纠结于代码的作用意义。尤其在3D引擎开发的问题上，很多人都被各种困难给阻拦，放弃了在3D渲染，3D游戏引擎上大涨鸿图的机会。当然关于3D游戏引擎的教程已经汗牛充栋，但是大部分的教程都是由过来人写的，代码中的逻辑与实现，在过来人眼中自然且简单，在初学者眼里却是晦涩繁杂，因此从一个初学者的角度来写一篇关于
【＜二＞丹方改良：Spring 时代的 JavaWeb】之 Spring MVC 的核心组件：DispatcherServlet 的工作原理 Foyo Designer spring mvc java servlet HandlerMapping ViewResolver
点击此处查看合集https://blog.csdn.net/foyodesigner/category_12907601.html?fromshare=blogcolumn&sharetype=blogcolumn&sharerId=12907601&sharerefer=PC&sharesource=FoyoDesigner&sharefrom=from_link一、DispatcherServ
【脑洞小剧场】零帧起手创业小公司之第一次技术分享会 Foyo Designer 技术职场小剧职场和发展程序人生学习方法改行学it 程序员创富
点击查看小剧场合集https://blog.csdn.net/foyodesigner/category_12896948.html阳光明媚的早晨，段萌儿怀揣着对新工作的无限憧憬，踏入了这家充满未知的小公司。然而，她万万没想到，第一天上班就迎来了一场“惊悚”之旅。阳光透过会议室的窗户，洒在摆满椅子的地板上，技术分享会的氛围既紧张又期待。今天，将是公司第一次正式的技术交流盛会，各路技术大牛摩拳擦掌，
152.HarmonyOS NEXT系列教程之3D立方体旋转轮播案例讲解之Banner模块实现 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之3D立方体旋转轮播案例讲解之Banner模块实现效果演示1.Banner模块结构1.1基础布局@BuilderbannerModule(){Column(){Text($r('app.string.cube_animation
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep