weixin_34242509

文本挖掘之文本相似度判定

刘勇 Email:[email protected]

简介

针对文本相似判定，本文提供余弦相似度和SimHash两种算法，并根据实际项目遇到的一些问题，给出相应的解决方法。经过实际测试表明：余弦相似度算法适合于短文本，而SimHash算法适合于长文本，并且能应用于大数据环境中。

余弦相似度

原理

余弦定理：

图-1 余弦定理图示

性质：

余弦值的范围在[-1,1]之间，值越趋近于1，代表两个向量的方向越趋近于0°，他们的方向更加一致，相应的相似度也越高。需要指出的是，在文本相似度判定中，因为文本特征向量定义的特殊性，其余弦值范围为[0,1]，即向量夹角越趋向于90°，则两向量越不相似。

向量空间模型

VSM（Vector Space Model）把对文本内容的处理简化为向量空间中的向量运算。

概念：

1）文档（D）：泛指文档或文档片段，一般表征一篇文档。

2）词汇（T）：文本内容特征的基本语言单位，包含字、词、词组或短语。

3）权重（W）：表征词汇T的权重，在文档D中的重要程度。

权重：

目前表征一个字词在一个文本集或者语料库中某篇文本中的重要程度的统计方法为TF-IDF(term frequency–inverse document frequency)，词汇的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降，详细内容在此不赘述。但是本文在实际项目中面临的问题是，文本集是变动的，而且变化速率比较快，因此并不适用于采用TF-IDF方法。本文采用非常简单直观的方法，即以词频来表征该词汇在文本中的重要程度（即权重）。

向量对齐：

由于在实际应用中，表征文本特征的两个向量的长度是不同的，因此必然需要对上述向量进行处理。目前存在两种方法：1）剔除掉向量中不重要的词汇，从而使得两个向量长度保持一致，目前主要依靠经验设定一些关键词来处理，但是其准确率不可保证；2）归并向量，并根据原向量是否在新向量（归并后的向量）存在，若存在则以该词汇的词频来表征，若不存在则该节点置为0，示例如下：

Text1: 我/是/中国人/

Text2: 我们/是/中国人/

Vector: 我/是/中国人/我们/

Vector1 = (1, 1, 1, 0)

Vector2 = (0, 1, 1, 1)

上述“/”为采用IK分词，智能切分后的间隔符，则归并后的向量如Vector所示，对齐后的向量分别为Vector1 和Vector2。之后则根据两向量的余弦值确定相似度。

文本特例

由于在实际项目中，本文发现了2个特例，并相应给出了解决方案。

1）长句包含短句（无需完全包含）：

Text1：“贯彻强军目标出实招用实劲努力开创部队建设新局面”

Text2：“在接见驻浙部队领导干部时强调贯彻强军目标出实招用实劲努力开创部队建设新局面”

上述两个文本为网络上实际的网页标题，若简单以余弦相似度来判定，其误判率是比较高的。本文解决方案为：若长句长度（中文切分后以词汇为单位表征，并非以字符为单位）为短句的1.5倍，则针对长句选定短句长度的文本内容逐个与短句进行相似度判定，直至长句结束，若中间达到预设的阈值，则跳出该循环，否则判定文本不相似。

2）文本中存在同义表述

Text1：“台湾居民明日起持台胞证可通关无需办理签注”

Text2：“明起台胞来京无需办理签注电子台胞证年内实施”

上述两个文本中“台胞”和“台湾居民”，“明日起”和“明起”为同义表述，可以理解为近义词，但不完全为近义词范畴。本文解决方案为引入同义词词典，鉴于中文词汇的丰富性，其能在一定程度上缓解，仍然不是根本解决之法。

应用场景及优缺点

本文目前将该算法应用于网页标题合并和标题聚类中，目前仍在尝试应用于其它场景中。

优点：计算结果准确，适合对短文本进行处理。

缺点：需要逐个进行向量化，并进行余弦计算，比较消耗CPU处理时间，因此不适合长文本，如网页正文、文档等。

　　余弦相似度算法源程序：

 1 public class ElementDict {
 2     private String term;
 3     private int freq;
 4     
 5     public ElementDict(String term, int freq) {
 6         this.term = term;
 7         this.freq = freq;
 8     }
 9     
10     
11     public void setFreq (int freq) {
12         this.freq = freq;
13     }
14 
15     
16     public String getTerm() {
17         return term;
18     }
19 
20     
21     public int getFreq() {
22         return freq;
23     }
24 
25 }

Class Element

  1 import java.io.BufferedReader;
  2 import java.io.File;
  3 import java.io.FileInputStream;
  4 import java.io.FileReader;
  5 import java.io.IOException;
  6 import java.io.InputStreamReader;
  7 import java.util.HashMap;
  8 import java.util.List;
  9 import java.util.ArrayList;
 10 import java.util.Map;
 11 
 12 import org.apache.lucene.analysis.TokenStream;
 13 import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
 14 import org.wltea.analyzer.lucene.IKAnalyzer;
 15 
 16 
 17 public class TextCosine {
 18     private Map map= null; 
 19     
 20     public TextCosine() {
 21         map = new HashMap();
 22         try {
 23             InputStreamReader isReader = new InputStreamReader(new FileInputStream(TextCosine.class.getResource("synonyms.dict").getPath()), "UTF-8");
 24             BufferedReader br = new BufferedReader(isReader);
 25             String s = null;
 26             while ((s = br.readLine()) !=null) {
 27                 String []synonymsEnum = s.split("→");
 28                 map.put(synonymsEnum[0], synonymsEnum[1]);
 29             }
 30             br.close();
 31         } catch (IOException e) {
 32             e.printStackTrace();
 33         }
 34     }
 35     
 36     
 37     public List tokenizer(String str) {
 38         List list = new ArrayList();
 39         IKAnalyzer analyzer = new IKAnalyzer(true);
 40         try {
 41             TokenStream stream = analyzer.tokenStream("", str);
 42             CharTermAttribute cta = stream.addAttribute(CharTermAttribute.class);
 43             stream.reset();
 44             int index = -1;
 45             while (stream.incrementToken()) {
 46                 if ((index = isContain(cta.toString(), list)) >= 0) {
 47                     list.get(index).setFreq(list.get(index).getFreq() + 1);
 48                 }
 49                 else {
 50                     list.add(new ElementDict(cta.toString(), 1));
 51                 }
 52             }
 53             analyzer.close();
 54         } catch (IOException e) {
 55             e.printStackTrace();
 56         } 
 57         return list;
 58     }
 59     
 60     
 61     public int isContain(String str, List list) {
 62         for (ElementDict ed : list) {
 63             if (ed.getTerm().equals(str)) {
 64                 return list.indexOf(ed);
 65             } else if (map.get(ed.getTerm())!= null && map.get(ed.getTerm()).equals(str)) {
 66                 return list.indexOf(ed);
 67             }
 68         }
 69         return -1;
 70     }
 71     
 72     
 73     public List mergeTerms(List list1, List list2) {
 74         List list = new ArrayList();
 75         for (ElementDict ed : list1) {
 76             if (!list.contains(ed.getTerm())) {
 77                 list.add(ed.getTerm());
 78             } else if (!list.contains(map.get(ed.getTerm()))) {
 79                 list.add(ed.getTerm());
 80             }
 81         }
 82         
 83         for (ElementDict ed : list2) {
 84             if (!list.contains(ed.getTerm())) {
 85                 list.add(ed.getTerm());
 86             } else if (!list.contains(map.get(ed.getTerm()))) {
 87                 list.add(ed.getTerm());
 88             }
 89         }
 90         return list;
 91     }
 92     
 93     
 94     public int anslysisTerms(List list1, List list2) {
 95         int len1 = list1.size();
 96         int len2 = list2.size();
 97         if (len2 >= len1 * 1.5) {
 98             List newList = new ArrayList();
 99             for (int i = 0; i + len1 <= len2; i++) {
100                 for (int j = 0; j < len1; j++) 
101                     newList.add(list2.get(i+j));
102                 
103                 newList = adjustList(newList, list2, len2, len1, i);
104                 if (getResult(analysis(list1, newList))) 
105                     return 1;
106                 else 
107                     newList.clear();
108             }
109         } else if (len1 >= len2 * 1.5) {
110             List newList = new ArrayList();
111             for (int i = 0; i + len2 <= len1; i++) {
112                 for (int j = 0; j < len2; j++)
113                     newList.add(list1.get(i+j));
114                 
115                 newList = adjustList(newList, list1, len1, len2, i);
116                 if (getResult(analysis(newList, list2))) 
117                     return 1;
118                 else 
119                     newList.clear();
120             }
121         } else {
122             if (getEasyResult(analysis(list1, list2))) 
123                 return 1;
124         }
125         return 0;
126     }
127     
128     
129     public List adjustList(List newList, List list, int lenBig, int lenSmall, int index) {
130         int gap = lenBig -lenSmall;
131         int size = (gap/2 > 2) ? 2: gap/2;
132         if (index < gap/2) {
133             for (int i = 0; i < size; i++) {
134                 newList.add(list.get(lenSmall+index+i));
135             }
136         } else {
137             for (int i = 0; i > size; i++) {
138                 newList.add(list.get(lenBig-index-i));
139             }
140         }
141         return newList;
142     }
143     
144     
145     public double analysis(List list1, List list2) {
146         List list = mergeTerms(list1, list2);
147         List weightList1 = assignWeight(list, list1);
148         List weightList2 = assignWeight(list, list2);
149         return countCosSimilariry(weightList1, weightList2);
150     }
151     
152     
153     public List assignWeight(List list, List list1) {
154         List vecList = new ArrayList(list.size());
155         boolean isEqual = false;
156         for (String str : list) {
157             for (ElementDict ed : list1) {
158                 if (ed.getTerm().equals(str)) {
159                     isEqual = true;
160                     vecList.add(new Integer(ed.getFreq()));
161                 } else if (map.get(ed.getTerm())!= null && map.get(ed.getTerm()).equals(str)) {
162                     isEqual = true;
163                     vecList.add(new Integer(ed.getFreq()));
164                 }
165             }
166             
167             if (!isEqual) {
168                 vecList.add(new Integer(0));
169             }
170             isEqual = false;
171         }
172         return vecList;
173     }
174     
175     
176     public double countCosSimilariry(List list1, List list2) {
177         double countScores = 0;
178         int element = 0;
179         int denominator1 = 0;
180         int denominator2 = 0;
181         int index = -1;
182         for (Integer it : list1) {
183             index ++;
184             int left = it.intValue();
185             int right = list2.get(index).intValue();
186             element += left * right;
187             denominator1 += left * left;
188             denominator2 += right * right;
189         }
190         try {
191             countScores = (double)element / Math.sqrt(denominator1 * denominator2);
192         } catch (ArithmeticException e) {
193             e.printStackTrace();
194         }
195         return countScores;
196     }
197     
198     
199     public boolean getResult(double scores) {
200         System.out.println(scores);
201         if (scores >= 0.85)
202             return true;
203         else 
204             return false;
205     }
206     
207     
208     public boolean getEasyResult(double scores) {
209         System.out.println(scores);
210         if (scores >= 0.75)
211             return true;
212         else 
213             return false;
214     }
215 
216 }

Class TextCosine

　　备注：同义词词典“synonyms.dict”文件较大，完全可以自己构建，在此就不赘述了。

SimHash

SimHash为Google处理海量网页的采用的文本相似判定方法。该方法的主要目的是降维，即将高维的特征向量映射成f-bit的指纹，通过比较两篇文档指纹的汉明距离来表征文档重复或相似性。

过程

该算法设计十分精巧，主要过程如下：

1. 文档特征量化为向量；

2. 计算特征词汇哈希值，并辅以权重进行量化；

3. 针对f-bit指纹，按位进行叠加运算；

4. 针对叠加后的指纹，若对应位为正，则标记为1，否则标记为0。

　　备注：此处f-bit指纹，可以根据应用需求，定制为16位、32位、64位或者其它位数等。

如图-2所示，为SimHash作者Charikar在论文中的图示，本文结合实际项目解释如下：Doc表征一篇文本，feature为该文本经过中文分词后的词汇组合，按列向量组织，weight为对应词汇在文本中的词频，之后经过某种哈希计算得出哈希值，见图中1和0的组合，剩余部分不再赘述。需要指出，Charikar在论文中并未指定需要采用哪种哈希函数，本文作者认为，只要哈希计算值能够均衡化、分散化，哈希函数可以根据实际应用场景进行设计，本文在实际的项目中自行设计哈希函数，虽未经过完全验证，但是测试结果表明，该函数当前能够满足需求。

图-2 SimHash处理过程

汉明距离

汉明距离应用于数据传输差错控制编码，它表示两个（相同长度）字对应位不同的数量。鉴于SimHash最后计算出的指纹采用0和1进行组织，故而用其来衡量文档相似性或者重复性，该部分详细内容在此不再赘述。

应用场景与优缺点

本文目前将该算法应用于话题发现和内容聚合等场景中，同时也在尝试其它应用场景。

优点：文本处理速率快，计算后的指纹能够存储于数据库，因此对海量文本相似判定非常适合。

缺点：由于短文本的用于哈希计算的数据源较少，因此短文本相似度识别率低。

　　SimHash算法源程序：

 1 public class TermDict {
 2     private String term;
 3     private int freq;
 4     
 5     public TermDict(String term, int freq) 
 6     {
 7         this.term = term;
 8         this.freq = freq;
 9     }
10 
11     public String getTerm() {
12         return term;
13     }
14 
15     public void setTerm(String term) {
16         this.term = term;
17     }
18 
19     public int getFreq() {
20         return freq;
21     }
22 
23     public void setFreq(int freq) {
24         this.freq = freq;
25     }
26     
27 }

Class TermDict

  1 import java.io.IOException;
  2 import java.math.BigInteger;
  3 import java.util.List;
  4 import java.util.ArrayList;
  5 
  6 import org.wltea.analyzer.lucene.IKAnalyzer;
  7 import org.apache.lucene.analysis.TokenStream;
  8 import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
  9 
 10 public class SimHash {
 11     private String tokens;
 12     private int hashBits = 64;
 13     private int distance = 5;
 14     
 15     public SimHash(String tokens)
 16     {
 17         this.tokens = tokens;
 18     }
 19     
 20     
 21     public SimHash(String tokens, int hashBits, int distance)
 22     {
 23         this.tokens = tokens;
 24         this.hashBits = hashBits;
 25         this.distance = distance;
 26     }
 27     
 28     
 29     public List tokenizer()
 30     {
 31         List terms = new ArrayList();
 32         IKAnalyzer analyzer = new IKAnalyzer(true);
 33         try {
 34             TokenStream stream = analyzer.tokenStream("", this.tokens);
 35             CharTermAttribute cta = stream.addAttribute(CharTermAttribute.class);
 36             stream.reset();
 37             int index = -1;
 38             while (stream.incrementToken()) 
 39             {
 40                 if ((index = isContain(cta.toString(), terms)) >= 0)
 41                 {
 42                     terms.get(index).setFreq(terms.get(index).getFreq()+1);
 43                 }
 44                 else 
 45                 {
 46                     terms.add(new TermDict(cta.toString(), 1));
 47                 }
 48             }
 49             analyzer.close();
 50         } catch (IOException e) {
 51             e.printStackTrace();
 52         }
 53         return terms;
 54     }
 55     
 56     
 57     public int isContain(String str, List terms)
 58     {
 59         for (TermDict td : terms)
 60         {
 61             if (str.equals(td.getTerm()))
 62             {
 63                 return terms.indexOf(td);
 64             }
 65         }
 66         return -1;
 67     }
 68     
 69     
 70     public BigInteger simHash(List terms)
 71     {
 72         int []v = new int[hashBits];
 73         for (TermDict td : terms)
 74         {
 75             String str = td.getTerm();
 76             int weight = td.getFreq();
 77             BigInteger bt = shiftHash(str);
 78             for (int i = 0; i < hashBits; i++)
 79             {
 80                 BigInteger bitmask = new BigInteger("1").shiftLeft(i);
 81                 if ( bt.and(bitmask).signum() != 0)
 82                 {
 83                     v[i] += weight;
 84                 }
 85                 else
 86                 {
 87                     v[i] -= weight;
 88                 }
 89             }
 90         }
 91         
 92         BigInteger fingerPrint = new BigInteger("0");
 93         for (int i = 0; i < hashBits; i++)
 94         {
 95             if (v[i] >= 0)
 96             {
 97                 fingerPrint = fingerPrint.add(new BigInteger("1").shiftLeft(i));   // update the correct fingerPrint
 98             }
 99         }
100         return fingerPrint;
101     }
102     
103     
104     public BigInteger shiftHash(String str)
105     {
106         if (str == null || str.length() == 0)
107         {
108             return new BigInteger("0");
109         }
110         else 
111         {
112             char[] sourceArray = str.toCharArray();
113             BigInteger x = BigInteger.valueOf((long) sourceArray[0] << 7);
114             BigInteger m = new BigInteger("131313");
115             for (char item : sourceArray)
116             {
117                 x = x.multiply(m).add(BigInteger.valueOf((long)item));
118             }
119             BigInteger mask = new BigInteger("2").pow(hashBits).subtract(new BigInteger("1"));
120             boolean flag = true;
121             for (char item : sourceArray)
122             {
123                 if (flag)
124                 {
125                     BigInteger tmp = BigInteger.valueOf((long)item << 3);
126                     x = x.multiply(m).xor(tmp).and(mask);
127                 }
128                 else
129                 {
130                     BigInteger tmp = BigInteger.valueOf((long)item >> 3);
131                     x = x.multiply(m).xor(tmp).and(mask);
132                 }
133                 flag = !flag;
134             }
135             
136             if (x.equals(new BigInteger("-1")))
137             {
138                 x = new BigInteger("-2");
139             }
140             return x;
141         }
142     }
143     
144     
145     public BigInteger getSimHash()
146     {
147         return simHash(tokenizer());
148     }
149     
150     
151     public int getHammingDistance(SimHash hashData)
152     {
153         BigInteger m = new BigInteger("1").shiftLeft(hashBits).subtract(new BigInteger("1"));
154         System.out.println(getFingerPrint(getSimHash().toString(2)));
155         System.out.println(getFingerPrint(hashData.getSimHash().toString(2)));
156         BigInteger x = getSimHash().xor(hashData.getSimHash()).and(m);
157         int tot = 0;
158         while (x.signum() != 0)
159         {
160             tot += 1;
161             x = x.and(x.subtract(new BigInteger("1")));
162         }
163         System.out.println(tot);
164         return tot;
165     }
166     
167     
168     public String getFingerPrint(String str)
169     {
170         int len = str.length();
171         for (int i = 0; i < hashBits; i++)
172         {
173             if (i >= len)
174             {
175                 str = "0" + str;
176             }
177         }
178         return str;
179     }
180     
181     
182     public void getResult(SimHash hashData)
183     {
184         if (getHammingDistance(hashData) <= distance)
185         {
186             System.out.println("match");
187         }
188         else
189         {
190             System.out.println("false");
191         }
192     }
193     
194 }

Class SimHash

　　备注：源程序中“131313”只是作者挑选的一个较大的素数而已，不代表特别含义，该数字可以根据需求进行设定。

　　作者：志青云集
　　出处：http://www.cnblogs.com/lyssym/p/4880896.html
　　如果，您认为阅读这篇博客让您有些收获，不妨点击一下右下角的【推荐】。
　　如果，您希望更容易地发现我的新博客，不妨点击一下左下角的【关注我】。
　　如果，您对我的博客所讲述的内容有兴趣，请继续关注我的后续博客，我是【志青云集】。
　　本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接。

转载于:https://www.cnblogs.com/lyssym/p/4880896.html

操作系统之输入输出管理 DKPT #操作系统开发语言学习 c语言笔记算法
操作系统中的输入输出（I/O）管理主要涉及I/O设备的分配、控制以及数据的传输。以下是对操作系统中I/O管理的详细解释：一、I/O设备I/O设备是计算机中用于数据输入和输出的外部设备，如键盘、鼠标、显示器、打印机等。这些设备按照不同的分类标准可以分为多种类型，如按使用特性分为人机交互类设备、存储设备和网络通信设备；按传输速率分为低速设备、中速设备和高速设备；按信息交换的单位分为块设备和字符设备等。
04、Redis从入门到放弃之数据持久化RDB和AOF 跳跳的向阳花 Redis redis bootstrap 数据库
Redis从入门到放弃之数据持久化RDB和AOFRedis强大的功能很大部分是由于他把数据缓存在内存中，为了使Redis在重启的时候，数据不丢失，就需要已某种方式把数据持久化到磁盘中。Redis持久化的方式有俩种，RDB和AOF。RDB==>RedisDatabaseAOF====>AppendOnlyFile1、RDB①、RDB是以快照的方式对内存中的数据进行存储。即在“”制定的时间间隔内“”将
Kotlin学习之 ---- ? ?: !! 操作符的使用（Kotlin花式空判断） mldxs kotlin kotlin 学习开发语言
目录先抛出个结论：??:的使用方法??:结论：!!的使用方法!!总结：先抛出个结论：?问号修饰，两种使用方式?放在类名后面修饰表示对象可空；?放在对象后修饰，则代表如果对象为空，则不执行后面的代码?:问号冒号修饰符?:放在对象后面，代表如果对象为空，执行?:后面的代码!!叹号修饰符!!放在对象后面，表示即使对象为空我也要往下执行，可能会抛出空指针异常//用于测试的对象返回器classObjectR
2024最新版JavaScript逆向爬虫教程-------基础篇之JavaScript混淆原理 Amo Xiang JS逆向爬虫开发语言 js逆向
目录一、常量的混淆原理1.1对象属性的两种访问方式1.2十六进制字符串1.3Unicode字符串1.4字符串的ASCII码混淆1.5字符串常量加密1.6数值常量加密二、增加JS逆向者的工作量2.1数组混淆2.2数组乱序2.3花指令2.4jsfuck三、代码执行流程的防护原理3.1流程平坦化3.2逗号表达式混淆四、其他代码防护方案4.1eval加密4.2内存爆破4.3检测代码是否格式化一、常量的混淆
http协议之方法与状态码线程A https http mysql
http协议分为两个部分，第一个部分是请求，第二个部分是响应请求：请求行(请求方法，路径，协议名称)头信息(key:value)空行然后主体信息(发送内容)POST10606/02.phpHTTP/1.1HOST:localhostcontent-type:application/x-www-from-urlencodedcontect-length:24username=zhangsan&age
Android实战技巧之五十：App的系统签名全速前行 Android Android实战技巧系统签名 sign
这件事困扰我们多时了。我们一直想用非源码编译的方式解决此事，按如下步骤。这种获取系统签名的方法如下：1、apk中需要使用android:sharedUserId=”android.uid.system”这个属性。在Manifest文件修改，如下：2、将app做无签名编译（AndroidStudio）用命令行编译Windows:gradlew.batassembleReleaseMac/linux:
HarmonyOS NEXT应用开发之NAPI封装ArkTS接口案例_harmonyos napi 2401_83946826 2024年程序员学习 harmonyos 华为
std::unique_lockstd::mutexunil(uniContext->resultWaitUtil.lock);uniContext->resultWaitUtil.cv.wait(unil,[]{returnuniContext->resultWaitUtil.isFinished;});return;}else{status=napi_call_function(uniCont
Python常用OS库之path模块学习风陵苑主 python 学习
学习python没有太多捷径，有也只有技巧，更重要的是要多学多练，个人觉得练更重要，读万卷书不如行万里路。编程是一门技能，所以除了看还要多实践，写得多了自然也就有了路。如果看全部的标准库文档，可以访问这个链接os---多种操作系统接口—Python3.12.3文档接下来就来敲敲OS库下的path方法，这里只是记录一下，搬运工作，加深印象。那就开始吧。os.path常用方法一、os.path.abs
力扣刷题之——旋转矩阵 say-input 矩阵 leetcode 算法
给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]作者：力扣(LeetCode)链接：https://leetcode.cn/leetbook/read/array-an
鸿蒙Next之数据同步艺术之一：方舟数据管理揭秘 SameX-4869 harmonyos 华为
本文旨在深入探讨华为鸿蒙HarmonyOSNext系统（截止目前API12）的技术细节，基于实际开发实践进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。本文将介绍华为鸿蒙HarmonyOSNext中的核心数据管理框架——方舟数据管理（ArkData），并探讨其在HarmonyOS系统中的角色和重要性。
HarmonyOS 应用开发之ArkData OpenHarmony_小贾 OpenHarmony HarmonyOS 移动开发 harmonyos 华为移动开发鸿蒙开发 ui
功能介绍ArkData（方舟数据管理）为开发者提供数据存储、数据管理和数据同步能力，比如联系人应用数据可以保存到数据库中，提供数据库的安全、可靠以及共享访问等管理机制，也支持与手表同步联系人信息。标准化数据定义：提供OpenHarmony跨应用、跨设备的统一数据类型标准，包含标准化数据类型和标准化数据结构。数据存储：提供通用数据持久化能力，根据数据特点，分为用户首选项、键值型数据库和关系型数据库。
Gvim + VCS + Verdi 使用技巧之环境篇小白菜呀呀呀 VCS +Verdi 学习经验分享 bug
前言新手在刚刚接触到Gvim+VCS+Verdi的仿真验证环境时，可能会遇到加了相应语句及文件但还无法生成fsdb波形文件的问题。本文主要提供解决该问题的方法或调试的思路和方向。一、tb文件添加语句通常来讲，在环境配置正确的情况下，只要在tb文件中加入以下2条语句即可产生fsdb波形文件，因此首先需要排查这一项。initialbegin$fsdbDumpfile("fsdb_name.fsdb")
【Python爬虫实战】轻量级爬虫利器：DrissionPage之SessionPage与WebPage模块详解易辰君 python爬虫 python 爬虫开发语言
个人主页：易辰君-CSDN博客系列专栏：https://blog.csdn.net/2401_86688088/category_12797772.html目录前言一、SessionPage（一）SessionPage模块的基本功能（二）基本使用（三）常用方法（四）页面元素定位和数据提取（五）Cookie和会话管理（六）SessionPage的优点和局限性（七）SessionPage和Driver
力扣hot100之螺旋矩阵竹杖芒鞋序行跟无神刷算法题系列 leetcode 矩阵算法
classSolution:defspiralOrder(self,matrix:List[List[int]])->List[int]:#用四个数对应4个遍历的方向[0,1,2,3]-[右，下，左，上]go_state=0#起始必须向右#record_matrix=[[0]*nfor_inrange(m)]n_0,n_1,n_2,n_3=0,0,0,0m,n=len(matrix),len(ma
17-7 向量数据库之野望7 - PostgreSQL 和pgvector 拉达曼迪斯II AIGC学习数据库管理工具 AI创业数据库 postgresql 人工智能机器学习 AIGC 搜索引擎
PostgreSQL是一款功能强大的开源对象关系数据库系统，它已将其功能扩展到传统数据管理之外，通过pgvector扩展支持矢量数据。这一新增功能满足了对高效处理高维矢量数据日益增长的需求，这些数据通常用于机器学习、自然语言处理(NLP)和推荐系统等应用。https://github.com/mazzasaverio/find-your-opensource-project什么是pgvector？
PHP5常用函数列表整理虫子68 php php xml whitespace 文档 processing character
usleep()函数延迟代码执行若干微秒。unpack()函数从二进制字符串对数据进行解包。uniqid()函数基于以微秒计的当前时间，生成一个唯一的ID。time_sleep_until()函数延迟代码执行直到指定的时间。PHP5常用函数之time_nanosleep()函数延迟代码执行若干秒和纳秒。sleep()函数延迟代码执行若干秒。show_source()函数对文件进行语法高亮显示。st
天童教育：教会孩子要诚实守信 t05777 其他
一代又一代的孩子们如同繁星闪烁，家长们总是怀揣着殷切的希望，渴望将这些小生命塑造成德才兼备的栋梁之材。在这诸多美好品质中，诚实守信无疑是最为基础，也最为关键的一环。正如古人云：“人无信不立，国无信则衰。”西安天童教育相信，让孩子从小做一个诚实的人，是家长赋予孩子行走世间最宝贵的财富。诚信，这个看似简单，实则沉重的词语，需要从小在孩子心田播下种子，慢慢灌溉，让它生根发芽，最终长成参天大树。在孩子成长
像素空间文生图之Imagen原理详解 funNLPer AI算法 Imagen stable diffusion AIGC
论文：PhotorealisticText-to-ImageDiffusionModelswithDeepLanguageUnderstanding项目地址：https://imagen.research.google/代码（非官方）：https://github.com/deep-floyd/IF模型权重：https://huggingface.co/DeepFloyd/IF-I-XL-v1.0
冲刺蓝桥杯之速通vector！！！！！爱吃生蚝的于勒备战蓝桥杯蓝桥杯算法数据结构开发语言 c语言 c++柔性数组
文章目录知识点创建增删查改习题1习题2习题3习题4：习题5：知识点C++的STL提供已经封装好的容器vector，也可叫做可变长的数组，vector底层就是自动扩容的顺序表，其中的增删查改已经封装好创建constintN=30;vectora1;//创建叫a1的空的可变长的数组vectora2(N);//创建大小为30的可变长的数组，里面每个元素为0vectora3(N,2);//创建大小30的可
【Postgres】postgresql系列之数据类型 zkq_1986 数据库
一、数字数据类型1.1数字类型列表：类型名称存储长度描述范围smallint2bytes小范围整数类型-32768to+32767integer4bytes整数类型-2147483648to+2147483647bigint8bytes大范围数据类型-9223372036854775808to9223372036854775807decimal可变用户指定精度upto131072digitsbef
K8S中Pod控制器之Horizontal Pod Autoscaler(HPA)控制器元气满满的热码式 kubernetes 容器云原生
HorizontalPodAutoscaler(HPA)控制器HorizontalPodAutoscaler（HPA）是Kubernetes中用于自动根据当前的负载情况，自动调整Pod数量的一种控制器。HPA能够根据CPU使用率、内存使用量或其他选择的度量指标来自动扩展Pod的数量，以确保应用的性能。HPA可以获取每个Pod利用率，然后和HPA中定义的指标进行对比，同时计算出需要伸缩的具体值，最后
探索数据之美：用Python生成词云图进击的六角龙 Python python 开发语言数据可视化
导语在这个信息爆炸的时代，数据无处不在，而如何从海量数据中提取有价值的信息并可视化展示，成为了数据分析与可视化领域的重要课题。今天，我们将一起探索如何使用Python中的wordcloud库来生成词云图，让数据“说话”，用图形讲述数据背后的故事。wordcloud是一个在Python中广泛使用的第三方库，主要用于根据文本数据生成词云（WordClouds）。词云是一种可视化技术，它能够有效地展示文
解锁SQL递归查询：WITH RECURSIVE的深度解析 2401_85762266 sql 数据库
标题：解锁SQL递归查询：WITHRECURSIVE的深度解析在数据的层级结构中探索，犹如穿梭于迷宫，每个节点都可能隐藏着通往更深层次的路径。SQL的WITHRECURSIVE正是我们手中的阿莉阿德涅之线，引领我们深入数据的每一个角落。本文将详细解读WITHRECURSIVE的神秘力量，通过实际代码示例，展示如何使用这一强大的递归查询功能。一、WITHRECURSIVE的魔法起源WITHRECUR
C#html生成pdf之wkhtmltopdf及参数说明 Mick_小马哥 C#WEB c#html pdf
实现方法#regionHTML生成PDF//////HTML生成PDF//////页面URL如：http://127.0.0.1/index.html///保存地址如：/upload/pdf/123.pdf///publicstaticboolHtmlToPdf(stringurl,stringpath){if(string.IsNullOrEmpty(url)||string.IsNullOrE
具体毕设方案100例之第4例STM32智能家居烟雾温度火灾防盗报警系统设计版本4 李学长单片机毕设单片机毕设具体方案课程设计 stm32 智能家居单片机毕业设计嵌入式硬件 51单片机
LCD1602液晶显示：实时展现当前检测到的烟雾浓度值，为用户提供直观的视觉信息。按键设置报警上限：用户可通过简单操作按键，自定义烟雾浓度的报警阈值，以满足不同场景的安全需求。蜂鸣器报警：当烟雾浓度超过用户设定的报警值时，蜂鸣器将立即启动，发出声音报警，提醒用户注意安全。无线WiFi传输：通过集成的ESP8266无线WiFi模块，将烟雾浓度数据实时传输至用户手机端，实现远程监控与数据查看。继电器模
风控系统之规则重复触发后端
个人博客：无奈何杨（wnhyang）个人语雀：wnhyang共享语雀：在线知识共享Github：wnhyang-Overview简介前面已经发了很多关于风控系统的一些文章，是比较零碎的，这也是我知道的，但在边构思边实践时是这样的。从0到1中还有很多0.0001、0.0023424、0.1243，这些都是不可忽视，他们也是成长的一部分啊！这里提前预告一下（毕竟有人看不到文末），下周大概是10.24会
风控系统之指标回溯，历史数据重跑后端
个人博客：无奈何杨（wnhyang）个人语雀：wnhyang共享语雀：在线知识共享Github：wnhyang-Overview回顾默认你已经看过之前那篇风控系统指标计算/特征提取分析与实现01，Redis、Zset、模版方法。其中已经介绍了如何利用redis的zset结构完成指标计算，为了方便这篇文章的介绍，还是在正式开始本篇之前回顾一下。时间窗口zset是redis中的一种数据结构，表示有序集
机器学习特征重要性之feature_importances_属性与permutation_importance方法一叶_障目机器学习 python 数据挖掘
一、feature_importances_属性在机器学习中，分类和回归算法的feature_importances_属性用于衡量每个特征对模型预测的重要性。这个属性通常在基于树的算法中使用，通过feature_importances_属性，您可以了解哪些特征对模型的预测最为重要，从而可以进行特征选择或特征工程，以提高模型的性能和解释性。1、决策树1.1.sklearn.tree.Decision
Spring Security(maven项目) 3.0.2.5版本中改严欣铷 spring maven java
前言：通过实践而发现真理，又通过实践而证实真理和发展真理。从感性认识而能动地发展到理性认识，又从理性认识而能动地指导革命实践，改造主观世界和客观世界。实践、认识、再实践、再认识，这种形式，循环往复以至无穷，而实践和认识之每一循环的内容，都比较地进到了高一级的程度本期目标《对上一期的内容进行一波改革，迭代》原因：写的太烂内容回顾：我们对DeleatingFilterProxy，FilterChain
6-1.Android 对话框之基础对话框（普通、单选、多选、列表）我命由我12345 Android -简化编程 android java java-ee android-studio android studio 安卓
对话框对话框（Dialog）是一种常用的UI组件，它主要用于显示信息、接收用户操作反馈对话框可以包含各种元素，但是主要还是以文本、按钮为主，其次是列表其中，基础对话框是Android中最简单的对话框，而后是进度对话框、自定义对话框等基础对话框使用4步走创建AlertDialog.Builder对象，它用于构建对话框AlertDialog.Builderbuilder=newAlertDialog.
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，