Yelbosh

word2vec使用说明

Google的word2vec官网：https://code.google.com/p/word2vec/

下载下来的Demo源码文件共有如下几个：
word2vec – Revision 41: /trunk
…
LICENSE //Apache LICENSE
README.txt //工具使用说明
compute-accuracy.c
demo-analogy.sh //
demo-classes.sh //词聚类的示例脚本
demo-phrase-accuracy.sh
demo-phrases.sh //
demo-train-big-model-v1.sh
demo-word-accuracy.sh
demo-word.sh
distance.c
makefile
questions-phrases.txt
questions-words.txt
word-analogy.c
word2phrase.c
word2vec.c

【快速入门】：1. 从http://word2vec.googlecode.com/svn/trunk/ 下载所有相关代码（所有的文件如上）；
2. 运行make编译word2vec工具：Makefile的编译代码在makefile.txt文件中，先改名makefile.txt 为Makefile，然后在当前目录下执行make进行编译，生成可执行文件(编译过程中报出很出Warning，暂且不管)；
3. 运行示例脚本：./demo-word.sh 和 ./demo-phrases.sh：看一下./demo-word.sh的内容，大致执行了3步操作
a). 从http://mattmahoney.net/dc/text8.zip 下载了一个文件text8 ( 一个解压后不到100M的txt文件，可自己下载并解压放到同级目录下),
b). 执行word2vec生成词向量到 vectors.bin文件中，（速度比较快，几分钟的事情）

2.将分好词的训练语料进行训练，假定我语料名称为test.txt且在word2vec目录中。输入命令：
./word2vec -train text8 -output vectors.bin -cbow 0 -size 48 -window 5 -negative 0 -hs 1 -sample 1e-4 -threads 20 -binary 1 -iter 100
以上命令 -train text8 表示的是输入文件是text8，-output vectors.bin 输出文件是vectors.bin，-cbow 0表示不使用cbow模型，默认为Skip-Gram模型。-size 48 每个单词的向量维度是48，-window 5 训练的窗口大小为5就是考虑一个词前五个和后五个词语（实际代码中还有一个随机选窗口的过程，窗口大小小于等于5）。-negative 0 -hs 1不使用NEG方法，使用HS方法。-sampe指的是采样的阈值，如果一个词语在训练样本中出现的频率越大，那么就越会被采样。-binary为1指的是结果二进制存储，为0是普通存储（普通存储的时候是可以打开看到词语和对应的向量的）除了以上命令中的参数，word2vec还有几个参数对我们比较有用比如-alpha设置学习速率，默认的为0.025. –min-count设置最低频率，默认是5，如果一个词语在文档中出现的次数小于5，那么就会丢弃。-classes设置聚类个数，看了一下源码用的是k-means聚类的方法。要注意-threads 20 线程数也会对结果产生影响。
注意：–min-count设置最低频率，默认是5，进行参数传递无效，我们可能是因为参数名中有-，唉我们只好在程序word2vec.c中将min-count初始化为1了。

· 架构：skip-gram（慢、对罕见字有利）vs CBOW（快）
· 训练算法：分层softmax（对罕见字有利）vs 负采样（对常见词和低纬向量有利）
· 欠采样频繁词：可以提高结果的准确性和速度（适用范围1e-3到1e-5）
· 文本（window）大小：skip-gram通常在10附近，CBOW通常在5附近
[root@localhost /home/jacoxu/word2vec]$./demo-word.sh
make: Nothing to be done for `all’.
Starting training using file text8
Vocab size: 71291
Words in train file: 16718843
Alpha: 0.000560 Progress: 98.88% Words/thread/sec: -117.11k
c). 执行./distance vectors.bin可以进入一个计算word相似度的demo中去，如下：
========中断========
52 if (ch == ‘\n’) {
53 strcpy(word, (char *)”");

148 // Sort the vocabulary and keep at the first position
149 qsort(&vocab[1], vocab_size – 1, sizeof(struct vocab_word), VocabCompare);
—-
看代码，应该是\n这个词，而且特意排在第一位了
====================
对于训练出来的模型进行操作，我推荐大家使用http://blog.csdn.net/zhaoxinfan/article/details/11640573这个java版本的模型读取类，比较方便。可以参照：http://blog.csdn.net/jj12345jj198999/article/details/11069485
Enter word or sentence (EXIT to break): china

Word: china Position in vocabulary: 486

Word Cosine distance (找到了很多和china共现度很高的词汇，可以得到认可)
————————————————————————
taiwan 0.656181
japan 0.633499
tibet 0.607813
manchuria 0.581230
hainan 0.561931
xiamen 0.555860
chongqing 0.550099
jiang 0.549195
chinese 0.548320
liao 0.548220
…
Enter word or sentence (EXIT to break): hongkong

Word: hongkong Position in vocabulary: 24623

Word Cosine distance（感觉效果很糟糕，有些不知所云，认可度很低，主要还是因为语料太少，覆盖面窄）
————————————————————————
jardines 0.708792
matheson 0.659444
jardine 0.611295
shareholding 0.489012
company 0.431918
kowloon 0.417640
firm 0.415780
venture 0.415077
plc 0.409350
shanghai 0.404716
…
然后看一下./demo-phrases.sh的内容，也大致执行了3步操作：
a). 从http://www.statmt.org/wmt14/training-monolingual-news-crawl/news.2012.en.shuffled.gz 下载了一个文件news.2012.en.shuffled.gz ( 一个解压到1.7G的txt文件，可自己下载并解压放到同级目录下)；
b). 将文件中的内容拆分成 phrases，然后执行./word2vec生成短语向量到 vectors-phrase.bin文件中（数据量大，速度慢，将近半个小时），如下：
[root@localhost /home/jacoxu/word2vec]$ bash demo-phrases.sh (总耗时75分钟)
make: Nothing to be done for `all’.
Starting training using file news.2012.en.shuffled-norm0
Words processed: 296900K Vocab size: 33198K
Vocab size (unigrams + bigrams): 18838711
Words in train file: 296901342
Words written: 296900K
real 11m1.465s
user 10m47.888s
sys 0m8.317s
Starting training using file news.2012.en.shuffled-norm0-phrase0
Words processed: 280500K Vocab size: 38761K
Vocab size (unigrams + bigrams): 21728781
Words in train file: 280513979
Words written: 280500K
real 10m43.277s
user 10m29.983s
sys 0m8.137s
Starting training using file news.2012.en.shuffled-norm1-phrase1
Vocab size: 681320
Words in train file: 283545447
Alpha: 0.000005 Progress: 100.00% Words/thread/sec: 83.67k
real 49m3.925s
user 847m21.369s
sys 1m11.140s

c). 执行./distance vectors-phrase.bin 可以进入一个计算word相似度的demo中去，如下：
Enter word or sentence (EXIT to break): great_wall

Word: great_wall Position in vocabulary: 36052

Word Cosine distance (确实找到一些极为相关的词汇)
————————————————————————
mutianyu 0.588232
terra_cotta_warriors 0.541900
forbidden_city 0.527797
changsha 0.520975
based_koryo_tours 0.510810
three_gorges 0.509765
world’s_tallest 0.501899
dajie 0.500128
ming_dynasty 0.496112
qin_shihuang 0.486954
…

Enter word or sentence (EXIT to break): hong_kong

Word: hong_kong Position in vocabulary: 2322

Word Cosine distance (并没有任何体现Hong Kong本土的词汇，仍是语料的问题)
————————————————————————
singapore 0.755051
mainland_china 0.739481
shanghai 0.732764
hong_kong’s 0.727834
mainland_chinese 0.652696
singapore’s 0.636082
keith_bradsher_contributed_reporting 0.626221
hang_seng_index_fell 0.621854
chinese 0.617985
taipei 0.609921
…

【其他】：Java版本Word2Vector

词向量的训练最经典的有 3 个工作，C&W 2008、M&H 2008、Mikolov 2010，看看其他几个版本的Word Embedding：
(以下大部分内容摘自Zhao老板的学生licstar)
1. 【C&W 的 SENNA – 2008】
■ 训练语料及规模：English Wikipedia + Reuters RCV1 共 631M + 221M 词；
■ 词向量：130000 词，50 维；
■ 特点：不区分大小写，经过有监督修正，训练了7周；
■ 资源：测试代码、词向量 [链接]

Ronan Collobert 和 Jason Weston 在 2008 年的 ICML 上发表的《A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning》里面首次介绍了他们提出的词向量的计算方法，他们还把论文所写的系统开源了，叫做 SENNA，3500 多行纯 C 代码也是写得非常清晰。C&W 这篇论文主要目的并不是在于生成一份好的词向量，甚至不想训练语言模型，而是要用这份词向量去完成 NLP 里面的各种任务，比如词性标注、命名实体识别、短语识别、语义角色标注等等。

2. 【M&H 的 HLBL – 2007】
Andriy Mnih 和 Geoffrey Hinton 在 2007 年和 2008 年各发表了一篇关于训练语言模型和词向量的文章。2007 年发表在 ICML 上的《Three new graphical models for statistical language modelling》表明了 Hinton 将 Deep Learning 战场扩展到 NLP 领域的决心。2008 年发表在 NIPS 上的《A scalable hierarchical distributed language model》则提出了一种层级的思想替换了 Bengio 2003 方法中最后隐藏层到输出层最花时间的矩阵乘法，在保证效果的基础上，同时也提升了速度。2008 年 NIPS 的这篇论文，介绍的是“hierarchical log-bilinear”模型，很多论文中都把它称作简称“HLBL”。

3. 【Mikolov 的 RNNLM – 2010】
■ 训练语料及规模：Broadcast news；
■ 词向量：82390 词，80、640、1600 维；
■ 特点：不区分大小写；训练了若干天；
■ 资源：训练、测试代码、词向量 [链接]

Bengio 2003 在论文里提到一句，可以使用一些方法降低参数个数，比如用循环神经网络。Mikolov 就抓住了这个坑，从此与循环神经网络结下了不解之缘。他最早用循环神经网络做语言模型是在 INTERSPEECH 2010 上发表的《Recurrent neural network based language model》里。Recurrent neural network 是循环神经网络，简称 RNN，还有个 Recursive neural networks 是递归神经网络（Richard Socher 借此发了一大堆论文），也简称 RNN。看到的时候需要注意区分一下。不过到目前为止，RNNLM 只表示循环神经网络做的语言模型，还没有歧义。
在之后的几年中，Mikolov 在一直在RNNLM 上做各种改进，有速度上的，也有准确率上的。现在想了解 RNNLM，看他的博士论文《Statistical Language Models based on Neural Networks》肯定是最好的选择。

4. 【Huang 的语义强化 – 2012】
■ 训练语料及规模：English Wikipedia；
■ 词向量：100232 词，50 维；
■ 特点：不区分大小写，最高频的6000词，每词有10种表示；
■ 资源：训练、测试代码、词向量 [链接]

与前几位大牛的工作不同，Eric H. Huang 的工作是在 C&W 的基础上改进而成的，并非自成一派从头做起。他这篇发表在 ACL 2012 上的《Improving Word Representations via Global Context and Multiple Word Prototypes》试图通过对模型的改进，使得词向量富含更丰富的语义信息。他在文中提出了两个主要创新来完成这一目标：（其实从论文标题就能看出来）第一个创新是使用全文信息辅助已有的局部信息，第二个创新是使用多个词向量来表示多义词。
Huang 认为 C&W 的工作只利用了“局部上下文（Local Context）”。C&W 在训练词向量的时候，只使用了上下文各 5 个词，算上自己总共有 11 个词的信息，这些局部的信息还不能充分挖掘出中间词的语义信息。Huang 直接使用 C&W 的网络结构计算出一个得分，作为“局部得分”。
然后 Huang 提出了一个“全局信息”，这有点类似传统的词袋子模型。词袋子模型是把文章中所有词的 One-hot Representation 加起来，形成一个向量（就像把词全都扔进一个袋子里），用来表示文章。Huang 的全局模型是将文章中所有词的词向量求个加权平均（权重是词的 idf），作为文章的语义。他把文章的语义向量和当前词的词向量拼接起来，形成一个两倍长度的向量作为输入，之后还是用 C&W 的网络结构算出一个打分。
有了 C&W 方法的得到的“局部得分”，再加上在 C&W 方法基础上改造得到的“全局得分”，Huang 直接把两个得分相加，作为最终得分。最终得分使用 C&W 提出的 pair-wise 目标函数来优化。
加了这个全局信息有什么用处呢？Huang 在实验中发现，他的模型能更好地捕捉词的语义信息。比如 C&W 的模型中，与 markets 最相近的词为 firms、industries；而 Huang 的模型得到的结果是 market、firms。很明显，C&W 的方法由于只考虑了临近词的信息，最后的结果是词法特征最相近的词排在了前面（都是复数形式）。不过我觉得这个可能是英语才有的现象，中文没有词形变化，如果在中文中做同样的实验还不知道会有什么效果。
Huang 论文的第二个贡献是将多义词用多个词向量来表示。Bengio 2003 在最后提过这是一个重要的问题，不过当时他还在想办法解决，现在 Huang 给出了一种思路。
将每个词的上下文各 5 个词拿出来，对这 10 个词的词向量做加权平均（同样使用 idf 作为权重）。对所有得到的上下文向量做 k-means 聚类，根据聚类结果给每个词打上标签（不同类中的同一个词，当作不同的词处理），最后重新训练词向量。
当然这个实验的效果也是很不错的，最后 star 的某一个表示最接近的词是 movie、film；另一个表示最接近的词是 galaxy、planet。

5. 【Turian 对比试验 – 2010】
优化C&W代码并重跑试验
■ 训练语料及规模：Reuters RCV1 63M 词；
■ 词向量：268810 词 25、50、100、200 维；
■ 特点：区分大小写，训练了若干周；
■ 资源：训练代码、词向量 [链接]

由M帮忙重跑M&H
■ 训练语料及规模：Reuters RCV1；
■ 词向量：246122 词 50、100 维；
■ 特点：区分大小写，用GPU训练了7天；
■ 资源：训练代码、词向量 [链接]

问题？主页上提供了两份词向量，一份是 scaled，一份是unscaled，scaled的作用是什么？这个Scale貌似是全局的，而非单个向量的。
README.text中是这么解释的：
embeddings-scaled.*.txt.gz
Embeddings scaled by 0.1/stddev(embeddings), as described in the ACL 2010 paper.
These are the embeddings you should use by default, if you just want word features.
The first column is the word, the rest of the columns are the dimensions of the embedding.
也就是说通过stddev进行了一个全局的样本标准偏差进行缩放；

Turian 的工作前面只是提了一下，他在做 C&W 向量与 H&M 向量的对比实验时，自己按照论文重新实现了一遍他们的方法，并公布了词向量。后来 C&W 在主页上强调了一下：尽管很多论文把 Turian 实现的结果叫做 C&W 向量，但是与我发布的词向量是不同的，我这个在更大的语料上训练，还花了两个月时间呢！
Turian 公布的 M&H 向量是直接请 Andriy Mnih 在 Turian 做好的语料上运行了一下 HLBL，所以没有代码公布。同时 Turian 自己实现了一份 LBL模型，但是没有公布训练出来的词向量。（这是根据他主页上描述推测的结果，从 Turian 的论文中看，他应该是实现了 HLBL 算法并且算出词向量的。）
RCV1 的词数两篇文章中所写的数据差距较大，还不知道是什么原因。

Turian 发表在 ACL 2010 上的实验对比了 C&W 向量与 M&H 向量用作辅助特征时的效果。在短语识别和命名实体识别两个任务中，C&W 向量的效果都有略微的优势。同时他也发现，如果将这两种向量融合起来，会有更好的效果。除了这两种词向量，Turian 还使用 Brown Cluster 作为辅助特征做了对比，效果最好的其实是 Brown Cluster，不过这个已经超出本文的范围了。

【值得一读】：
1. What are the continuous bag of words and skip-gram architectures
2. Hierarchical Softmax & Negative Sampling
3. word2vec 中的数学原理详解
4. Deep Learning in NLP （一）词向量和语言模型：http://licstar.net/archives/328

【问题语料训练实例】

1. 搜集语料

StackOverflow语料下载train.zip https://www.kaggle.com/c/predict-closed-questions-on-stack-overflow/ 进行处理，得到content内容和title标题作为训练语料

2. 利用word2vec进行训练，采用和官网提供的300维Vector同样的训练模型：

-cbow 1 -size 300 -window 5 -negative 3 -hs 0 -sample 1e-5 -threads 12 -binary 1 -iter 15

（注：默认的低频下限是5，由于当前版本(word2vec42)程序有bug，原因不太清楚，如果初始化失败，则到word2vec.c文件中修改此值）

475630606个words, vocab 大小为1598580，大概花费25分钟。

运行结果并测试效果如下：

 
   [root@linux-237 word2vec42]# bash demo-word.sh    
 make: Nothing to be done for `all’.   
 Starting training using file stackText.txt   
 Vocab size: 1598580   
 Words in train file: 475630606   
 Alpha: 0.000263  Progress: 99.47%  Words/thread/sec: 541.23k     
 real    25m39.774s   
 user    221m57.108s   
 sys     0m49.199s   
 Enter word or sentence (EXIT to break): java   
   
 Word: java  Position in vocabulary: 454   
   
                                               Word       Cosine distance   
 ————————————————————————   
                                               Java              0.804742   
                                              java,              0.780371   
                                              java.              0.775374   
                                               JAVA              0.743753   
                                              Java.              0.683836   
                                              swing              0.674023   
                                            android              0.672503   
                                                c++              0.668149   
                                                 c#              0.644594   
                                             python              0.643520   
                                            eclipse              0.643359   
                                              Java,              0.637573   
                                              java?              0.630209   
                                                jar              0.628616   
                                             groovy              0.627132   
                                              scala              0.611233   
                                            servlet              0.610064   
                                             applet              0.608627   
                                                php              0.608549   
                                                  i              0.600868   
                                                 my              0.599664   
                                                jsp              0.598296   
                                               ruby              0.597236   
                                           netbeans              0.595057   
                                                  a              0.595011   
                                              write              0.594350   
                                            program              0.593679   
                                                jdk              0.593030   
                                               j2me              0.587537   
                                              which              0.585925   
                                                 to              0.585683   
                                              using              0.580617   
                                               that              0.579790   
                                            written              0.579572   
                                               some              0.579534   
                                           android,              0.577219   
                                                and              0.575742   
                                               .net              0.575061   
                                                web              0.574278   
                                              linux              0.573493   
 Enter word or sentence (EXIT to break): html   
   
 Word: html  Position in vocabulary: 394   
   
                                               Word       Cosine distance   
 ————————————————————————   
                                               HTML              0.853783   
                                              html.              0.836931   
                                              html,              0.795768   
                                         javascript              0.763503   
                                              HTML.              0.721012   
                                                 js              0.715835   
                                            webpage              0.711215   
                                              HTML,              0.700154   
                                            content              0.694945   
                                             markup              0.691843   
                                               Html              0.686390   
                                                css              0.683201   
                                               tags              0.676316   
                                        javascript,              0.676179   
                                              xhtml              0.674844   
                                        javascript.              0.674052   
                                                php              0.673596   
                                               text              0.673089   
                                               page              0.663661   
                                                xml              0.662498   
                                             iframe              0.661740   
                                             jquery              0.652209   
                                                tag              0.651575   
                                           webpage,              0.647792   
                                           content,              0.644945   
                                              .html              0.641437   
                                               aspx              0.638099   
                                               ajax              0.637875   
                                              html?              0.633876   
                                                jsp              0.631024   
                                              tags,              0.624686   
                                           textarea              0.624658   
                                           webpage.              0.624080   
                                                pdf              0.622019   
                                              page,              0.620723   
                                           contents              0.617092   
                                                 JS              0.615214   
                                              text,              0.613630   
                                               form              0.613238   
                                               css.              0.612103   
 Enter word or sentence (EXIT to break): android   
   
 Word: android  Position in vocabulary: 495   
   
                                               Word       Cosine distance   
 ————————————————————————   
                                            Android              0.857668   
                                           android.              0.814769   
                                           android,              0.810972   
                                             iphone              0.744005   
                                         blackberry              0.719089   
                                           Android.              0.718010   
                                           androids              0.693840   
                                           Android,              0.687129   
                                           emulator              0.680624   
                                               java              0.672503   
                                           android?              0.664975   
                                             phone.              0.661444   
                                         Blackberry              0.658390   
                                            andriod              0.653750   
                                          android’s              0.648015   
                                           phonegap              0.641884   
                                          emulator.              0.640713   
                                             iPhone              0.639118   
                                                ios              0.639108   
                                             tablet              0.636023   
                                             Iphone              0.635636   
                                               j2me              0.632937   
                                              phone              0.630827   
                                             mobile              0.624277   
                                             device              0.621280   
                                                apk              0.619061   
                                             phone,              0.611067   
                                                ICS              0.610646   
                                             adroid              0.606088   
                                          emulator,              0.604733   
                                           activity              0.603200   
                                                2.2              0.602148   
                                            eclipse              0.599507   
                                          Honeycomb              0.597581   
                                            device.              0.597449   
                                                IOS              0.597157   
                                          honeycomb              0.596399   
                                            iphone.              0.595373   
                                                sdk              0.592870   
                                                iOS              0.591931  
 
 

参考：https://groups.google.com/forum/#!topic/word2vec-toolkit/lxbl_MB29Ic Tomas Mikolov 用了9个小时进行训练WIKI数据。

./word2vec -train train100B.txt -read-vocab voc -output vectors.bin -cbow 1 -size 300 -window 5 -negative 3 -hs 0 -sample 1e-5 -threads 12 -binary 1 -min-count 10

除了上面的语料，Tomas Mikolov，在他的word2vec主页上还提供了WIKI语料的链接，以及XML文件预处理的批文件。
使用方式为：perl wikifil.pl enwik9 > text (下载地址：http://mattmahoney.net/dc/textdata.html)

你可能感兴趣的:(word2vec使用说明)

HarmonyOS开发实战（ Beta5.0）搜索框热搜词自动切换让开，我要吃人了 OpenHarmony HarmonyOS 鸿蒙开发 harmonyos 华为鸿蒙移动开发鸿蒙系统前端开发语言
鸿蒙HarmonyOS开发往期必看：HarmonyOSNEXT应用开发性能实践总结最新版！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）介绍本示例介绍使用TextInput组件与Swiper组件实现搜索框内热搜词自动切换。效果图预览使用说明页面顶部搜索框内热搜词条自动切换，编辑搜索框时自动隐藏。实现思路使用TextInput实现搜索框TextInput({te
【数据分析】利用Python+AI+工作流实现自动化数据分析-全流程讲解 z千鑫 AI领域 FLASK基础 Python基础人工智能数据分析 python AI编程 AI工作流 ai 自动化
文章目录一、为什么要用AI进行自动化分析？二、AI自动化分析场景三、编写Python脚本示例1、用flask实现让AI分析数据内容使用说明：示例2、用定时任务的方式，定时处理AI数据代码说明四、把AI分析的数据，放到AI工作流中做展示五、openAI的key结尾在信息爆炸的时代，如何快速获取有价值的洞察力成为了各行各业的迫切需求。传统的内容分析方法往往又耗时又费力，并且难以满足快速变化的市场需求。
[HarmonyOS Next示例代码] 鸿蒙UI开发 - 组件动态创建 xiaohai_09 HarmonyOS Next UI开发 harmonyos 鸿蒙
鸿蒙UI开发-组件动态创建源码下载地址介绍本示例介绍了在声明式UI中实现组件动态创建的方法效果图预览主页面广告关闭弹窗使用说明进入应用后，广告组件随即被动态创建。其分为两种，分别为图片广告与视频广告。实现思路构建广告组件。源码参考AdBuilder.ets。模拟从云端初始化卡片列表，根据云端数据生成普通卡片对象和广告卡片对象。源码参考代码可参考MainPage.ets中的aboutToAppear
JAVA常用校验注解小卡车555 java
引入依赖org.springframeworkspring-boot-starter-validation2.6.13相关注解及使用说明注解描述@AssertFalse所注解的元素必须是Boolean类型，且值为false@AssertTrue所注解的元素必须是Boolean类型，且值为true@DecimalMin验证Number和String对象是否大于等于指定的值，支持小数@DecimalM
比特彗星 (BitComet) 下载及使用说明 HieuNM59 网络 windows
BT下载又被称为变态下载，通过种子文件或者磁链可以和其他用户交换数据，下载的同时也上传数据，所有用户都速度飞快！BitComet(比特彗星)完美支持各种主流BT下载协议，保证安心下载。该版本已授权，可以使用全部功能。使用说明：1、将压缩文件解压到固定位置，不要随意移动。2、解压后，双击start_BitComet.bat来运行软件关于端口堵塞解决办法：前提要有个外网IP，如果没有就给运营商打电话，
【RKNN系列】常用函数：使用RGA加速画框 jcfszxc RKNN系列 Rockchip rknn-toolkit2 c++RKNN
以下是针对convert_and_draw_rectangle函数的详细使用说明：convert_and_draw_rectangle函数功能在给定的图像数据上使用RGA（RockchipGraphicsAcceleration）绘制矩形框。语法IM_STATUSconvert_and_draw_rectangle(uint8_t*dst_data,intwidth,intheight,const
python socket多人聊天程序 Q3493620082 服务器运维 python 网络
项目名称：SecretChat秘密聊天版本：v1.0稳定版使用说明在server_config.json文件中设置服务器的IP和端口，可以是本地，也可以是云服务器。运行server.exe开启聊天服务器。打开client.exe消息发送端，输入服务器的IP和端口，即可连接服务器发送消息。打开messages.exe消息接收端，输入服务器的IP和端口，即可连接服务器接收聊天消息。可以选择将你的服务器
如何用Kotlin实现MVP架构的Android快速开发框架？ 2401_84132496 程序员 android kotlin 架构
下拉刷新和上拉加载更多空页面在断网情况下加载缓存网络请求错误并重新加载基于Kotlin的使用说明（Java的使用具体参考java版本的demo）导入依赖在根目录中的build.gradle文件中加入maven{url“https://jitpack.io”}在应用下的build.gradle文件中加入在自定义的Application类中的onCreate方法中初始化CommonLibrary//初
hr标签和注释的总结 Rashore web零基础学习 html css html5
hr标签的定义与使用说明定义以及使用说明标签定义HTML页面中的主题变化（比如话题的转移），并显示为一条水平线。元素被用来分隔HTML页面中的内容（或者定义一个变化）。实例hr标签的使用HTMLHTML是用于描述web页面的一种语言。CSSCSS定义如何显示HTML元素。html中注释的使用定义注释标签用来在源文档中插入注释。注释不会在浏览器中显示。使用范围我们可使用注释对您的代码进行解释，这样做
快速上手基于 BaGet 的脚本自动化构建 .net 应用打包 ChaITSimpleLove .NET Core 跨平台自动化 .net 运维 BaGet dotnet pack
脚本自动化打包.net应用1.BaGet介绍1.2主要特点1.3使用说明1.3.1安装与部署1.3.1.1Docker部署1.3.1.2手动部署1.3.1.3配置2.应用举例2.1推送包2.2下载包3.配置信息3.1基本配置3.2其他配置选项4.脚本编写4.1编写PowerShell脚本4.2编写Bash脚本4.3运行脚本总结本篇文章我们介绍了如何使用脚本，自动化构建.net应用的nuget包，并
FPGA随记——OSERDESE2和IERDESE2 一口一口吃成大V FPGA随记 fpga开发
http://t.csdnimg.cn/yNvxf---看这个篇吧这个挺好的OSERDESE2模块要求复位信号高电平有效，并且需要将异步复位信号同步到串行时钟域。除了用原语调用，还可以用HighSpeedSelectIOWizard这个IP进行调用针对具体selectIO这个IP的使用和介绍，参考这个文档：XilinxSelectIOIP使用说明(一)_selectiobitslip-CSDN博客
纯血鸿蒙APP实战开发——评论组件案例实现「已注销」 harmonyOS 鸿蒙开发移动开发 harmonyos 前端界面布局移动开发 ui
介绍评论组件在目前市面上的短视频app中是一种很常见的场景，本案例使用【全局状态保留能力弹窗】来实现评论组件。点击评论按钮弹出评论组件，点击空白处隐藏该组件，再次点击评论按钮则会恢复上一次浏览的组件状态。效果图预览使用说明点击评论按钮打开评论组件。上下滑动可以浏览评论。点击空白处或者关闭按钮可以关闭评论组件。再次点击评论按钮则恢复上一次浏览评论位置。实现思路使用GlobalStateDialogM
HTML5 ＜video＞常用属性、时间、方法及基础使用说明 Wu Youlu java 前端 javascript
简介HTML元素用于在文档中嵌入媒体播放器，用于支持文档内的视频播放。标签也可用于播放音频，但播放音频用更加适合。元素支持三种视频格式：MP4,WebM,和Ogg:MP4=带有H.264视频编码和AAC音频编码的MPEG4文件WebM=带有VP8视频编码和Vorbis音频编码的WebM文件Ogg=带有Theora视频编码和Vorbis音频编码的Ogg文件基础写法Yourbrowserdoesnot
C语言结构体struct和联合体的union使用说明，以及优缺点艾格北峰嵌入式C语言 c语言开发语言
C语言结构体struct和联合体的union使用说明，以及优缺点1.结构体和联合体C语言中，结构体和联合体都是自定义数据类型，是由不同类型的数据成员组成的。它们的区别在于：结构体（struct）：是由多个不同类型的数据成员组成的复合数据类型。它的每个成员都有自己的存储空间，这些成员在内存中是按照声明顺序依次存放的。结构体的大小取决于各个成员的大小以及对齐方式。联合体（union）：也是由多个不同类
驾校计算机计时培训管理系统,计时培训系统使用说明-驾校 AMAX杨威驾校计算机计时培训管理系统
《计时培训系统使用说明-驾校》由会员分享，可在线阅读，更多相关《计时培训系统使用说明-驾校(6页珍藏版)》请在人人文库网上搜索。1、计时培训系统使用说明-驾校壹学车计时培训管理系统-驾校操作指南壹学车计时培训管理系统-驾校操作指南壹学车计时培训管理系统-驾校操作指南目录1.登陆.32.首页.42.1运营概览.42.2资料管理.53.驾校管理.53.1驾校管理.53.2分校管理.73.3教学区域管理
【Spring Boot】 SpringBoot自动装配-Condition 从零开始的-CodeNinja之路 spring boot 后端 java
目录一、前言二、定义[email protected]三、使用说明3.1创建项目3.1.1导入依赖3.1.2添加配置信息3.1.3创建User类3.1.4创建条件实现类3.1.5修改启动类3.2测试3.2.1当user.enable=false3.2.2当user.enable=true3.3小结四、改进4.1创建注解4.2修改User
新版视频通话照妖镜：多个模板内置生活家小毛 php
新版视频通话照妖镜源码：内置多个模板，方便拍照并发送至指定邮箱新版视频通话照妖镜源码内置了多个模板，可供选择。通过该源码，对方打开即可进行视频通话，并且能够方便地拍照并将照片发送至指定的邮箱。使用说明：使用PHP7.2版本；必须开启HTTPS和SSL证书协议，推荐使用宝塔面板自带的免费SSL，同时开启强制HTTPS。否则生成的链接将无法进行拍照功能；新增了邮箱通知功能，方便第一时间查看照片；“li
预训练语言模型的前世今生 - 从Word Embedding到BERT 脚步的影子语言模型 embedding bert
目录一、预训练1.1图像领域的预训练1.2预训练的思想二、语言模型2.1统计语言模型2.2神经网络语言模型三、词向量3.1独热（Onehot）编码3.2WordEmbedding四、Word2Vec模型五、自然语言处理的预训练模型六、RNN和LSTM6.1RNN6.2RNN的梯度消失问题6.3LSTM6.4LSTM解决RNN的梯度消失问题七、ELMo模型7.1ELMo的预训练7.2ELMo的Fea
Python Flask 上下文详解 Wu_Candy Python flask python
Step1：什么是上下文上下文相当于一个容器，保存了Flask程序运行过程中的一些信息。Flask中有两种上下文，请求上下文(request和session)和应用上下文(current_app和g)。Step2：上下文的使用说明request：请求对象，封装了客户端发出的http请求中的内容session：用户会话，用于存储请求之间需要‘记住‘的值的词典current_app：当前激活程序的程序
pdf转换html器免费版,pdf转换成html转换器一十马 pdf转换html器免费版
这里给大家带来的是一款PDF格式转换工具，它可以将PDF格式的文件转换为html文件，这样我们就可以在浏览器中直接浏览文件的内容了。它支持批量转换，并且界面简单，功能稳定，需要的话就赶快来下吧！使用说明编辑提示：安装前需要保证网络连接通畅。1、运行软件，打开PDF转换器，点击进入软件，选择您需要使用的模式，如果需要将pdf文件转化为HTML文档，点击左侧的"文件转HTML"模式。2、点击左上角的的
【大模型实战篇】大模型周边NLP技术回顾及预训练模型数据预处理过程解析（预告）源泉的小广场大模型自然语言处理人工智能大模型 LLM 预训练模型数据预处理高质量数据
1.背景介绍进入到大模型时代，似乎宣告了与过去自然语言处理技术的结束，但其实这两者并不矛盾。大模型时代，原有的自然语言处理技术，依然可以在大模型的诸多场景中应用，特别是对数据的预处理阶段。本篇主要关注TextCNN、FastText和Word2Vec等低成本的自然语言处理技术，如何在大模型时代发挥其余热。今天先抛出这个主题预告，接下来会花些时间，逐步细化分析这些周边技术的算法原理、数学分析以及大模
Java高级教程秘籍-13章_IO流下 AdaCoding java python 开发语言
Java高级教程秘籍-13章_IO流下六、其它的流的使用1.标准的输入输出流：2.打印流：3.数据流：七、对象流的使用1.对象流：2.作用：3.对象的序列化机制：4.序列化代码实现：5.反序列化代码实现：6.实现序列化的对象所属的类需要满足：八、RandomAccessFile的使用1.随机存取文件流：RandomAccessFile2.使用说明：3.典型代码九、Path、Paths、Files的
自然语言处理系列五十一》文本分类算法》Python快速文本分类器FastText 陈敬雷-充电了么-CEO兼CTO 算法人工智能大数据自然语言处理分类 python chatgpt 人工智能 ai 机器学习
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十一Python开源快速文本分类器FastText》算法原理FastText和Word2vec的区别FastText代码实战总结自然语言处理系列五十一Python开源快速文本分类器FastText》算法原理自然语言处理(N
Notepad++的高级功能及插件使用说明（含安装包） LQS2020 notepad++数据库
Notepad++的高级功能和插件使得这款文本编辑器更加强大和灵活。以下是一些常用的高级功能和插件的使用说明：最新安装包免费下载地址1.高级功能1.1多文档和多视图水平/垂直分屏：你可以通过“查看”->“分屏”选项来将编辑区分成多个视图，支持水平或垂直分屏，这对于同时查看和编辑多个文件非常有用。拖放：可以通过拖动文件标签来重新排列打开的文件，或者将文件拖到Notepad++窗口中打开。1.2代码折
每天一个数据分析题（五百二十）- 词嵌入模型跟着紫枫学姐学CDA 数据分析题库数据分析数据挖掘
关于词嵌入模型，以下说法错误的是？A.GloVe模型属于词嵌入模型B.Word2Vec模型属于词嵌入模型C.词袋模型属于词嵌入模型D.词嵌入模型基本假设是出现在相似的上下文中的词含义相似数据分析认证考试介绍：点击进入数据分析考试大纲下载题目来源于CDA模拟题库点击此处获取答案
拼多多超级红包入口，拼多多超级红包领取方法使用教程！高省APP
拼多多超级红包入口在哪里？拼多多新老用户专享福利“超级红包”来了，每天都能免费领取超级红包，最高可获得88.88元大红包。下面就来分享下“拼多多超级红包入口”，有需要的朋友快去领取吧！使用微信扫描上方二维码进入。因为在浏览器中是无法进入超级红包页面的，必须在微信小程序中进入。微信扫码后会自动跳转至微信小程序“超级红包”页面。拼多多超级红包使用说明：1、每天都可以免费领取到“拼多多超级红包”，这里建
CnOpenData公共数据专区上新 | 中文金融情感词典 CnOpenData 数据列表深度学习 python 自然语言处理
中文金融情感词典一、数据简介姜富伟教授及其研究团队于2021年第4期《经济学(季刊)》发表了《媒体文本情绪与股票回报预测》，并在文中介绍了一项极富创造力的金融学科研究成果——中文金融情感词典。 “本文在LoughranandMacDonald（2011）词典的基础上通过人工筛选和word2vec算法扩充,构建了一个更新更全面的中文金融情感词典。我们使用该情感词典计算我国财经媒体文本情绪指标,
SpringBoot项目集成数据脱敏（密码加密）功能明明在干嘛 spring boot 后端 java 数据脱敏 jasypt AES
代码连接【https://gitee.com/pengmqqq/sensitive-data-encryption】介绍后端敏感数据加密的一些解决方案，包括：配置文件敏感数据加解密前端传输敏感数据加解密数据库获取的敏感数据加解密软件架构配置文件数据脱敏：Jasypt+AES前后端传输以及数据库存储数据脱敏：AOP+AES使用说明配置文件数据脱敏将需要脱敏的数据进行加密之后再放入配置文件（注意要使用
2024年Python最新整理的免费股票数据API接口 309556666 服务器 servlet 运维股票数据API 股票行情API 技术数据量化交易
沪深A股基础实时数据API数据来源：麦蕊智数请求方式：Get（直接在浏览器打开就可以看到返回的数据）数据格式：标准Json格式[{},…{}]数据时效：实时更新API说明文档：https://www.mairui.club/hsdata.html实时交易数据使用说明：1、下方所有API接口连接均可直接点击打开，在浏览器中即可获取返回的数据；2、下方所有API接口Url链接中的000001均为股票代
最新最全的免费股票数据接口--沪深A股实时交易数据API接口（一） 309556666
沪深A股基础实时数据API数据来源：麦蕊智数请求方式：Get（直接在浏览器打开就可以看到返回的数据）数据格式：标准Json格式[{},...{}]数据时效：实时更新API说明文档：https://www.mairui.club/hsdata.html实时交易数据使用说明：1、下方所有API接口连接均可直接点击打开，在浏览器中即可获取返回的数据；2、下方所有API接口Url链接中的000001均为股
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在