闲人勿-

数据挖掘基础-1.文本相似度

一、文本相似度

相似度度量指的是计算个体间相似程度，一般使用距离来度量，相似度值越小，距离越大，相似度值越大，距离越小。在说明文本相似度概念和计算方式之前，先回顾下余弦相似度。

1.余弦相似度

衡量文本相似度最常用的方法是使用余弦相似度。

– 空间中，两个向量夹角的余弦值作为衡量两个个体之间差异的大小

– 余弦值接近1，夹角趋于0，表明两个向量越相似

– 余弦值接近0，夹角趋于90，表明两个向量越不相似

2.计算文本相似度

度量两篇文文章的相似度流程如下：

思路：1、分词；2、列出所有词；3、分词编码；4、词频向量化；5、套用余弦函数计量两个句子的相似度。

下面我们介绍使用余弦相似度计算两段文本的相似度的具体例子。

http://www.cnblogs.com/airnew/p/9563703.html

句子A：这只皮靴号码大了。那只号码合适。
句子B：这只皮靴号码不小，那只更合适。
1、分词：
使用结巴分词对上面两个句子分词后，分别得到两个列表：
listA=[‘这‘, ‘只‘, ‘皮靴‘, ‘号码‘, ‘大‘, ‘了‘, ‘那‘, ‘只‘, ‘号码‘, ‘合适‘]
listB=[‘这‘, ‘只‘, ‘皮靴‘, ‘号码‘, ‘不小‘, ‘那‘, ‘只‘, ‘更合‘, ‘合适‘]

2、列出所有词，将listA和listB放在一个set中，得到：
set={'不小', '了', '合适', '那', '只', '皮靴', '更合', '号码', '这', '大'}
将上述set转换为dict，key为set中的词，value为set中词出现的位置，即‘这’:1这样的形式。
dict1={'不小': 0, '了': 1, '合适': 2, '那': 3, '只': 4, '皮靴': 5, '更合': 6, '号码': 7, '这': 8, '大': 9}，可以看出“不小”这个词在set中排第1，下标为0。

3、将listA和listB进行编码，将每个字转换为出现在set中的位置，转换后为：
listAcode=[8, 4, 5, 7, 9, 1, 3, 4, 7, 2]
listBcode=[8, 4, 5, 7, 0, 3, 4, 6, 2]
我们来分析listAcode，结合dict1，可以看到8对应的字是“这”，4对应的字是“只”，9对应的字是“大”，就是句子A和句子B转换为用数字来表示。

4、对listAcode和listBcode进行oneHot编码，就是计算每个分词出现的次数。oneHot编号后得到的结果如下：
listAcodeOneHot = [0, 1, 1, 1, 2, 1, 0, 2, 1, 1]
listBcodeOneHot = [1, 0, 1, 1, 2, 1, 1, 1, 1, 0]
下图总结了句子从分词，列出所有词，对分词进行编码，计算词频的过程

5、得出两个句子的词频向量之后，就变成了计算两个向量之间夹角的余弦值，值越大相似度越高。
listAcodeOneHot = [0, 1, 1, 1, 2, 1, 0, 2, 1, 1]
listBcodeOneHot = [1, 0, 1, 1, 2, 1, 1, 1, 1, 0]

根据余弦相似度，句子A和句子B相似度很高。

下面讲解如何通过一个预料库，提取出一篇文章的关键词。

二、TF-IDF

关键词可以让人快速了解一篇文章，根据上面分析，如果两篇文章的关键词是相似的，那么两篇文章就很可能是相似的。【当然，读者可能已经发现，本篇博客讲解的是通过字面来衡量两篇文章的相似度，而非通过字义角度】通常，使用TF-IDF值来度量一个词的重要性，该值越大，说明词越能描述文章的意思，下面具体讲解。

1.词频TF

如果一个词很重要，在文章中就会多次出现，这可以用词频—TF（Term Frequency）来衡量。

计算公式：

词频（TF） = 某个词在文章中出现的次数/文章的总词数

或者

词频（TF） = 某个词在文章中出现的次数/该文出现次数最多的词的出现次数

两个公式的区别是：第二个公式可以将不同词的TF值拉的更开。举个例子，假设某篇文章共1000个词，A出现了10次，B出现了11次，A和B通过公式1计算出的TF值差距很小，假设出现次数最多的词C出现的次数是100，A和B通过公式2计算出的TF值差距相比更大一些，更有利于区分不同的词。

在文章中，还存在“的”“是”“在”等常用词，这些词出现频率较高，但是对描述文章并没有作用，叫做停用词（stop words），必须过滤掉。同时如果某个词在语料库中比较少见，但是它在某文章中却多次出现，那么它很可能也反映了这篇文章的特性，这也可能是关键词，所以除了计算TF，还须考虑反文档频率（idf，inverse document frequency）。

2.反文档频率IDF

IDF的思想是：在词频的基础上，赋予每个词权重，进一步体现该词的重要性。最常见的词（“的”、“是”、“在”）给予最小的权重，较常见的词（“国内”、“中国”、“报道”）给予较小的权重，较少见的词（“养殖”、“维基”）给与较大的权重。

计算公式：

IDF = log(词料库的文档总数/包含该词的文档数+1)

TF-IDF与一个词在文档中的出现次数成正比，与包含该词的文档数成反比。值越大就代表这个词越关键。

3.应用1-相似文章

使用TF-IDF算法，可以找出两篇文章的关键词；可以设置一个阀值，超过该值的认定为关键词，或者取值排名靠前的n个词作为关键词。

每篇文章各取出若干个关键词（比如20个），合并成一个集合，计算每篇文章对于这个集合中的词的词频（为了避免文章长度的差异，可以使用相对词频，即除以对应文章的总词数，相当于对词频进行了标准化处理）。

生成两篇文章各自的词频向量，计算两个向量的余弦相似度，值越大就表示越相似。

4.应用2-自动摘要

文章的信息都包含在句子中，有些句子包含的信息多，有些句子包含的信息少。"自动摘要"就是要找出包含信息最多的句子。句子的信息量用"关键词"来衡量。如果包含的关键词越多，就说明这个句子越重要。

只要关键词之间的距离小于“门槛值”，就认为处于同一个簇之中，如果两个关键词距离有5个词以上（值可调整），就把这两个关键词分在两个不同的簇中。

对于每个簇，计算它的重要性分值。

例如：其中的某簇一共有7个词，其中4个是关键词。因此，它的重要性分值等于 ( 4 x 4 ) / 7 =2.3

简化做法：不再区分"簇"，只考虑句子包含的关键词。

三、TF-IDF的Python实现

下面使用Python计算TF-IDF，前提是有一个预料库。这里总共有508篇文章，每篇文章中，都已经提前做好了分词。

1.计算IDF

思路：将语料库中的每篇文章放入各自的set集合中，再设定一个大的set，将之前各篇文章的set集合依次放入这个大的set中，得到的即每个词以及词出现的次数，词对应的次数即拥有该词的文章数。

1）convert.py

import os
import sys

files_dir = sys.argv[1]    //获得输入的参数，即语料库路径

for file_name in os.listdir(files_dir):     //函数会返回目录下面的所有文件名称
    file_path = files_dir + file_name
    file_in = open(file_path, 'r') //将文章内容读取到file_in中，即获得输入流
    tmp_list = []    //将每个文章的每一段内容都放在数组tmp_list中
    for line in file_in: //一行一行地读取
        tmp_list.append(line.strip())
    print '\t'.join([file_name, ' '.join(tmp_list)])  //文件名和文件内容按照tab符号分割，每个文章内部的每一段按照空格连接起来，最后会只形成一段。

[root@master 5_codes]# python convert.py /usr/local/src/code/5_codes/input_tfidf_dir/ > convert.data #将内容输出到一个文件中
[root@hadoop-senior01 5_codes]# head -1 convert.data //可以内容，验证结果

这个时候，即将所有文章整合到一个convert.data文件中，每一段都代表一篇文章的词，且词不重复。

2）map.py

通过conver.py，获取到了所有文章的词汇，接下就需要将所有的词取出来，并且存储到一个大的set集合中，计算拥有该词的文章数。为此，我们将通过map和reduce两个步骤分别进行，目的是为了使程序能够通过hadoop的MapReduce进行分布式运算（当语料库非常大的时候，这是非常有必要的，如果仅仅是为了实践如何计算TF-IDF，也可以将这两步合并成一步，通过一台电脑进行计算）。

import sys

for line in sys.stdin:   //map是通过标准输入读到数据，将convert.data内容读进去
    ss = line.strip().split('\t') //ss为每篇文章的名称和属于这篇文章的所有词
    file_name = ss[0].strip()
    file_context = ss[1].strip()
    word_list = file_context.split(' ') //将文本内容按照空格分割
    word_set = set()
    for word in word_list: #这步是为了去重
        word_set.add(word)
    for word in word_set:
        print '\t'.join([word, '1']) //这里输出的是每个文章的不同的字的，只统计是否有，为了给red中的计算做准备

[root@master 5_codes]# cat convert.data | python map.py >map.data

3）red.py

经过map后，再通过reduce计算词的文章数。这里需要注意的是，将map.data的数据输入到red.py前，需要先进行排序，在hadoop的MapReduce中，这个步骤将会自动完成，但是在使用MapReduce前，我们本地验证时候将通过sort命令进行排序。

import sys
import math

current_word = None
doc_cnt = 508 //文章总篇数
sum = 0

for line in sys.stdin:
        ss = line.strip().split('\t')
        if len(ss)!=2: //判断格式是否是正确的
                continue
        word,val = ss
        if current_word == None:
                current_word = word
        if current_word != word: //如果读进来的单词和之前的不一致，说明之前的已经读完，可以开始计算idf值
                idf_score = math.log(float(doc_cnt)/(float(sum+1)))
                print '\t'.join([current_word,str(idf_score)])
                current_word = word
                sum = 0
        sum = sum+1
//这里要计算最后一个词的idf词
idf_score = math.log(float(doc_cnt)/(float(sum+1)))
print '\t'.join([current_word,str(idf_score)])

[root@hadoop-senior01 5_codes]# cat map.data | sort -k1 | python red.py > myred.tmp
[root@hadoop-senior01 5_codes]# cat myred.tmp | sort -k2 -nr > result.data 按照分值，从大到小排序

2.计算TF

1）mp_tf.py

import sys
word_dict = {}
idf_dict = {}
def read_idf_func(idf): #读取idf值文件的函数
        with open(idf,'r') as fd:
                for line in fd:
                        kv=line.strip().split('\t')
                        idf_dict[kv[0].strip()] =float(kv[1].strip())
        return idf_dict
def mapper_func(idf):
        idf_dict = read_idf_func(idf)
        for line in sys.stdin:
                ss = line.strip().split('\t')
                fn = ss[0].strip()
                fc = ss[1].strip()
                word_list = fc.split(' ')
                cur_word_num = len(word_list)
                for word in word_list:
                        if word not in word_dict:
                                word_dict[word]=1
                        else:
                                word_dict[word]+=1
                for k,v in word_dict.items():
                        if k!='':#判断key是否为空格
                                print fn, k, float(v/float(cur_word_num)*idf_dict[k])


if __name__ == "__main__": #函数模块化，
    module = sys.modules[__name__]
    func = getattr(module, sys.argv[1])
    args = None
    if len(sys.argv) > 1:
        args = sys.argv[2:]
    func(*args)

[root@master 5_codes]# cat convert.data | python mp_tf.py mapper_func result.data

这里需要注意，在上面的代码中，用 if k!='':对key进行了判断，如果不进行判断，则会出现如下的错误。

原因是在形成convert.data的时候出了问题，在某个文章中两个单词之间存在两个空格。而计算出的result.data中并不包含空格的idf值，因为在计算这个idf前，通过如下代码将空格过滤掉了。

if len(ss)!=2: //判断格式是否是正确的
    continue

解决的办法就是忽略文章中的空格，因此加入了if k!='':，若是空格就忽略掉。

四、LCS

1.概念

最长公共子序列（Longest Common Subsequence），一个序列S任意删除若干个字符得到的新序列T，则T叫做S的子序列。

两个序列X和Y的公共子序列中，长度最长的那个，定义为X和Y的最长公共子序列。

- 字符串12455与245576的最长公共子序列为2455

- 字符串acdfg与adfc的最长公共子序列为adf

最长公共子串（Longest Common Substring）与最长公共子序列不同的是，最长公共子串要求字符相邻。

2.作用

1）生物学家常利用最长的公共子序列算法进行基因序列比对，以推测序列的结构、功能和演化过程。

2）描述两段文字之间的“相似度”。

辨别抄袭，对一段文字进行修改之后，计算改动前后文字的最长公共子序列，将除此子序列外的部分提取出来，该方法判断修改的部分。

3）可以推荐不同类型的事物，增强用户体验。

3.求解—暴力穷举法

• 假定字符串X，Y的长度分别为m，n；

• X的一个子序列即下标序列{1,2，……，m}严格递增子序列，因此，X共有2的m次方个不同子序列；同理，Y有2的n次方个不同子序列;（每个字符都对应着删除或者不删除，所以可以有如上的不同子序列个数）

• 穷举搜索法时间复杂度O(2的m次方 ∗ 2的n次方);

• 对X的每一个子序列，检查它是否也是Y的子序列，从而确定它是否为X和Y的公共子序列，并且在检查过程中选出最长的公共子序列，也就是说要遍历所有的子序列。

• 复杂度高，不可用！

4.求解—动态规划

• 字符串X，长度为m，从1开始数；

• 字符串Y，长度为n，从1开始数；

• Xi=即X序列的前i个字符（1<=i<=m）(Xi计作“字符串X的i前缀” )

• Yj=即Y序列的前i个字符（1<=j<=n）(Yj计作“字符串Y的j前缀” )

• LCS(X,Y)为字符串X和Y的最长公共子序列，即为Z=

• 如果xm = yn（最后一个字符相同），则：Xm与Yn的最长公共子序列Zk的最后一个字符肯定是xm(=yn)，所以zk=xm=yn，因此有LCS(Xm,Yn)= LCS(Xm-1,Yn-1)+xm。

• 如果xm ≠ yn，则LCS(Xm, Yn)=LCS(Xm−1, Yn)，或者LCS(Xm, Yn)=LCS(Xm, Yn−1)

• 即LCS(Xm, Yn)=max{LCS(Xm−1, Yn), LCS(Xm, Yn−1)}

使用二维数组C[m,n]，C[i,j]记录序列Xi和Yj的最长公共子序列的长度，因此得到C[m,n]的值时，即得到最长公共子序列的长度。当i=0或j=0时，空序列是Xi和Yj的最长公共子序列，故C[i,j]=0。

举例：计算X= 和Y=的最长公共子串。按照公式逐渐递推到X和Y的首个字母，接着从两个序列的首个字母开始回溯，最终计算出结果。具体过程如下：

X0=0或Y0=0时，LCS=0，因此第一行和第一列都是0。接下来从（1,1）位置开始，按照从坐到右，上到下的顺序，一行一行地判断。

判断X1=A和Y1=B不一样，所以LCS(X1,Y1)=max{LCS(X0,Y1),LCS(X1,Y0)}=0。

接下来判断（1,2）位置的LCS值，根据公式，由于A和B元素不同，因此调用第3个公式，即取该点左边和上面点的最大值，由于此时最大值都是0，所以（1,2）位置的LCS值为0；同理一直到（1,4），由于A和A相同，因此调用第2个公式，即左上角的LCS值+1，因此可以得到C(1,2)=1。

以此类推，最终就可以得到C(7,6)的值，该值为4，即两个序列的最长公共子序列为4。

5.LCS的Python实现

首先准备一个输入数据，该文件中每行有两句，中间用制表符分隔。

1）map.py

import sys

def cal_lcs_sim(first_str, second_str):
    len_vv = [[0] * 50] * 50         // 50*50的矩阵，保证够大就行
    first_str = unicode(first_str, "utf-8", errors='ignore') //设置支持中文，否则会出现乱码
    second_str = unicode(second_str, "utf-8", errors='ignore')

    len_1 = len(first_str.strip())
    len_2 = len(second_str.strip())
    //从左到右，从上到下计算最长公共子串
    for i in range(1, len_1 + 1):
        for j in range(1, len_2 + 1):
            if first_str[i - 1] == second_str[j - 1]: //如果相等，则对角线的值+1，这里i,j的范围从1到len+1，是为了防止在计算[0][0]时，出现越界。
                len_vv[i][j] = 1 + len_vv[i - 1][j - 1]
            else:
                len_vv[i][j] = max(len_vv[i - 1][j], len_vv[i][j - 1])
    return float(float(len_vv[len_1][len_2] * 2) / float(len_1 + len_2)) //相似度公式可以自定义

//计算框架的入口，接收输入的文本数据
for line in sys.stdin:
    ss = line.strip().split('\t')
    if len(ss) != 2:
        continue
    first_str = ss[0].strip()
    second_str = ss[1].strip()
    sim_score = cal_lcs_sim(first_str, second_str)
    print '\t'.join([first_str, second_str, str(sim_score)])

2）run.sh

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"
STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar" #这是hadoop1.0采用的hadoop-streaming的jar包
#HADOOP_CMD="/usr/local/src/hadoop-2.6.1/bin/hadoop"
#STREAM_JAR_PATH="/usr/local/src/hadoop-2.6.1/share/hadoop/tools/lib/hadoop-streaming-2.6.1.jar" #这是hadoop2.0采用的hadoop-streaming的jar包


INPUT_FILE_PATH_1="/lcs_input.data"
OUTPUT_PATH="/lcs_output"

$HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH

# Step 1.

$HADOOP_CMD jar $STREAM_JAR_PATH \
    -input $INPUT_FILE_PATH_1 \
    -output $OUTPUT_PATH \
    -mapper "python map.py" \
    -jobconf "mapred.reduce.tasks=0" \
    -jobconf "mapred.job.name=mr_lcs" \
    -file ./map.py

最终在hdfs上可以看到生成了/lcs_output的文件夹，查看内部文件，检查结果。

Harmony------应用程序框架小码狼 Harmony 学习 harmonyos arkts 鸿蒙
1.应该程序框架基础多Module设计机制模块化开发：一个应用多个功能，每个功能可作为一个模块，Module中可以包含源代码、资源文件、第三方库、配置文件等，每一个Module可以独立编译，实现特定的功能支持多设备：每个Module都会标注所支持的设备类型，可以根据需要组合Module类型ability类型的module：用于实现应用的功能和特性，每个ability类型的module编译后，会生成
Python基础语法（二）：条件、循环与运算符算法工程师y python 开发语言
本篇Python基础语法（二）将深入讲解编程中至关重要的条件判断、循环结构和运算符，它们是实现复杂逻辑的基石。一、条件语句（if-elif-else）条件语句用于根据不同的条件执行不同的代码块。Python中用if、elif（elseif的缩写）和else实现。1.基本语法age=18ifage（大于）、大于10>5→True=大于等于5>=5→True3)and(2<4)→Trueor任一条件为
上传本地项目到GitHub shi_jiaye 笔记 github
一、在GitHub上创建仓库1.点击右上角头像–>点击Yourrepositories2.点击New3.创建仓库网址复制一下，在后面git上传时会用到二、打开GitBash1.cd进入项目所在路径2.输入gitinit在当前项目的目录中生成本地的git管理（当前目录下出现.git文件夹）3.输入gitadd.将项目上的文件添加到仓库中注意add后面有个空格，后面还有个点4.输入gitcommit-
NET Markdown 解析神器--Markdig dotNET跨平台
Markdig是一款快速、强大、符合CommonMark标准、可扩展的.NETMarkdown处理器。Markdig是一个为.NET平台设计的快速、强大且易于扩展的Markdown处理器，它完全符合CommonMark标准。这个库以其卓越的性能和丰富的功能集而著称，包括一个无需正则表达式的快速解析器和HTML渲染器，以及对垃圾回收压力的最小化。核心特性Markdig的一些显著特性包括：1.极速性能
【技术解密】本地部署 DeepSeek-V3：完整指南海棠AI实验室 “智元启示录“-AI发展的深度思考与未来展望人工智能深度学习 DeepSeek
目录引言运行环境需求下载与安装推理部署总结参考资源引言随着人工智能的快速发展，开源大模型正逐步改变着技术生态。DeepSeek-V3作为最新的开源大模型之一，不仅提供了强大的推理能力，同时也支持本地部署，使开发者可以灵活地进行自定义优化。本文将详细介绍如何在本地部署DeepSeek-V3，涵盖系统要求、安装步骤、模型转换及不同推理框架的应用。1.运行环境需求1.1硬件要求✅NVIDIAGPU（支持
JavaScript松散比较与严格比较 hzw0510 前端开发 javascript 开发语言 ecmascript
在JavaScript中，==（双等号）和===（三等号）都用于比较两个值，但它们的比较方式有显著区别。以下是它们的详细对比：1.==（双等号）名称:松散相等（LooseEquality）行为:在比较之前会尝试进行类型转换，将两个值转换为相同类型后再比较。示例:console.log(5=="5")
Markdig：强大的.NET Markdown处理器牧爱颖Kelvin
Markdig：强大的.NETMarkdown处理器markdigAfast,powerful,CommonMarkcompliant,extensibleMarkdownprocessorfor.NET项目地址:https://gitcode.com/gh_mirrors/ma/markdig项目基础介绍和主要编程语言Markdig是一个快速、强大且符合CommonMark标准的可扩展Markd
【DeepSeek应用】本地部署deepseek模型后，如何在vscode中调用该模型进行代码撰写，检视和优化？ AndrewHZ 深度学习新浪潮 AI算法工程师面试指北 vscode 人工智能深度学习 DeepSeek 算法语言模型编辑器
若已成功在本地部署了DeepSeek模型（例如通过vscode-llm、ollama或私有API服务），在VSCode中调用本地模型进行代码撰写、检视和优化的完整流程如下：1.准备工作：确认本地模型服务状态模型服务类型：若使用HTTPAPI服务（如FastAPI/Flask封装），假设服务地址为http://localhost:8000。若使用ollama部署，模型名称为deepseek，调用命令
JAVA中运算符要注意的地方优雅的落幕 Java java 开发语言
本文章主要突出其与C语言的区别1.增量运算符+=-=*=%=1.a+=1.0a+=1.0;a=(int)(a+1.0);这两个等价而不是单纯的等价于a=a+1.02.a=a++publicstaticvoidmain(String[]args){inta=10;a=a++;System.out.println(a);}在上述代码中，a的结果是什么呢？是不是a=11?但其实不是的a=10其实这样赋值
Easyexcel操作文件一诚学编程 java 开发语言
常见问题汇总1.往文件里写数据时，如果没有对应的实体类时，需要创建一个List>来保存一行的数据privateMapconvertToMap(ResultSetrs){LinkedHashMaprow=newLinkedHashMap;for(inti=0;i>data=newArrayListrowData=newHashMap<>();rowData.put(0,"张三");rowData.p
【大模型实战篇】使用GPTQ量化QwQ-32B微调后的推理模型源泉的小广场大模型大模型量化推理模型量化量化 qwq32b gptq量化大模型推理性能调优
1.量化背景之所以做量化，就是希望在现有的硬件条件下，提升性能。量化能将模型权重从高精度（如FP32）转换为低精度（如INT8/FP16），内存占用可减少50%~75%。低精度运算（如INT8）在GPU等硬件上计算效率更高，推理速度可提升2~4倍。我们的任务是，将QwQ-32B微调后的推理模型，也就是bf16的精度，通过量化，压缩到int4。关于QwQ-32B微调，可以参考《利用ms-swift微
从零开始学习鸿蒙系统 Ning.L 华为 harmonyos
1.移动通讯技术的发展-1G时代：1980年摩托罗拉开发出了第一部手机，使用的就是1G的技术。只能进行语音通话。就是大哥大。-2G时代：1996年到1997年出现了第二代GSM、CDMA等数字制式手机，增加了接收数据的功能。2G不仅可以通话，还可以数据收发的功能，最开始的速度只有9K/S。如果我想收发一些图片或者音频技术是不可能的，因为速度太慢了。后来随着互联网多媒体的流行，多了图片，视频等，所以
pytorch中的DataLoader 朋也透william pytorch 人工智能 python
在PyTorch中，DataLoader是一个工具类，用于高效地加载数据并准备数据输入到模型中。它支持数据的批量加载、随机打乱、并行加载和迭代操作，是训练深度学习模型的关键组件之一。1.基本功能DataLoader的主要职责是从数据集中提取样本，并根据设置返回一个批次的数据。它与Dataset类结合使用：Dataset：定义数据集的来源、结构以及如何获取单个数据样本。DataLoader：负责从D
pytorch 天花板级别的知识点你可以不会用但是不能不知道小赖同学啊人工智能 pytorch 人工智能 python
PyTorch的高级知识涵盖了从模型优化到分布式训练的广泛内容，适合已经掌握基础知识的开发者进一步提升技能。以下是PyTorch的高级知识点，详细且全面：1.模型优化与加速1.1混合精度训练定义：使用半精度（FP16）和单精度（FP32）混合训练，减少内存占用并加速计算。实现：使用torch.cuda.amp模块。示例：fromtorch.cuda.ampimportautocast,GradSc
【GPT入门】第23课 langchain serve介绍 *星星之火* 大模型 gpt langchain
【GPT入门】第23课langchainserve介绍1.langchain介绍2.思路3.代码1.langchain介绍langserve是一个用于简化LangChain应用部署的工具，它可以将使用LangChain构建的链（chains）、代理（agents）等组件快速转化为RESTfulAPI服务，下面从多个方面详细介绍它的作用：1.简化部署流程一键部署为API：LangChain可用于构建
【GPT入门】第24课 langfuse介绍 *星星之火* 大模型 gpt
【GPT入门】第24课langfuse介绍1.langfuse概念与作用2.代码3.页面效果4.设计模式1.装饰器模式2.上下文管理模式1.langfuse概念与作用Langfuse是一款专为大规模语言模型（LLM）应用开发设计的开源平台。其作用主要包括以下几个方面：提升开发效率：通过消除LLM应用构建与运维的复杂性，让开发者、运维团队及产品经理能更专注于核心开发与迭代优化，减少在监控与优化方面的
73_Go基础_1_43 方法继承芦苇King 05_Go_01 golang 开发语言后端
packagemainimport"fmt"//1.定义一个"父类"typePersonstruct{namestringageint}//2.定义一个"子类"typeStudentstruct{Person//结构体嵌套，模拟继承性schoolstring}//3.方法func(pPerson)eat(){fmt.Println("父类的方法，吃窝窝头。。")}func(sStudent)stu
【数学基础】第十三课：参数估计 x-jeff 机器学习必备的数学基础机器学习
1.参数估计参数估计是统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看，可分为：点估计。区间估计。1.1.参数估计和假设检验参数估计和假设检验是统计推断的两个组成部分，它们都是利用样本对总体进行某种推断，但推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的方法，总体参数在估计前是未知的。而在假设检验中，则是先对总体参数值提出一个假设，然后利用样本信息去
【深度学习基础】第二十四课：softmax函数的导数 x-jeff 深度学习基础深度学习人工智能
【深度学习基础】系列博客为学习Coursera上吴恩达深度学习课程所做的课程笔记。1.softmax函数softmax函数详解。2.softmax函数的导数假设神经网络输出层的激活函数为softmax函数，用以解决多分类问题。在反向传播时，就需要计算softmax函数的导数，这也就是本文着重介绍的内容。我们只需关注输出层即可，其余层和之前介绍的二分类模型一样，不再赘述。我们先考虑只有一个样本的情况
Hystrix 实现限流\降级\熔断杏花春雨江南 java开发那些事儿 hystrix java 开发语言
Hystrix是一个强大的库，用于处理分布式系统中的延迟和容错问题。它提供了限流、降级和熔断等功能。下面是一个完整的Java示例，展示如何使用Hystrix实现限流、降级和熔断。1.添加依赖在pom.xml中添加Hystrix的依赖：xml复制com.netflix.hystrixhystrix-core1.5.18运行HTML2.创建Hystrix命令创建一个继承自HystrixCommand的
基础架构系列篇-系统WIN10使用VS+CMAKE编译AWS-SDK-CPP dong-123456 架构运维知识点 aws 云计算 c++vs cmake
基础架构系列篇-系统WIN10使用VS+CMAKE编译AWS-SDK-CPP目录1.下载GIT(https://git-scm.com/downloads)，本地安装2.下载CMAKE(https://cmake.org/download/)，这里用的版本3.17,本地安装3.下载VS19版本，安装4.下载AWS-SDK-1.8地址https://github.com/aws/aws-sdk-cp
学习Web3.0需要具备哪些基础知识？ alankuo 人工智能人工智能
学习Web3.0需要具备以下基础知识：一、计算机科学基础1.编程知识-了解至少一种编程语言，如Python、JavaScript等。这将有助于理解Web3.0应用程序的开发和智能合约的编写。-熟悉编程概念，如变量、数据类型、控制结构、函数等。2.数据结构和算法-掌握常见的数据结构，如数组、链表、栈、队列、树、图等，以及它们的操作和应用。-了解基本的算法，如排序、搜索、递归等，以及它们的时间和空间复
深入理解C++编程：从内存管理到多态与算法实现嵌入式Jerry C++c++算法开发语言
C++是一门功能强大的编程语言，广泛应用于系统编程、游戏开发和高性能计算等领域。本文将通过一系列经典问题，深入探讨C++的核心知识点，包括内存管理、多态（结合函数重载与覆盖）、多线程、TCP/IP模型、软链接与硬链接的区别，以及常见算法实现。每个知识点都配有详细的代码示例和解释，帮助你更好地理解和掌握。1.内存管理：内存泄露与检测什么是内存泄露？内存泄露是指程序在动态分配内存后，未能正确释放已不再
深入解析音频编解码器（Audio CODEC）：硬件、接口与驱动开发嵌入式Jerry 内核音视频驱动开发 linux 嵌入式硬件
音频编解码器（AudioCODEC）是音频处理系统中的核心组件，负责模拟信号与数字信号的相互转换，广泛应用于智能音箱、嵌入式系统、消费电子产品等设备。本篇文章将从硬件结构、接口解析、驱动开发和软件配置等方面，深入讲解如何正确理解和使用音频编解码器。1.音频编解码器的基本概念CODEC（Coder-Decoder），即编解码器，是一种模数转换（ADC）和数模转换（DAC）的组合设备，用于处理音频信号
Vue3+ts+router项目创建 DaKangya vue.js
1.安装Node.js和npm确保你已经安装了Node.js和npm。你可以通过以下命令检查是否已安装：node-vnpm-v如果没有安装，可以从Node.js官网下载并安装。2.安装VueCLIVueCLI是一个用于快速搭建Vue项目的工具。你可以通过以下命令全局安装VueCLI：npminstall-g@vue/cli安装完成后，你可以通过以下命令检查VueCLI是否安装成功：vue--ver
外包工作：不只是赚钱，更是人生的加油站心灵星图程序人生
外包工作：不只是赚钱，更是人生的加油站在当今互联网时代，外包工作已经成为很多人的职业选择。但你是否想过，外包工作不仅仅是一份收入来源，更可能是你人生的重要跳板？今天，让我们一起来聊聊外包工作带来的三大机遇。一、自我提升的黄金期1.时间优势工作时间相对灵活可以自主安排学习计划有更多个人支配时间2.学习机会接触不同类型的项目了解各行各业的需求积累多样化的经验实践建议：制定学习计划每周固定学习时间设定明
输入：0.5元/百万tokens（缓存命中）或2元（未命中）输出：8元/百万tokens 杏花春雨江南缓存
这句话描述了一种定价模型，通常用于云计算、API服务或数据处理服务中，根据资源使用情况（如缓存命中与否）来收费。以下是对这句话的详细解释：1.关键术语解释Tokens：在自然语言处理（NLP）或数据处理领域，Token通常指文本的最小单位（如一个单词或一个字符）。在这里，Tokens是计费的单位。缓存命中（CacheHit）：当请求的数据已经在缓存中时，称为缓存命中。缓存命中通常意味着更快的响应速
在 CentOS 7 上安装 PHP 7.3 wjf63000 centos php linux
在CentOS7上安装PHP7.3可以按照以下步骤进行操作：1.安装必要的依赖和EPEL仓库EPEL（ExtraPackagesforEnterpriseLinux）是为企业级Linux提供额外软件包的仓库，yum-utils用于管理yum仓库。sudoyuminstall-yepel-releaseyum-utils2.添加Remi仓库Remi仓库包含了丰富的PHP版本，你可以从中选择PHP7.
如何做好兼容性测试测试工具
要做好兼容性测试，需要关注环境搭建、设备多样性、测试工具选择、问题追溯等重要环节，其中对环境搭建尤为关键。本质上，兼容性测试就是在各种不同的操作系统、硬件设备与网络环境中进行应用或系统的功能验证，以确保最终产品无论在何种环境下都能稳定运行。尤其是在环境搭建方面，建议采用虚拟机、真实设备与云端环境相结合的方式进行多维度测试，为后续的深度测试奠定扎实基础。一、兼容性测试的基本概念在软件测试领域，兼容性
Python如何设置工作目录飞起来fly呀 Python python 开发语言
在Python编程中，正确设置工作目录是文件系统操作的关键步骤之一。工作目录影响到相对路径的解析，确保程序能正确访问所需的文件和资源。为方便大家理解和使用，这里详细介绍如何在Python中利用os模块设置工作目录，并以此实现更灵活的文件操作。使用os模块设置工作目录Python的os模块提供了操作系统相关的功能，包括目录和文件操作。你可以用这个模块来更改当前的工作目录，以匹配你项目的需要。1.设置
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情