colourmind

余弦相似度计算的实现方式

一、余弦相似度计算方式

1、python

2、sklearn

3、scipy

4、numpy

5、pytorch

6、faiss

二、规模暴增计算加速

1、numpy矩阵计算GPU加速——cupy

2、pytorch框架cuda加速

3、faiss的加速方法

总结

在做文本匹配、文本推荐的时候需要用到文本相似性的评估，一般都采用比较简单的cos_similarity——余弦相似度(值越大，两者越相似，向量夹角越小，极限是重合，夹角为0，此时余弦相似度是1）。在计算余弦相似度的时候就有很多中方法和工具了，下面就我所知道的或者用过方法和工具做一个简单的总结。

一、余弦相似度计算方式

1、python

自己实现一个，按照cos的计算公式——向量的内积除以向量模长的积代码如下：

def python_cos(q_vec,b_vec):
    """
    计算余弦相似度
    :param q_vec: 一维数组
    :param b_vec: 一维数组
    :return: 
    """
    dot_q_b = 0
    q_vec_length = 0
    b_vec_length = 0
    for q, b in zip(q_vec, b_vec):
        dot_q_b += q * b
        q_vec_length += q * q
        b_vec_length += b * b
    length = (q_vec_length ** (1 / 2)) * (b_vec_length ** (1 / 2))
    cos_sim = dot_q_b / length #向量的内积除以向量模长的积
    print('cos_sim',cos_sim)
    return cos_sim

q_vec,b_vec都是一维数组，如果需要计算多个的向量的话就需要进行循环处理了

2、sklearn

sklearn机器学习算法常用库，这个就比较简单了只需要直接调用sklearn中相关的API即可：

from sklearn.metrics.pairwise import cosine_similarity
"""
a和b都要是2维
"""
a = [[1,2,3],[3,2,1]]
b = [[3,2,1],[1,2,3]]
cos = cosine_similarity(a,b)
print(cos)

注意这里的参数，a和b都必须是二维的，不然会报错；a和b中的元素个数不定。

3、scipy

这也是一个库，提供了各种科学计算的API

import scipy.spatial
"""
a和b都要是2维
"""
a = [[1,2,3]]
b = [[3,2,1],[4,5,6]]
dis = scipy.spatial.distance.cdist(a,b,'cosine')
cos = 1 - dis[0]
print(cos)

注意这里的参数，a和b的数据类型可以是数组、np.array();a和b都必须是二维的；a和b中的元素个数不定。这里dis可以理解为余弦距离，要用1-dis才是余弦相似度。

4、numpy

numpy这里计算余弦相似度就稍微麻烦了一点，要把相应的公式用numpy去实现一遍。

def numpy_cos(a,b):
    dot = a*b #对应原始相乘dot.sum(axis=1)得到内积
    a_len = np.linalg.norm(a,axis=1)#向量模长
    b_len = np.linalg.norm(b,axis=1)
    cos = dot.sum(axis=1)/(a_len*b_len)

a,b的数据类型只能是np类型

5、pytorch

使用pytoch中的张量也能完成余弦相似度的计算，代码如下：

def torch_cos(a,b):
    d = torch.mul(a, b)#计算对应元素相乘
    a_len = torch.norm(a,dim=1)#2范数，也就是模长
    b_len = torch.norm(b,dim=1)
    cos = torch.sum(d, dim=1)/(a_len*b_len)#得到相似度

def torch_cos_new(a,b):
    cos = torch.cosine_similarity(a,b,dim=1)
    print(cos)

a,b必须是tensor张量；torch_cos中有个bug，a和b的第一维只能是1，不然会出现错误结果。

6、faiss

这个是facebook公司提供的一个快速搜索用的算法库，其加速原理这里不介绍了，感兴趣的自己去看相关论文。还有一个就是这个算法库安装比较麻烦！

一般安装的时候采用conda来安装


#安装faiss-cpu
conda install faiss-cpu=1.4 -c pytorch

目前安装1.4 1.5 之类的版本比较好。另外安装GPU版本的就的和cuda版本对应上，还要把faiss的版本别弄得太高了，一般不要装最新的，容易出错。

conda install faiss-gpu cuda10.0 -c pytorch

关于怎么计算向量之间的距离并找出最近的那几个向量，怎么使用呢？github有相应的教程。关于怎么计算余弦相似度这里不能直接给出要经过中间计算，类似上面numpy的方法。下文在给出代码展示

二、规模暴增计算加速

上面就两个向量直接如何进行cos_similarity给出了一些方法和具体的代码以及简单的注意事项，现假设有这样一个需求——一个query向量需要和reference向量库计算余弦相似度，并要求得出topk；而reference向量库是几万几十万几百万几千万几亿的这种怎么应对呢？这个时候我们就需要考虑上面每一种算法的速度和性能了。来先来测试一下上述方法的性能。

测试代码全部在CPU上运行，测试CPU型号是AMD Ryzen 5 2600X Six-Core Processor

具体代码如下：

from examples.knncuda_faiss_torch_numpy_test.cos_sklearn import *
from examples.knncuda_faiss_torch_numpy_test.cos_numpy import *
from examples.knncuda_faiss_torch_numpy_test.cos_torch import *
from examples.knncuda_faiss_torch_numpy_test.cos_python import *
from examples.knncuda_faiss_torch_numpy_test.cos_scipy import *

import numpy as np
import time
import torch
if __name__ == '__main__':
    np.random.seed(1234)
    query = np.random.randn(1,768)
    reference = np.random.randn(10000,768)
    print('query',query.shape,'reference',reference.shape)
    print('*' * 130)
    a = query.tolist()[0]
    bs = reference.tolist()
    cos_sims = []
    t = time.time()
    for b in bs:
        cos_sim = python_cos(a,b)
        cos_sims.append(cos_sim)
    print('python_cos time is ', time.time() - t)
    t = time.time()
    cos_sklearns = cosine_similarity(query, reference)[0]
    cos_sklearns = np.sort(cos_sklearns)[::-1]
    print('cos_sklearn time is ', time.time() - t)
    t = time.time()
    dis = scipy.spatial.distance.cdist(query, reference,'cosine')[0]
    cos_scipy = 1 - dis
    print('cos_scipy time is ', time.time() - t)
    t = time.time()
    cos_numpy = numpy_cos(query, reference)
    print('cos_numpy time is ', time.time() - t)
    query = torch.from_numpy(query)
    reference = torch.from_numpy(reference)
    t = time.time()
    cos_torch = torch_cos(query, reference)
    print('cos_torch time is ', time.time() - t)
    t = time.time()
    cos_torch_new = torch_cos_new(query, reference)
    print('torch_cos_new time is ', time.time() - t)

    print('*' * 130)
    cos_sims.sort(reverse=True)
    print('python_cos top_5 result', cos_sims[0:5])
    print('cos_sklearn top_5 result', cos_sklearns[0:5])
    np.sort(cos_numpy)[::-1]
    print('cos_numpy top_5 result', cos_sims[0:5])
    np.sort(cos_scipy)[::-1]
    print('cos_scipy top_5 result', cos_sims[0:5])
    cos_torch = torch.topk(cos_torch, 5, dim=0).values.tolist()
    print('cos_torch top_5 result', cos_torch)
    cos_torch_new = torch.topk(cos_torch_new, 5, dim=0).values.tolist()
    print('torch_cos_new top_5 result', cos_torch_new)
    print('*' * 130)

结果如下所示

query (1, 768) reference (500000, 768)
**************************************************
python_cos time is  38.49528908729553
cos_sklearn time is  2.067091464996338
cos_scipy time is  0.380265474319458
cos_numpy time is  1.0932965278625488
cos_torch time is  0.4933135509490967
torch_cos_new time is  0.9776747226715088

计算的具体cos结果也是如下：

cos_sklearn top_5 result [0.16645179 0.16303576 0.16036169 0.16000034 0.15938602]
cos_numpy top_5 result [ 0.06810486  0.01430677 -0.01578631  0.09859463  0.00912929]
cos_scipy top_5 result [ 0.06810486  0.01430677 -0.01578631  0.09859463  0.00912929]
cos_torch top_5 result [0.16645179271825364, 0.16303576001992812, 0.16036168851422455, 0.16000033948033635, 0.1593860198744479]
torch_cos_new top_5 result [0.16645179271825356, 0.1630357600199281, 0.1603616885142245, 0.1600003394803363, 0.15938601987444787]

说明都没有问题。从速度来看scipy提供的接口在100W级别是最快的，使用torch计算的速度次之；faiss的比较特殊，后面再进行单独演示。

就目前的速度对于用户的体验肯定不好，就要想办法进行计算加速了。最容易想到的就是利用GPU来进行加速计算了，因为它有多个核心，能并行计算和处理。先有一个简单的需求，就是100W向量0.1s内计算出相似度呢？下面一个一个方法的尝试。

测试机器配置

CPU:AMD Ryzen 7 2700X Eight-Core Processor

GPU: GeForce RTX 3090

初始状态图

显存占用600M,内存占用6.4G

1、numpy矩阵计算GPU加速——cupy

这里也用到了一个矩阵计算通过cuda加速库——cupy安装方式如下：

# For CUDA 10.2
pip install cupy-cuda102

它的使用方法和numpy类似

上代码：

import numpy as np
import time
import cupy as cp
def numpy_cos(a,b):
    dot = a*b #对应原始相乘dot.sum(axis=1)得到内积
    cos = dot.sum(axis=1)
    return cos

def cupy_cos(a,b):
    dot = a * b
    cos = dot.sum(axis=1)
    return cos
if __name__ == '__main__':
    np.random.seed(1234)
    query = np.random.randn(1, 768)
    reference = np.random.randn(1000000, 768)
    query = query/np.linalg.norm(query,axis=1)#得到单位向量
    reference = reference/np.linalg.norm(reference,axis=1).reshape(-1,1)#得到单位向量
    t = time.time()
    for i in range(5):
        cos_numpy = numpy_cos(query,reference)
    print('numpy_cos average time is ',(time.time()-t)/5)

    cp.random.seed(1234)
    query = cp.random.randn(1, 768)
    reference = cp.random.randn(1000000, 768)
    query = query/cp.linalg.norm(query,axis=1)#得到单位向量
    reference = reference/cp.linalg.norm(reference,axis=1).reshape(-1,1)#得到单位向量
    t = time.time()
    for i in range(5):
        cos_cupy = cupy_cos(query, reference)
    print('cos_cupy average time is ', (time.time() - t)/5)
    time.sleep(5000)

结果如下所以：

numpy计算100W*768维和1*768维向量的时间是1.65s,而cupy是0.0073s,cupy使用的是GPU也耗掉了12G显存;内存方便cupy几乎不占用,但是numpy占用的比较多,计算过程中numpy内存占用达到18G,总体耗用就是12G

2、pytorch框架cuda加速

同样的这里torch里面也内置了矩阵运算模块儿。而且也可以使用cuda进行加速！代码和结果如下：

import torch
import time
def torch_cos(a,b):
    d = torch.mul(a, b)#计算对应元素相乘
    cos = torch.sum(d, dim=1)
    return cos

def torch_cos_new(a,b):
    cos = torch.cosine_similarity(a,b,dim=1)
    return cos

if __name__ == '__main__':
    torch.manual_seed(1234)
    query = torch.randn(1,768).cuda()
    reference = torch.randn(1000000, 768).cuda()
    query = torch.div(query,torch.norm(query, dim=1).reshape(-1,1))
    reference = torch.div(reference,torch.norm(reference, dim=1).reshape(-1,1))

    t = time.time()
    for i in range(5):
        torch_cos(query,reference)
    print('torch_cos time is',time.time()-t)
            
    t = time.time()
    for i in range(5):
        torch_cos_new(query, reference)
    print('torch_cos_new time is', time.time() - t)
   
    time.sleep(20000)

结果如下图

这样是比较快了，torch.mul()和torch.sum()结合的方法是0.0002s,torch.cosine_similarity()则是0.0005s;显存占用(主要是数据和中间结果在显存中占用)7G,内存占用3个G,但是当数据量更大的时候也是比较吃显存的，你那么可以降低精度，由fp32到fp16，对cos相似度结果影响不大，而且速度也会提升。看看效果:

import torch
import time
def torch_cos(a,b):
    d = torch.mul(a, b)#计算对应元素相乘
    cos = torch.sum(d, dim=1)
    return cos

def torch_cos_new(a,b):
    cos = torch.cosine_similarity(a,b,dim=1)
    return cos

if __name__ == '__main__':
    torch.manual_seed(1234)
    query = torch.randn(1,768).cuda()
    reference = torch.randn(1000000, 768).cuda()
    query = torch.div(query,torch.norm(query, dim=1).reshape(-1,1))
    reference = torch.div(reference,torch.norm(reference, dim=1).reshape(-1,1))

    t = time.time()
    for i in range(5):
        cos = torch_cos(query,reference)
        
    print('fp32 torch_cos time is',time.time()-t)
    print('fp32 result is ',cos[0:5])
            
   
    del query
    del reference
    del cos
    torch.cuda.empty_cache()
    print("*"*100)

    torch.manual_seed(1234)
    query = torch.randn(1,768).half().cuda()
    reference = torch.randn(1000000, 768).half().cuda()
    query = torch.div(query,torch.norm(query, dim=1).reshape(-1,1))
    reference = torch.div(reference,torch.norm(reference, dim=1).reshape(-1,1))

    t = time.time()
    for i in range(5):
        cos = torch_cos(query,reference)
    print('fp16 torch_cos time is',time.time()-t)
    print('fp16 result is ',cos[0:5])
            
   
    time.sleep(20000)

结果如下图

可以看到时间变为0.00028s变为0.00013s,显存占用由7G变为4.3G;而且cos准确率在小数点后4位都是一样的,提升比较明显.

3、faiss的加速方法

faiss是支持CPU和GPU的，也是支持多种索引的。暴力搜索索引IndexFlatL、加速搜索的方法的索引IndexIVFFlat(倒排文件缩小范围进行加速)以及IndexIVFPQ(Produce Quantizer)在IndexIVFFlat做了速度和内存方面的优化。faiss的具体原理有点复杂，想要详细的理解细节可自行查阅相关资料——如PQ和IVF介绍、Faiss基于PQ的倒排索引实现、facebookresearch / faiss等等。本文就简单的使用faiss来计算cos相似度进行展示。

faiss支持欧式距离和向量内积，可以利用向量内积来计算cos相似度——把向量先化为单位向量。

cpu版本：

import numpy as np
import time
import faiss
if __name__ == '__main__':
    d = 768  # dimension
    nb = 1000000  # database size
    nq = 1  # nb of queries
    np.random.seed(1234)  # make reproducible
    xb = np.random.random((nb, d)).astype('float32')
    xb_len =  np.linalg.norm(xb, axis=1, keepdims=True)
    xb = xb/xb_len
    xq = np.random.random((nq, d)).astype('float32')
    xq_len = np.linalg.norm(xq, axis=1, keepdims=True)
    xq = xq/xq_len

    t1 = time.time()
    nlist = 10  # we want to see 4 nearest neighbors
    for i in range(5):
        # CPU
        index = faiss.IndexFlat(d, faiss.METRIC_INNER_PRODUCT)  # 建立索引
        index.add(xb)  # add vectors to the index
        D, I = index.search(xq, nlist)  # actual search
    t2 = time.time()
    print('faiss spend time %.4f'%((t2-t1)/5))

GPU版本：

import numpy as np
import time
import faiss
if __name__ == '__main__':
    d = 768  # dimension
    nb = 1000000  # database size
    nq = 1  # nb of queries
    np.random.seed(1234)  # make reproducible
    xb = np.random.random((nb, d)).astype('float32')

    xb_len =  np.linalg.norm(xb, axis=1, keepdims=True)
    xb = xb/xb_len
    xq = np.random.random((nq, d)).astype('float32')
    xq_len = np.linalg.norm(xq, axis=1, keepdims=True)
    xq = xq/xq_len

    nlist = 10  # we want to see 4 nearest neighbors
    
    res = faiss.StandardGpuResources()  # use a single GPU
    t1 = time.time()

    index = faiss.IndexFlat(d,faiss.METRIC_INNER_PRODUCT)
    # make it a flat GPU index
    gpu_index_flat =  faiss.index_cpu_to_gpu(res, 0, index)
    gpu_index_flat.add(xb)
    D, I = gpu_index_flat.search(xq, nlist)  # actual search

    t2 = time.time()

    print('faiss-gpu spend time %.4f' % (t2 - t1))
    print('I', I)
    print('D', D)

注意的是faiss支持fp32这种数据类型。

结果如下图：

cpu：AMD 2600x

faiss spend time 0.9918

GPU版本的faiss这台机器没有安装，给不了具体结果，但是也不会太快，以前测过一次100Ｗ大概1.5s(也有可能记错了)，以后机器有空了再测。主要耗时是faiss gpu需要把数据从cpu传到GPU上，这个过程我们前面代码没有算进来，因为实际中可以预先处理，使用faiss库的话就不能了除非更改它的代码。

100W数据cos_similarity计算耗时以及内存显存占用
方法	CPU毫秒	GPU毫秒	显存
python	76000	-	-
scklearn	4100	-	-
scipy	760	-	-
numpy/cupy	1652	73	12G
pytorch-cuda	1000(torch-cos)	0.28(torch-cos/fp32)、0.13(torch-cos/fp16)	7.3G/4.3G
faiss	992	1500(不确定)	-

总体而言可以看到以上所有方式能使用GPU进行并行计算的，计算速度大为提升，当然这也是要消耗硬件资源的，在显卡资源有限的情况下，推荐使用torch框架来进行相似度计算加速,这个效果最好,显存占用少,灵活而且100W只要0.13毫秒(RTX-3090和fp16)。

500W的情况下可以做到14毫秒,显存也是占用了16G:

当然在不需要使用到GPU加速的场景下，优先推荐scipy这个科学计算库来进行计算，快速简单！

如果设计到上亿、10亿、百亿的怎么快速计算，我也不知道，如果有知道的人，可以讲解一下方案或者原理之类的，拜谢！

总结

计算向量之间的余弦相似度然后做搜索，在数据量很大的情况下，可以优先利用业务规则去掉很大一部分数据；在去掉数据以后还是比较大量的话，就需要使用一些加速算法(例如knn_cuda和faiss里面的算法)和硬件的支持了。当然也可以从数据精度的角度来考虑，降低数据的精度表示来进行计算。技术和成本都可以的话是可以利用超级计算机或者分布式或者云计算平台来解决。

WPF——自定义ListBox bianguanyue WPF c#wpf
在阅读本文前，最好先看看WPF——自定义RadioButton背景WPF中实现单选功能通常有两种方案：-RadioButton组：传统方案，但代码冗余-ListBox定制：通过样式改造，兼顾数据绑定和UI灵活性需求一组选项中，选中某个选项（选项需要横向排列，同时选中效果与未选中效果要能明确显示），就将这个选项的值写入到后端。设计选型RadioButton方案通过RadioButton来实现，是肯定
工业上位机开发选型：WinForms稳、WPF炫、Avalonia跨平台天机️灵韵物联网架构设计硬件设备 wpf github 工控机工业上位机开发选型
针对工业上位机开发的框架选型，WinForms、WPF和Avalonia各有优势，选择需结合具体项目需求。以下是详细对比和建议：1.WinForms：稳定务实之选✅优势成熟稳定：20年+技术沉淀，兼容性极佳（包括WindowsXP嵌入式系统）。低硬件要求：运行在GDI+上，对老旧工控机（如2GB内存+机械硬盘）友好。开发效率高：拖拽式设计器+丰富第三方控件库（如DevExpress、Telerik
Microsoft Powerpoint for Mac 2021 中文破解版 (幻灯片演示文稿制作) 1f40c7e94f60
软件介绍/功能MicrosoftPowerPoint2021forMac破解版是办公必备的软件之一，作为知名的幻灯片演示文稿制作软件，这次的PowerPoint2021破解版改进和新增不少功能，比如@提及功能、墨迹绘制、3D模型插入等，功能更加完善，制作PPT怎么能少的了这款PowerPoint2021破解版，欢迎各位下载PowerPoint2021mac版体验全新功能！软件地址：macdwn.s
李婷婷安毅(和妻子一起重生后，她愤然抛下了我)全文免费在线阅读_和妻子一起重生后，她愤然抛下了我完整版免费在线阅读_李婷婷安毅《和妻子一起重生后，她愤然抛下了我》最新章节阅读_(和妻子一起重生后... 笔趣阁官方账号
李婷婷安毅(和妻子一起重生后，她愤然抛下了我)全文免费在线阅读_和妻子一起重生后，她愤然抛下了我完整版免费在线阅读_李婷婷安毅《和妻子一起重生后，她愤然抛下了我》最新章节阅读_(和妻子一起重生后，她愤然抛下了我)全章节免费在线阅读_李婷婷安毅(和妻子一起重生后，她愤然抛下了我)最新章节免费在线阅读_(李婷婷安毅)完结版在线阅读主角配角：李婷婷安毅简介：我和李婷婷重生了回到了大学刚刚毕业，我们拍结婚
花瓶成精，我送大将军破蛮夷(叶萤萤战乾骁)精彩新书推荐——(我用花瓶通古今/叶苜苜战承胤)全文完结版阅读神书阁
花瓶成精，我送大将军破蛮夷(叶萤萤战乾骁)精彩新书推荐——(我用花瓶通古今/叶苜苜战承胤)全文完结版阅读主角：叶萤萤战乾骁简介：叶萤萤发现祖传花瓶成精，神奇的能连通两千年前古代。因此她结识一位古代少年将军。将军镇守边塞重城，被蛮族三十万大军包围。天降大旱，河床枯竭，二十万百姓饿死只剩下八万人。走投无路，将军向神明乞求水和食物，希望能让百姓活下去。可以关注微信公众号【火花书楼】去回个书号【245】，
c语言进阶字符函数和字符串函数 91刘仁德 c语言 c语言
字符函数和字符串函数字符函数和字符串函数1.strlenstrlen函数详解模拟实现1.计数器方式2.不能创建临时变量计数器（递归）3.指针-指针的方式2.strcpystrcpy函数详解模拟实现3.strcatstrcat函数详解模拟实现4.strcmpstrcmp函数详解模拟实现5.strncpystrncpy函数详解模拟实现6.strncatstrncat函数详解模拟实现7.strncmps
c语言初阶指针 91刘仁德 c语言 c语言 java 算法
指针C语言指针详解1.指针是什么（1）指针的本质（2）32位地址的产生（3）指针变量的大小2.指针和指针类型（1）指针类型的意义（2）指针加减运算3.野指针（1）野指针的成因（2）避免野指针的方法①初始化指针②避免返回局部变量地址③检查指针有效性④避免指针越界4.指针运算（1）指针加减整数（2）指针相减（3）指针的关系运算5.指针和数组（1）数组名与指针的关系（2）通过指针遍历数组（3）数组作为函
李白春思一起学诗词
李白春思燕草如碧丝，秦桑低绿枝。当君怀归日，是妾断肠时。春风不相识，何事入罗帏?鉴赏:这是一首描写思妇心绪的诗。头两句描写了秦地思妇整日思念在燕地戍边的丈夫，希望他早点回来，通过秦燕两地的春季景物来起兴。“燕草如碧丝”是思妇想到的，“秦桑低绿枝”是她看到的。仲春之时，花繁叶茂，独在秦地的思妇看到春景，不禁想到在燕地戍边的丈夫，希望他早日归还。她猜想在燕地的夫君此时看见如碧丝一样的春草，应该也会有和
2021-04-19 ok198612
结婚重要还是挣钱重要我觉得挣钱重要。没有钱，怎么结婚。只有钱才能给对方安全感。结婚以后，要过着柴米油盐酱醋茶的生活。结婚就是责任和担当。人生在世，谁的生活不如意。只有相互理解和包容。将心比心换位思考，家和万事兴
优秀的作文一定需要华美之词的堆砌吗？小学生作文首先要达到的目标是什么？若水青卿
此文系从指导孩子写作的实践中有感而来，全文未参考任何相关资料，皆为个人思考总结的结果，未必适用他人。转载请注明作者和出处。昨天读了儿子写的一篇作文，通篇读下来，我能感觉到儿子在很努力地想，也在很努力地写，因为儿子努力的痕迹是那么的明显，不少词句都流露出刻意的感觉——在刻意地使用好词和成语，也在刻意地创造修辞句，还能读到几处类似“口号”的句子——就是那种读起来很豪气，但是想想其中并没有什么具体内容感
给孩子和自己读诗（43）—床上的大陆明晓yoko
床上的大陆【英国】罗伯特·史蒂文森漪然译当我生病躺在床上，靠着两只枕头遐想，所有玩具陪在我身旁，度过整天悠闲的时光。一个钟头又一个钟头，我看着锡兵列队行走，配着各色肩章和纽扣，各自穿过床单的山沟。有时我的舰队航行在海上，对抗着棉被掀起的巨浪；有时我让树木到处生长，再盖起座座漂亮的楼房。我是一个了不起的巨人，坐在枕头山岗的最高处，静静俯视我的平原和峡谷，
JAVA 和Python对比 xiayu98020214 在深蓝的日子 python
JAVA和Python对比1.数据类型pythonInt，float，complexnumbers都没有定义到底占用多少个字节空间。都是没有取值范围，也没有无符号的情况。JAVAJAVA有基础数据类型，都有确定占多少个字节2.全局变量python类似c语言，可以定义全局变量，全局的函数。JAVAjava都要定义类才行。3.变量声明python无需声明类型，直接使用。会造成一个困扰，这个变量到底是新
为什么阿里巴巴Java开发手册禁止使用存储过程？需要重新演唱 SQL java java 开发语言
阿里巴巴Java开发手册中禁止使用存储过程的原因主要基于以下几个方面的考虑：1.可维护性差复杂性：存储过程通常包含复杂的逻辑，随着业务逻辑的增加，存储过程的复杂性也会不断增加，导致维护成本高。调试困难：存储过程的调试通常比应用程序代码更困难，尤其是在分布式系统和微服务架构中。版本控制：存储过程的版本控制和变更管理相对复杂，难以与应用程序的版本控制流程集成。2.可移植性差数据库依赖：存储过程的语法和
2019-07-27文献阅读记录一行白鹭上青天
题目：城市群视角下空间联系与城市扩张的关联分析期刊：地理科学进展ProgressinGeography作者：焦利民，唐欣,刘小平摘要：在城市群发展的不同阶段，城市扩张表现出不同的时空特征。从城市群视角研究城市扩张的时空规律，对于理解城市扩张与城市群网络化组织结构之间的复杂耦合关系具有重要意义。本文以长江三角洲城市群为例，基于交通网络、引力模型和空间句法模型，结合1980、1990、2000和201
2022-01-23 和佛陀去赏花
王冬冬，中原焦点团队讲师、心理咨询师，持续记录1505天（2022.1.23）雪农历腊月廿一，辛丑牛年辛丑月丙子日，大寒一候第4天。四九第六天。读书打卡第1297天：《沙丘》《黄帝内经前传》朗诵记录第1298天：诵读第186第7天，《玄古遺秘》、绕口令练习、诗歌朗诵给泉哥请了个老师，明天开启寒假补习节奏，小老师和泉哥年龄接近，期待小老师能唤起泉哥的一丝动力。有时候你不知道影响一个人会是谁。
牛客华为机试题解（python版更新中）
目录一、字符串（知识点）HJ1字符串最后一个单词的长度（简单）HJ2计算某字符出现次数（简单）HJ4字符串分隔（简单）HJ5进制转换（简单）HJ10字符个数统计（简单）HJ11数字颠倒（简单）HJ12字符串反转（简单）HJ14字符串排序（简单）HJ17坐标移动（中等）HJ18识别有效的IP地址和掩码并进行分类统计（较难）自己研究的题解，也有借鉴评论区牛人思路，答案不唯一，仅供学习参考，也欢迎大家指
美剧《模范爱侣》1080p超清中字2024（完美夫妻电视剧）全6集完整未删减版免费在线观看夸克网盘高清迅雷网盘百度云全网优惠分享君
《模范爱侣》是一部由Netflix出品的犯罪悬疑迷你剧，共六集，以其紧凑的剧情、精湛的演技和深刻的主题吸引了众多观众的目光。该剧改编自艾琳·希尔德布兰德的同名畅销书，由苏珊娜·比尔执导，妮可·基德曼、列维·施瑞博尔、达科塔·范宁等一众实力派演员共同演绎。提示：文章排版原因，观剧资源链接地址放在文章结尾，往下翻就行故事发生在风景如画的楠塔基特岛，围绕着即将嫁入岛上最富有家族之一的阿梅莉亚·萨克斯（由
Qt之正则表达式使用示例 Qt幻想家 Qt
Qt之正则表达式使用示例概述：限定数字：0-9.h:.cpp:执行效果图：over:概述：利用正则表达式对表格框内数据输入进行限制，首相先介绍一个正则表达式的区间条件1.限定0到9可以写成【0-9】2.限定A到Z可以写成【A-Z】3.限定某些数字【110】接下来写个小案列测试一下限定数字：0-9.h:#include//QRegExp类使用正则表达式提供模式匹配privateslots:voido
Three.js入门：创建第一个3D场景薯条说影 Three.js 3D场景创建跨平台设置安全异常处理 HTML骨架搭建
背景简介Three.js是一个轻量级的3D图形库，它让Web开发者能够在浏览器中创建和显示3D图形。本章介绍如何设置环境以开始使用Three.js，包括不同操作系统下的安装步骤、安全异常处理以及基本的HTML骨架创建。安装与设置操作系统兼容性：Three.js的使用不仅限于Windows系统。对于其他操作系统，如Linux和MacOS，需要将可执行文件复制到目标目录，并通过命令行启动。无论是哪种操
python比java_对比java和python对比
对比java和python对比java和python2011年04月18日1.难易度而言。python远远简单于java。2.开发速度。Python远优于java3.运行速度。java远优于标准python，pypy和cython可以追赶java，但是两者都没有成熟到可以做项目的程度。4.可用资源。java一抓一大把，python很少很少，尤其是中文资源。5.稳定程度。python3和2不兼容，造
在网上怎么做兼职，整理六个正规兼职副业让你轻松赚钱氧惠佣金真的高
很多人应该都或多或少的接触过网络兼职吧?网上的兼职种类很多，有真有假，一般有经验的人都知道哪些靠谱哪些不靠谱。怎么获得鉴别兼职真假的经验和技能呢?这就需要我们多尝试和试错了。只有经历的多才能有自己的一个操作体系，以后不论做什么都比较容易。下面推荐几个不错的兼职平台分享给大家。1，亚马逊。亚马逊最大的一个好处，不像国内的某宝，拼夕夕之类的，上个新产品，如果没有推广，没有销量，很少有人能搜到你的产品，
2021年1月15日星期五天气阴亲子日记（771） love_happy
昨晚和豪宝做了几道必读书目的阅读题，感觉读过的他能记住，没读的就不会，今天考试正好有阅读题，虽然都读过了，但是有些细节的问题，还容易弄混，不确定，趁考试前还有几天的时间，想再略读一遍，顺便练习一下题目，必读书目考察的题目不多，但是也不能大意丢失了分数……今晚豪宝陪妹妹玩扑克，玩弹珠，游戏规则都是豪宝说了算，小柔不会玩，只能听哥哥的，赢的人可以吃一小块糖。一块糖吃过之后，还可以发挥想象，再利用一下，
欣诚幼儿园小六班：冬日相伴，温暖如初欣诚幼儿园郑雅文
太阳当空照花儿对我笑小鸟说早早早你为什么背上小书包我去上学校天天不迟到爱学习爱劳动长大要为人民立功劳集体活动：周一：《哈巴狗》1.学习歌曲《哈巴狗》，能够边唱边跟随歌曲内容变换动作。2.愿意表演歌曲，体验表演的乐趣。周二：《小鱼游游》1.愿意和同伴一起玩“捉迷藏”游戏，感受游戏的乐趣。2.会使用水彩笔或者油画棒画曲线。周三：《咪咪猫》1.喜欢并尝试模仿儿歌中的语言，体会其中的乐趣。2.理解儿歌内容
58、JavaScript中的类定义与对象创建 pepper JavaScript 类定义对象创建
JavaScript中的类定义与对象创建1.引言在现代Web开发中，JavaScript已经成为不可或缺的一部分。随着JavaScript的发展，面向对象编程（OOP）的概念也逐渐融入其中。通过定义类和创建对象，可以使代码更加模块化、易于维护和复用。本文将详细介绍如何在JavaScript中定义新类，并创建自定义对象，包括属性和方法的添加。2.构造函数的基础构造函数是一种特殊的函数，主要用于创建和
致自己的几句话 sundy007
图片发自App1.昨天的成功对今天的你来说，如果还是大事，说明你今天什么大事都没做！2.如果现在的你和一年前的你一样，意味着你没有成长。即使成绩依旧表现不错，让客户着迷，那依然是吃老本的行为！3.一个人最难做的是否定自己，尤其是自己过去成功的经验，如果不否定，总重复过去的套路，就没有了学习进步的空间！4.这个世界有偶然的运气，也有必然的运气。人应该追求必然的运气，通过努力踏踏实实的达到某个状态，某
好省邀请码是多少呢？好省的原始邀请码是哪个？好省官方邀请码怎么填？如简导师
在当今互联网经济蓬勃发展的时代，好省以其独特的魅力和强大的功能，成为众多消费者和创业者的新宠。那么，好省究竟是什么呢？一、好省的定位与特色好省是一款综合性的购物返利与社交电商平台。它与众多知名电商平台合作，涵盖淘宝、京东、拼多多等，为用户提供海量的商品资源和丰富的购物选择。好省的特色之一在于其强大的返利机制。用户在好省平台上购物，可以获得一定比例的返利，真正实现了购物省钱。同时，好省还会不定期推出
《回到当下》第1天沙彩虹
问一下你的内心，感觉一下你的心，不是头脑的声音哦写出此刻最值得感恩的地方：1.好感恩，这个下午什么事情都没有必须做的，可以慵懒的，做自己想做的。2.感恩我的身体很健康的活着。3.感恩这个空间还不错，有空调，无人打扰，可以写，表达宇宙想让我做的当下214.好感恩，宇宙让我感受简单的力量，不要繁文修饰，简单的文字，表达自己。感觉到这种滋养。写出你最想体验的幸福和快乐，你最渴望的已经达成了，你的感觉和状
C语言中的正则表达式使用示例详解-转载边躺平边学习笔记正则表达式 c语言开发语言
C语言中的正则表达式使用示例详解正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。本文通过示例代码给大家介绍了C语言中的正则表达式使用，感兴趣的朋友跟随小编一起看看吧正则表达式，又称正规表示法、常规表示法（英语：RegularExpression，在代码中常简写为regex、regexp或RE）。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在c语言中，
谈谈JVM内存泄漏与内存溢出的区别 cyc&阿灿 Java jvm
一、前言在Java开发中，内存管理是一个永恒的话题。JVM虽然提供了自动内存管理机制，但内存相关的问题依然困扰着许多开发者。其中，内存泄漏(MemoryLeak)和内存溢出(OutOfMemory,OOM)是两个最容易混淆的概念。本文将深入剖析两者的本质区别，并通过图示和代码示例帮助大家彻底理解。二、核心概念解析1.JVM内存模型回顾在讨论内存泄漏和溢出前，我们先回顾下JVM的内存结构：┌────
【8月星座运势】双子家庭为重、天秤社交鬼才、水瓶座深化合作筝筝陪你看星星
文/塔罗、星盘解读师星芒如需转载，请注明作者名字源自【星座塔罗说】本文2583字，阅读时间大约为10分钟嗨喽，欢迎来到星座塔罗说风象星座的8月运势可谓是此起彼伏呀!请同时参考你的上升星座和太阳星座~~太阳或上升双子座整体运势双子座的8月份是家庭月，8月份延续之前的忙碌，双子会花很多时间和精力在沟通交流上，同时有很多展现自我的机会，你可以多多表现自己，抓住每一个上台演讲表达的机会。上旬，满月在你的升
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

余弦相似度计算的实现方式

一、余弦相似度计算方式

1、python

2、sklearn

3、scipy

4、numpy

5、pytorch

6、faiss

二、规模暴增计算加速

1、numpy矩阵计算GPU加速——cupy

2、pytorch框架cuda加速

3、faiss的加速方法

总结

你可能感兴趣的:(#,文本匹配和文本分类,算法,人工智能,python)