柠檬茶@

机器学习应用——无监督学习（实例:31省市居民家庭消费调查&学生上网时间分布聚类&鸢尾花数据&人脸数据特征提取）

前言

机器学习应用博客中，将核心介绍三大类学习，即：无监督学习、监督学习、强化学习。

本篇将简要介绍：
1.无监督学习概念（最常应用场景：聚类(clustering)和降维(Dimension Reduction)）
2.聚类——kmeans方法（居民家庭消费调查）、DBSCAN方法（学生上网时间分布）
3.降维——PCA方法（鸢尾花数据）、NMF方法（人脸数据特征提取）

一、无监督学习简要介绍

1.目标&定义

（1）无监督学习：利用无标签的数据，学习数据的分布或数据与数据之间的关系被称作无监督学习
（2）有监督学习和无监督学习的最大区别在于数据是否有标签
（3）无监督学习最常应用的场景是聚类(clustering)和降维(Dimension Reduction)

2.聚类（clustering）

（1）聚类：根据数据的“相似性”将数据分为多类的过程
（2）评估两个不同样本之间的“相似性”,通常使用的方法就是计算两个样本之间的“距离”
（3）使用不同的方法计算样本间的距离会关系到聚类结果的好坏

（4）常用距离计算方法

①欧氏距离：最常用的一种距离度量方法,源于欧式空间中两点的距离

该图为二维空间中欧式距离的计算

②曼哈顿距离：称作“城市街区距离”,类似于在城市之中驾车行驶,从一个十字路口到另外一个十字楼口的距离。

该图为二维空间中曼哈顿距离的计算

③马氏距离：表示数据的协方差距离,是一种尺度无关的度量方式。也就是说马氏距离会先将样本点的各个属性标准化,再计算样本间的距离。

其中，s是协方差矩阵

④余弦相似度:用向量空间中两个向量夹角的余弦值作为衡量两个样本差异的大小。余弦值越接近1，说明两个向量夹角越接近0度,表明两个向量越相似。

3.sklearn.cluster

（1）scikit-learn库(简称sklearn库）提供的常用聚类算法函数包含在sklearn.cluster这个模块中,如:K-Means，近邻传播算法,DBSCAN,等。
（2）注：以同样的数据集应用于不同的算法,可能会得到不同的结果,算法所耗费的时间也不尽相同,这是由算法的特性决定的。

（3）sklearn.cluster模块提供的各聚类算法函数可以使用不同的数据形式作为输入
①相似性矩阵输人格式:即由[样本数目]定义的矩阵形式,矩阵中的每一个元素为两个样本的相似度,如DBSCAN,AffinityPropagation(近邻传播算法)接受这种输人。
② 如果以余弦相似度为例,则对角线元素全为1。矩阵中每个元素的取值范围为[0,1]。

4.降维

（1）定义：在保证数据所具有的代表性特性或者分布的情况下,将高维数据转化为低维数据的过程。
（2）作用
①数据的可视化
②精简数据

（3）分类vs.降维
①聚类和分类都是无监督学习的典型任务,任务之间存在关联
②比如某些高纬数据的分类可以通过降维处理更好的获得
③另外学界研究也表明代表性的分类算法如k-means与降维算法如NMF之间存在等价性

（4）sklearn vs.降维
①降维是机器学习领域的一个重要研究内容,有很多被工业界和学术界接受的典型算法,截止到目前sklearn库提供7种降维算法。
②降维过程也可以被理解为对数据集的组成成份进行分解(decomposition）的过程,因此sklearn为降维模块命名为decomposition,在对降维算法调用需要使用sklearn.decomposition模块。
③几个常用降维算法

（5）在后续中将通过实例展示如何利用sklearn库提供的分类和降维算法解决具体问题
①31省市居民家庭消费调查
②学生月上网时间分布调查
③人脸图像特征抽取
④图像分割

二、聚类

1.K-means方法

（1）k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。

（2）主要处理过程
①随机选择k个点作为初始的聚类中心。
②对于剩下的点,根据其与聚类中心的距离,将其归人最近的簇。
③对每个簇,计算所有点的均值作为新的聚类中心。
④重复2、3直到聚类中心不再发生改变。

（3）举例
①在5个点中随机选取两个聚类中心

②计算距离后，归入簇

③重新计算聚类中心，重新计算距离，将点归入簇

④直到簇的组成稳定

2.K-means应用

（1）问题分析

①数据介绍：现有1999年全国31个省份城镇居民家庭平均每人全年消费性支出的八个主要变量数据,这八个变量分别是:食品、衣着、家庭设备用品及服务、医疗保健、交通和通讯、娱乐教育文化服务、居住以及杂项商品和服务。利用已有数据,对31个省份进行聚类。
②实验目的:通过聚类,了解1999年各个省份的消费水平在国内的情况。
③技术路线：sklearn.cluster.Kmeans
④数据实例

（2）过程

①使用算法：K-means聚类算法

②实现过程
1）建立过程，导入sklearn相关包

 import numpy as np
        from sklearn.cluster import KMeans

2）加载数据，创建K-means算法实例，并进行训练，获得标签

注1：调用K-Means方法所需参数
1）n_cluster:用于指定聚类中心的个数
2）init：初始聚类中心的初始化方法
3）max_iter：最大的迭代次数
4）一般调用时只给出n_clusters即可，init默认是k-means++，max_iter默认是300

注2：其他参数
1）data：加载的数据
2）label：聚类后数据所属的标签
3）fit_predict()：计算簇中心以及为簇分配序号

③输出标签，查看结果
1）将城市按照消费水平n clusters类,消费水平相近的城市聚集在一类中。

import numpy as np
from scipy.sparse import data
from sklearn.cluster import KMeans


def loadData(filePath):
    fr = open(filePath, 'r+')  # 读写打开一个文本文件
    lines = fr.readline()  # 一次读取整个文件
    retData = []  #存储城市的各项消费信息
    retCityName = []  #用于存储城市名称
    for line in lines:
        items = line.strip().split(",")
        retCityName.append(items[0])
        retData.append([float(items[i])
                        for i in range(1, len(items))])
        for i in range(1,len(items)):
            return retData, retCityName  # 返回城市名称及各项消费信息


# 加载数据，创建K-means算法实例，并进行训练，获得标签
if __name__ == '__main__':
    data.cityName = loadData('city.txt') #利用loadData方法读取数据,此处文件需自行准备
    km = KMeans(n_clusters=3)  # 创建实例
    lable = km.fit_predict(data)  # 调用Kmeans() fit_predict()进行聚类计算
    expenses = np.num(km.cluster_centers_,axis=1)  #expenses：聚类中心的数值加和，即平均消费水平
    # print
    CityCluster = [[],[],[]]  # 将城市按lable分成设定的簇
    for i in range(len(cityName)):
        CityCluster[lable[i]].append(data.cityName[i])
    for i in range(len(CityCluster)):
        print("Expenses:%.2f"%expenses[i])  # 将每个簇的平均花费输出
        print(CityCluster[i])  # 将每个簇的城市输出

2）结果展示：
-1：聚成2类:km = KMeans(n_clusters=2)

-2：聚成3类:km= KMeans(n_clusters=3)

-3：聚成4类:km= KMeans(n_clusters=4)

（3）拓展&&改进
①计算两条数据相似性时,Sklearn的K-Means默认用的是欧式距离。虽然还有余弦相似度,马氏距离等多种方法,但没有设定计算距离方法的参数。

②想自定义计算距离的方式时，可更改此处源代码

建议使用scipy.spatial.distance.cdist方法

3.DBSCAN方法

（1）DBSCAN算法是一种基于密度的聚类算法
①聚类的时候不需要预先指定簇的个数最终的
②簇的个数不定

（2）DBSCAN算法将数据点分为三类:
①核心点:在半径Eps内含有超过MinPts数目的点。
②边界点:在半径Eps内点的数量小于MinPts，但是落在核心点的邻域内。
③噪音点:既不是核心点也不是边界点的点。

（3）DBSCAN算法流程
①将所有点标记为核心点、边界点或噪声点
②删除噪声点
③为距离在Eps之内的所有核心点之间赋予一条边
④每组连通的核心点形成一个簇
⑤将每个边界点指派到一个与之关联的核心点的簇中(即在哪一个核心点的半径范围之内）

（4）举例：如下13个样本点，使用DBSCAN进行聚类

①取Eps=3，MinPts=3,依据DBSACN对所有点进行聚类（这里使用曼哈顿距离）
②对每个点计算其邻域Eps=3内的点的集合，集合内点的个数超过MinPts=3的点为核心点

③查看剩余点是否在核心点的邻域内,若在,则为边界点,否则为噪声点。

④将距离不超过Eps=3的点相互连接构成一个簇,核心点邻域内的点也会被加入到这个簇中。

4.DBSCAN应用

（1）问题分析
①现有大学校园网的日志数据,为290条大学生的校园网使用情况数据
②数据包括用户ID,设备的MAC地址,IP地址，开始上网时间,停止上网时间,上网时长,校园网套餐等。
③利用已有数据,分析学生上网的模式。

（2）实验目的
通过DBSCAN聚类,分析学生上网时间和上网时长的模式。

（3）技术路线
采用sklearn.cluster.DBSCAN模块

（4）数据实例

（5）实验过程

（6）代码实现
①建立工程，导入sklearn相关包

  import numpy as np
        from sklearn.cluster import DBSCAN

②DBSCAN主要参数
1）eps：两个样本被看作邻居节点的最大距离
2）min_samples：簇的样本数
3）metric：距离计算方式

例：sklearn.cluster.DBSCAN(eps=0.5,min_samples=5,metric=‘euclidean’)

③对上网时间聚类，创建DBSCAN算法实例，并进行训练，获得标签

附码import numpy as np
import sklearn.cluster
from sklearn import metrics
from sklearn.cluster import DBSCAN

mac2id=dict()  # 字典
onlinetimes=[]
f = open('TestData.txt')
for line in f:
    mac = line.split(',')[2]  # 读取每条中的mac地址
    onlinetime = int(line.split(',')[6])  # 读取上网时长
    starttime=int(line.split(',')[4].split(' ')[1].split(':')[0])  # 读取开始上网时间
    if mac not in mac2id:
        mac2id[mac]=len(onlinetimes) # 其中key是mac地址
        onlinetimes.append((starttime,onlinetime))  # value是对应mac地址的上网时长以及开始上网时间
    else:
        onlinetimes[mac2id[mac]]=[(starttime,onlinetime)]
real_X=np.array(onlinetimes).reshape((-1,2))

#对上网时间聚类，创建DBSCAN算法实例，并进行训练，获得标签
X = real_X[:,0:1]
db = sklearn.cluster.DBSCAN(eps=0.01,min_samples=20).fit(X) #调用DBSCAN方法进行训练
labels=db.labels  # labels为每个数据的簇标签

print('Labels:')
print(labels)  # 打印数据被记上的标签
ratio=len(labels[labels:]==-1)/len(labels)  #计算标签为-1，即噪声数据的比例
print('Noise ratio:',format(ratio,'.2%'))

# Number of clusters in labels,ignoring noise if present
n_clusters_=len(set(labels))-(1 if -1 in labels else 0)  # 计算簇的个数并打印
print('Estimated number of clusters: %d'% n_clusters_)
print("Silhouette Coefficient: %0.3f" % metrics.silhouette_score(X,labels))  #评价聚类效果

for i in range(n_clusters_):  # 打印各簇标号及簇内数据
    print('Cluster',i,':')
    print(list(X[labels==i].flatten()))

#对上网时长聚类，创建DBSCAN算法实例，并进行训练，获得标签
X = np.log(1+real_X[:,1:])
db = sklearn.DBSCAN(eps=0.1401,min_samples=10).fit(X) #调用DBSCAN方法进行训练
labels=db.labels  # labels为每个数据的簇标签

print('Labels:')
print(labels)  # 打印数据被记上的标签
ratio=len(labels[labels:]==-1)/len(labels)  #计算标签为-1，即噪声数据的比例
print('Noise ratio:',format(ratio,'.2%'))

# Number of clusters in labels,ignoring noise if present
n_clusters_=len(set(labels))-(1 if -1 in labels else 0)  # 计算簇的个数并打印
print('Estimated number of clusters: %d'% n_clusters_)
print("Silhouette Coefficient: %0.3f" % metrics.silhouette_score(X,labels))  #评价聚类效果

for i in range(n_clusters_):  # 统计每一个簇内的样本个数，均值，标准差
    print('Cluster',i,':')
    count=len(X[labels==i])
    mean=np.mean(real_X[labels==i][:,1])
    std=np.std(real_X[labels==i][:,1])
    print('\t number of sample:',count)
    print('\t mean of sample:',format(mean,'.1f'))
    print('\t std of sample:',format(std,'.1f'))

④输出标签，查看结果

⑤画直方图，分析实验结果

   import matplotlib.pyplot as pet
    plt.hist(X,24)

观察得出:上网时间大多聚集在22:00和23:00

⑥数据分布vs聚类
技巧：对数变换

⑦对上网时长聚类，创建DBSCAN算法实例，并进行训练，获得标签

⑧输出标签，查看结果

1）按照上网时长DBSCAN聚了5类,上图所示,显示了每个聚类的样本数量、聚类的均值、标准差。
2）时长聚类效果不如时间的聚类效果明显。

三、降维

1.PCA方法

（1）主成分分析（PCA）

①主成分分析(Principal Component Analysis,PCA）是最常用的一种降维方法,通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理等。

②PCA可以把具有相关性的高维变量合成为线性无关的低维变量，称为主成分。主成分能够尽可能保留原始数据的信息。

（2）涉及到的相关术语:
①方差：是各个样本和样本均值的差的平方和的均值,用来度量一组数据的分散程度
②协方差：用于度量2个辩论直接的线性相关性程度，罗为0，则可认为二者线性无关。
③协方差矩阵：由变量的协方差值构成的矩阵（对称阵）
④特征向量：描述数据集结构的非零向量
公式如图

A是方阵，v是特征向量，λ是特征值

（3）原理
①矩阵的主成分：其协方差矩阵对应的特征向量，按照对应的特征值大学进行排序
②最大特征值为第一主成分，其次是第二主成分，以此类推

（4）算法过程

（5）主要参数
在sklearn库中，可使用sklearn.decomposition.PCA加载PCA进行降维
①n_components：指定主成分的个数，即降维后数据的维度
②svd_solver：设置特征值分解的方法，默认为’auto’,其他可选有’full’,‘arpack’,‘randomized’，可参考官网API

2.PCA应用实例：鸢尾花数据

————PCA实现高维数据可视化

（1）问题分析
①已知鸢尾花数据是4维的,共三类样本。
②使用PCA实现对鸢尾花数据进行降维,实现在二维平面上的可视化。

（2）代码实现
①建立工程，导入sklearn相关工具包

 # 加载matplotlib用于数据可视化
            import matplotlib.pyplot as plt
            #加载PCA算法包
            from sklearn.decomposition import PCA
            #加载鸢尾花数据集导入函数
            from sklearn.datasets import load_iris

②加载数据并进行降维
③按类别对降维后的数据进行保存
④降维后数据点的可视化

#建立工程，导入sklearn相关工具包

# 加载matplotlib用于数据可视化
import matplotlib.pyplot as plt
#加载PCA算法包
from sklearn.decomposition import PCA
#加载鸢尾花数据集导入函数
from sklearn.datasets import load_iris

#加载数据并进行降维
data = load_iris() #以字典形式加载鸢尾花数据集
y = data.target #使用y表示数据集中的标签
X = data.data #使用x表示数据集中的属性标签
pca = PCA(n_components=2) # 加载PCA算法，设置降维后主成分数目为2
reduced_X = pca.fit_transform(X) #对原始数据进行降维，保存在reduce_X中

# 按类别对降维后的数据进行保存
red_x,red_y = [],[] #第一类数据点
blue_x,blue_y = [],[]#第二类数据点
green_x,green_y = [],[] #第三类数据点

for i in range(len(reduced_X)): #按照鸢尾花的类别，将降维后的数据点保存在不同的列表中
    if y[i]==0:
        red_x.append(reduced_X[i][0])
        red_y.append(reduced_X[i][1])
    elif y[i]==1:
        blue_x.append(reduced_X[i][0])
        blue_y.append(reduced_X[i][1])
    else:
        green_x.append(reduced_X[i][0])
        green_y.append(reduced_X[i][1])

#降维后数据点的可视化
plt.scatter(red_x,red_y,c='r',marker='x') #第一类数据点
plt.scatter(blue_x,blue_y,c='b',marker='D') #第二类数据点
plt.scatter(green_x,green_y,c='g',marker='.') #第三类数据点
plt.show() #可视化

（3）结果展示

①可以看出,降维后的数据仍能够清晰地分成三类。
②这样不仅能削减数据的维度,降低分类任务的工作量,还能保证分类的质量。

3.NMF方法

（1）非负矩阵分解（Non-negative Matrix Factorization，NMF）是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法

（2）基本思想：给定一个非负矩阵V,NMF能够找到一个非负矩阵W和一个非负矩阵H，使得矩阵W和H的乘积近似等于矩阵V中的值

①W矩阵：基础图像矩阵，相当于从原矩阵V中抽取出来的特征
②H矩阵：系数矩阵
③NMF能够广泛应用于图像分析、文本挖掘和语音处理等领域

（3）矩阵分解优化目标：最小化“W与矩阵H的乘积”和“原始矩阵”之间的差别
①目标函数如下（基于欧氏距离）

②基于KL散度的优化目标，损失函数如下

③W矩阵和H矩阵的求解为迭代算法，在此不详细讲述，参考链接：

http://blog.csdn.net/acdreamers/article/details/44663421/

（4）在sklearn库中，可以使用sklearn.decomposition.NMF加载NMF算法，主要参数有
①n_components:用于指定分解后矩阵的单个维度k
②init：W矩阵和H矩阵的初始化方式，默认为’nndsvdar’
③其他参数参考官网API

4.NMF应用：人脸数据特征提取

（1）问题分析
①目标：已知Olivetti人脸数据共400个,每个数据是64*64大小。由于NMF分解得到的W矩阵相当于从原始矩阵中提取的特征,那么就可以使用NMF对400个人脸数据进行特征提取。
②通过设置k的大小,设置提取的特征的数目。在本实验中设置k=6，随后将提取的特征以图像的形式展示出来。

（2）代码实现
①建立工程，导入sklearn相关工具包

 # 加载matplotlib用于数据的可视化
        import matplotlib.pyplot as plt
        # 加载PCA算法包
        from sklearn import decomposition
        # 加载Olivetti人脸数据集导入函数
        from sklearn.datasets import fetch_olivetti_faces
        # 加载RandomState用于创建随机种子
        from numpy.random import RandomState

②设置基本参数并加载数据

③设置图像的展示方式
④创建特征提取的对象NMF，使用PCA作为对比

# 建立工程，导入sklearn相关工具包

# 加载matplotlib用于数据的可视化
import matplotlib.pyplot as plt
# 加载PCA算法包
from sklearn import decomposition
# 加载Olivetti人脸数据集导入函数
from sklearn import datasets
# 加载RandomState用于创建随机种子
from numpy.random import RandomState

# 设置基本参数并加载数据
n_row, n_col = 2, 3 # 设置图像展示时的排列情况（2行3列），如图
n_components = n_row*n_col # 设置提取的特征的数目
image_shape = (64,64) #设置人脸数据图片的大小
dataset = datasets.fetch_olivetti_faces(shuffle=True,random_state=RandomState(0))
faces = dataset.data #加载数据并打乱顺序

# 设置图像的展示方式
def plot_gallery(title, images, n_col=n_col, n_row=n_row):
    plt.figure(figsize=(2.*n_col, 2.26*n_row)) #创建图片并指定图片大小（英寸）
    plt.suptitle(title,size=16) #设置标题及字号大小

    for i,comp in enumerate(images):
        plt.subplot(n_row,n_col,i+1) # 选择画制的子图
        vmax = max(comp.max(),-comp.min())

        plt.imshow(comp.reshape(image_shape),cmap=plt.cm.gray,
                   interpolation='nearest',vmin=-vmax,vmax=vmax) #对数值归一化，并以灰度图形式显示
        plt.xticks(())
        plt.yticks(()) #去除子图的坐标轴标签
        plt.subplots_adjust(0.01,0.05,0.99,0.93,0.04,0.) # 对子图位置及间隔进行调整
plot_gallery("First centered Olivetti faces",faces[:n_components])
plt.show()

# 创建特征提取的对象NMF，使用PCA作为对比
estimators = {
       # 将他们存放在一个列表中
    ('Eigenfaces - PCA using randomized SVD',  # 提取方法名称
     decomposition.PCA(n_components=6, whiten=True)),  # PCA实例
    ('Non-nefative components - NMF',  # 提取方法名称
    decomposition.NMF(n_components=6, init='nndsvda', tol=5e-3))}  # NMF实例

# 降维后数据点的可视化
for name,estimator in estimators:  #分别调用PCA和NMF
    print("Extracting the top %d %s..."%(n_components,name))
    print(faces.shape)
    estimator.fit(faces) # 调用PCA或NMF提取特征
    components_ = estimator.components_
    plot_gallery(name,components_[:n_components]) # 获取提取的特征
    plt.show() # 按照固定格式进行排列

（3）效果展示

总结

关于无监督学习，比较核心的就是聚类和降维问题，在此仅用4个实例说明两大核心的四大典型方法，其余便不多做赘述。关于代码之中的一些改进问题，由于用到库中的其他方法，且本人能力有限，大家感兴趣可自行查阅官网API。
两点问题：
（1）代码运行需要基础数据支撑，py的自带库中有些内含所需数据，有些则没有，本篇并未放上数据txt文件，只是为了展示无监督学习的体系流程以作演示
（2）在库的包导入若发生问题，看看版本更新问题，以及部分包在近年来命名和函数有所调整，各位客官可面向百度
ps：人脸数据运行结果出来真是把我送走了，机器学习让人头秃

代码非原创，内容乃课件整理所得。
如有问题，欢迎指正！

你可能感兴趣的:(Python——机器学习应用,聚类,python,降维,机器学习,无监督学习)

python 科研作图_Origin科研绘图 weixin_39525933 python 科研作图
前言入了生物学的坑，狗狗们需要时不时的画一些图，看着别人高大上的图片，大家有没有好奇这些图片是怎么做出来的呢?就本狗狗来看(狗狗可能来自农村-_-,)，现在铺天盖地的paper里的图，有些，当然本身就是照片啦，比如跑胶啊WB啊，有些是用R、python、或者matlab做的，那么对于不懂编程的狗狗来说，就需要利用一些趁手作图软件，也可以做出毫不逊色于前者的美图，常见的这类软件有origin，gra
AWS成本监控告警系统完整解析 ivwdcwso 运维与云原生 aws python Cost 云成本运维开发
完整代码展示#!/usr/bin/python3importboto3,json,requestsimportpandasaspdfromdatetimeimportdatetime,timedelta#创建CostExplorer客户端client=boto3.client('ce')
116、掌握Docker Compose与Kubernetes：Rust应用部署实操多多的编程笔记 Rust之Web开发 docker kubernetes rust
Rust部署与运维：掌握使用DockerCompose、Kubernetes等工具进行应用部署和管理1.引言Rust是一种注重性能、安全和并发的系统编程语言。近年来，随着云计算和微服务架构的普及，如何将Rust应用部署到生产环境中，成为越来越多开发者关注的问题。本文将介绍如何使用DockerCompose和Kubernetes等工具进行Rust应用的部署和管理。2.DockerCompose简介D
大同小异——服务器环境搭建 sohoAPI 【工具】服务器 mysql linux flask
干货满满，带你玩转不同服务器配置，以Linux操作系统为例，这里使用云服务，像阿里云云服务购买成功，查看到之后只是一个界面信息，如果想要使用它，则需要远程连接java环境主要配置三个：jdk—java应用程序开发或者运行必须得有Java环境MysQL----如果我们要去开发一个项目，那么项目中的数据必须放到数据库中持久化存储tomcat–专门用来部署Java应用程序的一款软件配置jdk安装包地址将
英伟达终为 CUDA 添加原生 Python 支持，他有什么目的？朱卫军 AI python 开发语言
CUDA原来只支持C/C++/Fortran，在2025的CES上宣布支持原生Python其实是不得已而为之，一方面现在Python的AI开发者数量过于庞大，达到数千万级别，而CUDA仅几百万，CUDA想扩大自己的用户圈子，只能拉Python入伙。另一方面，Python生态的计算库实在太强大，比如numpy，几乎垄断了数组计算，还有像scipy、keras等，已经成为机器学习的主流工具，CUDA必
Python 领域 vllm 安装与环境配置全攻略 Python编程之道 Python编程之道 python 开发语言 ai
Python领域vllm安装与环境配置全攻略关键词：Python、vllm、安装、环境配置、深度学习摘要：本文围绕Python领域中vllm的安装与环境配置展开，全面且深入地介绍了vllm的相关知识。首先阐述了背景信息，包括目的范围、预期读者、文档结构和术语表。接着详细讲解了vllm的核心概念与联系，分析其核心算法原理并给出具体操作步骤，还引入了相关数学模型和公式进行说明。通过项目实战，提供代码实
Docker跨架构部署实操油泼辣子多加算法实战 docker 架构 java
需求场景python项目，开发环境以及可供测试的环境为X86架构下的LINUX服务器，但正式环境需要部署在ARM架构下的麒麟服务器，且正式环境后续可能会长时间处于断网状态，需要一份跨架构的部署方案。解决思路在X86上打包、在ARM（麒麟Linux）上运行，最大的难点就在于二进制兼容性——X86编译出的可执行文件（无论是用PyInstaller还是其它方式）都无法直接在ARM上跑。下面分别说一下两种
自动化运维工程师实操面试题
以下是针对Ansible、Zabbix、ElasticsearchLogstashKibana（ELK）设计的2道综合实操题，难度适中且结合实际应用场景：实操题1：Ansible自动化部署Zabbix监控平台并集成ELK日志分析题目背景某企业需要通过Ansible自动化部署Zabbix监控服务器（含Agent）、Elasticsearch、Logstash、Kibana（ELK）日志分析系统，并实
Python 爬虫实战：爬取网易公开课（课程列表解析 + 视频资源批量下载） Python核芯 Python爬虫实战项目 python 爬虫音视频网易
一、引言在数字化学习蓬勃发展的当下，网易公开课作为优质在线教育平台，汇聚了海量精品课程，涵盖科技、文化、艺术等多元领域，为求知者提供了便捷的学习渠道。然而，面对丰富的内容，手动逐一浏览、下载课程视频既耗时又低效，尤其对于想要系统学习特定领域知识的用户而言，亟需更高效的解决方案。Python爬虫技术凭借其强大的自动化数据获取能力，可轻松应对这一挑战，实现网易公开课课程列表的精准解析与视频资源的批量下
Android开发、adb、monkey测试别走！万哥爱你软件测试干货测试工具
一、手机测试概念传统手机测试VS手机应用软件测试传统手机测试：指测试手机本身比如抗压，抗摔，抗疲劳，抗低温高温等。也包括手机本身功能、性能等测试。手机应用软件测试C/SClient/Server手机应用软件是基于手机操作系统之上开发出来的软件，做这样的测试就叫做手机应用软件测试。二、手机端常规测试2.1.What2.1.1.介绍手机测试的概念架构对于手机端测试，按照平台来分，分为Android和I
Bongo-Cat-Crew:用Python打造动态音乐猫元楼
本文还有配套的精品资源，点击获取简介：在这个项目中，我们创建了一个将音乐、游戏和编程结合的创新体验，允许玩家通过动态猫声分类与节奏游戏OSU!互动。Python的使用使得音乐节奏识别、猫声分类逻辑和游戏接口交互成为可能。项目的核心包含了音乐节奏分析、游戏模式识别和猫声动画实现等技术要点，旨在为玩家提供独特的交互乐趣。1.Python在项目中的应用和角色1.1Python在IT行业中的普及Pytho
iOS 12.2 真机测试实战指南：全面掌握16E226测试要点 Ready-Player
本文还有配套的精品资源，点击获取简介：在iOS开发中，真机测试对于确保应用在不同设备上的性能和兼容性至关重要。本文深入解析了iOS12.2版本和特定的构建号16E226，包括新功能和改进点。重点介绍了开发者在进行真机测试时应关注的方面，如兼容性、性能、新特性集成、UI适配、错误和崩溃的修复、权限请求处理、网络连接稳定性及安全性。通过本文，开发者能够学习如何使用真机测试包16E226来优化应用，确保
MSP430F247TPMR szrileyH TI 低功耗低频振荡器内部频率高达16MHz 32KHz晶振
描述德州仪器（TI）MSP430系列超低功耗微控制器包含几个器件，这些器件特有针对多种应用的不同外设集。这种架构与5种低功耗模式相组合，专为在便携式测量应用中延长电池使用寿命而优化。该器件具有一个强大的16位RISCCPU，16位寄存器和有助于获得最大编码效率的常数发生器。数控振荡器（DCO）可在不到1μs的时间里从低功耗模式唤醒至运行模式。MSP430F23x/24x（1）/2410系列微控制器
基于python的api扫描器系统的设计与实现
博主介绍：✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌温馨提示：文末有CSDN平台官方提供的老师Wechat/QQ名片:)Java精品实战案例《700套》2025最新毕业设计选题推荐：最热的500个选题o(￣▽￣)ｄ介绍在当今数字化社会，网络安全问题日益突出，为了有效识别和防范网络威胁，开发一款全面的Web应用渗透测试系统至关重要。本研究基于Py
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
基于小样本的高光谱图像分类任务：CMFSL方法及Python实现 pk_xz123456 仿真模型算法深度学习分类 python 人工智能深度学习机器学习
基于小样本的高光谱图像分类任务：CMFSL方法及Python实现1.引言高光谱图像分类是遥感图像处理领域的重要研究方向，它在农业监测、环境评估、军事侦察等领域有着广泛的应用。与传统RGB图像不同，高光谱图像包含数百个连续的光谱波段，能够提供丰富的光谱信息。然而，高光谱图像分类面临着维度灾难、样本获取困难等挑战，特别是在小样本条件下，传统分类方法往往表现不佳。针对这一问题，本文介绍一种基于小样本的高
ubuntu创建、删除虚拟环境 screenCui ubuntu linux
your_name是自己起的环境名字创建虚拟环境首先通过xshell等工具与服务器建立链接。然后进行以下两步：激活condasource~/.bashrc2.创建虚拟环境condacreate-nyour_namepython=3.7退出以及删除虚拟环境退出虚拟环境condadeactivate删除虚拟环境condaremove-nyour_name--all
python画图修改字体为新罗马字体
#设置字体为新罗马字体font={'family':'serif','serif':['TimesNewRoman'],'size':20,'style':'normal'}plt.rc('font',**font)plt.rc('axes',labelsize=20)如果跑出来不是新罗马字体，那是服务器没装新罗马字体的问题，切换环境到本地就可以了。（本地一般都有新罗马字体）
python序列化任意结构到dict YoungHong1992 python 开发语言
defserialize(obj:Any)->Any:"""因为Param没有序列化的接口，无法直接转为dict或json，因此编写该函数,把Param转为dict"""ifisinstance(obj,np.ndarray):returnobj.tolist()#将numpy.ndarray转换为列表elifisinstance(obj,(int,float,str,bool)):#基本数据类型
Python包版本分析工具开发：从PyPI私有源快速提取元数据 YoungHong1992 python windows 开发语言
importsubprocessimportreimportosimportsysimporttempfileimportzipfilefromemail.parserimportParserfromtypingimportList,Dict,Optional,Anyfromjinja2importEnvironmentfrompackaging.versionimportparseasparse
AI 的出现，是否能替代 IT 从业者？敲代码的苦13 人工智能
在科技浪潮奔涌向前的时代，AI正以惊人的速度渗透进各个领域，IT行业首当其冲。当AI编写代码的效率不断提升，当智能算法能够快速完成系统故障诊断，当自动化工具可以处理大量数据运维工作，IT从业者们不禁心生疑虑：AI真的会成为“职业终结者”，将自己从岗位上彻底替代吗？这场关于AI与IT从业者未来的讨论，充满了争议与悬念，也关乎着无数人的职业命运。一、AI在IT领域的应用现状编程开发中的AIAI在编程开
如何将应用程序从 iPhone 传输到Mac电脑 Coolmuster 苹果手机 iPhone iOS iphone macos ios
我们的设备常常需要同步以保持数据的一致性。对于iPhone用户来说，将应用程序和数据同步到Mac电脑上可以带来极大的便利，无论是为了备份、跨设备使用还是数据迁移。一、为什么需要将iPhone应用程序同步到Mac？在多种情况下，用户可能需要将iPhone上的应用程序同步到Mac上，例如：跨设备工作流程，需要在Mac上继续使用iPhone应用程序。备份应用程序及其数据，以防丢失。将iPhone上购买的
AIGC领域AI作画：在数字雕塑中的应用实践 AI原生应用开发 AI 原生应用开发 AIGC AI作画 ai
AIGC领域AI作画：在数字雕塑中的应用实践关键词：AIGC、AI作画、数字雕塑、生成对抗网络、3D建模、艺术创作、深度学习摘要：本文深入探讨了AIGC(人工智能生成内容)技术在数字雕塑领域的创新应用。我们将从技术原理、算法实现到实际案例，全面解析AI如何赋能传统数字雕塑创作流程。文章首先介绍AIGC在艺术创作中的背景和发展现状，然后详细讲解核心算法原理和数学模型，接着通过实际项目案例展示AI作画
WebView 页面在多语言环境中错位怎么办？国际化适配调试全过程 2501_91600747 http udp https websocket 网络安全网络协议 tcp/ip
移动应用全球化后，WebView页面往往需要同时适配多种语言和地区设置，包括英语、中文、阿拉伯语等。尤其是当用户使用RTL（Right-to-Left，阿拉伯语、希伯来语等）语言环境时，页面容易出现布局错乱、文字溢出或控件位置异常。这类问题并不会在本地开发环境或英文/中文设置下暴露，常常等到国际用户反馈后才暴露。本文分享一次我们为多语言环境适配进行调试和修复的完整过程。背景：国际化上线后阿拉伯语用
Python爬虫实战：使用Scrapy和Selenium高效爬取USPTO美国专利数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 scrapy 开发语言 selenium 测试工具
引言在当今的知识经济时代，专利数据蕴含着巨大的商业和技术价值。美国专利商标局(USPTO)作为全球最大的专利数据库之一，收录了数百万项专利信息，这些数据对于企业竞争分析、技术趋势预测和学术研究都具有重要意义。本文将详细介绍如何使用Python构建一个高效、稳定的USPTO专利数据爬虫系统。一、USPTO专利数据库概述1.1USPTO数据库结构USPTO提供了多种访问专利数据的途径：专利全文和图像数
Python爬虫实战：爬取百度学术摘要信息全流程详解与代码示例 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 学习 dubbo 百度
1.前言随着学术资源数字化的普及，百度学术成为学者们常用的论文搜索平台。获取大量论文摘要信息对于文献综述、知识图谱构建等研究极为重要。本文将系统讲解如何利用Python编写爬虫，批量抓取百度学术上的论文摘要。我们将结合最新Python爬虫技术，涵盖基础同步爬虫、异步爬虫、多线程，全面实战演示。2.项目背景与目标百度学术支持通过关键词搜索论文，展示论文标题、作者、期刊、摘要等信息。目标是：根据关键词
Python爬虫实战：爬取网易云音乐热评的完整教程 Python爬虫项目 python 爬虫开发语言能源 selenium
1.背景介绍：为什么爬网易云音乐热评？网易云音乐是中国最受欢迎的音乐平台之一，其用户活跃度极高。评论区往往蕴含丰富的情感表达和用户反馈，是音乐数据分析、情感分析、推荐算法等领域的宝贵数据源。爬取热评可以用于：歌曲口碑分析用户情绪挖掘热门歌曲趋势追踪机器学习训练数据准备但网易云音乐对评论接口进行了加密，直接请求很难成功。本文将帮你攻克这一难点。2.网易云音乐热评接口分析我们首先用浏览器开发者工具（C
macOS运行python程序遇libiomp5.dylib库冲突错误解决方案 screenCui macos python 开发语言
用途说明在macOS系统运行某些涉及OpenMP或多线程的Python程序（如PyTorch、NumPy等科学计算库）时，可能会出现libiomp5.dylib库冲突的错误。设置os.environ['KMP_DUPLICATE_LIB_OK']='True'允许系统加载重复的动态链接库，临时解决冲突问题。典型错误场景错误信息通常包含以下内容：OMP:Error#15:Initializingli
Python项目如何读取nacos配置 Tizzy JJ 服务器 python pycharm
目录一、nacos配置示例二、python读取nacos配置一、nacos配置示例在Nacos中创建yaml格式配置（DataID:your-data-id）#Nacos配置文件(your-data-id.yaml)app:env:productionversion:1.2.3apis:deepseek:api_key:"sk-your-deepseek-key-here"timeout:30da
Vlang编写轻量化多线程爬虫 q56731523 爬虫 typescript 开发语言前端
Vlang作为新兴语言，他简单、快速和安全让爬虫有不一样的体验。在V中，并发模型基于轻量级的协程（称为goroutines，类似于Go语言的goroutine）和通道（channels）来实现。虽然说V语言目前还在快速发展中，但它的并发特性已经可以用于构建多线程（实际上是协程）应用程序，例如网络爬虫。所以说，用V语言（Vlang）完全支持编写多线程爬虫。它提供了强大的并发模型和网络库，非常适合高效
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin