JayWRZZ

机器学习初识

K-Means(K-均值) ->聚类

K-Means 是一种使用广泛的聚类的算法，将各种聚类子集内的所有数据样本的均值作为该聚类的代表点。

算法主要思想：通过迭代把数据集划分为不同的类别，使得评价聚类性能的准则函数达到最优，从而使得生成的每个聚类类内紧凑，类间独立。

由于每次都要计算所有的样本与每一个质心之间的距离，在大规模数据集上收敛速度较慢。

算法思想及步骤

设置 k ，以及k个聚类中心 u1,u2,...,uk
分组：
- 将样本分配给距离最近的聚类中心
- 由这些样本构造不相交(non-overlapping)的聚类
确定中心：用个聚类的均值向量作为新的聚类中心
重复2，3直至算法收敛即聚类中心达到稳定。

算法要点

选定某种距离作为数据样本间的相似性度量

k-means聚类算法不适合处理离散型属性，对连续性属性比较适合

计算样本之间的距离时，根据实际需要选择距离测度作为算法的相似性度量，如欧式距离，曼哈顿距离(各维差的绝对值之和)，马氏距离(两个服从同一分布并且其协方差矩阵为Σ的随机变量之间的差异程度)
选择评价聚类性能的准则函数

k-means聚类算法使用误差平方和准则函数来评价聚类性能。

$c o s t \cdot F u n c t i o n = \sum i = 1 k \sum x j \in S i (x j - u i) 2$
相似性的计算根据一个簇中对象的平均值(均值向量)来进行

性能分析

Advantages:

解决聚类问题的经典算法，简单，快速
处理大数据集，相对可伸缩和高效率的，复杂度是O(nkt), k <

算法改进

对于离散型属性和符号型属性，度量相似度采用：
- 比较记录，属性值相同为0，不相同为1，并取和。
- 更新新聚类中心，选择每个簇中的属性值出现频率最大的一个或几个作为代表簇的属性值。
对于类别数k的指定，考虑类别的合并与分裂。
- 合并：某一类中样本太少，两类聚类中心距离过近
- 分裂：方差过大
初始值敏感
- 多设置不同的初始值，对比最后的结果，直至结果趋同。(耗时)
对于“噪声”和孤立数据点
- 不采用均值，采用中心点
- 基于最小化所有对象与其参照点之间相异度之和的原则？？？

算法实现(python)

导入数据

def loadDataSet(fileName):
  dataMat = []
  with open(fileName, 'r') as fp:
    for line in fp.readlines():
      curLine = line.strip().split('\t')
      fltLine = [float(x) for x in curLine]
      dataMat.append(fltLine)
      return mat(dataMat)

生成k个点

def distEclud(vecA, vecB):
  return sqrt(sum(power(vecA - vecB, 2)))

def randCent(dataSet, k):
  # the dimension
  n = shape(dataSet)[1]
  # get the random center coordinates
  centroids = mat(zeros((k, n)))
  for j in range(n):
    minJ = min(dataSet[:, j])
    rangeJ = float(max(dataSet[:, j]) - minJ)
    centroids[:,j] = minJ + rangeJ * random.rand(k, 1)
    return centroids

k-means:

def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
  m = shape(dataSet)[0]
  clusterAssment = mat(zeros((m, 2)))
  centroids = createCent(dataSet, k)
  clusterChanged = True
  while clusterChanged:
    clusterChanged = False
    # calcuate the distance
    for i in range(m):
      minDist = inf
      minIndex = -1
      for j in range(k):
        distJI = distMeas(centroids[j, :], dataSet[i, :])
        if distJI < minDist:
          minDist = distJI
          minIndex = j
          if clusterAssment[i, 0] != minIndex:
            # unable to be stable
            clusterChanged = True
            clusterAssment[i, :] = minIndex, minDist**2
            # print(centroids)
            # update center coordinates
            for cent in range(k):
              ptsInClust = dataSet[nonzero(clusterAssment[:, 0].A  == cent)[0]]
              centroids[cent, :] = mean(ptsInClust, axis=0)
              return centroids, clusterAssment

画图

def draw(dataSet, centroids, clusterAssment):
  m = shape(dataSet)[0]
  for i in range(m):
    plt.scatter(dataSet[i, 0], dataSet[i, 1], c=color(clusterAssment[i, 0]), )
    plt.show()

主程序

def main():
  dataSet = loadDataSet('places.txt')
  centroids, clusterAssment = kMeans(dataSet, 4)
  draw(dataSet, centroids, clusterAssment)

二分k-means优化

def biKmeans(dataSet, k, distMeas=distEclud):
  # number of dataSet
  m = shape(dataSet)[0]
  clusterAssment = mat(zeros((m, 2)))
  # the first of center coordinate
  centroidOne = mean(dataSet, axis=0).tolist()[0]
  centList = [centroidOne]
  for j in range(m):
    # SSE of the first center coordiante and every one of dataset
    clusterAssment[j, 1] = distMeas(mat(centroidOne), dataSet[j, :])**2
    while (len (centList) < k):
      lowestSSE = inf
      for i in range(len(centList)):
        # 第 i 类的数据集
        ptsInCurrClust = dataSet[nonzero(clusterAssment[:, 0].A == i)[0], :]
        centroidMat, splitClustAss = kMeans(ptsInCurrClust, 2, distMeas)
        # calculate the SSE
        sseSplit = sum(splitClustAss[:, 1])
        sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:, 0].A != i)[0], 1])
        print("SSE of split : %d \nSSE of nosplit : %d" % (sseSplit, sseNotSplit))
        if (sseSplit + sseNotSplit) < lowestSSE:
          bestCentToSpit = i
          bestNewCents = centroidMat
          bestClustAss = splitClustAss.copy()
          lowestSSE = sseSplit + sseNotSplit

          # divide it 
          bestClustAss[nonzero(bestClustAss[:, 0].A == 1)[0], 0] = len(centList)
          bestClustAss[nonzero(bestClustAss[:, 0].A == 0)[0], 0] = bestCentToSpit

          print("The bestCentToSpit is %d " % (bestCentToSpit))
          print("The len of bestClustAss is %d " % (len(centList)))
          # update and add center coordinate
          centList[bestCentToSpit] = bestNewCents[0, :]
          centList.append(bestNewCents[1, :])
          # change the class which is divided into 2 parts
          clusterAssment[nonzero(clusterAssment[:, 0].A == bestCentToSpit)[0], :] = bestClustAss

          return centList, clusterAssment

经过几次测试，发现不如不优化。这个是通过我每次去找一个当前最优解。

KNN(近邻法)

最近邻

设有c个类 ω1,ω2,...,ωc ,每类有 Ni 个样本。

待测样本的到第i类的最近距离： gi(x)=min||x−xki|| (xki表示的是第i类第k个样本，k=1,...Ni)

距离我们除了可以采用欧式距离和曼哈顿距离，还可以采用明考斯基距离。

名考夫斯基距离：

d (a, b) = (\sum i = 1 n | x a i - x b i | p) 1 p

加权名考夫斯基距离：

d (a, b) = (\sum i = 1 n w i \cdot | x a i - x b i | p) 1 p

决策规则

把待测样本加g(x)最小的那个类中。

k = 1时称为最近邻分类器。

给定测试样本，若其最近邻样本为z,则最近邻分类器出错的概率就是x与z类别标记不同的概率

P (e r r o r) = 1 - \sum c \in γ P (c | x) P (c | z)

最近邻分类器虽简单，但是他的泛化错误率不超过贝叶斯最优分类器的错误率的两倍。

低维嵌入

当训练样本的采集密度足够大，成为”密采样(dense sample)”,但随着维度的提升，样本数目明显不够，导致数据样本稀疏，距离计算困难等难题，即“维数灾难(curse of dimensionality)”。

缓解的一个重要途径就是降维(dimension reduction).人们观测数据样本虽是高维的，但是与学习任务密切相关的也许尽是某个低维分布。

典型的多维缩放(Multiple Dimensional Scaling , MDS):

假定m个样本在原始控件的距离矩阵为 D∈Rm×m,distij 表示 xi 到 xj 的距离，目标是获取d’维空间的表示 Z∈Rd′×m , 且任意两个样本在d’维空间中的欧氏距离等于原始空间中的距离。

令 B=ZTZ∈Rm×m ，其中B为降维后样本的内积矩阵，有 bij=zTizj

d i s t 2 i j = | | z i | | 2 + | | z j | | 2 - 2 z T i z j = b i i + b j j - 2 b i j

我们将为后的样本Z做中心化处理，也就是说 ∑mi=1zi=0 ,易知

\sum i = 1 m d i s t 2 i j = t r (B) + m b j j

\sum j = 1 m d i s t 2 i j = t r (B) + m b i i

\sum i = 1 m \sum j = 1 m d i s t 2 i j = 2 m t r (B)

其中tr(B)表示B的迹，而且有 tr(B=∑mi=1||zi||2 ，我们再令

d i s t 2 i \cdot = 1 m \sum j = 1 m d i s t 2 i j

d i s t 2 \cdot j = 1 m \sum i = 1 m d i s t 2 i j

d i s t 2 \cdot \cdot = 1 m 2 \sum i = 1 m \sum j = 1 m d i s t 2 i j

所以我们有 bij=−12(dist2ij−dist2i⋅−dist2⋅j+dist2⋅⋅)

通过降维前后保持不变的距离矩阵D来求取内积矩阵B.

再对B做特征值分解(eigenvalue decomposition), B=VΛVT , 其中 Λ=diag(λ1,...,λd),(λ1≥λ2≥...≥λd) 为特征值构成的对角矩阵.假定其中有d*个非零特征向值，他们构成了 Λ∗=diag(λ1,lambda2,...,λd∗),令V∗ 为相应的特征向量矩阵，则Z可表达为 Z=Λ1/2∗VT∗

现实中为了有效降维，往往仅需降维后的距离与原始空间中的距离尽可能的接近。

MDS算法的过程：

计算 dist2ij,dist2i⋅,dist2j⋅
计算B
对B做特征值分解
取 Λ∗为d′个最大特征值所构成的对角矩阵，V∗ 为相应得到特征向量矩阵
得到的Z，每行便是一个样本的低维坐标

算法步骤

计算出样本数据和待分类数据的距离，
为待分类数据选择k个与其距离最小的样本。
统计出k个样本中大多数样本所属的分类
这个分类就是待测数据所属的分类。

性能分析

Advantages:

KNN不仅可以用来分类，也可以用来regression。

对于类域交叉或重叠较多的待测样本集来说，非常适合。

Disadvantages:

当样本不平衡时，会导致待测样本偏向于样本容量较大的类。

计算量大(可除去对分类作用不大的样本)。

不适合样本容量较小的类域，容易采用误分。

Others:

k值的减小会使近似误差(approximation error)减小,但估计误差(estimation error)会增大，意味着整体模型变得复杂，容易发生过拟合。

k值的增大可以减小估计误差，但增大了近似误差。这是与输入实例较远的(不相似)训练实例也会起预测作用，是预测发生错误，同样也使得模型变的简单。

k=N不可取。k一般取一个较小的数值，采用交叉验证法来选取最优的k值。

算法改进

参考

压缩kNN

定义两个存储器，一个存放生成的样本集称output样本集，和original样本集。

初始化：output为空，original为原样本集，从original选择一个移到output中。

在original样本集中选择第i个样本，并使用output样本集中的样本对其进行knn，若分类错误，则将该样本移动到output样本中，若正确不做处理

直至遍历完original所有的样本。output也就是压缩后的样本集。

算法实现(python )

from numpy import *
def distEclud(vecA, vecB):
    return sqrt(sum(power(vecA - vecB, 2)))

def classfiy0(inX, dataSet, labels, k):
    m = shape(dataSet)[0]
    cnt = zeros(m)
    dis = []
    for i in range(m):
        tmp = distEclud(inX, dataSet[i, :])
        dis.append((tmp, labels[i]))
    dis.sort()
    print(dis)
    for i in range(k):
        cnt[dis[i][1]] += 1
    id = -1
    mix = 0
    for i in range(m):
        if(mix < cnt[i]):
            mix = cnt[i]
            id = i
    return id

kd Tree实现(c++)

待补

principal component analysis(PCA主成分分析)

线性方法：对特征做线性组合，将高维数据投影到低维空间。

目的：寻找在最小均方意义下最能够代表原始数据的投影方法

我们需要寻找一个满足最近重构性和最大可分性的超平面。

最近重构性:样本点到这个超平面的距离都足够近

最大可分性:样本点到这个超平面上的投影能尽可能的分开

最近重构性

假定数据样本进行了中心化，即 ∑xi=0 ,再假定投影变换后得到的新坐标系为 w1,w2,...,wd , 且为规范正交基。若丢弃一部分坐标，维度降低到d’ < d，则样本点 xi 在低维坐标系下中的投影是 zi=(zi1;zi2;...;zid′) , 其中 zij=wTjxi 是 xi 在低维下第j维的坐标。若基于 zi 来重构 xi ，则有 xi=∑d′j=1zijwj , 那么整个训练集中，样本原点与基于投影重构的样本点 xi 之间的距离为:

\sum i = 1 m | | \sum j = 1 d' z i j w j - x i | | 22 = \sum i = 1 m z T i z i - 2 \sum i = 1 m z T i W T x i + \sum x 2 i

正比于

−tr(WTXXTW),s.t.WTW=I − t r ( W T X X T W ) , s . t . W T W = I ,

这就是主成分分析的优化目标。

使用拉格朗日乘子法得

X X T w i = λ i w i

对于协方差矩阵

XXT X X T 进行特征值分解,可以得到

E T C E = Λ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ λ 1 λ 2 ⋱ λ n ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟

其中特征值从大到下，再取前d’个特征值对应的特征向量构成W*, 这就是主成成分分析的解。

参考

降维后低维控件的维数d’通常是事先指定的，或通过在d’值不同的地位控件对knn(或其他开销较小的学习器)进行交叉验证来选取较好的d’值。对PCA还可以从重构的角度设置一个重构阈值，例如t = 95%, 然后选取满足不等式最小的d’

\sum d ' i = 1 λ i \sum d i = 1 λ i \geq t

舍弃了d-d’个特征值的特征向量，可能使样本的采集密度增大，另一方面当数据受到噪音影响时，最小的特征值所对应的特征向量往往与噪声有关。

PCA是一种无参数技术，也就是说面对同样的数据，如果不考虑清洗，谁来做结果都一样，没有主观参数的介入，所以PCA便于通用实现，但是本身无法个性化的优化。

算法

输入m条n列的数据，低维空间维数d’

对数据进行中心化处理， xi=xi−1m∑mi=1xi
计算样本的协方差矩阵 XXT
对协方差最特征值分解，求出特征值以及特征向量
取最大的d’ 个特征值所对应的特征向量 w1,w2,w3..

输出投影矩阵 W∗=(w1,w2,..,wd′)

python实现

PCA实现，输入m条n列(维)数据和d’，输出的是降维后的坐标，降维恢复后的坐标，以及投影矩阵

def pca(dataSet, topFeat=1627406066):
    """
        return the data in low Dimensions and the recover data from that
    """
    meanVals = mean(dataSet, axis=0)
    meanRemoved = dataSet - meanVals
    covMat = cov(meanRemoved, rowvar=False)
    eigVals, eigVects = linalg.eig(mat(covMat))
    eigValIndex = argsort(eigVals)
    eigValIndex = eigValIndex[:-(topFeat+1):-1]
    sortedEigVects = eigVects[:,eigValIndex]
    lowData = meanRemoved * sortedEigVects
    reData = (lowData * sortedEigVects.T) + meanVals
    return lowData, reData, sortedEigVects

Linear Discriminant Analysis(LDA线性判别分析)

思想：给定训练集，设法将样例投影到一条直线上，是的同类样例的投影点尽可能的接近、异类样例的投影点尽量远离，在对新样本进行分类时，将其投影到同样的这条直线上，在根据投影点到为止来确定样本的类别。

这个与PCA的想法相似但又截然不同。

给定数据集 D={(xi,yi)},yi∈{0,1} . 令 Xi,μi,∑i 分别表示第i类示例的集合、均值向量、协方差矩阵。若将数据投影到直线w上，则两类样本的中心在直线上的投影分别为 wTμ0和wTμ1 , 若将数据投影到直线w上。

欲使同类样例的投影点尽可能的接近，让同类的协方差尽可能的小，即 wT∑0w+wT∑1w , 而欲使异类样例的投影点尽可能原理,即 ||wTμ0−wTμ1||22 尽可能大，最大化的目标：

J = | | w T μ 0 - w T μ 1 | | 2 2 w T \sum 0 w + w T \sum 1 w = w T ( μ 0 - μ 1 ) ( μ 0 + μ 1 ) T w w T ( \sum 0 + \sum 1 ) w

类内散度矩阵(within-class scatter matrix)

Sw=∑0+∑1

= \sum x \in X 0 (x - u 0) (x - u 0) T + \sum x \in X 1 (x - μ 1) (x - μ 1) T ​

类间散度矩阵(between-class scatter matrix):

S b = (μ 0 - μ 1) (μ 0 - μ 1) T

J = w T S B w w T S w w

这就是我们要最大化的目标，即 Sb和Sw 的广义瑞利商(generalized Rayleigh quotient).

不失一般性，我们令分母为1，那么就有

J = w T S b w s . t . w T S w w = 1

拉格朗日乘子得：

S b w = λ S w w

这时

Sbw的方向与(μ0−μ1) S b w 的方向与 ( μ 0 − μ 1 ) 一样，就可以令

Sbw=λ(μ0−μ1) 带回去就有

w = S - 1 w (μ 0 - μ 1)

考虑数值解的稳定性，通常将 Sw 进行奇异值分解(SVD)，即 Sw=U∑VT,S−1w=V∑−1UT

当两类数据同先验，满足高斯分布且协方差相等时，LDA可达到最优分类

推广：

存在N个类,且第i个类示例数为mi,定义全局散度矩阵

S t = S b + S w = \sum i = 1 m (x i - μ) (x i - μ) T S w = \sum i = 1 N S w i S w i = \sum x \in X i (x - μ i) (x - μ i) T S b = S t - S w = \sum i = 1 N (u i - u) (u i - u) T

多分类LDA有多种实现方法，使用

Sb,Sw,St S b , S w , S t 三者中任何两个即可，常见的是采用优化目标

m a x W t r ( W T S b W ) t r ( W T S w W )

其中 W∈Rd×(N−1)

上式同理可以转化为 SbW=λSwW

W的闭式解则是 S−1wSb 的d’个最大非零广义特征值所对应的特征向量所组成的矩阵, d′≤N−1

W投影到d‘维空间，LDA也被视为一种经典的监督降维技术。

算法

输入m条n列的数据，

计算 Sw,Sb
计算矩阵 S−1wSb 所有特征值和对应的特征向量
取最大的d’ 个特征值所对应的特征向量 w1,w2,w3..

输出投影矩阵 W∗=(w1,w2,..,wd′)

python算法实现

def lda(dataSet, label, topFeat=1627406066):
    """
        return the data in low Dimensions and the recover data from that
    """
    m, n = shape(dataSet)
    d = int(max(label)) + 1
    classifedData = [[] for i in range(d)]
    labelAverage = []
    for i in range(m):
        if(int(label[i]) < len(classifedData)):
            classifedData[int(label[i])].append(dataSet[i])
        else :
            print("Error label : " + label[i])
    withinScatterMat = zeros((n, n))
    for i in range(d):
        labelAverage.append(mean(classifedData[i], axis=0))
        tmp = mat(classifedData[i] - labelAverage[i])
        withinScatterMat = withinScatterMat + tmp.T * tmp

    meanVals = mean(dataSet, axis=0)
    betweenScatterMat = zeros((n, n))
    for i in range(d):
        tmp = mat(labelAverage[i] - meanVals)
        betweenScatterMat += tmp.T * tmp
    ScatterMat = (withinScatterMat ** (-1)) * betweenScatterMat
    eigVals, eigVects = linalg.eig(mat(ScatterMat))
    print(eigVals)
    eigValIndex = argsort(eigVals)
    eigValIndex = [i for i in eigValIndex[:-(topFeat+1):-1] if(i > 0)]
    sortedEigVects = eigVects[:,eigValIndex]
    loadDataSet = dataSet * sortedEigVects
    reData = loadDataSet * sortedEigVects.T
    return loadDataSet, reData, sortedEigVects

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
ansible的安装、使用 ytym00
简介高度模块化，调用特定的模块，完成特定的任务，基于Yaml，来完成批量任务的模板化，来支持playbook。基于Python语言实现，主要使用Paramiko、PyYAML和JinJa2三个关键模块，部署简单(agentless)，主从模式，支持自定义模块，支持playbook，幂等性：允许重复执行N次，没有变化时，只会执行第一次。特点：1、Configuration(cfengine,chef
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
Python怎么判断两个字符串是否相等？老男孩IT教育 python 开发语言
在Python语言中，字符串是一种十分常见的数据类型，在很多业务场景下，我们需要判断两个字符串是否相等，这也是一个非常基础的操作，那么该如何实现呢?以下是详细的内容：Python中判断两个字符串是否相等有两种方法：直接比较和使用字符串方法。1、直接比较在Python中，我们可以使用==运算符来比较两个字符串是否相等。例如：str1='hello'str2='world'ifstr1==str2:p
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
python语言爬虫爬取歌曲程序代码 EYYLTV python 爬虫 android
importrequestssong_urls=[“http://music.163.com/song/media/outer/url?id=25795016.mp3”,“https://m703.music.126.net/20240915140140/670dfe5c0144991d4cb778d6662fd762/jd-musicrep-privatecloud-audio-public/o
python语言爬虫爬取歌曲代码X EYYLTV python 爬虫 java
importrequestssong_urls=[“https://m804.music.126.net/20240915142147/4e01caa69abda60b165e185607805ee1/jdyyaac/obj/w5rDlsOJwrLDjj7CmsOj/30379084686/b56a/dbd5/39fc/792d87f5d7014bb78547ec3804eeaac5.m4a?au
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。

机器学习初识

K-Means(K-均值) ->聚类

算法思想及步骤

算法要点

性能分析

算法改进

算法实现(python)

二分k-means优化

KNN(近邻法)

算法步骤

性能分析

算法改进

算法实现(python )

kd Tree实现(c++)

principal component analysis(PCA主成分分析)

算法

python实现

Linear Discriminant Analysis(LDA线性判别分析)

算法

python算法实现

你可能感兴趣的:(python语言,机器学习)