linzch3

【MOOC】Python机器学习应用-北京理工大学 - 【第一周】无监督学习

本周课程导学

1.无监督学习简介

利用无标签的数据学习数据的分布或数据与数据之间的关系被称作无监督学习。

• 有监督学习和无监督学习的最大区别在于数据是否有标签

• 无监督学习最常应用的场景是聚类(clustering)和降维(DimensionReduction)

聚类和分类都是无监督学习的典型任务，任务之间存在关联，比如某些高纬数据的分类可以通过降维处理更好的获得，另外学界研究也表明代表性的分类算法如k-means与降维算法如NMF之间存在等价性。

-> 聚类

聚类(clustering)，就是根据数据的“相似性”将数据分为多类的过程。

评估两个不同样本之间的“相似性” ，通常使用的方法就是计算两个样本之间的“距离”。使用不同的方法计算样本间的距离会关系到聚类结果的好坏。

–> 一些常用的距离概念（4个）以及计算方法

–>关于sklearn

sklearn中的聚类算法包含在sklearn.cluster这个模块中，如：K-Means，近邻传播算法，DBSCAN等。

以同样的数据集应用于不同的算法，可能会得到不同的结果，算法所耗费的时间也不尽相同，这是由算法的特性决定的。

sklearn.cluster模块提供的各聚类算法函数可以使用不同的数据形式作为输入:

标准数据输入格式: [样本个数，特征个数] 定义的矩阵形式。

相似性矩阵输入格式：即由 [样本数目，样本数目] 定义的矩阵形式，矩阵中的每一个元素为两个样本的相似度，如DBSCAN， AffinityPropagation(近邻传播算法)接受这种输入。如果以余弦相似度为例，则对角线元素全为1. 矩阵中每个元素的取值范围为[0,1]。

->降维
降维，就是在保证数据所具有的代表性特性或者分布的情况下，将高维数据转化为低维数据的过程，如数据的可视化、精简数据

–>关于sklearn

降维是机器学习领域的一个重要研究内容，有很多被工业界和学术界接受的典型算法，截止到目前sklearn库提供7种降维算法。

降维过程也可以被理解为对数据集的组成成份进行分解（decomposition）的过程，因此sklearn为降维模块命名为decomposition, 在对降维算法调用需要使用sklearn.decomposition模块。

单元1：聚类

1.1.K-means方法及应用

算法原理：

k-means算法以k为参数，把n个对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低。

其处理过程如下：

1.随机选择k个点作为初始的聚类中心；

2.对于剩下的点，根据其与聚类中心的距离，将其归入最近的簇

3.对每个簇，计算所有点的均值作为新的聚类中心

4.重复2、 3直到聚类中心不再发生改变

kmeans处理流程举例：

1.2.K-means的应用

数据介绍：

现有1999年全国31个省份城镇居民家庭平均每人全年消费性支出的八个主要变量数据，这八个变量分别是：食品、衣着、家庭设备用品及服务、医疗保健、交通和通讯、娱乐教育文化服务、居住以及杂项商品和服务。利用已有数据，对31个省份进行聚类。

实验目的：

通过聚类，了解1999年各个省份的消费水平在国内的情况。

技术路线：

sklearn.cluster.Kmeans

调用KMeans方法所需参数：

• n_clusters：用于指定聚类中心的个数

• init：初始聚类中心的初始化方法

• max_iter：最大的迭代次数

• 一般调用时只用给出n_clusters即可， init 默认是k-means++，max_iter默认是300

数据实例：

数据文件（city.txt）：

城市名称、食品、 衣着、 家庭设备用品及服务、 医疗保健、 交通和通讯、 娱乐教育文化服务、 居住以及杂项商品和服务

北京,2959.19,730.79,749.41,513.34,467.87,1141.82,478.42,457.64
天津,2459.77,495.47,697.33,302.87,284.19,735.97,570.84,305.08
河北,1495.63,515.90,362.37,285.32,272.95,540.58,364.91,188.63
山西,1406.33,477.77,290.15,208.57,201.50,414.72,281.84,212.10
内蒙古,1303.97,524.29,254.83,192.17,249.81,463.09,287.87,192.96
辽宁,1730.84,553.90,246.91,279.81,239.18,445.20,330.24,163.86
吉林,1561.86,492.42,200.49,218.36,220.69,459.62,360.48,147.76
黑龙江,1410.11,510.71,211.88,277.11,224.65,376.82,317.61,152.85
上海,3712.31,550.74,893.37,346.93,527.00,1034.98,720.33,462.03
江苏,2207.58,449.37,572.40,211.92,302.09,585.23,429.77,252.54
浙江,2629.16,557.32,689.73,435.69,514.66,795.87,575.76,323.36
安徽,1844.78,430.29,271.28,126.33,250.56,513.18,314.00,151.39
福建,2709.46,428.11,334.12,160.77,405.14,461.67,535.13,232.29
江西,1563.78,303.65,233.81,107.90,209.70,393.99,509.39,160.12
山东,1675.75,613.32,550.71,219.79,272.59,599.43,371.62,211.84
河南,1427.65,431.79,288.55,208.14,217.00,337.76,421.31,165.32
湖南,1942.23,512.27,401.39,206.06,321.29,697.22,492.60,226.45
湖北,1783.43,511.88,282.84,201.01,237.60,617.74,523.52,182.52
广东,3055.17,353.23,564.56,356.27,811.88,873.06,1082.82,420.81
广西,2033.87,300.82,338.65,157.78,329.06,621.74,587.02,218.27
海南,2057.86,186.44,202.72,171.79,329.65,477.17,312.93,279.19
重庆,2303.29,589.99,516.21,236.55,403.92,730.05,438.41,225.80
四川,1974.28,507.76,344.79,203.21,240.24,575.10,430.36,223.46
贵州,1673.82,437.75,461.61,153.32,254.66,445.59,346.11,191.48
云南,2194.25,537.01,369.07,249.54,290.84,561.91,407.70,330.95
西藏,2646.61,839.70,204.44,209.11,379.30,371.04,269.59,389.33
陕西,1472.95,390.89,447.95,259.51,230.61,490.90,469.10,191.34
甘肃,1525.57,472.98,328.90,219.86,206.65,449.69,249.66,228.19
青海,1654.69,437.77,258.78,303.00,244.93,479.53,288.56,236.51
宁夏,1375.46,480.89,273.84,317.32,251.08,424.75,228.73,195.93
新疆,1608.82,536.05,432.46,235.82,250.28,541.30,344.85,214.40

实验代码：

# -*- coding: utf-8 -*-
import numpy as np
from sklearn.cluster import KMeans


def loadData(filePath):
    '''
    将文本文件中的数据保存到retData、retCityName这两个变量中并返回
    '''
    fr = open(filePath,'r+',encoding='utf-8')#读写打开一个文本文件
    lines = fr.readlines()
    retData = []            #用来存储城市的各项消费信息
    retCityName = []        #用来存储城市名称
    for line in lines:
        items = line.strip().split(",")
        retCityName.append(items[0])
        retData.append([float(items[i]) for i in range(1,len(items))])
    return retData,retCityName


if __name__ == '__main__':
    data,cityName = loadData('city.txt')
    km = KMeans(n_clusters=4)#聚类中心为4
    label = km.fit_predict(data)#计算簇中心以及为簇分配序号,label为每行数据对应分配到的序列
    print('label\n',label)
    expenses = np.sum(km.cluster_centers_,axis=1)#按行求和
    print('km.cluster_centers_\n',km.cluster_centers_)
    print('expenses\n',expenses,'\n\n')
    CityCluster = [[],[],[],[]]
    #将在同一个簇的城市保存在同一个list中
    for i in range(len(cityName)):
        CityCluster[label[i]].append(cityName[i])
    #输出各个簇的平均消费数和对应的城市名称
    for i in range(len(CityCluster)):
        print("Expenses:%.2f" % expenses[i])
        print(CityCluster[i])

输出：

label
 [1 3 0 0 0 0 0 0 1 2 3 2 3 0 0 0 2 2 1 2 2 3 2 0 2 3 0 0 0 0 0]
km.cluster_centers_
 [[ 1525.81533333   478.672        322.88266667   232.4          236.41866667
    457.53133333   344.81866667   190.21933333]
 [ 3242.22333333   544.92         735.78         405.51333333   602.25
   1016.62         760.52333333   446.82666667]
 [ 2004.785        429.48         347.8925       190.955        287.66625
    581.16125      437.2375       233.09625   ]
 [ 2549.658        582.118        488.366        268.998        397.442
    618.92         477.946        295.172     ]]
expenses
 [ 3788.758       7754.65666667  4512.27375     5678.62      ]


Expenses:3788.76
['河北', '山西', '内蒙古', '辽宁', '吉林', '黑龙江', '江西', '山东', '河南', '贵州', '陕西', '甘肃', '青海', '宁夏', '新疆']
Expenses:7754.66
['北京', '上海', '广东']
Expenses:4512.27
['江苏', '安徽', '湖南', '湖北', '广西', '海南', '四川', '云南']
Expenses:5678.62
['天津', '浙江', '福建', '重庆', '西藏']

注：

1.文本文件时.read、.readlines、.readline这三个函数的使用区别：

函数	使用情况
read	每次读取整个文件，它通常用于将文件内容放到一个字符串变量中
readlines	一次读取整个文件保存在一个list中，list中的每个元素为文件的每一行数据（字符串类型）
readline	每次只读取一行，通常比 .readlines() 慢得多。仅当没有足够内存可以一次读取整个文件时，才应该使用 .readline()

1.3.Sklearn 中KMeans算法的改进

计算两条数据相似性时，Sklearn 的K-Means默认用的是欧式距离。虽然还有余弦相似度，马氏距离等多种方法，但没有设定计算距离方法的参数。

阅读k_means_.py源码，可以发现在计算向量和簇中心的距离时，使用的是欧式距离（euclidean_distances）。

可以考虑修改euclidean_distances这个函数为 scipy.spatial.distance.cdist 函数。

scipy.spatial.distance.cdist函数使用方法：

该函数中的metric参数可供选择不同的距离计算方法。

1.4.DBSCAN方法及应用

->基本介绍

DBSCAN算法是一种基于密度的聚类算法：

• 聚类的时候不需要预先指定簇的个数

• 最终的簇的个数不定

->算法原理

DBSCAN算法将数据点分为三类：

• 核心点：在半径Eps内含有超过MinPts数目的点

• 边界点：在半径Eps内点的数量小于MinPts，但是落在核心点的邻域内

• 噪音点：既不是核心点也不是边界点的点

DBSCAN算法流程：

1.将所有点标记为核心点、边界点或噪声点；

2.删除噪声点；

3.为距离在Eps之内的所有核心点之间赋予一条边；

4.每组连通的核心点形成一个簇；

5.将每个边界点指派到一个与之关联的核心点的簇中（哪一个核心点的半径范围之内）。

->算法举例

举例：有如下13个样本点，使用DBSCAN进行聚类：

step1:

step2:

step3:

->应用

数据介绍：

现有大学校园网的日志数据，290条大学生的校园网使用情况数据，数据包括用户ID，设备的MAC地址，IP地址，开始上网时间，停止上网时间，上网时长，校园网套餐等。利用已有数据，分析学生上网的模式。

实验目的：

通过DBSCAN聚类，分析学生上网时间和上网时长的模式。

技术路线：

sklearn.cluster.DBSCAN

调用DBSCAN方法所需参数：

eps: 两个样本被看作邻居节点的最大距离

min_samples: 簇的样本数

metric：距离计算方式

例：sklearn.cluster.DBSCAN(eps=0.5, min_samples=5, metric=’euclidean’)

数据实例：

实现过程：

实现代码：

—–>对上网开始时间进行聚类

# -*- coding: utf-8 -*-
'''
对上网开始时间进行聚类
'''
import numpy as np
from sklearn.cluster import DBSCAN
from sklearn import metrics#计算方法
import matplotlib.pyplot as plt


mac2id=dict()
onlinetimes=[]
f=open('TestData.txt',encoding='utf-8')
for line in f:
    items = line.strip().split(",")
    #mac地址
    mac=items[2]
    #上网时长
    onlinetime=int(items[6])
    #时间格式举例：2014-07-20 22:44:18.540000000
    starttime=int(items[4].split(' ')[1].split(':')[0])#只保留时间的小时位

    #保证onlinetime中对应一个mac地址有一个唯一的记录
    if mac not in mac2id:
        mac2id[mac]=len(onlinetimes)
        onlinetimes.append((starttime,onlinetime))
    else:
        onlinetimes[mac2id[mac]]=(starttime,onlinetime)

real_X=np.array(onlinetimes).reshape((-1,2)) #-1代表行数由程序自行根据列数和总数据信息推算出

X=real_X[:,0:1]#只得到上网（开始）时间

#调用DBSCAN方法进行训练，labels为每个数据的簇标签
db=DBSCAN(eps=0.01,min_samples=20).fit(X)
labels = db.labels_#返回的数据的簇标签，噪声数据标签为-1
print('Labels:\n',labels)

#计算标签为-1的数据（即噪声数据)的比例
raito=len(labels[labels[:] == -1]) / len(labels)
print('Noise raito:',format(raito, '.2%'))

#计算簇的个数
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)
print('Estimated number of clusters: %d' % n_clusters_)

#评价聚类效果:轮廓系数si，原理可参考：http://blog.csdn.net/xueyingxue001/article/details/51966932
'''
            si接近1，则说明样本i聚类合理；
            si接近-1，则说明样本i更应该分类到另外的簇；
            若si 近似为0，则说明样本i在两个簇的边界上。
'''
print("Silhouette Coefficient: %0.3f"% metrics.silhouette_score(X, labels))#聚类效果评价指标

#打印各簇标号以及各簇内数据
for i in range(n_clusters_):
    print('number of data in Cluster %s is : %s'%(i,len(X[labels==i])))
    #print(list(X[labels == i].flatten()))


#绘制直方图分析
plt.hist(X,24)

输出：

Labels:
 [ 0 -1  0  1 -1  1  0  1  2 -1  1  0  1  1  3 -1 -1  3 -1  1  1 -1  1  3  4
 -1  1  1  2  0  2  2 -1  0  1  0  0  0  1  3 -1  0  1  1  0  0  2 -1  1  3
  1 -1  3 -1  3  0  1  1  2  3  3 -1 -1 -1  0  1  2  1 -1  3  1  1  2  3  0
  1 -1  2  0  0  3  2  0  1 -1  1  3 -1  4  2 -1 -1  0 -1  3 -1  0  2  1 -1
 -1  2  1  1  2  0  2  1  1  3  3  0  1  2  0  1  0 -1  1  1  3 -1  2  1  3
  1  1  1  2 -1  5 -1  1  3 -1  0  1  0  0  1 -1 -1 -1  2  2  0  1  1  3  0
  0  0  1  4  4 -1 -1 -1 -1  4 -1  4  4 -1  4 -1  1  2  2  3  0  1  0 -1  1
  0  0  1 -1 -1  0  2  1  0  2 -1  1  1 -1 -1  0  1  1 -1  3  1  1 -1  1  1
  0  0 -1  0 -1  0  0  2 -1  1 -1  1  0 -1  2  1  3  1  1 -1  1  0  0 -1  0
  0  3  2  0  0  5 -1  3  2 -1  5  4  4  4 -1  5  5 -1  4  0  4  4  4  5  4
  4  5  5  0  5  4 -1  4  5  5  5  1  5  5  0  5  4  4 -1  4  4  5  4  0  5
  4 -1  0  5  5  5 -1  4  5  5  5  5  4  4]
Noise raito: 22.15%
Estimated number of clusters: 6
Silhouette Coefficient: 0.710
number of data in Cluster 0 is : 55
number of data in Cluster 1 is : 65
number of data in Cluster 2 is : 28
number of data in Cluster 3 is : 25
number of data in Cluster 4 is : 28
number of data in Cluster 5 is : 24

可观察到：上网时间大多聚集在22：00和23：00

—–>对上网时长进行聚类
修改上面代码中的：

X=real_X[:,0:1]#只得到上网（开始）时间

#调用DBSCAN方法进行训练，labels为每个数据的簇标签
db=DBSCAN(eps=0.01,min_samples=20).fit(X)

为：

X=real_X[:,1:]#只得到上网时长

#调用DBSCAN方法进行训练，labels为每个数据的簇标签
db=DBSCAN(eps=0.14,min_samples=10).fit(X)

运行后可得到：

Labels:
 [-1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1]
Noise raito: 100.00%
Estimated number of clusters: 0
Traceback (most recent call last):

  File "", line 1, in 
    runfile('E:/Code/_testing/01-3.py', wdir='E:/Code/_testing')

  File "D:\Program Files\Anaconda3\lib\site-packages\spyder\utils\site\sitecustomize.py", line 866, in runfile
    execfile(filename, namespace)

  File "D:\Program Files\Anaconda3\lib\site-packages\spyder\utils\site\sitecustomize.py", line 102, in execfile
    exec(compile(f.read(), filename, 'exec'), namespace)

  File "E:/Code/_testing/01-3.py", line 53, in 
    print("Silhouette Coefficient: %0.3f"% metrics.silhouette_score(X, labels))#聚类效果评价指标

  File "D:\Program Files\Anaconda3\lib\site-packages\sklearn\metrics\cluster\unsupervised.py", line 100, in silhouette_score
    return np.mean(silhouette_samples(X, labels, metric=metric, **kwds))

  File "D:\Program Files\Anaconda3\lib\site-packages\sklearn\metrics\cluster\unsupervised.py", line 166, in silhouette_samples
    check_number_of_labels(len(le.classes_), X.shape[0])

  File "D:\Program Files\Anaconda3\lib\site-packages\sklearn\metrics\cluster\unsupervised.py", line 20, in check_number_of_labels
    "to n_samples - 1 (inclusive)" % n_labels)

ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1 (inclusive)

这就值得注意了，所有数据都被划分为噪声数据，以至于没有一个核心点。

为此，绘制出原始数据的直方图分布，可看到原始数据是不适合用于聚类分析的，因此我们这里使用对数变换来解决该类问题：

因此，需要修改

X=real_X[:,1:]#只得到上网时长

为：

X=np.log(1+real_X[:,1:])#只得到上网时长，这里+1是为了防止为0的情况

全部代码：

# -*- coding: utf-8 -*-
'''
对上网时长时间进行聚类
'''
import numpy as np
from sklearn.cluster import DBSCAN
from sklearn import metrics#计算方法
import matplotlib.pyplot as plt


mac2id=dict()
onlinetimes=[]
f=open('TestData.txt',encoding='utf-8')
for line in f:
    items = line.strip().split(",")
    #mac地址
    mac=items[2]
    #上网时长
    onlinetime=int(items[6])
    #时间格式举例：2014-07-20 22:44:18.540000000
    starttime=int(items[4].split(' ')[1].split(':')[0])#只保留时间的小时位

    #保证onlinetime中对应一个mac地址有一个唯一的记录
    if mac not in mac2id:
        mac2id[mac]=len(onlinetimes)
        onlinetimes.append((starttime,onlinetime))
    else:
        onlinetimes[mac2id[mac]]=(starttime,onlinetime)

real_X=np.array(onlinetimes).reshape((-1,2)) #-1代表行数由程序自行根据列数和总数据信息推算出

X=np.log(1+real_X[:,1:])#只得到上网时长，这里+1是为了防止为0的情况

#调用DBSCAN方法进行训练，labels为每个数据的簇标签
db=DBSCAN(eps=0.14,min_samples=10).fit(X)
labels = db.labels_#返回的数据的簇标签，噪声数据标签为-1
print('Labels:\n',labels)

#计算标签为-1的数据（即噪声数据)的比例
raito=len(labels[labels[:] == -1]) / len(labels)
print('Noise raito:',format(raito, '.2%'))

#计算簇的个数
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)
print('Estimated number of clusters: %d' % n_clusters_)

#评价聚类效果:轮廓系数si，原理可参考：http://blog.csdn.net/xueyingxue001/article/details/51966932
'''
            si接近1，则说明样本i聚类合理；
            si接近-1，则说明样本i更应该分类到另外的簇；
            若si 近似为0，则说明样本i在两个簇的边界上。
'''
print("Silhouette Coefficient: %0.3f"% metrics.silhouette_score(X, labels))#聚类效果评价指标

#打印各簇标号以及各簇内数据
for i in range(n_clusters_):
    print('number of data in Cluster %s is : %s'%(i,len(X[labels==i])))
    #print(list(X[labels == i].flatten()))


#绘制直方图分析
plt.hist(X,24)

输出：

Labels:
 [ 0  1  0  4  1  2  0  2  0  3 -1  0 -1 -1  0  3  1  0  3  2  2  1  2  0  1
  1 -1 -1  0  0  0  0  1  0 -1  0  0  0  2  0  1  0 -1 -1  0  0  0  3  2  0
 -1  1  0  1  0  0 -1  2  0  0  0  1  3  3  0  2  0 -1  3  0  0  2  0  0  0
  2  1 -1  0  0  0  0  0  0  1 -1  0  3  1  0  1  1  0  1  0  1  0  0 -1  1
  1  0  0  2  0  0  0  2  2  0  0  0 -1  0  0  4  0  1  2 -1  0  1  0  2  0
 -1 -1 -1  0  1  1  3 -1  0  1  0  2  0  0  2  1  1  0  0  0  0  4 -1  0  0
  0  0  2  0  0  0  0 -1  2  0  0  0  0  4  0  0 -1  0  2  0  0 -1  0  1  4
  0  0 -1  1  1  0  0  2  0  0  3 -1 -1 -1  1  0  0  2  1  0 -1 -1  3  2  2
  0  0  3  0  1  0  0  0  3  2  0 -1  0  1 -1 -1  0  2  2  1  4  0  0  1  0
  2  0  0  0  0  1  1  0  0  1  0  4 -1 -1  0  0  0 -1 -1  1 -1  4 -1  0  2
  2 -1  2  1  2 -1  0 -1  0  2  2  1 -1  0  1  2 -1 -1  1 -1  2 -1 -1  1  4
  2  3  1  0  4  0  0  4  2  4  0  0  2 -1]
Noise raito: 16.96%
Estimated number of clusters: 5
Silhouette Coefficient: 0.227
number of data in Cluster 0 is : 128
number of data in Cluster 1 is : 46
number of data in Cluster 2 is : 40
number of data in Cluster 3 is : 14
number of data in Cluster 4 is : 12

简单分析：
简单从聚类数目来看，时长聚类效果不如时间的聚类效果明显。

单元2：降维

2.1.主成分分析及其应用

->介绍
 主成分分析（Principal Component Analysis，PCA）是最常用的一种降维方法，通常用于高维数据集的探索与可视化，还可以用作数据压缩和预处理等。

 PCA可以把具有相关性的高维变量合成为线性无关的低维变量，称为主成分。主成分能够尽可能保留原始数据的信息。

->基本前提概念

在介绍PCA的原理之前需要回顾涉及到的相关术语：

• 方差：

是各个样本和样本均值的差的平方和的均值，用来度量一组数据的分散程度。

• 协方差：

用于度量两个变量之间的线性相关性程度，若两个变量的协方差为0，则可认为二者线性无关。

• 协方差矩阵

协方差矩阵则是由变量的协方差值构成的矩阵（对称阵）。

• 特征向量和特征值

矩阵的特征向量是描述数据集结构的非零向量，并满足如下公式：，A是方阵， v->是特征向量，lamda是特征值。

->算法原理

矩阵的主成分就是其协方差矩阵对应的特征向量，按照对应的特征值大小进行排序，最大的特征值就是第一主成分，其次是第二主成分，以此类推。

2.2.sklearn中主成分分析

在sklearn库中，可以使用sklearn.decomposition.PCA加载PCA进行降维，主要参数有：

• n_components：指定主成分的个数，即降维后数据的维度

• svd_solver ：设置特征值分解的方法，默认为‘auto’,其他可选有‘full’, ‘arpack’, ‘randomized’ 。

->实例编写：

目标：

已知鸢尾花数据是4维的，共三类样本。使用PCA实现对鸢尾花数据进行降维，实现在二维平面上的可视化。

实现代码：

# -*- coding: utf-8 -*-
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

data = load_iris()
y = data.target #使用y表示数据集中的标签
X = data.data  #使用X表示数据集中的属性数据
pca = PCA(n_components=2) #加载PCA算法，设置降维后主成分数目为2
reduced_X = pca.fit_transform(X) #对原始数据进行降维，保存在reduced_X中

red_x, red_y = [], [] #第一类数据点
blue_x, blue_y = [], [] #第二类数据点
green_x, green_y = [], [] #第三类数据点

#按照鸢尾花的类别将降维后的数据点保存在不同的列表中。

for i in range(len(reduced_X)):
    if y[i] == 0:
        red_x.append(reduced_X[i][0])
        red_y.append(reduced_X[i][1])
    elif y[i] == 1:
        blue_x.append(reduced_X[i][0])
        blue_y.append(reduced_X[i][1])
    else:
        green_x.append(reduced_X[i][0])
        green_y.append(reduced_X[i][1])

#降维后数据点的可视化
plt.scatter(red_x, red_y, c='r', marker='x')
plt.scatter(blue_x, blue_y, c='b', marker='D')
plt.scatter(green_x, green_y, c='g', marker='.')
plt.show()

输出结果：

结果分析：

可以看出，降维后的数据仍能够清晰地分成三类。这样不仅能削减数据的维度，降低分类任务的工作量，还能保证分类的质量。

2.3.NMF方法及其应用

非负矩阵分解（Non-negative Matrix Factorization ，NMF）是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法。

基本思想：给定一个非负矩阵V，NMF能够找到一个非负矩阵W和一个非负矩阵H，使得矩阵W和H的乘积近似等于矩阵V中的值。

• W矩阵：基础图像矩阵，相当于从原矩阵V中抽取出来的特征

• H矩阵：系数矩阵。

对应关系如下所示：

下图摘自NMF作者的论文，左侧为W矩阵，可以看出从原始图像中抽取出来的特征，中间的是H矩阵。可以发现乘积结果与原结果是很像的。

矩阵分解优化目标：最小化W矩阵H矩阵的乘积和原始矩阵之间的差别，目标函数如下：

基于KL散度的优化目标，损失函数如下：

公式推导见：这里

2.4.sklearn中非负矩阵分解

在sklearn库中，可以使用sklearn.decomposition.NMF加载NMF算法，主要参数有：

• n_components：用于指定分解后矩阵的单个维度k；

• init：W矩阵和H矩阵的初始化方式，默认为‘nndsvdar’。

->实例编写

目标：

已知Olivetti人脸数据共400个，每个数据是64*64大小。由于NMF分解得到的W矩阵相当于从原始矩阵中提取的特征，那么就可以使用NMF对400个人脸数据进行特征提取。

思路：通过设置k的大小，设置提取的特征的数目。在本实验中设置k=6，随后将提取的特征以图像的形式展示出来。

实现代码：

# -*- coding: utf-8 -*-
from numpy.random import RandomState #加载RandomState用于创建随机种子
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_olivetti_faces #加载Olivetti人脸数据集导入函数
from sklearn import decomposition


n_row, n_col = 2, 3 #设置图像展示时的排列情况
n_components = n_row * n_col
image_shape = (64, 64) #设置人脸数据图片的大小


###############################################################################
##加载数据，并打乱顺序
dataset = fetch_olivetti_faces(shuffle=True, random_state=RandomState(0))
faces = dataset.data

###############################################################################
def plot_gallery(title, images, n_col=n_col, n_row=n_row):
    plt.figure(figsize=(2. * n_col, 2.26 * n_row)) #创建图片，并指定图片大小（英寸）
    plt.suptitle(title, size=16)#设置标题及字号大小

    for i, comp in enumerate(images):
        plt.subplot(n_row, n_col, i + 1)
        vmax = max(comp.max(), -comp.min())

        #对数值归一化，并以灰度图形式显示
        plt.imshow(comp.reshape(image_shape), cmap=plt.cm.gray,
                   interpolation='nearest', vmin=-vmax, vmax=vmax)
        #去除子图的坐标轴标签
        plt.xticks(())
        plt.yticks(())

    #对子图位置及间隔调整
    plt.subplots_adjust(0.01, 0.05, 0.99, 0.94, 0.04, 0.)


plot_gallery("First centered Olivetti faces", faces[:n_components])
###############################################################################
#创建特征提取的对象：NMF、PCA
estimators = [
    ('Eigenfaces - PCA using randomized SVD',
         decomposition.PCA(n_components=6,whiten=True)),

    ('Non-negative components - NMF',
         decomposition.NMF(n_components=6, init='nndsvda', tol=5e-3))
]

###############################################################################
#降维后数据点的可视化
for name, estimator in estimators:
    print("Extracting the top %d %s..." % (n_components, name))
    print(faces.shape)
    estimator.fit(faces)#调用PCA或NMF提取特征
    components_ = estimator.components_#获取提取的特征
    plot_gallery(name, components_[:n_components])#按照固定格式进行排列

plt.show()

输出：

单元3：基于聚类的整图分割实例

基本介绍：

图像分割：利用图像的灰度、颜色、纹理、形状等特征，把图像分成若干个互不重叠的区域，并使这些特征在同一区域内呈现相似性，在不同的区域之间存在明显的差异性。然后就可以将分割的图像中具有独特性质的区域提取出来用于不同的研究。

图像分割技术已在实际生活中得到广泛的应用。例如：在机车检验领域，可以应用到轮毂裂纹图像的分割，及时发现裂纹，保证行车安全；在生物医学工程方面，对肝脏CT图像进行分割，为临床治疗和病理学研究提供帮助。

图像分割常用方法：

阈值分割：对图像灰度值进行度量，设置不同类别的阈值，达到分割的目的。
边缘分割：对图像边缘进行检测，即检测图像中灰度值发生跳变的地方，则为一片区域的边缘。
直方图法：对图像的颜色建立直方图，而直方图的波峰波谷能够表示一块区域的颜色值的范围，来达到分割的目的。
特定理论：基于聚类分析、小波变换等理论完成图像分割。

实例：

目标：利用K-means聚类算法对图像像素点颜色进行聚类实现简单的图像分割

输出：同一聚类中的点使用相同颜色标记，不同聚类颜色不同

技术路线：sklearn.cluster.KMeans

说明：本实例中的数据可以是任意大小的图片，为了使效果更佳直观，可以采用区分度比较明显的图片。

选择图片：

实现代码：

# -*- coding: utf-8 -*-
import numpy as np
import PIL.Image as image
from sklearn.cluster import KMeans

def loadData(filePath):
    f = open(filePath,'rb')#以二进制形式读取文件
    data = []
    img = image.open(f)
    m,n = img.size
    #将每个像素点的RGB归一化并存入data
    for i in range(m):
        for j in range(n):
            x,y,z,w = img.getpixel((i,j))
            data.append([x/256.0,y/256.0,z/256.0])
    f.close()
    return np.mat(data),m,n

imgData,row,col = loadData('bull.png')
#聚类获取每个像素点的类别
label = KMeans(n_clusters=4).fit_predict(imgData)
label = label.reshape([row,col])

#创建一张新的灰度图保存聚类后的结果
pic_new = image.new("L", (row, col))

#根据所属类别向图片中添加灰度值
for i in range(row):
    for j in range(col):
        pic_new.putpixel((i,j), int(256/(label[i][j]+1)))

#以JPEG形式保存图像
pic_new.save("result-bull-4.jpg", "JPEG")

输出：

你可能感兴趣的:(公开课)

准备胡珊珊乐平九小
尊敬的各位领导、各位同仁们：大家上午好！我是来自乐平九小的胡珊珊。今天很高兴能有机会给大家做“智慧作业”应用培训。说到“智慧作业”我感触颇多，我是在智慧作业中成长起来的，我也时常以自己是一名“智慧作业人”自居。早在2020年疫情期间，学校电教处周光杰主任在学校群里发出智慧作业抢题通知，我看了有些心动，一节微课相当于一次省级公开课，这对于我们普通老师是多么难得的机会啊。但想归想，我也不会用软件啊，再
经济金融学公开课学习总汇（九）佳佳爱科技AITech
本章内容：1.什么是金融风险2.什么是风险偏好与满意度，人都是风险厌恶吗3.单一投资还是多元投资4.无差别曲线金融风险：金融风险是指金融变量的各种可能值偏离期望的可能性以及幅度，所以风险不是说，一定会发生概率的亏损或者偏离回报，它也有可能发生超额的回报作为理财的投资人，我们一般只关注系统风险（经济环境不好造成房市大跌等）。还有非系统性风险（购买理财，卷款跑路等）。其中系统风险是可分散的风险；后者是
公开课，是选择学生的心灵，还是社会的好评？文明未央
远方，还有一缕阳光大教育家李镇西，在上完公开课后进行了一个反思，他说，“公开课是为了自己教学的完美而无视学生的精神自由，让学生成为自己表演的道具。而这样的教育，难道是我们应该提倡的吗？在学生的心灵与社会的评价之间，我们究竟该选择什么？”这里需要说明的是，学生的心灵，指的是最纯粹的、本真的、原生态呈现的语文教学效果，是真善美的有效结合，即使不完美，但也是课堂最真实的生成。社会的评价，指的是教育专家、
周末小事林溪留痕
在学校待了两天，总算是把课件搞了个差不多，床单被罩也都洗了。虽然这周没回去，但是还是做了事情的。明天争取多练习几遍要讲的内容，争取做到烂熟于心，来应付后天的公开课，不管最后结果怎么样，总之，我觉得自己尽力了，最起码自己不会后悔。生活就是这样啊，欢快的时间总是那么短暂，接下来又迎来了新的一周，又有新的磨难，每天都有新的挑战，累是真的，偶尔有点快乐也是真的。愿明天的阳光依然灿烂，今天晒过被子的我，阳光
2.0第一周检视（8/16-8/20） aeb1fe80c479
目标一：早起6:30目标二：运动每周3次以上（跑步，跳绳，瑜珈，冥想，快/慢走10000步……）目标三：早睡23点1.健康：本周精力感觉不足，总是犯困，每天也23点睡觉早上6点多会醒，但是醒来后还是感觉困，睡眠软件记录深眠只有1小时左右，午休做10分钟冥想补充精力；运动：两次美姿雅仪锻炼，一次晚上快走1W+2.学习：上了叶老师的财富公开课和PPT公开课发现有上海班，立即决定预约10月PPT3.线下
公开课悉数沉淀w
果果焦点解决网络中十五坚持分享第1165天2022.4.11累，谁不累啊！上好公开课是一个教师教学能力的重要体现，是评各级名师、学科骨干教师、学科带头人的重要依据，也是职评考核重要指标。最近笔者作为评委，连续听了六十多节一线教师参赛公开课，归纳提炼了上公开课时需要注意十个细节，也可以说要提防的十个坑，旨在对青年教师专业提升有所启迪、帮助。01缺即兴导语，师生情感关联度不够课堂首先是个情感场，然后才
代码随想录算法训练营第三十九天| 62. 不同路径，63. 不同路径 II 零offer在手算法动态规划图论
62.不同路径搞清楚dp[i][j]的定义推导出公式遍历顺序，从左到右，从上到下dp的初始化动态规划中如何初始化很重要！|LeetCode：62.不同路径_哔哩哔哩_bilibili《代码随想录》算法公开课开讲啦！快来打卡！本期视频的文字讲解版在「代码随想录」刷题网站：programmercarl.comGithub：https://github.com/youngyangyang04/leetc
书法心语仙泉
书法，对于我来说就是一个梦中情人。心仪已久，却难以企及。所谓伊人，在水一方。书法就是诗经里那个神秘的“伊人”。为什么我总也抓不住她呢？因为，一直没有找到真正接触她的渠道，仅靠我的暗恋，无法得到她的芳心。2016年之夏，某天我在住家附近走路，突然在街道边看到了“北京盛世兰亭书院”书法公开课的宣传海报。于是我记住了日子，在一个星期天到场听了书法课。我一下子像触电了，觉得禅宗所谓的“开悟”时刻到了。没有
《兴奋的睡不着》坚持第922天原创分享（2017.06.17星期六）半夏五月天
《兴奋的睡不着》卓丽，坚持第922天原创分享（2017.06.17星期六）：刘老师要来平顶山了，我们平顶山焦点团队的各位老师都开心的不得了，刘老师还特意给我们带来一节公开课，这是多么难得的机会呀，由于场地有限，只能小范围的通知，可是依然挡不住的热情，仅仅一天时间就截止报名了。我们下午四点就开始布置会场，由于来的人多，我们又去借凳子，大家也都早早来占位，都在等待着激动人心的那一刻。刘老师路上耽搁，依
记忆力培训与记忆课乌卓
昨天老徐拉我进了记忆公开课的群，研究了课程助理的工作流程之外，也读了群里提到的那本《世界记忆大师教我的超强记忆法》。先说一下这本书，看了前面一小半，联想记忆。联想记忆包括形象联想、谐音联想、夸张联想、运动联想、代替联想。也就是说，要训练好记忆力，就要把见到的陌生的信息联想成自己脑子里熟悉的信息，通过夸张之类的方法，把信息在脑子里刻下印记，因为我们的大脑对新奇的事物总会印象深刻。今天不写书评，因为我
终于结束了有一种夹心叫中国心
心都快提到嗓子眼里了一大早起床躺在床上还在想课，顺流程脑子里一遍一遍的过，一句一句的顺词本来已经参加过好几次的公开课了青年教师必修课可是这次我却不幸排在了第一个讲让我从知道安排之后一直都在准备每天睁眼就在想怎么办周六日也在备课我的师傅是一个很有教学经验，也很有活力的一位老师临到昨天她还在耐心的帮我指导我需要改进的地方，我特别感激其实她也可以不管我，讲成什么算什么可是我运气真的很好，遇到这么认真负责
C语言知识点完美总结哪有岁月静好
C语言最重要的知识点总体上必须清楚的:1)程序结构是三种:顺序结构、选择结构(分支结构)、循环结构。其实做为一个开发者，有一个学习的氛围跟一个交流圈子特别重要这里我推荐一个C语言C++交流群583650410，不管你是小白还是转行人士欢迎入驻，大家一起交流成长。免费的公开课供你学习！2)读程序都要从main()入口,然后从最上面顺序往下读(碰到循环做循环,碰到选择做选择)，有且只有一个main函数
2023-10-16 静待花开1975
感觉今天好忙啊，似乎一刻也没闲着，上午上完课就开始弄知识清单，下午一上班就开始改作业，然后上课、开会，忙到快九点了才下班。明天就要上公开课了，不知道为啥，一点感觉都没有，明明还没准备好呢，却硬是不紧张也不慌乱，大概是这几年被否定的太多，随波逐流，混成油条了吧。下午同事说起一件事，她看我在班里搞图书角，也想做，却直接被班主任否定了。理由是：别玩花样，把成绩提上去才是硬道理。我听了有些难过，让学生多读
盘点一下2019年互联网都发生了哪些大事件测试帮日记
点击链接加入QQ群138269539（全国招聘信息、免费公开课、视频应有尽有）：https://jq.qq.com/?_wv=1027&k=5q0IklJ更多内容可以关注公众号：测试帮日记2019年对许多人来说太难了，尤其是对互联网行业从业者来说，有这样一段话：“2019年可能是过去十年中最糟糕的一年，但却是未来十年中最好的一年。”来来来，让我们回顾一下今年都发生了哪些重大事件：锤子卖了，老罗换了
2022-01-03 梵兮瑜伽洛洛老师
今天邀约：3办卡：0早上上了一节私教1.吴思捷麻麻：推了次卡明天跟进2.吴清柳觉得没有难度3.贺芬参观了明天再来打电话20邀约公开课：4明天邀约：4个黄雪英潘德桃徐子淇贺芬老会员接待1个考虑升级
心累我在枣快乐呀
这个点才洗漱完毕，10点才回到宿舍，莫名心累，觉得时间真的太浪费了。下午4点多才出发桥头，唉，一些所谓的“交流”，时间全花在路上和听“废话”上。最近开放日，加上考试，一大堆杂七杂八的事情，明天上午去听课，下午磨课，级部还要检查环境，周三上午公开课，周四开始月考，莫名心累，如果有那么些瞬间真的想什么岗位都不要，就安安静静地在当一名幸福的班主任，备好课，上好课，教好学生。大家都不容易，刘主任说回到后还
中原焦点网初第34期坚持分享第19天2022.4.24 爱尚教育
本周复盘这周有哪些进步？最希望下一周有哪些变化？这周有哪些进步？1.完成了人人献课、健全人格公开课、学科课题化献课，三课整合的公开课研讨活动，探索了以任务为导向，以问题为驱动，以小组合作的实践探究的课堂教学模式。2.完成了写作分享第19天，每天早上六点起床，健康运动，愉快阅读，有序规划。每天一点点，也许看不到多大变化，但是坚信你一定在发生着变化。最希望下周有哪些变化？1.关注身体：每晚泡脚，每天运
做一个学生喜欢的数学老师 a修娟
在双语工作多年，习惯了每天忙忙碌碌的生活和工作的快节奏，在累和忙碌的同时也收获着幸福和快乐，因为我心中有一个信念，那就是：做一个学生喜欢的数学教师。经常看到，优秀的老师们上公开课前师生交流，不是和学生谈话、提问，就是和学生一起做游戏等,他们的目的其实很简单，那就是让学生喜欢上你这个老师，从而喜欢上你的数学课。大家都知道数学课是枯燥无味的，如何让学生喜欢上数学课，是摆在每位数学教师面前的一个很值得思
【62】关于上公开课《金色的草地》有感邓维_ca53
上周五上了一节公开课选自课文《金色的草地》第二课时。一开始学校安排上公开课，我第一感觉是选了这篇课文，纯粹是因为喜欢蒲公英，真的是跟着感觉。后来仔仔细细研究了一下，发现这篇课文还真不是那种被挑出来做可以标准化流程或者有代表性的课文做公开课选材。既然如此那我就走走不寻常的路线。我不适合讲特别讲究细节没有哲学味道的课文！我很喜欢跟学生去聊一些比较深的东西，骨子里想脱离课文，去跟他们说一说圈子外的东西。
Day 18 既要仰望星空，也要脚踏实地南和038胡媛媛
已经有三天没有更文了，今天上午的培训强度不是很大，听完两节公开课，简单地来回顾一下这几天的培训内容。28号上午上完两个班的课，安排好班里面的各种事情，中午简单吃过午饭开车来到邢台学院聆听了徐燕坤老师和张校长给我们分享的关于手绘版和电脑版的思维导图的制作。其实思维导图一直是我特别感兴趣的一个研究方向，在我们的课程当中我们可以运用思维导图让孩子们理清头绪，从而把握语言点、把握语法结构以及其它我们需要讲
2021-09-25 做个会思考的老师
又要讲公开课了，一如既往地要紧张一段时间。这种感觉可能每个老师都会有吧，站在讲台上已经21年了，大大小小的公开课也讲了不少，可每次要开公开课，还是会这样紧张。紧张，说明自己对课堂有敬畏。站在课堂上，我们就代表了这个学科，这节课我们能带给孩子们一些什么呢？知识的增长，方法的掌握、能力的提升、还是思维的培养？新课程理念下的课堂，仿佛对一节课提出了很多的要求，我们也总想把一节课塞的满满的，似乎这样才能显
记第一次录课半亩方塘点点香
2018年，我有幸走上了教师岗位，从此成为了一名语文老师兼班主任。第一年，自知自己不会讲课和教学，再说，一年级的小豆豆，还是不要带出去挑战的好！第二年，一到公开课，录课的老师特别多，再加上录课教室座位有限，多余的孩子总是没处安排，我从来没有录过课。今年，已经迈入第三年了。说起来要感谢大队部安排的这次活动，也要感谢各位办公室班主任放弃了，让我有机会做一次公开队会课，也算是开启了第一次录课。今天队会的
线性代数-MIT 18.06-6(a) 儒雅的钓翁数学基础线性代数矩阵机器学习
文章目录26.对称矩阵及正定性对称矩阵对称矩阵的特性：矩阵分解（谱定理）定理证明和复数推广对称矩阵和投影矩阵正定性性质1性质227.复数矩阵和快速傅里叶变换复数向量复数矩阵对称性正交性傅里叶矩阵快速傅里叶变换本文在学习《麻省理工公开课线性代数MIT18.06LinearAlgebra》总结反思形成视频链接：MITB站视频笔记部分：总结参考子实26.对称矩阵及正定性对称矩阵对称矩阵的特性：特征值为实
写小说很难吗？那就硬着头皮写吧苏斐涵
今天在喜马拉雅的奇迹文学网，在听公开课，其实也很好奇，喜马拉雅作为有生疏的第1位大厂，本来已经有这么多有生疏了，他为什么又要重新去建立自己的奇迹作家了？原来是因为购买其他作家的版权实在太贵了。这点同美国奈飞公司，为什么要自己起盘，拍摄《纸牌屋》那么好看的电视剧一样！当年也是花费巨资，购买迪斯尼哥伦比亚电影公司的电影，而且还年年涨价。后来干脆自己组建人马写剧本自己拍，现在拍的电视剧比那些大制作公司拍
对公开课的思考迷人的阅读
作为一名教师我们不但能上好家常课，也能上好“公开课”。这不，最近我们学校要举行公开课活动，可愁坏了一些老师，大家不用着急，全国著名名师“贾志敏”老师，已告诉我们秘诀，在他的著作里《积攒生命的光》，分享给大家。我们接到领导分配的任务，下班我迫不及待的疯跑回家，想把“贾老”的妙招赶快共享给大家，他在文中所述：公开课不同于一般的“家常课”，所以，我们还得予以充分重视。有没有规律可循呢？应该是有的。从以下
做有温度的教育刘晓琳_6c39
当课程表无法被填满，当知识的渴求被距离拉开，当缺失的资源不再是硬件却是软件，孩子们该如何看到外面的世界……图片发自App收到这个，心里暖暖的，激情就是被这点滴的用心给一次又一次的点燃教师和孩子一块成长，多么美好的事情用心处处皆精彩今天的公开课孩子们收获良多，感触颇深，我知道，有很多的点震撼了他们的心灵，孩子们也是在这一次又一次的震撼中才能被热血澎湃的内心牵引着不断前行可是，这么一堂课需要老师们多长
2018-11-12第十周工作小结小草莓2017
华夏路小学第10周工作小结(11月5日～11月9日)1、检查教师的听课记录，督促老师们做好常规听课活动；2、校级公开课本周开始，新教师的亮相课，老教师的示范课，为大家相互学习，发现问题，反思课堂提供了更多的机会和依据。3、周四我校邀请书法协会侯世伟老师给师生进行第三次硬笔书法指导。根据作业中发现的问题进行指导，侯老师耐心讲解和示范，老师们学习氛围浓厚；4.进行“完美教室”第一次评比活动，全体教师逐
纪念王琨皓
公元2019年2月7日这一天是新年的大年初三。当天下午，我接到邀请去参加一次公开课。我接触到了一个老师名字叫王鑫平。他讲的是微信营销这块内容。这个内容是我所了解的，但是我依然被王老师的热情、真诚所打动，同样的，他也是一个有梦想的人。他的梦想是在深圳湾举办万人演讲会！我相信他一定可以实现他的梦想，我仿佛已经看到了这一切的实现。所以我当时在现场，我认为我是那个可以支持他完成梦想的人，所以我就冲上台去发
什么是好的复盘？ _浅墨_
周末两天，花了一些时间练习了毛笔字，学习了UdemyiOS开发教程、PS教程，看了一集东南大学诗词韵律公开课，简单做了点运动，有点慵懒，但是还好没有一直很颓废。如果每天都有充分的自由时间，我希望过琴棋书画诗酒花那样的生活。我发现我是真心喜欢书画，想学国画，想学弹钢琴，喜欢饮酒，喜欢看花。只是那样的生活估计只有真正财务自由了才会有。昨晚尝试着把以前写的阅读量较大的读书笔记用语音备忘录录制了一遍，然后
浅谈分享功能持心守正
最近朋友圈和微信群被网易公开课的左右脑思维测试的产品霸屏了，之前出现同样情况的好像是测试你是哪种类型的人。简短的评价语和测试结果仿佛就能让你在朋友圈的存在感变得与众不同了，不得不说现在产品越来越聪明了，都是用这种不显山不显水的形式让用户心甘情愿的分享出来。image其实最大的盛况要数三年前的首次支付宝集五福，这个当年年底的压轴活动，让支付宝在短短的两个月的时间里，用户得到了一个爆炸式的增长。当时几
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f