WHJ226

机器学习（6）——数据探索与可视化（2）

1 可视化分析数据关系

1.1 连续变量间关系可视化分析

1.1.1 两个连续变量之间的可视化

1.1.2 多个连续变量之间的可视化

1.2 分类变量间关系可视化分析

1.2.1 两个分类变量

1.2.2 多个分类变量

1.3 连续变量和分类变量间关系可视化分析

1.3.1 一个分类变量和一个连续变量

1.3.2 两个分类变量和一个连续变量

1.3.3 两个分类变量和两个连续变量

1.3.4 一个分类变量和多个连续变量

1.4 其他类型数据可视化分析

1.4.1 时间序列数据

1.4.2 文本数据

1.4.3 社交网络数据

2 数据样本间的距离

2.1 欧氏距离和曼哈顿距离

2.2 切比雪夫距离和余弦距离

2.3 相关系数距离和马氏距离

注意：本篇博文中所记录的笔记中尚存一些问题，已用红色字体标示出。

1 可视化分析数据关系

本节将会根据不同的数据类型，使用合适的数据可视化方法，对数据进行分析。针对不同的可视化图像，会尽可能地使用相对简单的可视化方式进行数据可视化。在进行数据可视化时，分为连续变量间关系可视化分析、分类变量间关系可视化、连续变量和分类变量间关系可视化分析，以及其他类型数据可视化分析。

1.1 连续变量间关系可视化分析

当待分析的数据均为连续变量时，由于数据变量的数目不同和想要从数据中获取信息的目的不同，可以使用不同的可视化方法。下面以鸢尾花数据集为例：

Iris.csv文件链接：

链接：https://pan.baidu.com/s/1TEq5SxWyi-6deYixjP_s8Q
提取码：whj6

import pandas as pd
#读取鸢尾花数据集
Iris = pd.read_csv("E:/PYTHON/Iris.csv")
Iris2 = Iris.drop(["Id","Species"],axis=1)
print(Iris2.head(3))

运行结果如下：

SepalLengthCm  SepalWidthCm  PetalLengthCm  PetalWidthCm
0            5.1           3.5            1.4           0.2
1            4.9           3.0            1.4           0.2
2            4.7           3.2            1.3           0.2

1.1.1 两个连续变量之间的可视化

对于两个连续数值变量之间的可视化方式，最直观的就是使用散点图进行可视化分析。下面对于鸢尾花数据集中的SepalLengthCm和SepalWidthCm变量，使用以下程序得到散点图：

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
#图像显示中文设置
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False
#读取鸢尾花数据集
Iris = pd.read_csv("E:/PYTHON/Iris.csv")
Iris2 = Iris.drop(["Id","Species"],axis=1)
plt.figure(figsize=(10,6))
sns.scatterplot(x="SepalLengthCm",y="SepalWidthCm",data=Iris2,s=50)
plt.grid()
plt.title('散点图')
plt.show()

运行结果如下：

两个连续变量之间的可视化

从散点图中很容易分析两个变量之间的变化趋势，如果想要分析两个变量在空间中的分布情况，可以使用2D密度曲线图进行可视化分析。

#2D密度曲线
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
#图像显示中文设置
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False
#读取鸢尾花数据集
Iris = pd.read_csv("E:/PYTHON/Iris.csv")
Iris2 = Iris.drop(["Id","Species"],axis=1)
sns.jointplot(x="SepalLengthCm",y="SepalWidthCm",data=Iris2,kind='kde',color='blue')
plt.grid()
plt.show()

运行结果如下：

2D密度曲线图

2D密度曲线图中不同位置，数据分布的密度是不一样的，同时在图的右侧和上方，分别可视化出了两个变量的一维密度曲线，用于帮助分析数据的分布情况。

针对两个数值变量，如果想要分析两者在各自的一维空间上分布情况差异，可以使用分组直方图可视化出两组数据在同一坐标系下的分布情况。

#直方图
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
#图像显示中文设置
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False
#读取鸢尾花数据集
Iris = pd.read_csv("E:/PYTHON/Iris.csv")
Iris2 = Iris.drop(["Id","Species"],axis=1)
Iris2.iloc[:,0:2].plot(kind='hist',bins=30,figsize=(10,6))
plt.grid()
plt.title('分组直方图')
plt.show()

运行结果如下：

从运行结果来看，两个变量的数据分布位置和范围都很容易比较，而且还可以发现两者数据聚集情况的差异，其中变量SepalLengthCm的取值范围比变量SepalWidthCm大，位置也更集中，但是SepalWidthCm的分布更加聚集。

1.1.2 多个连续变量之间的可视化

针对多个连续变量之间的数据可视化，通常会使用气泡图、小提琴图、蒸汽图等对数据进行可视化分析。

气泡图通常用于3个变量的可视化，其中两个变量表示点所在的位置，另一个变量使用点的大小反映数据取值大小，从而可以在二维空间中分析3个变量之间的关系。

#气泡图
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
#图像显示中文设置
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False
#读取鸢尾花数据集
Iris = pd.read_csv("E:/PYTHON/Iris.csv")
Iris2 = Iris.drop(["Id","Species"],axis=1)
plt.figure(figsize=(10,6))
sns.scatterplot(x="PetalWidthCm",y="SepalWidthCm",data=Iris2,
                size="SepalLengthCm",sizes=(20,200),palette="muted")
plt.title('气泡图')
plt.legend(loc="best")
plt.grid()
plt.show()

运行结果如下：

变量PetalWidthCm和变量SepalWidthCm用于指定点在空间中的位置，而气泡的大小使用变量SepalLengthCm表示。从图中可以发现，变量PetalWidthCm和变量SepalWidthCm的取值越大，所对应的气泡也越大。

如果想要分析多个变量之间数据分布趋势的差异，则可以使用小提琴图进行分析，在小提琴图中可以获取数据的取值范围、集中位置、离散情况等，并且还可以同时将多个变量的小提琴图可视化在一幅图中，用于分析多个变量的分布差异等内容。

#使用小提琴图分析数据取值上的差异
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
#图像显示中文设置
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False
#读取鸢尾花数据集
Iris = pd.read_csv("E:/PYTHON/Iris.csv")
Iris2 = Iris.drop(["Id","Species"],axis=1)
plt.figure(figsize=(10,6))
sns.violinplot(data=Iris2.iloc[:,0:4],palette="Set3",bw=0.5)
plt.title('小提琴图')
plt.grid()
plt.show()

运行结果如下：

从图中可以发现，数据的离散程度从小到大以此是：SepalWidthCm、PetalLengthCm、SepalLengthCm、PetalWidthCm，而且数据中PetalLengthCm变量和PetalWidthCm变量的分布为双峰图。

对于多个连续变量，也可以使用蒸汽图分析随着样本量的增加（或者时间的增长），数据取值的变化情况。（此处翻车了，在查找错误处，错误现象是无法显示蒸汽图）

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import altair as alt
#图像显示中文设置
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False
#读取鸢尾花数据集
Iris = pd.read_csv("E:/PYTHON/Iris.csv")
Irislong = Iris.melt(["Id","Species"],var_name="Measurement_type",value_name="value")
print(Irislong.head())
#蒸汽图可视化
alt.Chart(Irislong).mark_area().encode(
    alt.X("Id:Q"), #X轴
    alt.Y("value:Q",stack="center",axis=None), #Y轴
    alt.Color('Measurement_type:N') #设置颜色
).properties(width=500,height=300) #设置图形大小

运行结果如下：

Id Species Measurement_type  value
0   1  setosa    SepalLengthCm    5.1
1   2  setosa    SepalLengthCm    4.9
2   3  setosa    SepalLengthCm    4.7
3   4  setosa    SepalLengthCm    4.6
4   5  setosa    SepalLengthCm    5.0

在上面的程序中，在使用鸢尾花数据之前，先对其使用melt()方法，将宽数据转化为长数据，因此在获得长数据Irislong中，变量Measurement_type表明了使用的特征名，value对应着原始特征的相应取值。

1.2 分类变量间关系可视化分析

首先导入待分析的泰坦尼克号数据：

链接：https://pan.baidu.com/s/1RSD9gfUNRqsdSimkY1wQlA
提取码：whj6

import pandas as pd
#读取演示数据
Titanic = pd.read_csv("E:/PYTHON/Titanic数据.csv")
print(Titanic.head())

运行结果如下：

   Pclass   Name     Sex   Age  SibSp  Parch     Fare Embarked  Survived
0       3    Mr.    male  22.0      1      0   7.2500        S         0
1       1   Mrs.  female  38.0      1      0  71.2833        C         1
2       3  Miss.  female  26.0      0      0   7.9250        S         1
3       1   Mrs.  female  35.0      1      0  53.1000        S         1
4       3    Mr.    male  35.0      0      0   8.0500        S         0

由运行结果来看，导入的数据包含多个分类变量，针对分类变量数量的不同，可以使用不同的可视化方法进行数据分析。

1.2.1 两个分类变量

以Titanic数据中的变量Embarked和Survived为例，可以使用数据列联表查看每种组合下的样本数量，也可以使用卡方检验分析两个变量是否独立。

import pandas as pd
from scipy.stats import chi2_contingency
#读取演示数据
Titanic = pd.read_csv("E:/PYTHON/Titanic数据.csv")
#print(Titanic.head())
#卡方检验
tab = pd.crosstab(Titanic["Embarked"],Titanic["Survived"])
print(tab)
c,p,_,_= chi2_contingency(tab.values)
print("卡方值:", c, ";P value:", p)

运行结果如下：

Survived    0    1
Embarked          
C          75   93
Q          47   30
S         427  219
卡方值: 25.964452881874784 ;P value: 2.3008626481449577e-06

从上面的输出结果可以发现，卡方检验的P值远小于0.05，说明两个变量不是独立的，即有些相关性。针对两个变量之间的相关性情况，可以使用马赛克图进行可视化分析，如下：

import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.graphics.mosaicplot import mosaic
#图像显示中文设置
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False
#读取演示数据
Titanic = pd.read_csv("E:/PYTHON/Titanic数据.csv")
#马赛克图
mosaic(Titanic,["Embarked","Survived"],gap=0.01,title="马赛克图")
plt.show()

运行结果如下：

从图中可以发现，当变量Embarked的取值为S或者Q时，Survived取值为1所占的比例就更低。

1.2.2 多个分类变量

针对多个分类变量的关系，可以使用树图进行可视化分析，树图使用矩形来表示数量的多少，可对数据进行逐层分组可视化，如下:

#图像显示中文设置
import matplotlib
matplotlib.rcParams['axes.unicode_minus'] = False
import seaborn as sns
sns.set(font="Kaiti",style="ticks",font_scale=1.4)
#导入要使用的包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
import altair as alt
from statsmodels.graphics.mosaicplot import mosaic
from scipy.stats import chi2_contingency
import plotly.express as px
from pandas.plotting import parallel_coordinates
import networkx as nx
from networkx.drawing.nx_agraph import graphviz_layout
from scipy.spatial import distance

#读取演示数据
Titanic = pd.read_csv("E:/PYTHON/Titanic数据.csv")
#树图
Titanic["Titanic"] = "Titanic"
Titanic["value"] = 1
fig = px.treemap(Titanic,path=["Titanic","Survived","Sex","Embarked"],
                 values="value",color="Fare",color_continuous_scale="RdBu",width=800,height=500)
fig.show()

运行结果如下：（下图在浏览器中生成）

从图中运行结果可以发现，遇难者明显多于幸存者；票价（Fare）低的乘客更容易遇难；在遇难的人员中，男性远远多于女性；在幸存的人员中，女性远远多于男性。使用Plotly包获得的图像是可交互的图像，可以通过单击对图像进行更多查看和对比分析。

1.3 连续变量和分类变量间关系可视化分析

在数据分析过程中，很少会有只包含连续变量或者分类变量的情况，通常待分析的数据会同时包含连续变量和分类变量。前面变换得到的鸢尾花长型数据集Irislong，就包含多个分类变量和连续变量。下面使用该数据集展示：

1.3.1 一个分类变量和一个连续变量

如果要分析长型鸢尾花数据中的一个分类变量和一个连续变量之间的关系，可以使用箱线图。它可以分析在不同分类变量下，连续变量的分布情况。

首先，基本设置和所需包的导入如下：（后面出现新模块时再添加，否则以下所有程序默认包含以下程序）：

#图像显示中文设置
import matplotlib
matplotlib.rcParams['axes.unicode_minus'] = False
import seaborn as sns
sns.set(font="Kaiti",style="ticks",font_scale=1.4)
#导入要使用的包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
import altair as alt
from statsmodels.graphics.mosaicplot import mosaic
from scipy.stats import chi2_contingency
import plotly.express as px
from pandas.plotting import parallel_coordinates
import networkx as nx
from networkx.drawing.nx_agraph import graphviz_layout
from scipy.spatial import distance

对于Irislong数据表，使用箱线图可视化变量Species和变量value之间的关系：

#读取鸢尾花数据集
Iris = pd.read_csv("E:/PYTHON/Iris.csv")
Irislong = Iris.melt(["Id","Species"],var_name="Measurement_type",value_name="value")
#分组箱线图
plt.figure(figsize=(10,6))
sns.boxplot(data=Irislong,x="Species",y="value")
plt.title('分组箱线图')
plt.show()

运行结果如下：

从图中可以看出，三者的取值极差相近，但是数据的集中位置逐次升高。

一个分类变量和一个连续变量，还可以使用分面密度曲线图查看数据的分布。以长型鸢尾花数据为例，可以使用Measurement_type变量进行分面，分析value变量的数据分布情况。

#读取鸢尾花数据集
Iris = pd.read_csv("E:/PYTHON/Iris.csv")
Irislong = Iris.melt(["Id","Species"],var_name="Measurement_type",value_name="value")
#分面密度曲线查看数据分布
alt.Chart(Irislong).transform_density(
    density="value",bandwidth=0.3,
    groupby=["Measurement_type"],extent=[0,8]
).mark_area().encode(
    alt.X("value:Q"), #X轴
    alt.Y("density:Q"), #Y轴
    alt.Row('Measurement_type:N'),
).properties(width=500,height=80) #设置图形大小

出现了和蒸汽图同样的问题（待解决）

1.3.2 两个分类变量和一个连续变量

对于数据中包含两个分类变量和一个连续变量的情况，可以使用分组箱线图对数据进行可视化，即一个分组变量作为箱线图的横坐标变量，另一个变量作为对应x轴坐标的再次分割变量。

## 分组箱线图
#读取鸢尾花数据集
Iris = pd.read_csv("E:/PYTHON/Iris.csv")
Irislong = Iris.melt(["Id","Species"],var_name="Measurement_type",value_name="value")
plt.figure(figsize=(10,6))
sns.boxplot(data = Irislong,x = "Measurement_type",y = "value",hue = "Species")
plt.legend(loc = 1)
plt.title("分组箱线图")
plt.show()

运行结果如下：

从图中可以发现，value的分布不仅受Measurement_type取值的影响，而且变量Species的取值也对数据value的分布有较大的影响。

1.3.3 两个分类变量和两个连续变量

如果想要可视化两个分类变量和两个连续变量之间的关系，可以使用分面散点图，其中两个分类变量将可视化界面切分为网格，然后再对应的网格下面可视化出两个连续变量的散点图，从而对数据进行对比分析。下面将对泰坦尼克号数据中的两个分类变量和两个连续变量进行可视化：

#读取演示数据
Titanic = pd.read_csv("E:/PYTHON/Titanic数据.csv")
## 分面散点图
## 设置网格分面
g = sns.FacetGrid(data = Titanic,row="Survived",col="Sex",
                  margin_titles=True,height=3,aspect=1.4)
## 添加散点图
g.map(sns.scatterplot,"Age" ,"Fare")
plt.show()

运行结果如下：（如出现图像闪退的话只需要在读取数据下面添加一行代码，此处可解决闪退）

plt.figure(figsize=(10,7))

1.3.4 一个分类变量和多个连续变量

对于一个分类变量和多个连续变量的数据可视化方法，最常用的就是使用平行坐标图，其中每个连续变量是横轴中的一个坐标点，其取值大小则标记在对应的竖直线上，可以使用颜色为分组变量中的每条平行线进行分组编码。对于鸢尾花数据集的4个连续变量和1个分类变量，使用下面的程序可以获得平行坐标图：

#读取鸢尾花数据集
Iris = pd.read_csv("E:/PYTHON/Iris.csv")
## 平行坐标图
plt.figure(figsize=(10,6))
parallel_coordinates(Iris.iloc[:,1:6], "Species",alpha = 0.8)
plt.title("平行坐标图")
plt.show()

运行结果如下：

从运行结果来看，3种不同的花在PetalLengthCm变量上的差异最大，而在SepalWidthCm变量上的差异性最小。

对于一个分类变量和多个连续变量的数据，如果想要分析不同分类变量下，连续变量之间的关系，可以使用矩阵散点图进行数据可视化。针对鸢尾花数据使用矩阵散点图进行数据可视化：

#读取鸢尾花数据集
Iris = pd.read_csv("E:/PYTHON/Iris.csv")
## 矩阵散点图
sns.pairplot(Iris.iloc[:,1:6],hue="Species",height=2,aspect=1.2,
             diag_kind="kde",markers=["o", "s", "D"])
plt.show()

运行结果如下：

（如出现图像闪退的话只需要在读取数据下面添加一行代码，此处可解决闪退）

plt.figure(figsize=(10,7))

气泡图可以可视化3个数值变量之间的关系，如果添加一个分类变量，对数据进行可视化，可以获得分组气泡图，也可以用于分析分组数据对其他数值之间关系的影响。

#读取鸢尾花数据集
Iris = pd.read_csv("E:/PYTHON/Iris.csv")
## 分组气泡图
plt.figure(figsize=(10,7))
sns.relplot(data = Iris, x="SepalWidthCm", y="PetalWidthCm",
            hue="Species", size = "SepalLengthCm",sizes = (20,200),
            palette="muted",height=6,aspect = 1.4)
plt.title("分组气泡图")
plt.show()

运行结果如下：

在该图中，使用了不同的颜色对气泡进行分组，用于发现不同组内数据关系和组间数据差异。

1.4 其他类型数据可视化分析

1.4.1 时间序列数据

对于时间序列数据，可以使用散点图和折线图等进行可视化，但是需要注意的是，时间序列数据的可视化图像中，x轴通常表示时间的变化，而且有顺序，所以位置不能随意变化，否则将不具有其原有的数据含义。

OpenPowerSystemData.csv提取链接：

链接：https://pan.baidu.com/s/1S0NFkVpuu8LR5YGba5pvpw
提取码：whj6

## 时间序列数据
opsd = pd.read_csv("E:/PYTHON/OpenPowerSystemData.csv")
opsd.head()
## 折线图
opsd.plot(kind = "line",x = "Date",y = "Solar",figsize = (10,6))
plt.ylabel("Value")
plt.title("时间序列曲线")
plt.show()

运行结果如下：

1.4.2 文本数据

文本数据是常见的非结构化数据，其常用的数据可视化方法是词云，利用词云来描述词语出现的频繁程度。下面以《三国演义》的文本内容为例，统计出每个词语出现的频次，然后使用词云进行可视化：

三国演义分词后.csv提取链接：

链接：https://pan.baidu.com/s/1g8_tiDTnKCCBQ7k_0xkdqA
提取码：whj6

from wordcloud import WordCloud #新导入模块
## 文本数据
## 词云可视化

## 准备数据
TKing = pd.read_csv("E:/PYTHON/三国演义分词后.csv")
## 计算每个词语出现的频次
TK_fre = TKing.x.value_counts()
TK_fre = pd.DataFrame({"word":TK_fre.index,
                       "Freq":TK_fre.values})
## 去除出现次数较少的词语
TK_fre = TK_fre[TK_fre.Freq > 100]
TK_fre
## 可视化词云
## 将词和词频组成字典数据准备
worddict = {}
for key,value in zip(TK_fre.word,TK_fre.Freq):
    worddict[key] = value
## 生成词云
redcold = WordCloud(font_path="/Library/Fonts/Microsoft/SimHei.ttf",
                    margin=5,width=1800, height=1000,
                    max_words=400, min_font_size=5,
                    background_color='white',
                    max_font_size=250,)
redcold.generate_from_frequencies(frequencies=worddict)
plt.figure(figsize=(10,7))
plt.imshow(redcold)
plt.axis("off")
plt.show()

font_path参数指定合适的字体，使用generate_from_frequencies方法传入准备好的字典。其他参数width=1800, height=1000用来指定图像的大小，max_words指定最多显示多少个词语，max_font_size指定词语最大的尺寸。

运行结果如下：（因安装wordcloud包失败无法运行，但下图是成功运行后的结果）

1.4.3 社交网络数据

也可以使用图可视化社交网络数据。图由边和节点组成，每条边表示其所连接的两个节点之间的联系，针对数据可以使用networkx库可视化，下面先导入空手道俱乐部的社交网络数据：

karate.csv提取链接：

链接：https://pan.baidu.com/s/1F9EQPYx8psynu_3ygxzoGw
提取码：whj6

## 读取网络数据
karate = pd.read_csv("E:/PYTHON/karate.csv")
print(karate.head())

运行结果如下：

From       to  weight
0  Mr Hi  Actor 2       4
1  Mr Hi  Actor 3       5
2  Mr Hi  Actor 4       3
3  Mr Hi  Actor 5       3
4  Mr Hi  Actor 6       3

在karate数据中，From和to两个变量表示两个节点的一条边，weight变量表示两个节点之间的权重，可视化程序如下：

## 读取网络数据
karate = pd.read_csv("E:/PYTHON/karate.csv")
#print(karate.head())
## 网络图数据可视化
plt.figure(figsize=(12, 8))
## 生成社交网络图
G = nx.Graph()

## 为图像添加边
for ii in karate.index:
    G.add_edge(karate.From[ii], karate.to[ii], weight=karate.weight[ii])

## 根据权重大小定义2种边
elarge = [(u, v) for (u, v, d) in G.edges(data=True) if d['weight'] > 3.5]
esmall = [(u, v) for (u, v, d) in G.edges(data=True) if d['weight'] < 3.5]

## 图的布局方式
pos = graphviz_layout(G, prog="fdp")
# pos=nx.circular_layout(G)

# 可视化图的节点
nx.draw_networkx_nodes(G, pos, alpha=0.4, node_size=20)

# 可视化图的边
nx.draw_networkx_edges(G, pos, edgelist=elarge,
                       width=2, alpha=0.5, edge_color="red")
nx.draw_networkx_edges(G, pos, edgelist=esmall,
                       width=2, alpha=0.5, edge_color="blue", style='dashed')

# 为节点添加标签
nx.draw_networkx_labels(G, pos, size=16)
plt.axis('off')
plt.title("空手道俱乐部人物关系")
plt.show()

运行结果如下：（再次运行失败，同样的问题，下图为正确运行结果）

在上面的程序中，先使用G = nx.Graph()定义一个图，并使用G.add_edge()增加有关联的成员之间的边，分别指定边的起点、终点和权重；根据权重将成员之间的边分为两种类型（elarge和esmall）较大的权重（大于3.5）用实线表示，较小的权重（小于3.5）用虚线表示；用nx.draw_networkx_nodes()函数绘制图的节点，并且指定节点图像的大小等性质；用nx.draw_networkx_edges()函数绘制图的边，可以指定边的线宽、颜色、线形等属性；用nx.draw_networkx_labels()函数为节点添加标签。

2 数据样本间的距离

对于给定的数据样本，每个样本都具有多个特征，因此每个样本均是高维空间的一个点，那么在高维空间中如何比较样本之间的距离远近或相似程度呢？

2.1 欧氏距离和曼哈顿距离

下面我们用种子数据集进行试验：

链接：https://pan.baidu.com/s/1W1eXQdfbGao2qmXIfMz28g
提取码：whj6

## 使用计算距离的数据
datadf = pd.read_csv("E:/PYTHON/种子数据.csv")
datadf2 = datadf.iloc[:,0:7]
print(datadf2.head())

运行结果如下：

      x1     x2      x3     x4     x5     x6     x7
0  15.26  14.84  0.8710  5.763  3.312  2.221  5.220
1  14.88  14.57  0.8811  5.554  3.333  1.018  4.956
2  14.29  14.09  0.9050  5.291  3.337  2.699  4.825
3  13.84  13.94  0.8955  5.324  3.379  2.259  4.805
4  16.14  14.99  0.9034  5.658  3.562  1.355  5.175

对于该数据，可以使用多种距离度量方式，比较每个种子样本之间的关系。首先计算的是欧氏距离和曼哈顿距离。

欧氏距离用来度量欧几里得空间中两点间的直线距离，即对于n维空间中的两点 $X=\left ( x_{1} ,x_{2},\cdots ,x_{n}\right )$ ， $Y=\left ( y_{1},y_{2},\cdots ,y_{n} \right )$ ，他们之间的欧氏距离定义为：

$dist\left ( X,Y \right )=\sqrt{\left ( x_{1}-y_{1} \right )^{2}+\left ( x_{2}-y_{2} \right )^{2}+\cdots +\left ( x_{n} -y_{n}\right )^{2}}$

曼哈顿距离用以表明两个点在标准坐标系上的绝对轴距的总和，即对于n维空间中的两点 $X=\left ( x_{1} ,x_{2},\cdots ,x_{n}\right )$ ， $Y=\left ( y_{1},y_{2},\cdots ,y_{n} \right )$ ，他们之间的曼哈顿距离定义为：

$dist\left ( X,Y \right )=\left | x_{1}-y_{1}\right |+\left | x_{2}-y_{2} \right |+\cdots +\left | x_{n} -y_{n}\right |$

对于种子数据的这两种距离，可以使用distance.cdist()函数进行计算。下面的程序不仅计算出数据中样本的距离，还是用热力图将距离矩阵进行可视化：

## 使用计算距离的数据
datadf = pd.read_csv("E:/PYTHON/种子数据.csv")
datadf2 = datadf.iloc[:,0:7]
## 欧式距离
dist = distance.cdist(datadf2,datadf2,"euclidean")
## 使用热力图可视化样本之间的距离
plt.figure(figsize=(8,6))
sns.heatmap(dist,cmap="YlGnBu")
plt.title("样本间欧式距离")
plt.show()

运行结果如下：

## 使用计算距离的数据
datadf = pd.read_csv("E:/PYTHON/种子数据.csv")
datadf2 = datadf.iloc[:,0:7]
# ## 欧式距离
# dist = distance.cdist(datadf2,datadf2,"euclidean")
# ## 使用热力图可视化样本之间的距离
# plt.figure(figsize=(8,6))
# sns.heatmap(dist,cmap="YlGnBu")
# plt.title("样本间欧式距离")
# plt.show()
## 曼哈顿距离
dist = distance.cdist(datadf2,datadf2,"cityblock")
## 使用热力图可视化样本之间的距离
plt.figure(figsize=(8,6))
sns.heatmap(dist,cmap="YlGnBu")
plt.title("样本间曼哈顿距离")
plt.show()

运行结果如下：

这两张图中，这两种距离在整体分布上是一致的，但是距离大小的取值不尽相同。而且在对角线周围形成了3个距离较近的对角块，而每个块和其它块的距离较远，说明针对该数据使用聚类算法，将其分为3类较合适。

2.2 切比雪夫距离和余弦距离

切比雪夫距离即为两个点之间各个坐标数值差的最大值，即对于n维空间中的两点 $X=\left ( x_{1} ,x_{2},\cdots ,x_{n}\right )$ ， $Y=\left ( y_{1},y_{2},\cdots ,y_{n} \right )$ ，他们之间的切比雪夫距离定义为：

$dist\left ( X,Y \right )=max\left |x _{i} -y_{i}\right |$

余弦相似性是通过测量两个向量夹角的余弦值来度量他们之间的相似性，即对于n维空间中的两点 $X=\left ( x_{1} ,x_{2},\cdots ,x_{n}\right )$ ， $Y=\left ( y_{1},y_{2},\cdots ,y_{n} \right )$ ，他们之间的余弦距离定义为：

$dist(X,Y)=1-\frac{X\cdot Y}{\sqrt{\sum x_{i}^{2}}\sqrt{\sum y_{i}^{2}}}$

下面的程序不仅计算出数据中样本的距离，还是用热力图将距离矩阵进行可视化：

## 使用计算距离的数据
datadf = pd.read_csv("E:/PYTHON/种子数据.csv")
datadf2 = datadf.iloc[:,0:7]
## 切比雪夫距离
dist = distance.cdist(datadf2,datadf2,"chebyshev")
## 使用热力图可视化样本之间的距离
plt.figure(figsize=(8,6))
sns.heatmap(dist,cmap="YlGnBu")
plt.title("样本间切比雪夫距离")
plt.show()

运行结果如下：

## 使用计算距离的数据
datadf = pd.read_csv("E:/PYTHON/种子数据.csv")
datadf2 = datadf.iloc[:,0:7]
# ## 切比雪夫距离
# dist = distance.cdist(datadf2,datadf2,"chebyshev")
# ## 使用热力图可视化样本之间的距离
# plt.figure(figsize=(8,6))
# sns.heatmap(dist,cmap="YlGnBu")
# plt.title("样本间切比雪夫距离")
# plt.show()
## 余弦距离
dist = distance.cdist(datadf2,datadf2,"cosine")
## 使用热力图可视化样本之间的距离
plt.figure(figsize=(8,6))
sns.heatmap(dist,cmap="YlGnBu")
plt.title("样本间余弦距离")
plt.show()

运行结果如下：

数据的切比雪夫距离的分布趋势和前面的两种数据分布较为一致，而样本间的余弦距离则有了较大的差异，形成了一大一小的对角矩阵块。

2.3 相关系数距离和马氏距离

相关系数距离是根据相关性定义的，数值越大距离越远，即对于n维空间中的两点 $X=\left ( x_{1} ,x_{2},\cdots ,x_{n}\right )$ ， $Y=\left ( y_{1},y_{2},\cdots ,y_{n} \right )$ ，他们之间的相关系数距离定义为：

$dist(X,Y)=1-\frac{\left ( X-\bar{X} \right )\cdot \left ( Y-\bar{Y} \right )}{\sqrt{\sum \left ( x_{i}-\bar{X} \right )}\sqrt{\sum \left ( y_{i}-\bar{Y} \right )}}$

马氏距离表示数据的协方差距离。它是一种有效地计算两个未知样本集相似度的方法。对于n维空间中的两点 $X=\left ( x_{1} ,x_{2},\cdots ,x_{n}\right )$ ， $Y=\left ( y_{1},y_{2},\cdots ,y_{n} \right )$ ，他们之间的马氏距离定义为：

$dist(X,Y)=\sqrt{\left ( X-Y \right )^{T}\sum ^{-1}\left ( X-Y \right )}$

下面的程序不仅计算出数据中样本的距离，还是用热力图将距离矩阵进行可视化：

## 使用计算距离的数据
datadf = pd.read_csv("E:/PYTHON/种子数据.csv")
datadf2 = datadf.iloc[:,0:7]
## 相关系数距离
dist = distance.cdist(datadf2,datadf2,"correlation")
## 使用热力图可视化样本之间的距离
plt.figure(figsize=(8,6))
sns.heatmap(dist,cmap="YlGnBu")
plt.title("样本间相关系数距离")
plt.show()

运行结果如下：

## 使用计算距离的数据
datadf = pd.read_csv("E:/PYTHON/种子数据.csv")
datadf2 = datadf.iloc[:,0:7]
# ## 相关系数距离
# dist = distance.cdist(datadf2,datadf2,"correlation")
# ## 使用热力图可视化样本之间的距离
# plt.figure(figsize=(8,6))
# sns.heatmap(dist,cmap="YlGnBu")
# plt.title("样本间相关系数距离")
# plt.show()

## 马氏距离
dist = distance.cdist(datadf2,datadf2,"mahalanobis")
## 使用热力图可视化样本之间的距离
plt.figure(figsize=(8,6))
sns.heatmap(dist,cmap="YlGnBu")
plt.title("样本间马氏距离")
plt.show()

运行结果如下：

数据的相关系数距离的分布趋势和前面的余弦距离的分布较一致，样本间的马氏距离则又呈现出一种新的距离大小分布情况。

笔记摘自——《Python机器学习算法与实战》

你可能感兴趣的:(机器学习,机器学习,python,pandas)

XGBoost常见面试题（五）——模型对比月亮月亮要去太阳机器学习经验分享
XGBoost与GBDT的区别机器学习算法中GBDT和XGBOOST的区别有哪些？-知乎基分类器：传统GBDT以CART树作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。导数：传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。同时xgboo
Kibana 单机与集群部署教程闲人编程大数据集群部署教程大数据集群单机部署 Kibana 日志分析数据可视化
目录Kibana单机与集群部署教程第一部分：Kibana概述第二部分：Kibana单机部署教程1.安装Kibana1.1安装依赖项1.2下载和安装Kibana1.3启动Kibana2.单机案例代码实现（Python）3.常见问题及解决方法3.1无法启动Kibana服务3.2Kibana无法连接到Elasticsearch第三部分：Kibana集群部署教程1.配置集群节点1.1配置Elasticse
INCA二次开发GUI实例化智海行舟 python 个人开发
【摘要】本文基于ETASINCA二次开发实践，深入探讨如何构建完整的自动化测试GUI系统。通过Python语言结合COM接口技术，实现从软件架构设计到功能模块开发的完整闭环，为汽车电子领域工程师提供可复用的开发范式。一、INCA二次开发技术背景1.1行业应用需求在汽车电子开发领域，ETASINCA作为行业标准标定工具，其自动化测试需求日益增长。传统的手动操作模式存在以下痛点：重复性操作耗时严重（单
如何通过API用Python获取北向资金流向数据？量化问财量化软件 QMT 量化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
推荐阅读：《【最全攻略】免费的量化软件有哪些？券商的交易接口怎么获取？》如何通过API用Python获取北向资金流向数据？北向资金指的是通过沪港通和深港通渠道，从香港市场流入A股市场的资金。对于投资者来说，了解北向资金流向对于把握市场趋势和投资决策具有重要意义。本文将介绍如何通过API用Python获取北向资金流向数据。理解北向资金流向数据北向资金流向数据主要包括以下几个方面：资金流入量：指通过沪
go执行java -jar 完成DSA私钥解析并签名 DavidSoCool java jar golang
起因，最近使用go对接百度联盟api需要使用到DSA私钥完成签名过程，在百度提供的代码示例里面没有go代码的支持，示例中仅有php、python2和3、java的代码，网上找了半天发现go中对DSA私钥解析支持不友好，然后决定使用在java中完成签名计算过程，生成可执行jar后由外部传入参数获取签名数据。百度联盟api文档说明：1）权限开通后，登录百度联盟媒体平台（union.baidu.com）
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python递推法_如何使用Python递归函数中的递推？热茶走 python递推法
我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
视频下载插件：yt-dlp 小怪兽长大啦 python
Yt-dlp插件使用下载方法方法一：Python插件下载使用pip工具安装即可:pipinstallyt-dlp.Python已经配置过环境变量，下载yt-dlp时不需要配置。方法二：直接下载EXE可执行文件网上下载yt-dlp应用程序：https://github.com/yt-dlp/yt-dlp/releases配置环境变量。常用使用命令（配置好环境变量后，控制台下输入命令即可）直接下载视频
Python __init__.py 模块详解鱼丸丶粗面 Python __init__.py
文章目录1概述2导入演示2.1执行顺序：先父后子2.2导入所有模块（含子模块）1概述1.工具:Pycharm场景:在创建一个PythonPackage时，会默认在该包下生成一个'__init__.py'文件2.目的:'进行一些初始化操作'(1)当importpackage时，"自动"执行'__init__.py'文件中的内容(2)常用于导入模块2导入演示2.1执行顺序：先父后子目录结构：目录结构简
Python __init__.py 愚昧之山绝望之谷开悟之坡 python init
Python__init__.py作用详解尼古拉苏关注12018.06.1012:57:34字数745阅读45,278转载于：https://www.cnblogs.com/tp1226/p/8453854.html__init__.py该文件的作用就是相当于把自身整个文件夹当作一个包来管理，每当有外部import的时候，就会自动执行里面的函数。1.标识该目录是一个python的模块包（modul
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅王盼达有趣的学习Python 学习 python 开发语言
Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理王盼达有趣的学习Python 学习 python 开发语言
在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
Python字符串操作 weixin_30871905 python
转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
机器学习(Machine Learning) 七指琴魔御清绝大数据学习
原文链接：http://blog.csdn.net/zhoubl668/article/details/42921187希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Ada
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
python学习第三天 Leo来编程 Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发 harmonyos-next
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发引言在HarmonyNext生态系统中，分布式机器学习是其核心特性之一。通过分布式机器学习，开发者可以充分利用多设备的计算资源，实现复杂模型的训练与推理。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的分布式机器学习应用，涵盖从基础概念到高级技巧的全面讲解。通过本案例，您将学习到如何利用HarmonyNext的分
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri