GoAl的博客

Python数据分析与挖掘实战总结

《Python数据分析与挖掘实战》

一、书籍及源代码下载链接：

https://pan.baidu.com/s/1UQ8dVmGpEuWagUvz6MWUxQ 提取码：1234
　

二、Python数据分析入门

Python入门

基本命令：

# for 循环
s = 0
for k in range(101):    #1-100
    s = s + k
print s

# 函数
def add2(x):
    return x+2
print add2(1)

def add2(x=0, y=0):
    return [x+2, y+2]   #返回列表

def add3(x, y):
    return x+3, y+3 #双重返回
a,b = add3(1, 2)

# 匿名函数
f = lambda x : x+2  #定义函数f(x)= x+2
g = lambda x, y : x+y   #定义函数g(x,y)= x+y, g(1,2)结果为3

# 数据结构
# a, b是列表
# 列表函数cmp(a, b) len(a) max(a) min(a) sum(a) sorted(a)
# 列表对象方法 a.append(1) a.count(1) a.extend([1,2]) a.index(1) a.insert(2,1) a.pop(1)
b = a       # b是a的别名
b = a[:]    #数据复制

# 列表解析
a = [1, 2, 3]
b = []
for i in a:
    b.append(i+2)
# 等价于
a =[1, 2, 3]
b =[i + 2 for i in a]

# 集合
d = {'today' : 20, "tomorrow" : 30} #创建
d['today']          #访问
# 其他创建方法
dict(['today', 20], ['tomorrow', 30])
dict.fromkeys(['today', 'tomorrow'], 20)

# 集合
s = {1, 2, 2, 4}
s = set([1,2,2,4])      #自动去除多余的值

# 函数式编程 lambda, map, reduce, filter
b = map(lambda x :x+2, a)
b = list(b);
#2.x中不需要，3.x中需要，因为map仅仅创建了一个待运行的命令容器，只有其他函数调用时才返回结果
# map命令将函数逐一运用到map列表的每个元素中，，最后返回一个数组，效率比for循环高一点

# reduce函数用于递归运算
reduce(lambda x, y: x*y, range(1, n+1))

# filter 用于筛选列表中符合条件的元素
b = filter(lambda x :x > 5 and x <8, range(10))
b = list(b)     # 同map

# 导入库
import math
math.sin(1)

import math as m
m.sin(1)

from math import exp as e
e(1)
sin(1)      #出错

from math import *      #直接导入，大量导入会引起命名冲突，不建议
exp(1)
sin(1)

# 导入future特征（2.x）
# 将print变为函数形式，即用print(a)格式输出
from __future__ import print_function
# 3.x中3/2=1.5, 3//2=1;2.x中3/2=1
from __future__ import division

第三方库

安装

Windows中

pip install numpy

或者下载源代码安装

python setup.py install

Pandas默认安装不能读写Excel文件，需要安装xlrd和xlwt库才能支持excel的读写

pip install xlrd
pip install xlwt

StatModel可pip可exe安装，注意，此库依赖于Pandas和patsy

Scikit-Learn是机器学习相关的库，但是不包含人工神经网络

 model.fit()     #训练模型，监督模型fit(X,y),非监督模型fit(X)
  
 # 监督模型接口
 model.predict(X_new)        #预测新样本
 model.predict_proba(X_new)  #预测概率
 model.score()               #得分越高，fit越好
 
 # 非监督模型接口
 model.transform()           #从数据中学到新的“基空间”
 model.fit_transform()       #从数据中学到新的基，并按照这组基进行转换

Keras是基于Theano的强化的深度学习库，可用于搭建普通神经网络，各种深度学习模型，如自编码器，循环神经网络，递归神经网络，卷积神经网络。Theano也是一个Python库，能高效实现符号分解，速度快，稳定性好，实现了GPU加速，在密集型数据处理上是CPU的10倍，缺点是门槛太高。Keras的速度在Windows会大打折扣。

Windows下：安装MinGWindows--安装Theano---安装Keras--安装配置CUDA

Gensim用来处理语言方面的任务，如文本相似度计算、LDA、Word2Vec等，建议在Windows下运行。

Linux中

sudo apt-get install python-numpy
sudo apt-get install python-scipy
sudo apt-get install python-matplotlib

使用

Matplotlib默认字体是英文，如果要使用中文标签，

plt.rcParams['font.sans-serif'] = ['SimHei']

保存作图图像时，负号显示不正常：

plt.rcParams['axes.unicode_minus'] = False

三、数据探索

脏数据：缺失值、异常值、不一致的值、重复数据

异常值分析

简单统计量分析：超出合理范围的值
3sigma原则：若正态分布，异常值定义为偏差超出平均值的三倍标准差；否则，可用远离平均值的多少倍来描述。
箱型图分析：异常值定义为小于Q_L-1.5IQR或者大于Q_U +1.5IQR。Q_L是下四分位数，全部数据有四分之一比他小。Q_U是上四分位数。IQR称为四分位数间距，IQR=Q_U-Q_L

  #-*- coding: utf-8 -*-
  import pandas as pd
  
  catering_sale = '../data/catering_sale.xls' #餐饮数据
  data = pd.read_excel(catering_sale, index_col = u'日期') #读取数据，指定“日期”列为索引列
  
  import matplotlib.pyplot as plt #导入图像库
  plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
  plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
  
  plt.figure() #建立图像
  p = data.boxplot() #画箱线图，直接使用DataFrame的方法
  x = p['fliers'][0].get_xdata() # 'flies'即为异常值的标签
  y = p['fliers'][0].get_ydata()
  y.sort() #从小到大排序，该方法直接改变原对象
  
  #用annotate添加注释
  #其中有些相近的点，注解会出现重叠，难以看清，需要一些技巧来控制。
  #以下参数都是经过调试的，需要具体问题具体调试。
  #xy表示要标注的位置坐标，xytext表示文本所在位置
  for i in range(len(x)): 
    if i>0:
      plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i]))
    else:
      plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))
  
  plt.show() #展示箱线图

分布分析

定量数据的分布分析：求极差(max-min)，决定组距和组数，决定分点，列出频率分布表，绘制频率分布直方图。

定性数据的分布分析：饼图或条形图

对比分析

统计量分析

集中趋势度量：均值、中位数、众数

离中趋势度量：极差、标准差、变异系数、四份位数间距

变异系数为：s表示标准差，x表示均值

  #-*- coding: utf-8 -*-
  #餐饮销量数据统计量分析
  from __future__ import print_function
  import pandas as pd
  
  catering_sale = '../data/catering_sale.xls' #餐饮数据，一列为日期，一列为销量
  data = pd.read_excel(catering_sale, index_col = u'日期') #读取数据，指定“日期”列为索引列
  data = data[(data[u'销量'] > 400)&(data[u'销量'] < 5000)] #过滤异常数据
  statistics = data.describe() #保存基本统计量
  print(statistics)
  print("--------------")
  
  statistics.loc['range'] = statistics.loc['max']-statistics.loc['min'] #极差
  statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean'] #变异系数
  statistics.loc['dis'] = statistics.loc['75%']-statistics.loc['25%'] #四分位数间距
  
  print(statistics)

周期性分析

贡献度分析

又称帕累托分析，原理是帕累托法则，即20/80定律，同样的投入放在不同的地方会产生不同的收益。

  #-*- coding: utf-8 -*-
  #菜品盈利数据 帕累托图
  from __future__ import print_function
  import pandas as pd
  
  #初始化参数
  dish_profit = '../data/catering_dish_profit.xls' #餐饮菜品盈利数据,菜品ID,菜品名 盈利
  data = pd.read_excel(dish_profit, index_col = u'菜品名')
  data = data[u'盈利'].copy()#保留两列数据
  data.sort(ascending = False)
  
  import matplotlib.pyplot as plt #导入图像库
  plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
  plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
  
  plt.figure()
  data.plot(kind='bar')
  plt.ylabel(u'盈利（元）')
  p = 1.0*data.cumsum()/data.sum()
  p.plot(color = 'r', secondary_y = True, style = '-o',linewidth = 2)
  plt.annotate(format(p[6], '.4%'), xy = (6, p[6]), xytext=(6*0.9, p[6]*0.9),
               arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.2")) 
               #添加注释，即85%处的标记。这里包括了指定箭头样式。
  plt.ylabel(u'盈利（比例）')
  plt.show()

数据探索函数

方法名	函数功能
D.sum()	按列计算总和
D.mean()	计算算数平均
D.var()	方差
D.std()	标准差
D.corr(method = ' pearson')	Spearman(Pearson)相关系数矩阵
D.cov()	协方差矩阵
D.skew()	偏度(三阶矩)
D.kurt()	峰度(四阶距)
D.describe()	给出样本的基础描述

D = pd.DataFrame([range(1,8), range(2, 9)])
D.corr(method = 'spearman')     #计算相关系数矩阵
S1 = D.loc[0]   #提取第一行
S2 = D.loc[1]   #提取第二行
S1.corr(S2, method = 'pearson') #计算S1S2的相关系数

D = pd.DataFrame(np.random.randn(6, 5))     #产生6x5的表格
print D.cov()
print D[0].cov(D[1])  #计算第一列和第二列的方差
print D.skew()      #D是DataFrame或者Series
print D.describe()

方法名	函数功能
cumsum()	依次给出前1-n个数的和
cumprod()	依次给出前1-n个数的积
cummax()	依次给出前1-n个数的最大值
cummin()	依次给出前1-n个数的最小值

方法名	函数功能
rolling_sum()	按列计算数据样本的总和
rolling_mean()	算数平均数
rolling_var()	方差
rolling_std()	标准差
rolling_corr()	相关系数矩阵
rolling_cov()	协方差
rolling_skew()	偏度
rolling_kurt()	峰度

D = pd.Series(range(0,20))
print D.cumsum()

print pd.rolling_sum(D, 2)    #依次对相邻两项求和

方法名	函数功能
plot()	绘制线性二维图，折线图
pie()	绘制饼形图
hist()	绘制二维条形直方图，可现实数据的分配情形
boxplot()	绘制箱型图
plot(logy = True)	绘制y轴的对数图形
plot(yerr = error)	绘制误差条形图


  import matplotlib.pyplot as plt #导入图像库
  plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
  plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
  plt.figure(figsize = (7, 5))        #创建图像区域，指定比例
  plt.show()                  #显示作图结果
  ############################################################################################
  x = np.linspace(0, 2*np.pi, 50)
  y = np.sin(x)
  plt.plot(x, y, 'bp--')       #蓝色带星虚线plt.show()
  ############################################################################################
  labels = 'Frogs', 'Hogs', 'Dogs', 'Logs'
  sizes = [15, 30, 45, 10]     #每一块的比例
  colors = ['yellowgreen', 'gold', 'lightskyblue', 'lightcoral']
  explode = (0, 0.1, 0, 0)
  
  plt.pie(sizes, explode = explode, labels = labels, colors = colors, autopct =
  '%1.1f%%', shadow = True, startangle = 90)
  plt.axis('equal')   #显示为圆
  plt.show()
  ############################################################################################
  x = np.random.randn(1000)       #1000个服从正态分布的随机数
  plt.hist(x, 10)                 #分成10组
  plt.show()
  ############################################################################################
  plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
  plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
  
  x = np.exp(np.arange(20))       #原始数据
  
  plt.subplot(121)
  plt.plot(range(0,20), x, label = u"原始数据图")
  plt.legend()
  
  plt.subplot(122)
  plt.semilogy(range(0,20), x, label = u"对数数据图")
  plt.legend()
  
  plt.show()
  ############################################################################################
  plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
  plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
  
  error = np.random.random(10)        #定义误差条例
  y = pd.Series(np.sin(np.arange(10)))
  y.plot(yerr = error)
  plt.show()

四、数据预处理

数据清洗

包括：删除原始数据中的无关数据、重复数据，平滑噪声数据，处理缺失值。
拉格朗日插值法：

当插值节点增减时，插值多项式就会发生变化，在实际计算中不方便。
牛顿插值法：P(x)是牛顿插值逼近函数，R(x)是误差函数

Python的Scipy库中只提供了拉格朗日插值法的函数（实现上比较容易）

  #-*- coding: utf-8 -*-
  # 插值时存在问题，不同的位置选取的数据点不一样，并且保证最后的数据是正确的
  # 目前没有考虑连续脏数据的情况
  #拉格朗日插值代码
  import pandas as pd #导入数据分析库Pandas
  from scipy.interpolate import lagrange #导入拉格朗日插值函数
  
  inputfile = '../data/catering_sale.xls' #销量数据路径
  outputfile = '../tmp/sales.xls' #输出数据路径
  
  
  data = pd.read_excel(inputfile) #读入数据
  data[u'销量'][(data[u'销量'] < 400) | (data[u'销量'] > 5000)] = None #过滤异常值，将其变为空值
  
  #自定义列向量插值函数
  #s为列向量，n为被插值的位置，k为取前后的数据个数，默认为5,插值不要超过20
  def ployinterp_column(s, n, k=5):
    y = s[list(range(n-k, n)) + list(range(n+1, n+1+k))] #取数,y是长度为10的列表
    y = y[y.notnull()] #剔除空值
    return lagrange(y.index, list(y))(n) #插值并返回插值多项式，代入n得到插值结果
  
  #逐个元素判断是否需要插值
  k = 2
  for i in data.columns:
    for j in range(len(data)):
      if (data[i].isnull())[j]: #如果为空即插值。
          if (j >= k) and (j < len(data) - k):
              y = data[i][list(range(j-k, j)) + list(range(j+1, j+1+k))] #取数,y是长度为10的列表
          elif j < k :
              y = data[i][list(range(0, j)) + list(range(j+1, 2 * k + 1))]
          elif j >= len(data) - k:
              y = data[i][list(range(len(data) - 1 - 2 * k, j)) + list(range(j+1, len(data)))]
          y = y[y.notnull()] #剔除空值
          data[i][j] = lagrange(y.index, list(y))(j) #插值并返回插值多项式，代入j得到插值结果
  
  data.to_excel(outputfile) #

数据集成

包括实体识别，冗余属性识别

数据变化

简单函数变换
规范化

离差标准化(最小最大规范化)

标准差标准化

小数定标规范化：属性值映射在[-1, 1]之间

#-*- coding: utf-8 -*-
#数据规范化
import pandas as pd
import numpy as np

datafile = '../data/normalization_data.xls' #参数初始化
data = pd.read_excel(datafile, header = None) #读取数据,矩阵

print (data - data.min())/(data.max() - data.min()) #最小-最大规范化，按列出路
print (data - data.mean())/data.std() #零-均值规范化
print data/10**np.ceil(np.log10(data.abs().max())) #小数定标规范化

连续属性离散化

等宽法(至于相同宽度)、等频法(将相同数量的记录放进每个区间)、基于聚类分析的方法(K-means)

  import pandas as pd
  from sklearn.cluster import KMeans #引入KMeans
  import matplotlib.pyplot as plt
  plt.rcParams['font.sans-serif'] = ['SimHei']     #用来正常显示中文标签
  plt.rcParams['axes.unicode_minus'] = False      #用来正常显示负号
  
  datafile = '../data/discretization_data.xls'    #参数初始化
  data = pd.read_excel(datafile) #读取数据
  data = data[u'肝气郁结证型系数'].copy()
  k = 4       #分为4类
      
  d1 = pd.cut(data, k, labels = range(k))     #等宽离散化，各个类比依次命名为0,1,2,3
  
  #等频率离散化
  w = [1.0*i/k for i in range(k+1)]           #为describe确定分位数0%,25%,50%,75%,100%           
  w = data.describe(percentiles = w)[4:4+k+1] #使用describe函数自动计算分位数并取出分位数
  w[0] = w[0]*(1-1e-10)       #确保比最小值小
  d2 = pd.cut(data, w, labels = range(k))
  
  
  kmodel = KMeans(n_clusters = k, n_jobs = 1) #建立模型，n_jobs是并行数，一般等于CPU数较好
  kmodel.fit(data.reshape((len(data), 1)))    #训练模型
  c = pd.DataFrame(kmodel.cluster_centers_).sort(0) #输出聚类中心，并且排序（默认是随机序的）
  w = pd.rolling_mean(c, 2).iloc[1:]          #相邻两项求中点，作为边界点
  w = [0] + list(w[0]) + [data.max()]         #把首末边界点加上
  d3 = pd.cut(data, w, labels = range(k))
  
  def cluster_plot(d, k):                     #自定义作图函数来显示聚类结果   
    plt.figure(figsize = (8, 3))
    for j in range(0, k):
      plt.plot(data[d==j], [j for i in d[d==j]], 'o')
    
    plt.ylim(-0.5, k-0.5)
    return plt
  
  cluster_plot(d1, k).show()
  cluster_plot(d2, k).show()
  cluster_plot(d3, k).show()

属性构造：比如利用供入电量和供出电量计算线损率。

#-*- coding: utf-8 -*-
#线损率属性构造
import pandas as pd
 
#参数初始化
inputfile= '../data/electricity_data.xls' #供入供出电量数据
outputfile = '../tmp/electricity_data.xls' #属性构造后数据文件

data = pd.read_excel(inputfile) #读入数据
data[u'线损率'] = (data[u'供入电量'] - data[u'供出电量'])/data[u'供入电量']

data.to_excel(outputfile, index = False) #保存结果

小波变换

用于非平稳信号的时频分析。基于小波变换的主要方法有：多尺度空间能量分布特征提取、多尺度空间的模极大值特征提取、小波包变换的特征提取、适应性小波神经网络的特征提取。
小波基函数：Harry小波基，db系列小波基，均值为0。积分为0.
小波变换：a是伸缩因子，b是平移因子，对小波基函数进行伸缩和平移变换

任意函数f(t)的连续小波变换(CWT)为：

在约束条件下有逆变换：

python中scipy本身提供了信号处理函数，更好的信号处理库是PyWavelets(pywt)。

#小波特征变换提取代码
import pywt #导入PyWavelets
from scipy.io import loadmat #mat是MATLAB专用格式，需要用loadmat读取它
 
#参数初始化
inputfile= '../data/leleccum.mat' 
#提取自Matlab的信号文件
 
mat = loadmat(inputfile)
signal = mat['leleccum'][0]

coeffs = pywt.wavedec(signal, 'bior3.7', level = 5)
#返回结果为level+1个数字，第一个数组为逼近系数数组，后面的依次是细节系数数组

数据规约

属性规约：合并属性，逐步向前选择，逐步向后删除，决策树归纳，主成分分析。
主成分分析步骤：

设原始变量X_1,X_2,..., X_p的n次观测数据矩阵为：

将数据矩阵按列进行中心标准化
求相关系数矩阵R，$$R=(r_{ij})_{p\times p}$$

其中，

求R的特征方程

的特征根

确定主成分个数m：alpha根据实际问题确定，一般取0.8

计算m个相应的单位特征向量：

计算主成分：

  import pandas as pd
  from sklearn.decomposition import PCA
  
  #参数初始化
  inputfile = '../data/principal_component.xls'
  outputfile = '../tmp/dimention_reducted.xls' #降维后的数据
  
  data = pd.read_excel(inputfile, header = None) #读入数据
  
  pca = PCA()
  pca.fit(data)
  print pca.components_ #返回模型的各个特征向量
  print pca.explained_variance_ratio_ #返回各个成分各自的方差百分比
  
  #由上面可以看出前4个已经占了97%
  pca = PCA(3)
  pca.fit(data)
  low_d = pca.transform(data)                 #降低唯独
  
  pd.DataFrame(low_d).toexcel(outputfile)     #保存结果
  pca.inverse_transform(low_d)        #

数值规约：通过选择替代的、较小的数据来减少数据量。

Python主要数据预处理函数

函数名	函数功能
interpolate	一维、高维数据插值
unique	去除数据终端额重复数据
isnull	判断是否空值
notnull	判断是否非空值
PCA	主成分分析
random	生成随机矩阵

f = scipy.interpolate.lagrange(x,y) #一维数据的拉格朗日插值
f(2)            #计算插值结果
###################################################################
D = pd.Series([1,2,1,3,5])      
D.unique()
np.uinque(D)        #这时候D可以是list,array,Series
###################################################################
D.isnull()      #D是series对象，返回布尔Series，D[D.isnull()]找到空值
###################################################################
np.random.randn(k,m,n)  #标准正态分布

五、挖掘建模

分类与预测

常用算法：回归分析、决策树、人工神经网络、贝叶斯网络、支持向量机。
Logistic回归
Logistic函数：

回归模型：

  #-*- coding: utf-8 -*-
  #逻辑回归 自动建模
  import pandas as pd
  from sklearn.linear_model import LogisticRegression as LR
  from sklearn.linear_model import RandomizedLogisticRegression as RLR 
  
  #参数初始化
  filename = '../data/bankloan.xls'
  data = pd.read_excel(filename)
  x = data.iloc[:,:8].as_matrix()##变成矩阵
  y = data.iloc[:,8].as_matrix()
  
  rlr = RLR() #建立随机逻辑回归模型，筛选变量
  rlr.fit(x, y) #训练模型
  rlr.get_support() #获取特征筛选结果，也可以通过.scores_方法获取各个特征的分数
  print(u'通过随机逻辑回归模型筛选特征结束')
  #join() 表示连接，使用逗号，括号内必须是一个对象。如果有多个就编程元组，或是列表。
  print(u'有效特征为：%s' % ','.join(data.columns[rlr.get_support()]))
  x = data[data.columns[rlr.get_support()]].as_matrix() #筛选好特征
  
  lr = LR() #建立逻辑货柜模型
  lr.fit(x, y) #用筛选后的特征数据来训练模型
  print(u'逻辑回归模型训练结束。')
  print(u'模型的平均正确率为：%s' % lr.score(x, y)) #给出模型的平均正确率，本例为81.4%

Scikit-Learn提供了REF包可以用于特征消除。还提供了REFCV，可以通过交叉验证来对特征进行排序。
决策树
ID3、C4.5、CART算法
ID3：在决策树的各级节点上都用信息增益作为判断标准进行属性的选择，使得在每个节点上都能获得最大的类别分类增益，使分类后的额数据集的熵最小，这样使得树的平均深度最小，从而有效地提高了分类效率。
步骤：

对当前样本集合，计算所有属性的信息增益
选择信息增益最大的属性作为测试属性，把测试属性取值相同的样本划为同一个子样本集
若子样本集的类别只有单个，则分支为叶节点；否则对子样本集循环调用本算法

  #-*- coding: utf-8 -*-
  #使用ID3决策树算法预测销量高低
  import pandas as pd
  from sklearn.tree import export_graphviz
  from sklearn.externals.six import StringIO
  from sklearn.tree import DecisionTreeClassifier as DTC
  
  #参数初始化
  inputfile = '../data/sales_data.xls'
  data = pd.read_excel(inputfile, index_col = u'序号') #导入数据
  
  #数据是类别标签，要将它转换为数据
  #用1来表示“好”、“是”、“高”这三个属性，用-1来表示“坏”、“否”、“低”
  data[data == u'好'] = 1
  data[data == u'是'] = 1
  data[data == u'高'] = 1
  data[data != 1] = -1
  x = data.iloc[:,:3].as_matrix().astype(int)
  y = data.iloc[:,3].as_matrix().astype(int)
  
  
  dtc = DTC(criterion='entropy') #建立决策树模型，基于信息熵
  dtc.fit(x, y) #训练模型
  
  #导入相关函数，可视化决策树。
  #导出的结果是一个dot文件，需要安装Graphviz才能将它转换为pdf或png等格式。
  with open("tree.dot", 'w') as f:
    f = export_graphviz(dtc, feature_names = ['tianqi', 'zhoumo', 'cuxiao'], out_file = f)
    #f = export_graphviz(dtc, feature_names = [u'天气', u'周末', u'促销'], out_file = f)  
    
  #文本打开指定中文字体
  #edge [fontname = "SimHei"];/*添加，指定中文为黑体*/
  #node [fontname = "SimHei"];/*添加，指定中文为黑体*/
  #安装Graphviz
  #在命令行中编译

人工神经网络

  #-*- coding: utf-8 -*-
  #使用神经网络算法预测销量高低
  
  import pandas as pd
  
  #参数初始化
  inputfile = '../data/sales_data.xls'
  data = pd.read_excel(inputfile, index_col = u'序号') #导入数据
  
  #数据是类别标签，要将它转换为数据
  #用1来表示“好”、“是”、“高”这三个属性，用0来表示“坏”、“否”、“低”
  data[data == u'好'] = 1
  data[data == u'是'] = 1
  data[data == u'高'] = 1
  data[data != 1] = 0
  x = data.iloc[:,:3].as_matrix().astype(int)
  y = data.iloc[:,3].as_matrix().astype(int)
  
  from keras.models import Sequential
  from keras.layers.core import Dense, Activation
  
  model = Sequential() #建立模型
  model.add(Dense(3, 10))
  model.add(Activation('relu')) #用relu函数作为激活函数，能够大幅提供准确度
  model.add(Dense(10, 1))
  model.add(Activation('sigmoid')) #由于是0-1输出，用sigmoid函数作为激活函数
  
  model.compile(loss = 'binary_crossentropy', optimizer = 'adam', class_mode = 'binary')
  #编译模型。由于我们做的是二元分类，所以我们指定损失函数为binary_crossentropy，以及模式为binary
  #另外常见的损失函数还有mean_squared_error、categorical_crossentropy等，请阅读帮助文件。
  #求解方法我们指定用adam，还有sgd、rmsprop等可选
  
  model.fit(x, y, nb_epoch = 1000, batch_size = 10) #训练模型，学习一千次
  yp = model.predict_classes(x).reshape(len(y)) #分类预测
  
  from cm_plot import * #导入自行编写的混淆矩阵可视化函数
  cm_plot(y,yp).show() #

算法评价：相对误差、均方误差、识别准确度、识别精确率、ROC曲线

聚类分析

K-Means算法

  #-*- coding: utf-8 -*-
  #使用K-Means算法聚类消费行为特征数据
  
  import pandas as pd
  from sklearn.cluster import KMeans
  import matplotlib.pyplot as plt
  plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
  plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
  
  #参数初始化
  inputfile = '../data/consumption_data.xls' #销量及其他属性数据
  outputfile = '../tmp/data_type.xls' #保存结果的文件名
  k = 3 #聚类的类别
  iteration = 500 #聚类最大循环次数
  data = pd.read_excel(inputfile, index_col = 'Id') #读取数据
  data_zs = 1.0*(data - data.mean())/data.std() #数据标准化
  
  model = KMeans(n_clusters = k, n_jobs = 1, max_iter = iteration) #分为k类，并发数4
  model.fit(data_zs) #开始聚类
  
  #简单打印结果
  r1 = pd.Series(model.labels_).value_counts() #统计各个类别的数目
  r2 = pd.DataFrame(model.cluster_centers_) #找出聚类中心
  r = pd.concat([r2, r1], axis = 1) #横向连接（0是纵向），得到聚类中心对应的类别下的数目
  r.columns = list(data.columns) + [u'类别数目'] #重命名表头
  print(r)        #打印分类中心和分类数量
  
  #详细输出原始数据及其类别
  r = pd.concat([data, pd.Series(model.labels_, index = data.index)], axis = 1)  #详细输出每个样本对应的类别
  r.columns = list(data.columns) + [u'聚类类别'] #重命名表头
  r.to_excel(outputfile) #保存分类结果
  
  def density_plot(data): #自定义作图函数  
    p = data.plot(kind='kde', linewidth = 2, subplots = True, sharex = False)
    [p[i].set_ylabel(u'密度') for i in range(k)]
    plt.legend()
    return plt
  
  pic_output = '../tmp/pd_' #概率密度图文件名前缀
  for i in range(k):
    density_plot(data[r[u'聚类类别']==i]).savefig(u'%s%s.png' %(pic_output, i))

聚类算法评价：purity评价法、RI评价法、F值评价法

对象名	函数功能
KMeans	K均值聚类
AffinityPropagation	吸引力传播聚类
SpectralClustering	谱聚类，由于KMeans
AgglomerativeClustering	层次聚类
DBSCAN	具有噪声的基于密度的聚类算法
MeanShift	均值漂移聚类算法
BIRCH	层次聚类算法，可以处理大规模数据

先用对应的函数建立模型，然后使用fit方法训练模型，之后用label_方法给出样本数据的标签，或者用predict方法预测新的输入的标签。

TENSE：提供一种有效地数据降维的方式，在2维或者3维战士聚类结果。

  #-*- coding: utf-8 -*-
  #接k_means.py
  from sklearn.manifold import TSNE
  import matplotlib.pyplot as plt
  plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
  plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
  
  tsne = TSNE()
  tsne.fit_transform(data_zs) #进行数据降维
  tsne = pd.DataFrame(tsne.embedding_, index = data_zs.index) #转换数据格式
  
  #不同类别用不同颜色和样式绘图
  d = tsne[r[u'聚类类别'] == 0]
  plt.plot(d[0], d[1], 'r.')
  d = tsne[r[u'聚类类别'] == 1]
  plt.plot(d[0], d[1], 'go')
  d = tsne[r[u'聚类类别'] == 2]
  plt.plot(d[0], d[1], 'b*')
  plt.show()

关联分析

常用算法：Apriori、FP-Tree、Eclt算法、灰色关联法

Ariori算法

支持度：

,A、B同时发生的概率

置信度：

A发生B发生的概率
同时满足最小支持度和最小置信度称满足强规则
算法步骤：

扫描事物集，得到没个候选项的支持度
比较候选支持度与最小支持度，得到1项频繁集L_1
由L_1产生候选项集C_2，并计算支持度
比较候选支持度和最小支持度，得到2项频繁集L_2
类推，直至不能产生新的候选项集

  #-*- coding: utf-8 -*-
  from __future__ import print_function
  import pandas as pd
  
  #自定义连接函数，用于实现L_{k-1}到C_k的连接
  def connect_string(x, ms):
    x = list(map(lambda i:sorted(i.split(ms)), x))
    l = len(x[0])
    r = []
    for i in range(len(x)):
      for j in range(i,len(x)):
        if x[i][:l-1] == x[j][:l-1] and x[i][l-1] != x[j][l-1]:
          r.append(x[i][:l-1]+sorted([x[j][l-1],x[i][l-1]]))
    return r
  
  #寻找关联规则的函数
  def find_rule(d, support, confidence, ms = u'--'):
    result = pd.DataFrame(index=['support', 'confidence']) #定义输出结果
    
    support_series = 1.0*d.sum()/len(d) #支持度序列
    column = list(support_series[support_series > support].index) #初步根据支持度筛选
    k = 0
    
    while len(column) > 1:
      k = k+1
      print(u'\n正在进行第%s次搜索...' %k)
      column = connect_string(column, ms)
      print(u'数目：%s...' %len(column))
      sf = lambda i: d[i].prod(axis=1, numeric_only = True) #新一批支持度的计算函数
      
      #创建连接数据，这一步耗时、耗内存最严重。当数据集较大时，可以考虑并行运算优化。
      d_2 = pd.DataFrame(list(map(sf,column)), index = [ms.join(i) for i in column]).T
      
      support_series_2 = 1.0*d_2[[ms.join(i) for i in column]].sum()/len(d) #计算连接后的支持度
      column = list(support_series_2[support_series_2 > support].index) #新一轮支持度筛选
      support_series = support_series.append(support_series_2)
      column2 = []
      
      for i in column: #遍历可能的推理，如{A,B,C}究竟是A+B-->C还是B+C-->A还是C+A-->B？
        i = i.split(ms)
        for j in range(len(i)):
          column2.append(i[:j]+i[j+1:]+i[j:j+1])
      
      cofidence_series = pd.Series(index=[ms.join(i) for i in column2]) #定义置信度序列
   
      for i in column2: #计算置信度序列
        cofidence_series[ms.join(i)] = support_series[ms.join(sorted(i))]/support_series[ms.join(i[:len(i)-1])]
      
      for i in cofidence_series[cofidence_series > confidence].index: #置信度筛选
        result[i] = 0.0
        result[i]['confidence'] = cofidence_series[i]
        result[i]['support'] = support_series[ms.join(sorted(i.split(ms)))]
    
    result = result.T.sort(['confidence','support'], ascending = False) #结果整理，输出
    print(u'\n结果为：')
    print(result)
    
    return result
  #######################################################33
  #-*- coding: utf-8 -*-
  #使用Apriori算法挖掘菜品订单关联规则
  from __future__ import print_function
  import pandas as pd
  from apriori import * #导入自行编写的apriori函数
  
  inputfile = '../data/menu_orders.xls'
  outputfile = '../tmp/apriori_rules.xls' #结果文件
  data = pd.read_excel(inputfile, header = None)
  
  print(u'\n转换原始数据至0-1矩阵...')
  ct = lambda x : pd.Series(1, index = x[pd.notnull(x)]) #1表示逐行转换。转换0-1矩阵的过渡函数
  b = map(ct, data.as_matrix()) #用map方式执行,b是list
  data = pd.DataFrame(b).fillna(0) #空值用0填充
  print(u'\n转换完毕。')
  del b #删除中间变量b，节省内存
  
  support = 0.2 #最小支持度
  confidence = 0.5 #最小置信度
  ms = '---' #连接符，默认'--'，用来区分不同元素，如A--B。需要保证原始表格中不含有该字符
  
  find_rule(data, support, confidence, ms).to_excel(outputfile) #保存结果

时序模式

非平稳时间序列分析：许多非平稳序列差分后会显示出平稳序列的性质，这时称之为差分平稳序列，可以先做差分然后用ARMA模型进行拟合。这种方法称之为ARIMA模型。

  #-*- coding: utf-8 -*-
  #arima时序模型
  
  import pandas as pd
  import matplotlib.pyplot as plt
  from statsmodels.graphics.tsaplots import plot_acf
  from statsmodels.tsa.stattools import adfuller as ADF
  from statsmodels.graphics.tsaplots import plot_pacf
  from statsmodels.stats.diagnostic import acorr_ljungbox
  from statsmodels.tsa.arima_model import ARIMA
  plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
  plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
  
  #参数初始化
  discfile = '../data/arima_data.xls'
  forecastnum = 5
  
  #读取数据，指定日期列为指标，Pandas自动将“日期”列识别为Datetime格式
  data = pd.read_excel(discfile, index_col = u'日期')
  
  #时序图
  data.plot()
  plt.show()
  plt.title('Time Series')
  
  #自相关图
  plot_acf(data).show()
  
  #平稳性检测
  print(u'原始序列的ADF检验结果为：', ADF(data[u'销量']))
  #返回值依次为adf、pvalue、usedlag、nobs、critical values、icbest、regresults、resstore
  
  #差分后的结果
  D_data = data.diff().dropna()
  D_data.columns = [u'销量差分']
  D_data.plot() #时序图
  plt.show()
  plot_acf(D_data).show() #自相关图
  plot_pacf(D_data).show() #偏自相关图
  print(u'差分序列的ADF检验结果为：', ADF(D_data[u'销量差分'])) #平稳性检测
  
  #白噪声检验
  print(u'差分序列的白噪声检验结果为：', acorr_ljungbox(D_data, lags=1)) #返回统计量和p值
  
  data[u'销量'] = data[u'销量'].astype(float)
  #定阶
  pmax = int(len(D_data)/10) #一般阶数不超过length/10
  qmax = int(len(D_data)/10) #一般阶数不超过length/10
  bic_matrix = [] #bic矩阵
  for p in range(pmax+1):
    tmp = []
    for q in range(qmax+1):
      try: #存在部分报错，所以用try来跳过报错。
        tmp.append(ARIMA(data, (p,1,q)).fit().bic)
      except:
        tmp.append(None)
    bic_matrix.append(tmp)
  
  bic_matrix = pd.DataFrame(bic_matrix) #从中可以找出最小值
  
  p,q = bic_matrix.stack().idxmin() #先用stack展平，然后用idxmin找出最小值位置。
  print(u'BIC最小的p值和q值为：%s、%s' %(p,q)) 
  model = ARIMA(data, (p,1,q)).fit() #建立ARIMA(0, 1, 1)模型
  model.summary2() #给出一份模型报告
  model.forecast(5) #作为期5天的预测，返回预测结果、标准误差、置信区间。

函数名	函数功能
acf	计算自相关系数
plot_acf	画自相关系数图
pacf	计算偏相关系数
plot_pacf	画图
adfuller	单位根检验
diff	差分运算
ARIMA	创建模型
summary	给出ARIMA模型的报告
aic/bic/hqic	计算ARIMA模型的指标
forecast	预测
acorr_ljungbox	Ljung-Box检验，是否白噪声

  autocorr = acf(data, unbiased = False, nlags = 40, qstat = False, fft = False, alpha = False)
  # data 为观测值序列(时间序列)，可以是DataFrame或者Series
  
  h = adfuller(Series, maxlag = None, Regression = 'c', autolog = 'AIC', store = False, regresults =False)
  
  D.diff()        #D为Pandas的DataFrame或Series
  
  arima = ARIMA(data, (p, 1, q)).fit()        #data为输入的时间序列，p,q为对应的阶
  
  amima.summary()         #返回一份格式化的模型报告
  
  arima.bic
  
  a,b,c = arima.forecast(num)     #num为要预测的天数,a为返回的预测值,b为预测误差,c为置信区间

离群点检测

方法：基于统计、基于邻近度、基于密度、基于聚类。
基于统计：一元正态分布若数据点在3倍标准差之外。
混合模型的离群点检测：数据的统计分布未知或者没有训练数据可用，很难建立模型。
基于原型的聚类：聚类所有的对象，然后评估对象属于簇的程度。如果删除一个对象导师制该目标显著改进，则可将该对象视为离群点。离群点可能形成小簇从而逃避检测。

  #-*- coding: utf-8 -*-
  #使用K-Means算法聚类消费行为特征数据
  import numpy as np
  import pandas as pd
  from sklearn.cluster import KMeans
  import matplotlib.pyplot as plt
  
  plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
  plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
  
  #参数初始化
  inputfile = '../data/consumption_data.xls' #ID 和三个属性
  k = 3 #聚类的类别
  threshold = 2 #离散点阈值
  iteration = 500 #聚类最大循环次数
  data = pd.read_excel(inputfile, index_col = 'Id') #读取数据
  data_zs = 1.0*(data - data.mean())/data.std() #数据标准化
  
  model = KMeans(n_clusters = k, n_jobs = 1, max_iter = iteration) #分为k类，并发数4
  model.fit(data_zs) #开始聚类
  
  #标准化数据及其类别
  r = pd.concat([data_zs, pd.Series(model.labels_, index = data.index)], axis = 1)  #每个样本对应的类别
  r.columns = list(data.columns) + [u'聚类类别'] #重命名表头
  
  norm = []
  for i in range(k): #逐一处理
    norm_tmp = r[['R', 'F', 'M']][r[u'聚类类别'] == i]-model.cluster_centers_[i]
    norm_tmp = norm_tmp.apply(np.linalg.norm, axis = 1) #求出绝对距离
    norm.append(norm_tmp/norm_tmp.median()) #求相对距离并添加
  
  norm = pd.concat(norm) #合并
  
  norm[norm <= threshold].plot(style = 'go') #正常点
  
  discrete_points = norm[norm > threshold] #离群点
  discrete_points.plot(style = 'ro')
  
  for i in range(len(discrete_points)): #离群点做标记
    id = discrete_points.index[i]
    n = discrete_points.iloc[i]
    plt.annotate('(%s, %0.2f)'%(id, n), xy = (id, n), xytext = (id, n))#有标注的点是离群点
  
  plt.xlabel(u'编号')
  plt.ylabel(u'相对距离')
  plt.show()

电力窃漏电用户自动识别

数据分析：

分布分析：用户类别窃漏电情况分布发现，非居民类不存在漏电情况。故可清理
周期性分析：找到一个正常的用户和漏电用户，分别观察规律。发现正常用户有明显的周期性。

数据预处理

数据清洗：过滤掉非居民类的数据和节假日数据。
缺失值处理：拉格朗日插补法进行插补
数据变换：用电趋势指标、5天平均线损率、告警指标计数

模型构建

用LM神经网络和CART决策树模型建模
ROC曲线比较性能

航空公司客户价值分析

数据分析：缺失值分析和异常值分析，异常值看最大和最小值

数据预处理：

数据清洗，丢弃缺失值、票价为0折扣率不为0的数据
属性规约，删除不相关或者弱相关属性
数据变换：计算指标，并对数据进行标准化处理

模型构建

K-Means算法对客户数据进行分群，分为5类。
结合图表对结果进行分析

中医证型关联规则挖掘

数据预处理

数据清洗：删除整理无效问卷
属性规约：将冗余属性和无关属性删除
数据变换：构造属性，并将属性离散化

模型构建

采用Apriori关联规则算法对模型的样本数据进行分析，以模型参数设置的最小支持度和最小置信度作为条件，输出关联规则结果。

基于水色图像的水质评价

数据预处理

图像切割：提取水样图像中间部分具有代表意义的图像
特征提取：颜色的一阶、二阶、三阶矩

模型构建

为提高区分度，将所有特征乘以常数k。然后建立支持向量机模型。

水质评价

对新增的水质图像作评价。

家用电器用户行为分析与事件识别

数据预处理

数据规约：去除无用的属性和状态
数据变换：确定用水事件的阈值
数据清洗

模型构建：训练神经网络

模型检验：使用测试数据

应用系统负载分析与磁盘容量预测

数据分析：通过时序图观察数据的平稳性和周期性

数据预处理

数据清洗：删除重复值
属性构造：合并属性

模型构建

检验平稳性，单位根检验
白噪声检验
模型识别：采用极大似然比方法进行模型的参数估计，采用BIC信息准则对模型进行定阶。ARIMA(0,1,1)
模型检验：检验模型残差序列是否为白噪声如果不是，说明还有未提取的有用信息，需要修改模型。

模型评价：计算平均绝对误差，均方根误差

电子商务网站用户行为分析及服务推荐

数据抽取：建立数据库--导入数据--搭建Python数据库操作环境

数据分析

网页类型分析
点击次数分析
网页排名

数据预处理

数据清洗：删除数据(中间页面网址、发布成功网址、登录助手页面)
数据变化：识别翻页网址并去重，错误分类网址手动分类，并进一步分类
属性规约：只选择用户和用户选择的网页数据

模型构建

基于物品的协同滤波算法：计算物品之间的相似度，建立相似度矩阵；根据物品的相似度和用户的历史行为给用户生成推荐列表。

相似度计算方法：夹角余弦、Jaccard系数、相关系数

财政收入影响因素分析及预测模型

数据分析

描述性统计分析
相关分析

模型构建

对于财政收入、增值税、营业税、企业所得税、政府性基金、个人所得税

Adaptive-Lasso变量选择模型：去除无关变量
分别建立灰色预测模型与神经网络模型

基于基站定位数据的商圈分析

数据预处理

属性规约：删除冗余属性，合并时间属性
数据变换：计算工作日人均停留时间、凌晨、周末、日均等指标，并标准化。

模型构建

构建商圈聚类模型：采用层次聚类算法
模型分析：对聚类结果进行特征观察

电商产品评论数据情感分析

文本采集：八爪鱼采集器(爬虫工具)

文本预处理：

文本去重：自动评价、完全重复评价、复制的评论
机械压缩去词：
删除短句

文本评论分词：采用Python中文分词包“Jieba”分词，精度达97%以上。

模型构建

情感倾向性模型：生成词向量；评论集子集的人工标注与映射；训练栈式自编码网络
基于语义网络的评论分析
基于LDA模型的主题分析

你可能感兴趣的:(数据分析,python,python,数据挖掘,数据分析,pandas,数据库)

SenseVoice 部署记录安静六角开源软件
最近试用了SenseVoice（阿里团队开源的语音转文字）效果可以，可以本地部署，有webui界面，测试了万字以上的转换效果可以。首先部署好conda环境和cuda，这个可以查看他人的文章。步骤1.创建虚拟环境：condacreate-nmainenvpython=3.102.然后安装依赖condaactivatemainenvpipinstall-rC:\Users\xx\Documents\P
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
Python实现微信自动发送消息热心市民小汪 python 微信开发语言
实现需求：Python定时发送微信消息importpyautoguiaspgimportpyperclipaspcfromapscheduler.schedulers.blockingimportBlockingScheduler"""实现定时自动发送消息"""#操作间隔为1秒pg.PAUSE=1name='Hello~'msg='是时候点餐啦！！'defmain():#打开微信pg.hotkey
程序代码篇---Pyqt的密码界面 Ronin-Lotus 程序代码篇上位机知识篇 pyqt 数据库 python ubuntu
文章目录前言一、代码二、代码解释2.1用户数据库定义2.2窗口初始化2.3认证逻辑2.5角色处理2.6错误处理优化2.7功能扩展说明2.7.1用户类型区分管理员普通用户其他用户2.7.2安全增强建议三、运行效果四、运行命令五、界面改进建议5.1密码显示5.2用户头像显示5.3输入框动画效果5.4加载进度显示5.5键盘快捷键前言本文简单介绍了在Ubuntu系统上使用Python的Pyqt创建密码登录
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
Python读取.nc文件的方法与技术详解傻啦嘿哟关于python那些事儿人工智能前端服务器
目录一、引言二、使用netCDF4库读取.nc文件安装netCDF4库导入netCDF4库打开.nc文件获取变量读取变量数据案例与代码三、使用xarray库读取.nc文件安装xarray库导入xarray库打开.nc文件访问变量数据案例与代码四、性能与优化分块读取使用Dask进行并行计算减少不必要的变量加载五、其他注意事项文件路径变量命名数据类型文件关闭六、总结一、引言.nc文件，即NetCDF（
架构师必知必会系列：数据架构与数据管理 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍数据架构与数据管理介绍数据架构是指用来定义企业数据的逻辑结构、物理存储结构和数据的流转过程。它由数据中心和IT平台、数据库、文件系统、网络、安全、计算资源等构成。其目的是为了满足业务需求、提升组织效率和降低成本。数据架构包括数据字典、元数据、数据模型、数据流、数据仓库、数据管道、数据服务等。在应用中，将数据按照其自身特性进行划分、分类、归档、清洗和加工，才能
Python画词云图，Python画圆形词云图，API详解请一直在路上 python 开发语言
在Python中，词云图的常用库是wordcloud。以下是核心API参数的详细讲解，以及一个完整的使用示例。一、参数类型默认值说明参数类型默认值说明widthint400词云图的宽度（像素）heightint200词云图的高度（像素）background_colorstr“black”背景颜色，可以是颜色名称（如“white”）或十六进制值（如“#FFFFFF”）colormapstr/matp
23、nc文件快速切片与索引爱转呼啦圈的小兔子气象数据处理与可视化 python 气象气象可视化气候变化
1前言在气象、海洋学和环境科学等领域，.nc（NetCDF）格式文件是存储和共享多维科学数据的常用格式。这些数据文件通常包含大量的经度、纬度、时间和垂直层次数据。在处理这些数据时，研究人员常常需要根据特定的地理和时间范围提取数据，以便进行深入分析。为此，我们开发了一个名为nc_slice的Python函数，用于从一个或多个.nc格式文件中高效地筛选和提取数据。nc_slice函数提供了一种简洁而灵
华为OD机试统一考试D卷C卷 - 机器人仓库搬砖 py 愤怒的小青春 java
平安寿险北分和飞鹤职能哪个强度好一些呀，平安寿险北分和飞鹤职能哪个强度好一些呀，两个offer纠结经营分析应该属于什么序列#数据分析#在牛客搜经营分析貌似只有字节有这个单独岗位名字，其他大厂都是在从属于数据分析，所以这俩昇腾计算岗位扩招，绝佳上车AI机会，速来ai芯片业务发展太快，要大量补充人力缺口。嵌入式软件开发、测试，前后端岗位，硬件岗位都招。院校范围很春招补录两个公司总包差不多，都是后台开发
【最新】TensorFlow、cuDNN、CUDA三者之间的最新版本对应及下载地址江上_酒开发环境及工具配置 TensorFlow CUDA cuDNN
TensorFlow、cuDNN、CUDA对应关系官网查询地址CUDA下载地址cuDNN下载地址VersionPythonversionCompilerBuildtoolscuDNNCUDAtensorflow_gpu-2.9.03.7-3.10MSVC2019Bazel5.0.08.111.2tensorflow_gpu-2.8.03.7-3.10MSVC2019Bazel4.2.18.111.
Python读取nc文件的几种方式请一直在路上 python
在Python中，有多种方式可以读取NetCDF(.nc)文件。常见的方法包括使用以下库：1.netCDF4这是最常用的库之一，提供了直接读取、写入和处理NetCDF文件的功能。它支持版本3和版本4的NetCDF文件格式。安装：pipinstallnetCDF4用法：importnetCDF4asnc#打开文件dataset=nc.Dataset('example.nc')#查看文件的维度prin
UV - Python 包管理丽英y Python uv python 开发语言
文章目录创建uv项目已有项目已有uv项目创建uv项目#创建项目uvinitm3#创建环境cdm3uvvenv--python3.11#激活环境source.venv/bin/activate#添加库uvaddflask如果创建项目后，给库取别的名字，add的时候，会自动创建.venv文件夹>uvvenv--python3.12e312[0]UsingCPython3.12.8interpreter
漫谈JVM weixin_34111790 运维 java python
2019独角兽企业重金招聘Python工程师标准>>>背景介绍创建了一个技术类公众号:一起源码分析，里面会分享最新的开源代码、源码解读、开发技巧等，欢迎大家关注。JVM已经是Java开发的必备技能了，JVM相当于Java的操作系统。JVM,javavirtualmachine,即Java虚拟机，是运行javaclass文件的程序。Java代码经过Java编译器编译，会编译成class文件，一种平台
开发语言漫谈-脚本语言大道不孤,众行致远技术杂谈开发语言
前面讲的都称之为编程语言，就是做系统用的。还有一大类称之为脚本语言的语言，这类语言数量极多，大部分程序员用不上，也不关心，这是系统维护人员专用的邻域。这个定义其实也很不准确，不必较真。更准确的来讲，能直接运行的文本都可以称之为脚本语言，按这个标准，python也是。但是python同样用于做系统。我们今天讲的脚本语言纯粹用于系统维护邻域。我们重点将编程语言，对这些脚本语言就打包一起介绍了bash：
Python环境管理新利器：UV工具详解云水木石 python uv 开发语言
Python包和环境管理最好的工具无疑是Anaconda，但我在之前的一篇文章《注意，使用这款Python软件可能会带来麻烦》写过，个人使用完全没有问题。如果在公司内使用，就需要格外小心，可能会招来官司。在我们公司，Anaconda（包括Miniconda）就是禁止安装的软件之一。但是在工作中，确实又存在需要切换不同Python版本的需求，比如编译Chromium需要Python3.8以上的版本，
Python新手入门 python流程控制基础1——条件语句if~~else；if~elif~else；不爱纸片人 python
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、条件语句是什么？二、语句使用方法1.if.....2.if.......elif......3.if.......elif......else.......总结一、条件语句是什么？在Python中，条件语句用于根据不同的条件执行不同的代码块二、语句使用方法一共有三种if…if’…elif…if…elif…else…1.if
Spring事务失效的常见场景红云梦 spring java 数据库
1事务1.1数据库事务作为单个逻辑工作单元执行的一系列操作，要么完全执行，要么完全不执行1.2事务的四大特性（ACID）原子性(Atomicity)：要么成功，要么失败。一个事务内的所有SQL语句同步执行（依靠undo.log日志保证）一致性(Consistency)：事务前后总量不变，数据库完整性约束没有被破坏隔离性(Isolation)：一个事务执行不被其他事务干扰（锁+MVCC）持久性(Du
使用 NetworkX 进行图论分析与可视化 aiweker 跟我学python 图论 python
使用NetworkX进行图论分析与可视化NetworkX是一个用于创建、操作和研究复杂网络的Python库。它提供了丰富的图论算法和数据结构，适用于各种网络分析任务。本文将分点介绍NetworkX的主要功能，并通过代码示例进行详细说明。1.安装NetworkX在开始使用NetworkX之前，首先需要安装它。可以通过pip进行安装：pipinstallnetworkx2.创建图NetworkX支持多
使用 UV 管理 Python 项目 | python小知识 aiweker 跟我学python uv python 人工智能
使用UV管理Python项目|python小知识1.引言在Python开发中，项目管理工具是必不可少的。常见的工具如pip、pipenv、poetry等，它们各有优缺点。近年来，uv作为一个新兴的Python项目管理工具，逐渐受到开发者的关注。uv旨在提供更快的依赖解析和安装速度，同时保持与现有工具的兼容性。本文将详细介绍uv的功能和应用场景，并通过代码示例展示其使用方法。最后，我们将对比uv与其
Python 常用内建模块-HTMLParser 赔罪 Python 系统学习 python 开发语言
目录HTMLParser小结练习HTMLParser如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。假设第一步已经完成了，第二步应该如何解析HTML呢？HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。好在Python提供了HTMLParser来非
Python 常用内建模块-venv 赔罪 Python 系统学习 python 开发语言
目录venv小结venv在开发Python应用程序的时候，系统安装的Python3只有一个版本：3.x。所有第三方的包都会被pip安装到Python3的site-packages目录下。如果我们要同时开发多个应用程序，那这些应用程序都会共用一个Python，就是安装在系统的Python3。如果应用A需要jinja2.7，而应用B需要jinja2.6怎么办？这种情况下，每个应用可能需要各自拥有一套“
python Qt Solkatt's
最近帮朋友做了一个将文本文件按条件导出到excel里面的小程序。使用了PyQT，发现Python真是一门强大的脚本语言，开发效率极高。首先需要引用fromPyQt4importQtGui,uic,QtCore很多控件像QPushButton是从QtGui的空间中得来的，下面def__init__(self,parent=None)中定义了界面的设计及与控件相互联系的方法。classAddressB
Rust + 时序数据库 TDengine：打造高性能时序数据处理利器涛思数据（TDengine）时序数据库 rust tdengine
引言：为什么选择TDengine与Rust？TDengine是一款专为物联网、车联网、工业互联网等时序数据场景优化设计的开源时序数据库，支持高并发写入、高效查询及流式计算，通过“一个数据采集点一张表”与“超级表”的概念显著提升性能。Rust作为一门系统级编程语言，近年来在数据库、嵌入式系统、分布式服务等领域迅速崛起，以其内存安全、高性能著称，与TDengine的高效特性天然契合，适合构建高可靠、高
pyspark学习rdd处理数据方法——学习记录亭午学习
python黑马程序员"""文件，按JSON字符串存储1.城市按销售额排名2.全部城市有哪些商品类别在售卖3.上海市有哪些商品类别在售卖"""frompysparkimportSparkConf,SparkContextimportosimportjsonos.environ['PYSPARK_PYTHON']=r"D:\anaconda\envs\py10\python.exe"#创建Spark
实时光线追踪技术：Ray Tracing_2024-07-21_02-55-16.Tex chenjj4003 游戏开发 python 算法人工智能矩阵线性代数骨骼绑定开发语言
实时光线追踪技术：RayTracing实时光线追踪技术教程基础知识光线追踪原理光线追踪是一种渲染技术，它通过模拟光线在场景中的传播和反射来生成图像。在实时光线追踪中，这一过程被优化以在有限的时间内完成，通常用于游戏和实时动画。其核心原理是逆向追踪，即从观察者（摄像机）发出光线，而不是从光源发出，这样可以减少计算量。示例：光线追踪的基本算法#Python示例代码，展示如何计算光线与场景中物体的交点c
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
PyQt和PySide的区别和比较 PgosOcaml pyqt mfc c++
PyQt和PySide的区别和比较PyQt和PySide是两个用于创建图形用户界面(GUI)的Python库。它们都是基于Qt框架，Qt是一个跨平台的应用程序和UI开发框架。本文将介绍PyQt和PySide之间的区别和比较，并提供相应的源代码示例。开发者许可证：PyQt的开发者许可证是商业许可证，因此如果您想在商业项目中业项目中使用PyQt，您需要购买相应的许可证。而Py业项目中使用PyQt，您需
Python 错误处理赔罪 Python 系统学习 python 开发语言
目录try调用栈记录错误抛出错误练习小结在程序运行的过程中，如果发生了错误，可以事先约定返回一个错误代码，这样，就可以知道是否有错，以及出错的原因。在操作系统提供的调用中，返回错误码非常常见。比如打开文件的函数open()，成功时返回文件描述符（就是一个整数），出错时返回-1。用错误码来表示是否出错十分不便，因为函数本身应该返回的正常结果和错误码混在一起，造成调用者必须用大量的代码来判断是否出错：
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

Python数据分析与挖掘实战总结

《Python数据分析与挖掘实战》

一、书籍及源代码下载链接：

二、Python数据分析入门

Python入门

第三方库

三、数据探索

异常值分析

分布分析

对比分析

统计量分析

周期性分析

贡献度分析

相关性分析

数据探索函数

四、数据预处理

数据清洗

数据集成

数据变化

数据规约

Python主要数据预处理函数

五、挖掘建模

分类与预测

聚类分析

关联分析

时序模式

离群点检测

电力窃漏电用户自动识别

航空公司客户价值分析

中医证型关联规则挖掘

基于水色图像的水质评价

家用电器用户行为分析与事件识别

应用系统负载分析与磁盘容量预测

电子商务网站用户行为分析及服务推荐

财政收入影响因素分析及预测模型

基于基站定位数据的商圈分析

电商产品评论数据情感分析

你可能感兴趣的:(数据分析,python,python,数据挖掘,数据分析,pandas,数据库)