急着吃饭的李先生

Python数据可视化

1.离散型变量的可视化

1.1 饼图

1.1.1 matplotlib模块

下面以"芝麻信用"失信用户数据为例(数据来源于财新网),分析近300万失信人群的学历分布

# 饼图的绘制
# 导入第三方模块
import matplotlib.pyplot as plt
# 构造数据
edu = [0.2515,0.3724,0.3336,0.0368,0.0057]
labels = ['中专','大专','本科','硕士','其他']
# 添加修饰的饼图 
explode = [0,0.1,0,0,0]  # 生成数据，用于突出显示大专学历人群
# 中文乱码和坐标轴负号的处理
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
# 将横、纵坐标轴标准化处理，确保饼图是一个正圆，否则为椭圆
plt.axes(aspect='equal')
# 设置图片风格
plt.style.use("ggplot")
# 设置画布大小
plt.figure(figsize=(6,6))
# 绘制饼图
plt.pie(x = edu, # 绘图数据
        explode=explode, # 突出显示大专人群
        labels=labels, # 添加教育水平标签
        autopct='%.1f%%', # 设置百分比的格式，这里保留一位小数
        pctdistance=0.8,  # 设置百分比标签与圆心的距离
        labeldistance = 1.1, # 设置教育水平标签与圆心的距离
        startangle = 180, # 设置饼图的初始角度
        radius = 1.2, # 设置饼图的半径
        counterclock = False, # 是否逆时针，这里设置为顺时针方向
        textprops = {'fontsize':12, 'color':'black'}, # 设置文本标签的属性值
        )

# 添加图标题
plt.title('失信用户的受教育水平分布')
# 保存图片
plt.savefig("./图片1")
# 显示图形
plt.show()

1.1.2 pandas模块

# 导入第三方模块
import pandas as pd
# 构建序列
data1 = pd.Series({'中专':0.2515,'大专':0.3724,'本科':0.3336,'硕士':0.0368,'其他':0.0057})
# 将序列的名称设置为空字符，否则绘制的饼图左边会出现None这样的字眼
data1.name = ''
# 控制饼图为正圆
plt.axes(aspect = 'equal')
# 设置画布大小
plt.figure(figsize=(6,6))
# plot方法对序列进行绘图
data1.plot(kind = 'pie', # 选择图形类型
           explode=[0,0,0.08,0,0],
           autopct='%.1f%%', # 饼图中添加数值标签
           radius = 1, # 设置饼图的半径
           startangle = 180, # 设置饼图的初始角度
           counterclock = False, # 将饼图的顺序设置为顺时针方向
           title = '失信用户的受教育水平分布', # 为饼图添加标题
           textprops = {'fontsize':12, 'color':'black'} # 设置文本标签的属性值
          )
# 保存图片
plt.savefig("./图片2")
# 显示图形
plt.show()

1.2 条形图

1.2.1 matplotlib模块

首先绘制单个离散变量的垂直或水平条形图,数据来源于互联网,反应的是2017年中国六大省份的GDP,代码如下:

# 条形图的绘制--垂直条形图
# 读入数据
GDP = pd.read_excel(r'./Province GDP 2017.xlsx')
GDP

# 设置绘图风格（不妨使用R语言中的ggplot2风格）
plt.style.use('ggplot')
plt.figure(figsize=(10,6))
# 绘制条形图
plt.bar(left = range(GDP.shape[0]), # 指定条形图x轴的刻度值
        height = GDP.GDP, # 指定条形图y轴的数值
        tick_label = GDP.Province, # 指定条形图x轴的刻度标签
        color = 'steelblue', # 指定条形图的填充色
       )
# 添加y轴的标签
plt.ylabel('GDP(万亿)')
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
# 添加条形图的标题
plt.title('2017年度6个省份GDP分布',fontsize=16)
# 为每个条形图添加数值标签
for x,y in enumerate(GDP.GDP):
    plt.text(x,y+0.1,'%s' %round(y,1),ha='center',fontsize=14)
plt.savefig("./图片3")
# 显示图形    
plt.show()

将条形图进行升序或降序处理,以水平条形图为例:

# 条形图的绘制--水平条形图
# 对读入的数据作升序排序
GDP.sort_values(by = 'GDP', inplace = True)
plt.figure(figsize=(10,6))
# 绘制条形图
plt.barh(bottom = range(GDP.shape[0]), # 指定条形图y轴的刻度值
        width = GDP.GDP, # 指定条形图x轴的数值
        tick_label = GDP.Province, # 指定条形图y轴的刻度标签
        color = 'steelblue', # 指定条形图的填充色
       )
# 添加x轴的标签
plt.xlabel('GDP(万亿)')
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
# 添加条形图的标题
plt.title('2017年度6个省份GDP分布')
# 为每个条形图添加数值标签
for y,x in enumerate(GDP.GDP):
    plt.text(x+0.1,y,x,va='center',fontsize=12)
plt.savefig("./图片4")
# 显示图形    
plt.show()

绘制堆叠条形图
这里以2017年四个季度的产业值为例(数据来源于中国统计局)

# 读入数据
Industry_GDP = pd.read_excel(r'./Industry_GDP.xlsx')
Industry_GDP

# 取出四个不同的季度标签，用作堆叠条形图x轴的刻度标签
Quarters = Industry_GDP.Quarter.unique()
plt.figure(figsize=(10,6))
# 取出第一产业的四季度值
Industry1 = Industry_GDP.GPD[Industry_GDP.Industry_Type == '第一产业']
# 重新设置行索引
Industry1.index = range(len(Quarters))
# 取出第二产业的四季度值
Industry2 = Industry_GDP.GPD[Industry_GDP.Industry_Type == '第二产业']
# 重新设置行索引
Industry2.index = range(len(Quarters))
# 取出第三产业的四季度值
Industry3 = Industry_GDP.GPD[Industry_GDP.Industry_Type == '第三产业']

# 绘制堆叠条形图
# 各季度下第一产业的条形图
plt.bar(left = range(len(Quarters)), height=Industry1, label = '第一产业', tick_label = Quarters,width=0.6)
# 各季度下第二产业的条形图
plt.bar(left = range(len(Quarters)), height=Industry2, bottom = Industry1, label = '第二产业',width=0.6)
# 各季度下第三产业的条形图
plt.bar(left = range(len(Quarters)), height=Industry3, bottom = Industry1  + Industry2, label = '第三产业',width=0.6)
# 添加y轴标签
plt.ylabel('生成总值（亿）',fontsize=14)
# 添加图形标题
plt.title('2017年各季度三产业总值',fontsize=16)
# 显示各产业的图例
plt.legend(fontsize=12)
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
plt.savefig("./图片5")
# 显示图形
plt.show()

需要注意的是,第二产业的条形图是在第一产业的基础上做了叠加,所以需要将bottom参数设置为Industry1;后面同理.
还有一点需要注意,产业值取出来后需要重置索引,这样才能计算Industry1和Industry2的和.

水平交错条形图

# 导入第三方模块
import numpy as np
# 读入数据
HuRun = pd.read_excel(r'./hurun.xlsx')
# 取出城市名称
Cities = HuRun.City.unique()
# 取出2016年各城市亿万资产家庭数
Counts2016 = HuRun.Counts[HuRun.Year == 2016]
# 取出2017年各城市亿万资产家庭数
Counts2017 = HuRun.Counts[HuRun.Year == 2017]
plt.figure(figsize=(10,6))
# 绘制水平交错条形图
plt.bar(left = np.arange(len(Cities)), height = Counts2016, label = '2016', width = 0.4)
plt.bar(left = np.arange(len(Cities))+0.4, height = Counts2017, label = '2017', width = 0.4)
# 添加刻度标签（向右偏移0.225）
plt.xticks(np.arange(5)+0.2,Cities,fontsize=14)
plt.yticks(fontsize=14)
# 添加y轴标签
plt.ylabel('亿万资产家庭数',fontsize=14)
# 添加图形标题
plt.title('近两年5个城市亿万资产家庭数比较',fontsize=16)
# 添加图例
plt.legend(fontsize=14)
plt.savefig("./图片6")
# 显示图形
plt.show()

1.2.2 pandas模块

绘制单个离散变量的条形图

# 绘图（此时的数据集在前文已经按各省GDP做过升序处理）
plt.figure(figsize=(10,6))
GDP.GDP.plot(kind = 'bar', width = 0.7, rot = 0)
plt.title('2017年度6个省份GDP分布',fontsize=16)
# 添加y轴标签
plt.ylabel('GDP（万亿）',fontsize=14)
# 添加x轴刻度标签
plt.xticks(range(len(GDP.Province)), #指定刻度标签的位置  
           GDP.Province, # 指出具体的刻度标签值
           fontsize=14
          )
# 为每个条形图添加数值标签
for x,y in enumerate(GDP.GDP):
    plt.text(x-0.1,y+0.2,'%s' %round(y,1),va='center',fontsize=13)
plt.savefig("./图片7")
# 显示图形
plt.show()

绘制含两个离散变量的水平交错条形图

# Pandas模块之水平交错条形图
HuRun_reshape = HuRun.pivot_table(index = 'City', columns='Year', values='Counts').reset_index()
# 对数据集降序排序
HuRun_reshape.sort_values(by = 2016, ascending = False, inplace = True)
HuRun_reshape.plot(x = 'City', y = [2016,2017], kind = 'bar',
                   rot = 0, # 用于旋转x轴刻度标签的角度，0表示水平显示刻度标签
                   width = 0.8,figsize=(10,6),fontsize=14)
# 添加y轴标签
plt.title('近两年5个城市亿万资产家庭数比较',fontsize=18)
plt.ylabel('亿万资产家庭数')
plt.xlabel('')
plt.legend(fontsize=14)
plt.savefig('./图片8')
plt.show()

应用plot方法绘制水平交错条形图,必须更改原始数据集的形状.

1.2.3 seaborn模块绘制条形图

# seaborn模块之垂直或水平条形图
# 导入第三方模块
import seaborn as sns
plt.figure(figsize=(10,6))
sns.barplot(y = 'Province', # 指定条形图x轴的数据
            x = 'GDP', # 指定条形图y轴的数据
            data = GDP, # 指定需要绘图的数据集
           )
# 重新设置x轴和y轴的标签
plt.xlabel('GDP（万亿）')
plt.ylabel('')
# 添加图形的标题
plt.title('2017年度6个省份GDP分布',fontsize=16)
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
# 为每个条形图添加数值标签
for y,x in enumerate(GDP.GDP):
    plt.text(x,y,'%s' %round(x,1),va='center',fontsize=14)
# 显示图形
plt.savefig('./图片9')
plt.show()

除此之外,seaborn模块中的barplot函数还可以绘制两个离散变量的水平交错条形图

# 读入数据
Titanic = pd.read_csv(r'./titanic_train.csv')
Titanic.head()

plt.figure(figsize=(10,6))
# 绘制水平交错条形图
sns.barplot(x = 'Pclass', # 指定x轴数据
            y = 'Age', # 指定y轴数据
            hue = 'Sex', # 指定分组数据
            data = Titanic, # 指定绘图数据集
            palette = 'RdBu', # 指定男女性别的不同颜色
            errcolor = 'blue', # 指定误差棒的颜色
            errwidth=2, # 指定误差棒的线宽
            saturation = 1, # 指定颜色的透明度，这里设置为无透明度
            capsize = 0.05, # 指定误差棒两端线条的宽度
           )
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
# 添加图形标题
plt.title('各船舱等级中男女乘客的年龄差异',fontsize=18)
plt.savefig("./图片9")
# 显示图形
plt.show()

绘制的每一个条形图中都含有一条竖线,该竖线就是条形图的误差棒,即个组别下年龄的标准差大小,由上图可知,三等舱男性乘客年龄是最为接近的,因为标准差最小.

2 数值型变量可视化

2.1 直方图与核密度曲线

2.1.1 matplotlib模块

# matplotlib模块绘制直方图
# 检查年龄是否有缺失
any(Titanic.Age.isnull())
# 不妨删除含有缺失年龄的观察
Titanic.dropna(subset=['Age'], inplace=True)
plt.figure(figsize=(10,6))
# 绘制直方图
plt.hist(x = Titanic.Age, # 指定绘图数据
         bins = 20, # 指定直方图中条块的个数
         color = 'steelblue', # 指定直方图的填充色
         edgecolor = 'black' # 指定直方图的边框色
         )
# 添加x轴和y轴标签
plt.xlabel('年龄',fontsize=14)
plt.ylabel('频数',fontsize=14)
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
# 添加标题
plt.title('乘客年龄分布',fontsize=18)
plt.savefig('./图片10')
# 显示图形
plt.show()

any() 函数用于判断给定的可迭代参数 iterable 是否全部为 False，则返回 False，如果有一个为 True，则返回 True。
需要注意的是,如果原始数据集中存在缺失值,一定要对缺失观测进行删除或替换,否则无法绘制成功。

2.1.2 pandas模块

# Pandas模块绘制直方图和核密度图
# 绘制直方图
Titanic.Age.plot(kind = 'hist', bins = 20, color = 'steelblue',
                 edgecolor = 'black', normed = True, label = '直方图',figsize=(10,6),fontsize=14)
# 绘制核密度图
Titanic.Age.plot(kind = 'kde', color = 'red', label = '核密度图')
# 添加x轴和y轴标签
plt.xlabel('年龄',fontsize=14)
plt.ylabel('核密度值',fontsize=14)
# 添加标题
plt.title('乘客年龄分布',fontsize=18)
# 显示图例
plt.legend()
plt.savefig('./图片11')
# 显示图形
plt.show()

2.1.3 seaborn模块

尽管上图满足了两种图形的合并,但其表达的是所有乘客的年龄分布,如果按性别分组,研究不同性别下的年龄分布差异,这时候推荐使用seaborn模块中的distplot函数

# seaborn模块绘制分组的直方图和核密度图
# 取出男性年龄
Age_Male = Titanic.Age[Titanic.Sex == 'male']
# 取出女性年龄
Age_Female = Titanic.Age[Titanic.Sex == 'female']
plt.figure(figsize=(10,6))
# 绘制男女乘客年龄的直方图
sns.distplot(Age_Male, bins = 20, kde = False, hist_kws = {'color':'steelblue'}, label = '男性')
# 绘制女性年龄的直方图
sns.distplot(Age_Female, bins = 20, kde = False, hist_kws = {'color':'purple'}, label = '女性')
plt.title('男女乘客的年龄直方图',fontsize=18)
# 显示图例
plt.legend(fontsize=14)
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
# 显示图形
plt.savefig('./图片12')
plt.show()
plt.figure(figsize=(10,6))
# 绘制男女乘客年龄的核密度图
sns.distplot(Age_Male, hist = False, kde_kws = {'color':'red', 'linestyle':'-'}, 
             norm_hist = True, label = '男性')
# 绘制女性年龄的核密度图
sns.distplot(Age_Female, hist = False, kde_kws = {'color':'black', 'linestyle':'--'}, 
             norm_hist = True, label = '女性')
plt.title('男女乘客的年龄核密度图',fontsize=18)
# 显示图例
plt.legend(fontsize=14)
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
plt.savefig('./图片13')
# 显示图形
plt.show()

为了避免四个图形混在一起不易发现数据背后的特征,将直方图与核密度图分开绘制.
从直方图来看,女性年龄的分布明显比男性矮,说明在个年龄段下,男性乘客要比女性乘客多;再看核密度图,男女性别的年龄分布比较接近,说明各年龄段下的男女乘客人数同步增加或减少.

2.2 箱线图

2.2.1 matplotlib模块

关于箱线图的含义可以参考:https://www.cnblogs.com/wyy1480/p/9526264.html

# 读取数据
Sec_Buildings = pd.read_excel(r'./sec_buildings.xlsx')
Sec_Buildings.head()

# 绘制箱线图
plt.boxplot(x = Sec_Buildings.price_unit, # 指定绘图数据
            patch_artist=True, # 要求用自定义颜色填充盒形图，默认白色填充
            showmeans=True, # 以点的形式显示均值
            boxprops = {'color':'black','facecolor':'steelblue'}, # 设置箱体属性，如边框色和填充色
            # 设置异常点属性，如点的形状、填充色和点的大小
            flierprops = {'marker':'o','markerfacecolor':'red', 'markersize':3}, 
            # 设置均值点的属性，如点的形状、填充色和点的大小
            meanprops = {'marker':'D','markerfacecolor':'indianred', 'markersize':4}, 
            # 设置中位数线的属性，如线的类型和颜色
            medianprops = {'linestyle':'--','color':'orange'}, 
            labels = [''] # 删除x轴的刻度标签，否则图形显示刻度标签为1
           )
# 添加图形标题
plt.title('二手房单价分布的箱线图',fontsize=18)
plt.yticks(fontsize=14)
plt.ylabel('单价(元)',fontsize=14)
plt.savefig('./图片14')
# 显示图形
plt.show()

# 二手房在各行政区域的平均单价
group_region = Sec_Buildings.groupby('region')
avg_price = group_region.aggregate({'price_unit':np.mean}).sort_values('price_unit', ascending = False)

# 通过循环，将不同行政区域的二手房存储到列表中
region_price = []
for region in avg_price.index:
    region_price.append(Sec_Buildings.price_unit[Sec_Buildings.region == region])
plt.figure(figsize=(10,6))
# 绘制分组箱线图
plt.boxplot(x = region_price, 
            patch_artist=True,
            labels = avg_price.index, # 添加x轴的刻度标签
            showmeans=True, 
            boxprops = {'color':'black', 'facecolor':'steelblue'}, 
            flierprops = {'marker':'o','markerfacecolor':'red', 'markersize':3}, 
            meanprops = {'marker':'D','markerfacecolor':'indianred', 'markersize':4},
            medianprops = {'linestyle':'--','color':'orange'}
           )
# 添加y轴标签
plt.ylabel('单价（元）')
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
# 添加标题
plt.title('不同行政区域的二手房单价对比',fontsize=18)
plt.savefig('./图片15')
# 显示图形
plt.show()

2.2.2 seaborn模块

plt.figure(figsize=(10,6))
# 绘制分组箱线图
sns.boxplot(x = 'region', y = 'price_unit', data = Sec_Buildings, 
            order = avg_price.index, showmeans=True,color = 'steelblue',
            flierprops = {'marker':'o','markerfacecolor':'red', 'markersize':3}, 
            meanprops = {'marker':'D','markerfacecolor':'indianred', 'markersize':4},
            medianprops = {'linestyle':'--','color':'orange'}
           )
# 更改x轴和y轴标签
plt.xlabel('')
plt.ylabel('单价（元）')
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
# 添加标题
plt.title('不同行政区域的二手房单价对比',fontsize=18)
# 显示图形
plt.show()

通过如上代码,可以得到完全一致的分组箱线图

2.3 小提琴图

# 读取数据
tips = pd.read_csv(r'./tips.csv')
tips.head()

plt.figure(figsize=(10,6))
# 绘制分组小提琴图
sns.violinplot(x = "day", # 指定x轴的数据
               y = "total_bill", # 指定y轴的数据
               hue = "sex", # 指定分组变量
               data = tips, # 指定绘图的数据集
               order = ['Thur','Fri','Sat','Sun'], # 指定x轴刻度标签的顺序
               scale = 'count', # 以男女客户数调节小提琴图左右的宽度
               split = True, # 将小提琴图从中间割裂开，形成不同的密度曲线；
               palette = 'RdBu' # 指定不同性别对应的颜色（因为hue参数为设置为性别变量）
              )
# 添加图形标题
plt.title('每天不同性别客户的消费额情况',fontsize=18)
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
# 设置图例
plt.legend(loc = 'upper center', ncol = 2)
plt.savefig('./图片16')
# 显示图形
plt.show()

两边的核密度图代表了不同性别客户的消费额分布,从这张图中,一共可以反应四个维度的信息,y轴表示客户的消费额,x轴表示客户的消费时间,颜色图例表示客户的性别,左右核密度图的宽度代表了样本量,以周五和周六两天为例,周五的男女客户数量差异不大,而周六男性客户比女性客户多得多,因为右半边的核密度图更宽一些

2.4 折线图

2.4.1 matplotlib

以某微信公众号的阅读人数和月度人次为例

# 数据读取
wechat = pd.read_excel(r'./wechat.xlsx')
wechat.head()

plt.figure(figsize=(10,6))
# 绘制单条折线图
plt.plot(wechat.Date, # x轴数据
         wechat.Counts, # y轴数据
         linestyle = '-', # 折线类型
         linewidth = 2, # 折线宽度
         color = 'steelblue', # 折线颜色
         marker = 'o', # 折线图中添加圆点
         markersize = 6, # 点的大小
         markeredgecolor='black', # 点的边框色
         markerfacecolor='brown') # 点的填充色
# 添加y轴标签
plt.ylabel('人数',fontsize=14)
plt.xticks(fontsize=12)
plt.yticks(fontsize=14)
# 添加图形标题
plt.title('每天微信文章阅读人数趋势',fontsize=18)
plt.savefig('./图片17')
# 显示图形
plt.show()

为进一步改进折线图,还需要解决两个问题

如何将微信文章的阅读人数和阅读人次同时呈现在图中
对于x轴的刻度标签,是否可以只保留月份和日期,并且以7天作为间隔

# 绘制两条折线图
# 导入模块，用于日期刻度的修改
import matplotlib as mpl
plt.figure(figsize=(10,6))
# 绘制阅读人数折线图
plt.plot(wechat.Date, # x轴数据
         wechat.Counts, # y轴数据
         linestyle = '-', # 折线类型，实心线
         color = 'steelblue', # 折线颜色
         label = '阅读人数'
         )
# 绘制阅读人次折线图
plt.plot(wechat.Date, # x轴数据
         wechat.Times, # y轴数据
         linestyle = '--', # 折线类型，虚线
         color = 'indianred', # 折线颜色
         label = '阅读人次'
         )

# 获取图的坐标信息
ax = plt.gca()
# 设置日期的显示格式  
date_format = mpl.dates.DateFormatter("%m-%d")  
ax.xaxis.set_major_formatter(date_format) 
# 设置x轴显示多少个日期刻度
# xlocator = mpl.ticker.LinearLocator(10)该方法可以参考使用
# 设置x轴每个刻度的间隔天数
xlocator = mpl.ticker.MultipleLocator(7)
ax.xaxis.set_major_locator(xlocator)
# 为了避免x轴刻度标签的紧凑，将刻度标签旋转45度
plt.xticks(rotation=45)

# 添加y轴标签
plt.ylabel('人数')
# 添加图形标题
plt.title('每天微信文章阅读人数与人次趋势',fontsize=18)
# 添加图例
plt.legend()
plt.xticks(fontsize=12)
plt.yticks(fontsize=14)
plt.savefig('./图片18')
# 显示图形
plt.show()

上面的代码可以分解为两个核心部分:

运用两次plot函数分别绘制阅读人数和阅读人次的折线图,最终通过plt.show()将两条折线图呈现在一张图中
日期型轴刻度的设置,ax变量用来获取原始状态的轴属性,然后基于ax对象修改刻度的显示方式,一个是仅包含月日的格式,另一个是每七天作为一个间隔

2.4.2 pandas

# 读取天气数据
weather = pd.read_excel(r'./weather.xlsx')
weather.head()

# 统计每月的平均最高气温
data = weather.pivot_table(index = 'month', columns='year', values='high')

# 绘制折线图
data.plot(kind = 'line', 
          style = ['-','--',':'], # 设置折线图的线条类型
          figsize=(10,6)
         )
# 修改x轴和y轴标签
plt.xlabel('月份',fontsize=14)
plt.ylabel('气温',fontsize=14)
# 添加图形标题
plt.title('每月平均最高气温波动趋势',fontsize=18)
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
plt.savefig('./图片19')
# 显示图形
plt.show()

虽然绘制的核心部分很简单,但是需要提前将原始数据集转换成可以绘制多条折线图的格式,即三条折线图的数据分别为数据框的三个字段

3 关系型数据的可视化

3.1 散点图

3.1.1 matplotlib

# 读入数据
iris = pd.read_csv(r'./iris.csv')
plt.figure(figsize=(10,6))
# 绘制散点图
plt.scatter(x = iris.Petal_Width, # 指定散点图的x轴数据
            y = iris.Petal_Length, # 指定散点图的y轴数据
            color = 'steelblue' # 指定散点图中点的颜色
           )
# 添加x轴和y轴标签
plt.xlabel('花瓣宽度',fontsize=14)
plt.ylabel('花瓣长度',fontsize=14)
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
# 添加标题
plt.title('鸢尾花的花瓣宽度与长度关系',fontsize=18)
plt.savefig('./图片20')
# 显示图形
plt.show()

3.1.2 pandas

# Pandas模块绘制散点图
# 绘制散点图
iris.plot(x = 'Petal_Width', y = 'Petal_Length', kind = 'scatter', figsize=(10,6),fontsize=14)
# 修改x轴和y轴标签
plt.xlabel('花瓣宽度',fontsize=14)
plt.ylabel('花瓣长度',fontsize=14)
# 添加标题
plt.title('鸢尾花的花瓣宽度与长度关系',fontsize=18)
# 显示图形
plt.show()

3.1.3 seaborn

如果绘制分组散点图,建议使用seaborn模块中的lmplot方法

# seaborn模块绘制分组散点图
sns.lmplot(x = 'Petal_Width', # 指定x轴变量
           y = 'Petal_Length', # 指定y轴变量
           hue = 'Species', # 指定分组变量
           data = iris, # 指定绘图数据集
           legend_out = False, # 将图例呈现在图框内
           truncate=True, # 根据实际的数据范围，对拟合线作截断操作
           size=6
          )
# 修改x轴和y轴标签
plt.xlabel('花瓣宽度',fontsize=14)
plt.ylabel('花瓣长度',fontsize=14)
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
# 添加标题
plt.title('鸢尾花的花瓣宽度与长度关系',fontsize=18)
plt.savefig('./图片21')
# 显示图形
plt.show()

3.2 热力图

# 读取数据
Sales = pd.read_excel(r'./Sales.xlsx')
Sales.head()

# 根据交易日期，衍生出年份和月份字段
Sales['year'] = Sales.Date.dt.year
Sales['month'] = Sales.Date.dt.month
Sales.head()

# 统计每年各月份的销售总额
Summary = Sales.pivot_table(index = 'month', columns = 'year', values = 'Sales', aggfunc = np.sum)

plt.figure(figsize=(8,7))
# 绘制热力图
sns.heatmap(data = Summary, # 指定绘图数据
            cmap = 'PuBuGn', # 指定填充色
            linewidths = 0.1, # 设置每个单元格边框的宽度
            annot = True, # 显示数值
            fmt = '.1e', # 以科学计算法显示数据
            )
#添加标题
plt.title('每年各月份销售总额热力图',fontsize=18)
plt.savefig('./图片22')
# 显示图形
plt.show()

4 多个图形的合并

# 读取数据
Prod_Trade = pd.read_excel(r'./Prod_Trade.xlsx')
Prod_Trade.head()

# 衍生出交易年份和月份字段
Prod_Trade['year'] = Prod_Trade.Date.dt.year
Prod_Trade['month'] = Prod_Trade.Date.dt.month
Prod_Trade.head()

# 设置大图框的长和高
plt.figure(figsize = (18,8))
# 设置第一个子图的布局
ax1 = plt.subplot2grid(shape = (2,3), loc = (0,0))
Class_Counts = Prod_Trade.Order_Class[Prod_Trade.year == 2012].value_counts()
Class_Percent = Class_Counts/Class_Counts.sum()
# 将饼图设置为圆形（否则有点像椭圆）
ax1.set_aspect(aspect = 'equal')
# 绘制订单等级饼图
ax1.pie(x = Class_Percent.values, labels = Class_Percent.index, autopct = '%.1f%%')
# 添加标题
ax1.set_title('各等级订单比例')

# 设置第二个子图的布局
ax2 = plt.subplot2grid(shape = (2,3), loc = (0,1))
# 统计2012年每月销售额
Month_Sales = Prod_Trade[Prod_Trade.year == 2012].groupby(by = 'month').aggregate({'Sales':np.sum})
# 绘制销售额趋势图
Month_Sales.plot(title = '2012年各月销售趋势', ax = ax2, legend = False)
# 删除x轴标签
ax2.set_xlabel('')

# 设置第三个子图的布局
ax3 = plt.subplot2grid(shape = (2,3), loc = (0,2), rowspan = 2)
# 绘制各运输方式的成本箱线图
sns.boxplot(x = 'Transport', y = 'Trans_Cost', data = Prod_Trade, ax = ax3)
# 添加标题
ax3.set_title('各运输方式成本分布')
# 删除x轴标签
ax3.set_xlabel('')
# 修改y轴标签
ax3.set_ylabel('运输成本')

# 设置第四个子图的布局
ax4 = plt.subplot2grid(shape = (2,3), loc = (1,0), colspan = 2)
# 2012年客单价分布直方图
sns.distplot(Prod_Trade.Sales[Prod_Trade.year == 2012][Prod_Trade.Sales < 1000], bins = 40, norm_hist = True, ax = ax4, hist_kws = {'color':'steelblue'}, kde_kws={'linestyle':'--', 'color':'red'})
# 添加标题
ax4.set_title('2012年客单价分布图(单价小于1000)')
# 修改x轴标签
ax4.set_xlabel('销售额')

# 调整子图之间的水平间距和高度间距
plt.subplots_adjust(hspace=0.2, wspace=0.2)
plt.savefig('./图片23')
# 图形显示
plt.show()

如果为子图添加标题,标签或刻度值,不能直接使用plt.title,plt.xlabel,plt.xticks等函数,而是换成ax1.set_*的形式.

你可能感兴趣的:(数据分析)

Python数据分析高频面试题及答案闲人编程程序员面试 python 数据分析面试题核心
目录1.基础知识2.数据处理3.数据可视化4.机器学习模型5.进阶问题6.数据清洗与预处理7.数据转换与操作8.时间序列分析9.高级数据分析技术10.数据降维与特征选择11.模型评估与优化12.数据操作与转换13.数据筛选与分析14.数据可视化与报告15.数据统计与分析16.高级数据处理以下是一些Python数据分析的高频核心面试题及其答案，涵盖了基础知识、数据1.基础知识问1：Python中列表
数据分析思维幽兰的天空 combo box 数据仓库大数据
了解数据分析的本质是什么在数据中寻找解决问题的方法。使用大量的数据、统计分析、定量、定性分析和预测模型及基于事实的管理来推动决策过程和实现价值增生。数据分析思维1.一个思维模型：目标导向分析法2.做好分析准备：探索性数据分析数据分析的四个层级1.描述性分析2.诊断性分析3.预测性分析4.决策性分析
Python数据分析常见面试题和答案01-10 飞翔还哈哈6 Python数据分析 python pandas 数据分析
以下是一些Python数据分析常见面试题和答案：1.Python中的list和tuple的区别是什么？答：List是可变的，而元组（tuple）是不可变的。因此，使用list来存储需要频繁修改的数据，而使用元组来存储不能更改的数据项。2.解释NumPy中的数组？为什么numpy在数据分析中很重要？答：NumPy是Python中提供高性能科学计算和数据分析的包。NumPy数组是一种类似于列表的数据结
【数据分析岗】关于数据分析岗面试python的金典问题+解答，包含数据读取、数据清洗、数据分析、机器学习等内容摇光~ 数据分析面试 python
大家好，我是摇光~，用大白话讲解所有你难懂的知识点最近和几个大佬交流了，说了很多关于现在职场面试等问题，然后也找他们问了问他们基本面试的话都会提什么问题。所以我收集了很多关于python的面试题，希望对大家面试有用。类别1：数据读取与处理问题1：如何用Python从Excel文件中读取数据？答：在Python中，可以使用pandas库从Excel文件中读取数据。pandas提供了read_exce
Python 数据建模完整流程指南木觞清 3天入门Python python 开发语言
在数据科学和机器学习中，建模是一个至关重要的过程。通过有效的数据建模，我们能够从原始数据中提取有用的洞察，并为预测或分类任务提供支持。在本篇博客中，我们将通过Python展示数据建模的完整流程，包括数据准备、建模、评估和优化等步骤。1.导入必要的库在进行任何数据分析或建模之前，首先需要导入必需的Python库。这些库提供了各种工具和算法，帮助我们更高效地完成任务。importnumpyasnpim
MATLAB语言的计算机基础疯狂小小小码农包罗万象 golang 开发语言后端
MATLAB语言的计算机基础引言在当今信息技术飞速发展的时代，编程能力已成为当代人士必备的一项基本技能。MATLAB（矩阵实验室）作为一种高级编程语言和环境，广泛应用于数据分析、算法开发、模型创建、数字图像处理和计算机视觉等多个领域。MATLAB以其强大的矩阵运算和可视化能力，成为了科研人员和工程师的重要工具，尤其在数学、物理、工程等学科中，它的应用不可或缺。本文将从MATLAB的基本概念、环境搭
Python 爬虫实战案例 - 获取社交平台事件热度并进行影响分析西攻城狮北 Python实用案例 python 爬虫事件热度影响分析
目录一、引言二、数据爬取三、数据分析四、可视化展示五、总结一、引言在当今信息爆炸的时代，社交平台成为了各类事件发酵和传播的重要场所。了解社交平台上事件的热度以及其潜在影响，对于舆情监测、市场营销、社会趋势分析等领域具有重要意义。本文将通过一个实际案例，展示如何使用Python爬虫技术获取社交平台上特定事件的相关数据，并对其热度和影响进行深入分析。在本篇博客中，我们将学习如何使用Python编写一个
大数据毕业设计—基于python+Django自然灾害频发地区情况数据分析系统 qq_1406299528 python 计算机毕业设计 python 大数据课程设计
一、项目技术开发语言：Pythonpython框架：Django软件版本：python3.7/python3.8数据库：mysql5.7或更高版本数据库工具：Navicat11开发软件：PyCharm/vscode前端框架:vue.js二、项目内容和项目介绍 1.项目内容 1.开发语言：该系统采用Python作为开发语言，Python具有优雅的语法和动态类型，以及解释型语言的本质，使其成为许多
利用Python爬虫获取阿里巴巴商品详情：代码示例与实践指南小爬虫程序猿 API python 爬虫开发语言
在电商数据分析和市场研究中，获取商品详情是至关重要的一步。虽然阿里巴巴开放平台提供了官方API来获取商品信息，但在某些情况下，使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Python爬虫获取阿里巴巴商品详情，并提供详细的代码示例。一、准备工作（一）环境搭建确保你的Python环境已经安装了以下必要的库：requests：用于发送HTTP请求。BeautifulSoup：用于解析HT
TOGAF中的企业架构：让业务架构与数据、应用、技术架构形成闭环的魔法之旅火山说数数字化企业架构架构微服务云原生
前言你是否曾经有过这样一种感觉：企业在进行数字化转型时，架构之间常常感觉像是一盘散沙？业务部门、IT部门、数据分析师各自为政，技术团队则像一群“救火队员”随时准备扑灭各种系统bug。好消息是，TOGAF（TheOpenGroupArchitectureFramework）可以帮助企业打破这种局面，让业务架构（BusinessArchitecture）和其他“三A”架构——数据架构（DataArch
R语言的计算机基础 java熊猫包罗万象 golang 开发语言后端
R语言计算机基础引言R语言是一种用于数据分析、统计计算和图形显示的编程语言。它被广泛应用于统计学、数据科学、生态学、生物信息学等多个领域。由于其强大的功能和灵活性，R语言在学术界和工业界都得到了广泛的认可和应用。本文将从R语言的基本概念、数据类型、数据结构、函数、控制结构、图形绘制等方面进行介绍，帮助读者掌握R语言的基础知识。一、R语言的基本概念R语言源于新西兰的维特利大学，最初由RobertGe
R语言的正则表达式代码驿站520 包罗万象 golang 开发语言后端
R语言中的正则表达式详解引言在数据分析和处理过程中，文本数据占据着重要的角色。为了从这些文本数据中提取有价值的信息，正则表达式（RegularExpressions）便成为了一种强有力的工具。尤其是在R语言这一数据分析的强大工具中，掌握正则表达式的使用能够显著提高我们的工作效率。本文将对R语言中的正则表达式进行深入探讨，从基本概念到实际应用，力求让读者能够全面理解并运用这一技术。正则表达式的基本概
智能裂变引流系统：通过用户验证与分享激励获取目标手机号威哥说编程 c#
在现代数字营销中，快速增长用户并引导其主动分享，已经成为许多企业提高转化率和扩大市场份额的核心策略。尤其是在一些特定行业，如医疗、金融、电子商务等领域，精准获取用户信息（尤其是手机号）至关重要。这些信息是后续营销、数据分析、精准推送等活动的基础。而通过裂变营销，我们可以利用现有用户的社交网络，快速获取更多高质量的目标用户。本文将介绍如何设计和实现一个智能裂变引流系统，通过用户信息验证、手机号查询、
Web APP 阶段性综述预测模型的开发与应用研究 APP construction web app
WebAPP阶段性综述当前，WebAPP主要应用于电脑端，常被用于部署数据分析、机器学习及深度学习等高算力需求的任务。在医学与生物信息学领域，WebAPP扮演着重要角色。在生物信息学领域，诸多工具以WebAPP的形式呈现，相较之下，医学领域的此类应用数量相对较少。在医学和生物信息学的学术论文中，WebAPP是展示研究成果的有效工具，并且还能部署到网络上，服务于实际应用场景。ShinyAPP平台特性
推荐文章：libpopcnt——高效位计数的神器胡蓓怡
推荐文章：libpopcnt——高效位计数的神器libpopcntFastC/C++bitpopulationcountlibrary项目地址:https://gitcode.com/gh_mirrors/li/libpopcnt在数字处理和大数据分析的世界里，每毫秒的性能提升都是宝贵的。今天，我们要向大家隆重介绍一个名为libpopcnt的开源库，它专为快速计算数组中“1”比特的数量而生，是优化
Python pandas离散化方法优化与应用实例 python慕遥 Python数据分析 Pandas 数据科学 python pandas 机器学习
大家好，在数据分析中，离散化是将连续数据划分为不同区间的一种重要方法。这种方法可以更好地理解数据分布、简化分析、或在分类建模中对特征进行转换。在Python的Pandas库中，cut和qcut是两个强大的工具，分别用于基于固定区间和基于分位数对数据进行离散化。它们的灵活性和易用性使其在数据处理过程中十分常用。离散化可以将复杂的连续数据转化为更直观的区间，帮助快速发现数据分布规律，并且在机器学习中，
什么是数据仓库？狮歌~资深攻城狮数据仓库
什么是数据仓库？数据仓库（DataWarehouse，简称DW）是一种面向分析和决策的数据存储系统，它将企业中分散的、异构的数据按照一定的主题和模型进行集成和存储，为数据分析、报表生成以及商业智能（BI）提供支持。数据仓库是大数据体系的重要组成部分，主要用于对大量历史数据的存储、处理和分析。简单来说，数据仓库是一个为数据分析和业务决策服务的系统，通过整合来自不同来源的数据，形成面向主题的、可查询的
Pandas数据预处理：处理缺失值 - 插值法代码艺术巧匠 pandas Python
Pandas数据预处理：处理缺失值-插值法在数据分析和机器学习任务中，处理缺失值是一个常见的挑战。缺失值可能由于多种原因而产生，例如数据采集过程中的错误、设备故障或者用户不完整的输入。为了有效地处理缺失值，插值法是一种常用的技术。在本文中，我们将使用Python中的Pandas库来演示如何使用插值法处理缺失值。首先，我们需要导入Pandas库并加载包含缺失值的数据集。假设我们有一个名为df的数据框
Python Pandas中的高级数据插值方法 python慕遥 Pandas pandas
大家好，在数据分析过程中，缺失值是一个常见的问题，尤其是在处理真实世界的数据集时，缺失值的存在可能会对分析结果产生较大的影响。为了解决这个问题，Pandas库提供了多种处理缺失值的方式，其中插值法是一种有效且灵活的解决方案。插值法可以通过已有的数据估算出缺失值，从而填补数据空白，提升数据的完整性和分析的准确性。1.插值法概述插值法是一种通过已知数据点来推算未知数据点的数学方法。在数据分析中，插值法
Text2SQL的三种实现方法 AI科技分享算法线性回归回归深度学习 rnn
传统BI工具通常分为数据接入层、分析工具层和基于该工具平台的各种行业应用层面，大模型可以在这些环节发挥作用。在数据处理层面，大模型可以帮助传统的ETL过程简化难度，提高实时交互效率。在数据分析层面，大模型可以替代拖拽交互方式，让业务用户用更简单、更高效的方式以自然语言形式与底层数据交互，构建需要的报表和看板。在行业应用层面，大模型可以真正发挥对行业知识的理解能力，与具体数据结合，形成具针对客户、特
日期和时间数据类型的深入探讨：理论与实践
title:日期和时间数据类型的深入探讨：理论与实践date:2025/1/3updated:2025/1/3author:cmdragonexcerpt:日期和时间数据类型在数据库管理系统中扮演着重要角色，尤其是在数据分析、时间序列数据和事件追踪等领域。这些数据类型不仅可以准确表示时间信息，还能在信息检索、数据存储和计算功能上发挥重要作用。categories:前端开发tags:日期和时间数据库
.NET用C#导入Excel到数据库
将Excel文件中的数据导入到数据库中不仅能够提升数据处理的效率和准确性，还能极大地促进数据分析和决策制定的过程。尤其在企业级应用中，Excel作为数据输入和初步整理的工具非常普遍，但其功能对于复杂查询、大规模数据管理和跨部门的数据共享来说有所局限。通过使用C#在.NET平台上实现这一过程，可以充分利用其强大的数据操作能力和丰富的库支持，确保数据从Excel无缝迁移到诸如SQLite等关系型数据库
数仓数据分层(ODS DWD DWS ADS)换个角度看闻香识代码大数据数仓数据仓库大数据 ods dw
数仓数据分层简介1.背景数仓是什么,其实就是存储数据,体现历史变化的一个数据仓库.因为互联网时代到来,基于数据量的大小,分为了传统数仓和现代数仓.传统数仓,使用传统的关系型数据库进行数据存储,因为关系型数据库本身可以使用SQL以及函数等做数据分析.所以把数据存储和数据分析功能集合为一体,加上一个可视化界面,就能从数据存储,数据分析,数据展示完整方案.到了互联网时代,由于上网用户剧增,特别是移动互联
T检验：一种通俗易懂的统计分析方法从零开始学习人工智能算法人工智能机器学习
摘要T检验（T-test或Student'sT-test）是统计学中用于比较两组数据均值是否存在显著差异的重要工具。本文旨在以通俗易懂的方式介绍T检验的基本概念、类型、数学公式、应用步骤及其在各个领域中的实际应用。引言在科学研究、数据分析等领域，我们经常需要评估两组数据之间的差异是否具有统计学意义。T检验正是为此目的而设计的，它基于T分布理论，通过计算样本数据的T值和P值来推断总体均数之间的差异。
数仓分层ODS、DWD、DWM、DWS、DIM、DM、ADS 青秋. 数据仓库大数据数据仓库
往期推荐数仓入门：数据分析模型、数仓建模、离线实时数仓、Lambda、Kappa、湖仓一体-CSDN博客数仓常见名词解析和名词之间的关系-CSDN博客数据仓库及数仓架构概述-CSDN博客大数据HBase图文简介-CSDN博客目录1.数仓分层1.1数据源层：ODS（OperationalDataStore）1.2数据仓库层：DW（DataWarehouse）1.2.1数据明细层：DWD（DataWa
如何选择合适的软件开发团队？
一、明确项目需求在寻找软件开发团队之前，首先要清晰地明确自己的项目需求。这包括确定软件的功能、预期的用户群体、使用场景、性能要求、安全需求以及预算范围等。不同的软件项目，如企业管理系统、移动应用程序、电子商务平台或数据分析软件，需要不同的技术栈和开发经验。只有清楚了解自己的需求，才能找到最适合的团队。二、评估团队的技术能力编程语言和技术栈：查看团队成员是否熟悉所需的编程语言，如开发Web应用时是否
【机器学习】—时序数据分析：机器学习与深度学习在预测、金融、气象等领域的应用云边有个稻草人热门文章机器学习数据分析深度学习笔记
云边有个稻草人-CSDN博客目录引言1.时序数据分析基础1.1时序数据的特点1.2时序数据分析的常见方法2.深度学习与时序数据分析2.1深度学习在时序数据分析中的应用2.1.1LSTM（长短期记忆网络）2.2深度学习在金融市场预测中的应用2.2.1股票市场预测2.3深度学习在设备故障检测中的应用3.强化学习与时序数据分析3.1强化学习的基本概念3.2强化学习在金融市场中的应用3.3强化学习在设备故
使用 AI 在医疗影像分析中的应用探索
摘要医疗影像分析是AI在医疗领域的重要应用方向，能够提高诊断效率，减少误诊率。本文将深入探讨AI技术在医疗影像数据分析中的应用，包括核心算法、关键实现步骤和实际案例，并提供一个基于卷积神经网络（CNN）的图像分类Demo。引言随着医疗影像数据的爆炸式增长，传统的人工分析已无法满足高效、精准诊断的需求。AI技术通过深度学习算法，在医疗影像的识别、分类和标注中发挥了重要作用。本文章将结合技术实现与案例
为什么要训练最懂您企业的AI助理？
随着人工智能技术的蓬勃发展，企业级AI助理已成为提升工作效率、优化客户服务体验的重要利器。这些智慧化的系统，通过模拟人类的认知功能，能够轻松应对复杂的数据分析、自动化繁琐的日常任务，甚至为企业决策提供有力支持。拥有一款懂您的企业AI助理，意味着您能够以更智能、更高效的方式推动企业前行。一、构建高度整合与个人化体验为了让AI机器人真正懂您的企业，我们首先要实现高度整合。通过连接企业资料库、应用程序、
Java 大视界 -- Java 开发 Spark 应用：RDD 操作与数据转换一只蜗牛儿 java spark 开发语言
ApacheSpark是一个强大的分布式计算框架，提供了高效的数据处理能力，广泛应用于大数据分析与机器学习。Spark提供了多种高级API，支持批处理和流处理。Spark提供了两种主要的数据抽象：RDD（弹性分布式数据集）和DataFrame。本文将重点介绍如何使用Java开发Spark应用，并深入探讨RDD的操作与数据转换。一、Spark环境搭建首先，确保您的环境中安装了Java和Spark。您
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo