就业班第四阶段 可视化

第一章节 matplotlib绘图

注意:若在plt中出现中文乱码或者负号乱码,要写入语句 plt.rcParams['font.sans-serif'] = ['SimHei'] ——解决中文乱码plt.rcParams['axes.unicode_minus'] = False ——解决负号乱码

  • 使用matplotlib绘图
    • 基本思路:导入模块numpy、matplotlib.pyplot——定义X、Y轴(Y轴可能有多个)——matplotlib输入标题——plt.plot(X轴,Y轴)....绘制图形——plt.show()展示图形(缺点:每次都要写这行才能运行, 可使用%matplotlib inline 简化,只运行一遍,整个jupyter有效)

          import numpy as np 
          import matplotlib.pyplot as plt
      
          X = np.linspace(0,2*np.pi,100)——np.pi 就是圆周率那个π
          Y = sin(X)
          Y1 = cos(X)
          plt.title ('图表标题')
          plt.plot(X,Y)  ——  将X,Y值绘制图形
          plt.plot(X,Y1)        
                                           
          plt.show() ——一定要告知计算机 已经完成输入,可以显示图形了.....
      
  • 将图形区域划分(比如一个图,画成两部分)

    • 思路:同样的定义X/Y轴,但在绘图时,要指定区域后绘图

       X = np.linspace(0,2*np.pi,100)
       Y = np.sin(X)
       Y1 = np.cos(X)
      
       plt.title ('图表标题')
       plt.subplot(2,1,1)/plt.subplot(211)——可以理解为把原来1行,1列的区域划分为2行1列,选取上面那1行
       plt.plot(X,Y) 
       plt.subplot(212)/plt.subplot(2,1,2)——可以理解为把原来1行,1列的区域划分为2行1列,选取下面那1行
       plt.plot(X,Y1) 
      

基本图形类

  • 柱状图绘制
    • 基本思路: 定义X/Y轴——绘图
    • 普通柱状图: 定义X/Y轴之后 —— plt.bar(x,y)
  • 水平柱状图(当类别太多时)
    • 定义x、y轴后——plt.barh(x,y)
  • 不同分类不同组之间的柱状图

     data = [[5,25,50,20],[4,23,51,12],[6,22,52,19]]
     X = np.arange(4)
    
     plt.bar(X+0.00,data[0],color ='b',width = 0.25,label ='A')
     plt.bar(X+0.25,data[1],color ='y',width = 0.25,label ='B')
     plt.bar(X+0.5,data[2],color ='r',width = 0.25,label ='C')
    
     plt.legend()
    
*   **叠加性柱状图**
    *   同上一操作相似,只是变y轴的buttom
        ```
        data = [[5,25,50,20],[4,23,51,12],[6,22,52,19]]
        X = np.arange(4)

        plt.bar(X,data[0],color ='b')
        plt.bar(X,data[1],color ='y',buttom = data[0])
        plt.bar(X,data[2],color ='r',buttom = np.array(data[0]) + np.array(data[1]))——因为data是array不能相加,转化之后再相加
  • 散点图——衡量两个变量之间的相关性
    • 普通散点图
      • 定义x、y轴——plt.scatter(X,Y)绘制就行了
  • 有属性的散点图
    • 颜色区分
      1. 定义x,y轴
      2. 设置属性 color = np.random.randn(N)# 颜色随机显示
        area = np.pi(15np.random.rand(N)) #按照数值大小每个点面积不同,乘以15是因为随机数太小
      3. 绘制图形 plt.scatter( x,y, c = color, s = area, alpha =0.5) #alpha为透明度
  • 划分属性(只有两个颜色)
    同上述思路一致,仅仅在定义属性时将多个颜色改为2个颜色
    定义 x,y轴——定义属性,area不变, color = np.random.
    randint(0,2,size=50**) #size表示数值大小,既可以用数字表示n个数,也可以用[A,B]表示A行,B列数据——plt.scatter( x,y, c = color, s = area, alpha =0.5)
  • 直方图
    • 思路:注意,和其他图形绘制不一致,直方图是将一个连续范围内的值分为多少份,再计算每一份包含的数量,因此需要定义范围,然后定义划分份数
    • 普通直方图:
      • 定义X 范围 如 X = np.random.rand(100)——划分分数 plt.hist(X,bins =20)——限定y轴范围 plt.ylim(0,15)
  • 标准正态分布
    • 同样的操作,只是范围设大一点x = np.random.randn(10000) ——plt.hist(x, bins =50)
  • 箱型图绘制
    • 思路:1 定义极小值和极大值的范围,以及多少行,多少列(多少个箱子)x=np.random.randint(20,120,size(10,5))#最小值20,最大值120,10行5列——2 plt.boxplot(x) ——3.限定y轴范围: plt.ylim(0,120)
      • 若需要添加标签 plt.xticks([1,2,3],['A','B','C'])
    • 绘制箱型图中位数所在的中位线
      • plt.hlines(y = np.median(x,axis =0)[0],xmin=0,xmax=3)

注释类

  • 在图形上添加文字
    • 单个文字注释:plt.text (X轴坐标轴,y轴坐标轴,添加的文字,.....其他信息)
    • 多个文字注释(成组的柱状图数据标签):定义后for循环
          W = [0.0,0.25,0.5]
          for i in range(3):**——第几个数对应第几个偏移量
                for a,b in zip(x+W[i],data[i]):**——x的偏移量对应 data的第几组值
                     plt.text(a,b,**'%.0f'%b,ha = 'center'**,va='bottom') #分别为保留0位小数和居中对齐,bottom表示留底,文字展示形式
      
      
  • 利用annotate添加文字注释(更复杂一点,但效果更好)
    • plt.annotate('Points',xy=(1,np.sin(1)),xytext=(2,0.5),fontsize=16,arrowprops =dict(arrowstyle="->")) ——参数分别为,要写的文本,xy轴的位置,文本xy的位置,文本大小,文本连接方式(箭头等)
  • 绘制子图
    • 思路:先把画板划分为几部分,再往几部分里面加内容

    • plt.subplots(划分成几行,划分成几列.......其他属性

    • 改变画布大小: pylab.rcParams['figure.figsize'] =(20,12)——将画布大小改为长20,宽12
      %pylab inline
      pylab.rcParams['figure.figsize'] =(20,12) #设置每个画板20 * 12大小

      n_bins =10
      x = np.random.randn(1000,3)
      
      fig,axes = plt.subplots(nrows=2,ncols=2)  **#将画板分为2行,2列**
      
      ax0,ax1,ax2,ax3 = axes.flatten() **#用4个变量接收4个范围**
      
      colors =['red','yellow','blue']
      ax0.hist(x,n_bins,normed = 1,histtype ='bar',color=colors,label=colors)  
      ax0.legend(prop={'size':10})
      ax0.set_title('bar with legend')
      
      ax1.hist(x,n_bins,normed = 1,histtype = 'bar',stacked=True)
      ax1.set_title('stacked,bar')
      
      ax2.hist(x,n_bins, histtype = 'step',stacked = True, fill = False )
      ax2.set_title('stack step(unfilled)')
      
      x = [np.random.randn(n) for n in [1000,5000,2000]]
      ax3.hist(x,n_bins,histtype='bar')
      
  • pandas直接绘图
    • 思路:利用DateFrame造数据,然后绘图
    • 散点图
      • df = pd.DataFrame(np.random.rand(50,2),columns =['a','b']) #造50行,2列0-1之间随机数据,两列分别作为x,y轴
        df.plot.scatter('a','b')
  • 柱状图
    • df = pd.DataFrame(np.random.rand(10,4),columns =['A','B','C','D'])
      df.plot.bar() #普通柱状图,没有其他参数/ df.plot.barh()#水平柱状图,横着显示 /df.plot.bar(stacked=True) #堆叠柱状图
  • 直方图
    • df=pd.DataFrame({'a':np.random.randn(1000)+1,'b':np.random.randn(1000),'c':np.random.randn(1000)-1},columns=['a','b','c']) #元素比较复杂时,用多元字典来造
      df.plot.hist(bins =50)
  • 箱型图
    • df = pd.DataFrame(np.random.rand(10,5),columns=['a','b','c','d','e'])
      df.plot.box()

第二章 pyecharts动态绘图模块

  • 虚拟环境操作
    • 创建虚拟环境:conda create --name 虚拟环境名 Python版本
    • 激活虚拟环境: conda activate 虚拟环境名
    • 关闭虚拟环境: deactivate
    • 删除虚拟环境: conda remove -n 虚拟环境名 -all
  • pyecharts安装
    • 在虚拟环境里面:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyecharts
    • conda自动关联(不同的需求对应不同的虚拟环境): conda install nb_conda
  • pyecharts基本使用
    • 基本步骤:创建图形对象 ——添加绘图数据 ——配置系列参数——配置全局参数——渲染图片

       from **pyecharts.charts** import Bar     
       from **pyecharts** import **options** as opt    
      
       bar.add_xaxis(['衬衣','毛衣','领带','裤子','风衣','高跟鞋','袜子'])   #增加x轴数据
       bar.add_yaxis('商场A',[21,344,284,22,128,234]) #增加y轴数据
       bar.add_yaxis('商场B',[32,323,148,89,294,38])  #增加y轴数据
      
       bar.set_global_opts(title_opts=opt.TitleOpts(title = '某商场销售情况')) # 设置全局参数
       bar.render_notebook()  #渲染图表并显示
      
  • pyechart链式调用
    • 链式调用

       from  pyecharts.charts  import Bar     
       from  pyecharts import options as opt       
      
       bar =(Bar()                                                                                                                          
             .add_xaxis(['衬衣','毛衣','领带','裤子','风衣','高跟鞋','袜子'])                                                       
             .add_yaxis**('商场A',[21,344,284,22,128,234])  #增加y轴数据
             .add_yaxis**('商场B',[32,323,148,89,294,38])    #增加y轴数据                                                                                                                                                           
             .set_global_opts(title_opts=opt.TitleOpts(title = '某商场销售情况'))   # 设置全局参数
      bar.render_notebook() 
      
  • 链式调用加入主题

       from pyecharts.globals  import ThemeType  #引入模块
       bar = (Bar**(init_opts =opt.InitOpts(theme =ThemeType.DARK))  #说明使用的主题/风格**
                 .add_xaxis(['衬衣','毛衣','高跟鞋','风衣','袜子','领带'])
                 .add_yaxis('商场A',[364,38,273,94,437,138])
                 .add_yaxis('商场B',[462,328,34,282,43,98])
                 .set_global_opts(title_opts=opt.TitleOpts(title="商场销售情况")))
      
       bar.render_notebook() 
    
  • pyechats 含有不同主题可以设置多元的图形视觉
  • pyecharts 绘制其他图形

    • 横向条形图

      bar =(Bar()                                         
              .add_xaxis(['衬衣','毛衣','领带','裤子','风衣','高跟鞋','袜子'])                                                                                
              .add_yaxis('商场A',[21,344,284,22,128,234]) #增加y轴数据
              .add_yaxis('商场B',[32,323,148,89,294,38])  #增加y轴数据   
              .set_global_opts(title_opts=opt.TitleOpts(title = '某商场销售情况')) # 设置全局参数)**                  
      
      bar.reversal_axis() #翻转xy轴
      bar.render_notebook()             
      
  • 折线图绘制

     from pyecharts.charts import Line
     from pyecharts import options as opt 
     line = (Line()
     .add_xaxis(["201{}第{}季度".format(y,z) for y in range(4) for z in range(1,5)])
     .add_yaxis('电视机销量',[37,82,28,20,48,28,49,39,202,38,83,29,33,29,88,78])
     .set_global_opts(title_opts =opt.TitleOpts(title ="折线图")
                                 ,xaxis_opts = opt.AxisOpts(axislabel_opts =opt.LabelOpts(rotate =-40)) #将x轴坐标标签旋转40度              
                                 ,yaxis_opts = opt.AxisOpts(**name="销量(单位/千台)"))
     )
     line.render_notebook()      
    
  • 南丁格尔玫瑰图
    • 本质上仍是饼图的一种,但不是用角度表示大小,而是用半径长短表示大小,角度均一致

      from pyecharts.charts  import Pie                                                                                                                       
      from pyecharts import options as opt    
                                                                                                  
      pie=(Pie()
            .add("",[list(z)for z in zip(["201{}年第{}季度".format(x,y)for x in range(2) for y in range(1,3)]
                    ,[30,19,21,60])]
                    ,radius=["10%","60%"] #设定内外直径  
                    , rosetype="area",    #玫瑰图类型,仅有area与radius两种     
                    ,label_opts= opt.LabelOpts(is_show=True)#选择是否设置数据标签)
            .set_global_opts(title_opts = opt.TitleOpts(title ="玫瑰图示例"))
      pie.render_notebook()
      
  • 饼图

     from pyecharts import options as opt 
     from pyecharts.charts import Page,Pie
    
     **v1 =['啤酒','可乐','雪碧','咖啡','奶茶']**
     **v2 =[30,19,21,18,12]**
    
     pie = (
     Pie()
     .add("",[list(z) for z in zip(v1,v2)])   #增加数组作为数据
     .set_global_opts(title_opts=opt.TitleOpts(title="销售收入占比"))
     .set_series_opts(label_opts = opt.LabelOpts(formatter = "{b}:{c}%"))  #设置数据标签: 名称:占比 )
     pie.render_notebook()
    
  • 雷达图
    • 思路:难点在于设置参数,要设置多次,第一次是add_schema,加入维度及最大值,第二次及之后的add加入角色,视觉信息等
        from **pyecharts.charts** import **Page,Radar**
        from **pyecharts** import options as **opts**
    
        v1=[[4300,10000,28000,35000,50000,19000]]
        v2=[[5000,14000,28000,31000,42000,21000]]
    
        radar = (Radar()
                     .add_schema(schema=[opts.RadarIndicatorItem(name='KDA',max_=6500),     #设置维度,及最大值
                                         opts.RadarIndicatorItem(name='输出',max_=16000),
                                         opts.RadarIndicatorItem(name='经济',max_=30000),
                                         opts.RadarIndicatorItem(name='生存',max_=38000),
                                         opts.RadarIndicatorItem(name='推进',max_=52000),
                                         opts.RadarIndicatorItem(name='打野',max_=25000)])
    
                      .add("鲁班",v1, color="red",areastyle_opts=opts.AreaStyleOpts (opacity=0.5,color="red"))#设置角色1名称,内容,颜色,透明度及透明度颜色
                      .add("后裔",v2,color="blue",areastyle_opts=opts.AreaStyleOpts(opacity=0.5,color="blue"))#设置角色2名称,内容,颜色,透明度及透明度颜色
    
                      .set_global_opts**(title_opts=opts.TitleOpts(title="英雄成长对比"))       #设置标题
                      .set_series_opts(**label_opts=opts.LabelOpts(is_show= True)))         #设置标签
        radar.render_notebook()
    
    
  • 词云图
    * 思路:先导入模块,再增加参数,然后配置全局变量,最后渲染显示,注意在导入参数时加入词云大小范围,导入参数时多导入一个SymbolType模块

     from pyecharts import options as opts
     from pyecharts.charts import Page,WordCloud
     from pyecharts.globals import SymbolType  #除了导入两个模块以外还要导入SymbolType                                                                                                                                                                                                           
     words =[('Sam S Club',10000),('Macys',6181),('Amy Schumer',4386),('Jurassic World',4055)] #用词组和数字,表示每个次多大
     wordcloud = (WordCloud()
                           .add("",words,word_size_range=[20,100])#输入参数时注意配置词的尺度范围
                              .set_global_opts(title_opts=opts.TitleOpts(title='词云图')))
    
     wordcloud.render_notebook()
    
  • 绘制地图
    • 思路:仍然是先导入模块,再增加参数,然后配置全局变量,最后渲染显示的过程,在增加参数时,除了原有的参数要加入国家的参数如China,配置全局变量时要加入视觉参数

       from pyecharts import options as opts
       from pyecharts.charts import Map                                                                                                                                      
       v1= [29,191,99,101,64,44]
       v2= ['四川','广东',"杭州",'北京','湖南','云南']
      
       map =(Map()
             .add("全国地图展示",[list(z)for z in zip(v2,v1)],"china") #除了本身的数据输入也要加入国家参数方便识别
             .set_global_opts(title_opts=opts.TitleOpts(title="连续型地图"),visualmap_opts=opts.VisualMapOpts(max_=200)))  #视觉参数方便显示
       map.render_notebook()
      

第三章节 power BI部分(入门)

  • 优势
    步骤功能区域:

    • 免费,微软出品,符合日常办公习惯
    • 方便快捷,快速展示图表需求
  • 功能区(最上面),画布(中间白色部分),筛选器(画布右侧),图表类型、图表设计、字段选择(筛选器右侧)

  • 流程

    • 导入数据源——powerBI数据处理(数据清理、建模)——可视化报表展示
  • 导入数据源

    • 开始\获取数据\从数据库或者文件等
  • 清洗数据

    • 建议在sql或者pandas中处理,再倒入powerBI

你可能感兴趣的:(就业班第四阶段 可视化)