DMU_lzq1996

数据可视化

#绘图和可视化
import matplotlib.pyplot as plt

import numpy as np
data = np.arange(10)
data

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

plt.plot(data)

[]

fig = plt.figure()
ax1 = fig.add_subplot(221)
ax2 = fig.add_subplot(222)
ax3 = fig.add_subplot(223)

plt.plot(np.random.randn(50).cumsum(),'k--')

[]

ax1.hist(np.random.randn(100), bins=20, color='k', alpha=0.3)

(array([ 1.,  3.,  2.,  3.,  2.,  8.,  1.,  4., 11., 11.,  7., 13., 10.,
         3.,  6.,  2.,  7.,  3.,  1.,  2.]),
 array([-2.62147564, -2.3737514 , -2.12602716, -1.87830293, -1.63057869,
        -1.38285445, -1.13513022, -0.88740598, -0.63968174, -0.39195751,
        -0.14423327,  0.10349097,  0.3512152 ,  0.59893944,  0.84666368,
         1.09438791,  1.34211215,  1.58983639,  1.83756062,  2.08528486,
         2.3330091 ]),
 )

 ax2.scatter(np.arange(30), np.arange(30) + 3 * np.random.randn(30))

fig,axes = plt.subplots(3,3)
axes

array([[,
        ,
        ],
       [,
        ,
        ],
       [,
        ,
        ]],
      dtype=object)

#调整subplot周围的间距
#subplot_adjust(left=None,bottom=None,top=None,wspace=None,hspace=None)

fig,axex = plt.subplots(2,2,sharex=True,sharey=True)
for i in range(2):
    for j in range(2):
        axex[i,j].hist(np.random.randn(500),bins=50,color='k',alpha=0.5)
plt.subplots_adjust(wspace=0,hspace=0) #0间距

#颜色，标记和线型
plt.plot(np.random.randn(30).cumsum(),'k--')

[]

plt.plot(np.random.randn(30).cumsum(), color='r', linestyle='dashed', marker='o')

[]

data = np.random.randn(30).cumsum()

plt.plot(data,'k-',drawstyle='steps-post',label='steps-post')

[]

plt.plot(data,'k--',label='Default')

[]

plt.legend(loc='best')    #标签

#刻度，标签和图例
fig = plt.figure()
ax = fig.add_subplot(111)
ax.set_xticks([0,250,500,750,1000])#设置刻度
ax.set_title("My first matplotlib plot")
ax.set_xlabel('Stages')
ax.plot(np.random.randn(1000).cumsum())

[]

#利用label添加图例
from numpy.random import randn
fig = plt.figure()
ax = fig.add_subplot(111)
ax.plot(randn(1000).cumsum(),'k',label='one')
ax.plot(randn(1000).cumsum(),'k--',label='two')
ax.plot(randn(1000).cumsum(),'k.',label='three')
ax.legend(loc='best')

#注解以及在Subplot上绘图
#ax.annotate方法可以在指定的x和y坐标轴绘制标签
from datetime import datetime
import pandas as pd
fig = plt.figure()
ax = fig.add_subplot(111)
data = pd.read_csv('examples/spx.csv',index_col=0,parse_dates=True)
spx = data['SPX']
spx.plot(ax=ax,style='k-')
crisis_data = [
    (datetime(2007,10,11),'Peak of bull market'),
    (datetime(2008,3,12),'Bear Stearns Fails'),
    (datetime(2008,9,15),'Lehman Bankruptcy')
]
for date,label in crisis_data:#添加注解
    ax.annotate(label, xy=(date, spx.asof(date) + 75),
                xytext=(date, spx.asof(date) + 225),
                arrowprops=dict(facecolor='black', headwidth=4, width=2,
                                headlength=4),
                horizontalalignment='left', verticalalignment='top')
#设置起始和结束边界    
ax.set_xlim(['1/1/2007', '1/1/2011'])
ax.set_ylim([600, 1800])

ax.set_title('Important dates in the 2008-2009 financial crisis')

Text(0.5,1,'Important dates in the 2008-2009 financial crisis')

#绘制图形
fig = plt.figure()
ax = fig.add_subplot(1, 1, 1)

rect = plt.Rectangle((0.2, 0.75), 0.4, 0.15, color='k', alpha=0.3)
circ = plt.Circle((0.7, 0.2), 0.15, color='b', alpha=0.3)
pgon = plt.Polygon([[0.15, 0.15], [0.35, 0.4], [0.2, 0.6]],
                   color='g', alpha=0.5)

ax.add_patch(rect)
ax.add_patch(circ)
ax.add_patch(pgon)

#保存图片到本地
#plt.savefig('figpath.png', dpi=400, bbox_inches='tight')

#rc配置图片属性

#一，matplotlib简介
plt.plot([1,2,3],[5,7,4])
plt.show()

#二，图例，标题和标签
x = [1,2,3]
y = [5,7,4]

x2 = [1,2,3]
y2 = [10,14,12]

plt.plot(x,y,label='First Line')#为线指明名称
plt.plot(x2,y2,label='Second Line')
plt.xlabel('Plot Number')#为坐标轴命名
plt.ylabel('Important var')
plt.title('Interting Graph\nCheck it out')#为图命名
plt.legend()#显示
plt.show()

#三，条形图和直方图
#条形图bar
#直方图hist
plt.bar([1,3,5,7,9],[5,2,7,8,2],label='Example one')
plt.bar([2,4,6,8,10],[8,6,2,5,6],label='Example two',color='g')
plt.legend()
plt.xlabel('bar number')
plt.ylabel('bar height')
plt.title('Epic Graph\nAnother Line!')
plt.show()

population_ages = [22,55,62,45,21,22,34,42,42,4,99,102,110,120,121,122,130,111,115,112,80,75,65,54,44,43,42,48]
bins = [0,10,20,30,40,50,60,70,80,90,100,110,120,130]

plt.hist(population_ages,bins,histtype = 'bar',rwidth=0.8)

plt.xlabel('x')
plt.ylabel('y')
plt.title("Interesting Graph\nCheck it out")
plt.legend()
plt.show()

#四，散点图
#散点图scatter
x = [1,2,3,4,5,6,7,8]
y = [5,2,4,2,1,4,5,2]
plt.scatter(x,y,label='skitscat',color='k',s=25,marker='o')

plt.xlabel('x')
plt.ylabel('y')
plt.title('Interesting Graph\nCheck it out')
plt.legend()
plt.show()

#五，堆叠图
#堆叠图stackplot
#堆叠图用于显示『部分对整体』随时间的关系
days = [1,2,3,4,5]

sleeping = [7,8,6,11,7]
eating =   [2,3,4,3,2]
working =  [7,8,7,2,2]
playing =  [8,5,7,8,13]

plt.stackplot(days,sleeping,eating,working,playing,colors=['m','c','r','k'])
plt.xlabel('x')
plt.ylabel('y')
plt.title('Interesting Graph\nCheck it out')
plt.show()

#为不同数据添加标签
days = [1,2,3,4,5]

sleeping = [7,8,6,11,7]
eating =   [2,3,4,3,2]
working =  [7,8,7,2,2]
playing =  [8,5,7,8,13]

plt.plot([],[],color='m',label='Sleeping',linewidth=5)
plt.plot([],[],color='c', label='Eating', linewidth=5)
plt.plot([],[],color='r', label='Working', linewidth=5)
plt.plot([],[],color='k', label='Playing', linewidth=5)

plt.stackplot(days,sleeping,eating,working,playing,colors=['m','c','r','k'])
plt.xlabel('x')
plt.ylabel('y')
plt.title('Interesting Graph\nCheck it out')
plt.legend()
plt.show()

#六，饼图
#饼图pie
slices = [7,2,2,13]
activities = ['sleeping','eating','working','playing']
cols=['c','m','r','b']
plt.pie(slices,labels=activities,colors=cols,startangle=90,shadow=True,explode=(0,0.1,0,0),autopct='%1.1f%%')
#startangle:起始角度；shawdow:阴影；explode:拉出一个切片；autopct:显示百分比
plt.title('Interesting Graph\nCheck it out')
plt.show()

#七，从文件中加载数据

#从网络加载数据

#时间戳的转换

#3D绘图
from mpl_toolkits.mplot3d import axes3d
import matplotlib.pyplot as plt
import numpy as np
from matplotlib import style
style.use('ggplot')

fig = plt.figure()
ax1 = fig.add_subplot(111, projection='3d')

x3 = [1,2,3,4,5,6,7,8,9,10]
y3 = [5,6,7,8,2,5,6,3,7,2]
z3 = np.zeros(10)

dx = np.ones(10)
dy = np.ones(10)
dz = [1,2,3,4,5,6,7,8,9,10]

ax1.bar3d(x3, y3, z3, dx, dy, dz)


ax1.set_xlabel('x axis')
ax1.set_ylabel('y axis')
ax1.set_zlabel('z axis')

plt.show()

from mpl_toolkits.mplot3d import axes3d
import matplotlib.pyplot as plt
from matplotlib import style

style.use('ggplot')

fig = plt.figure()
ax1 = fig.add_subplot(111, projection='3d')

x = [1,2,3,4,5,6,7,8,9,10]
y = [5,6,7,8,2,5,6,3,7,2]
z = [1,2,6,3,2,7,3,3,7,2]

x2 = [-1,-2,-3,-4,-5,-6,-7,-8,-9,-10]
y2 = [-5,-6,-7,-8,-2,-5,-6,-3,-7,-2]
z2 = [1,2,6,3,2,7,3,3,7,2]

ax1.scatter(x, y, z, c='g', marker='o')
ax1.scatter(x2, y2, z2, c ='r', marker='o')

ax1.set_xlabel('x axis')
ax1.set_ylabel('y axis')
ax1.set_zlabel('z axis')

plt.show()

from mpl_toolkits.mplot3d import axes3d
import matplotlib.pyplot as plt
import numpy as np
from matplotlib import style
style.use('ggplot')

fig = plt.figure()
ax1 = fig.add_subplot(111, projection='3d')

x, y, z = axes3d.get_test_data()

print(axes3d.__file__)
ax1.plot_wireframe(x,y,z, rstride = 3, cstride = 3)

ax1.set_xlabel('x axis')
ax1.set_ylabel('y axis')
ax1.set_zlabel('z axis')

plt.show()

C:\Anaconda\lib\site-packages\mpl_toolkits\mplot3d\axes3d.py

from mpl_toolkits.mplot3d import axes3d
import matplotlib.pyplot as plot
import numpy as np
from matplotlib import style

x = np.linspace(-10, 10, 101)
y = x
x, y = np.meshgrid(x, y)
z = x ** 2 + y ** 2
ax = plot.subplot(111, projection='3d')
ax.plot_wireframe(x, y, z)
plot.show()

t = np.linspace(0, np.pi * 2, 100)
s = np.linspace(0, np.pi, 100)
t, s = np.meshgrid(t, s)
x = np.cos(t) * np.sin(s)
y = np.sin(t) * np.sin(s)
z = np.cos(s)
ax = plot.subplot(111, projection='3d')
ax.plot_wireframe(x, y, z)
plot.show()

#使用pandas和seaborn绘图

#线型图
import pandas as pd
s = pd.Series(np.random.randn(10).cumsum(),index=np.arange(0,100,10))
s.plot() #索引为x轴

df = pd.DataFrame(np.random.rand(10,4).cumsum(0),
                 columns=['A','B','C','D'],
                 index = np.arange(0,100,10))
df

	A	B	C	D
0	0.597104	0.589393	0.735777	0.767290
10	0.796663	0.869799	1.512095	1.604585
20	1.040885	1.346473	1.774127	2.543832
30	1.362510	1.362242	2.673032	2.946192
40	1.581508	2.174047	3.090430	3.386457
50	2.256305	2.629983	3.372889	4.060371
60	2.385461	3.130221	4.222364	4.311171
70	2.896483	3.595163	4.260149	4.468304
80	3.099516	4.335802	5.207953	5.096282
90	3.680995	4.779841	5.865332	5.155942

df.plot()

#柱形图
fig,axes = plt.subplots(2,1)
data = pd.Series(np.random.rand(16),index=list('abcdefghijklmnop'))
data.plot.bar(ax=axes[0],color='k',alpha=0.7) #x轴为基准
data.plot.barh(ax=axes[1],color='k',alpha=0.7) #y轴为基准

#堆积柱状图
data = pd.DataFrame(np.random.rand(6,4),
                   index=['one','two','three','four','five','six'],
                   columns=pd.Index(list('ABCD'),name='Genus'))
data

Genus	A	B	C	D
one	0.594853	0.189521	0.130311	0.998033
two	0.247427	0.221326	0.663043	0.141174
three	0.398459	0.242788	0.112028	0.985286
four	0.365095	0.167354	0.545588	0.185118
five	0.024861	0.389038	0.277269	0.950699
six	0.708134	0.898126	0.259565	0.452563

data.plot.bar()

#堆积柱状图
df.plot.barh(stacked=True, alpha=0.5)

tips = pd.read_csv('examples/tips.csv')
party_counts = pd.crosstab(tips['day'],tips['size'])
party_counts

size	1	2	3	4	5	6
day
Fri	1	16	1	1	0	0
Sat	2	53	18	13	1	0
Sun	0	39	15	18	3	1
Thur	1	48	4	5	1	3

party_counts = party_counts.loc[:,2:5]
party_pcts = party_counts.div(party_counts.sum(1),axis =0)
party_pcts

size	2	3	4	5
day
Fri	0.888889	0.055556	0.055556	0.000000
Sat	0.623529	0.211765	0.152941	0.011765
Sun	0.520000	0.200000	0.240000	0.040000
Thur	0.827586	0.068966	0.086207	0.017241

party_pcts.plot.bar()

#使用seaborn
import seaborn as sns
tips['tip_pct'] = tips['tip'] / (tips['total_bill'] - tips['tip']) #小费比例
tips.head()

	total_bill	tip	smoker	day	time	size	tip_pct
0	16.99	1.01	No	Sun	Dinner	2	0.063204
1	10.34	1.66	No	Sun	Dinner	3	0.191244
2	21.01	3.50	No	Sun	Dinner	3	0.199886
3	23.68	3.31	No	Sun	Dinner	2	0.162494
4	24.59	3.61	No	Sun	Dinner	4	0.172069

sns.barplot(x='tip_pct',y='day',data=tips,orient='h')

C:\Anaconda\lib\site-packages\scipy\stats\stats.py:1713: FutureWarning: Using a non-tuple sequence for multidimensional indexing is deprecated; use `arr[tuple(seq)]` instead of `arr[seq]`. In the future this will be interpreted as an array index, `arr[np.array(seq)]`, which will result either in an error or a different result.
  return np.add.reduce(sorted[indexer] * weights, axis=axis) / sumval

sns.barplot(x='tip_pct', y='day', hue='time', data=tips, orient='h')

C:\Anaconda\lib\site-packages\scipy\stats\stats.py:1713: FutureWarning: Using a non-tuple sequence for multidimensional indexing is deprecated; use `arr[tuple(seq)]` instead of `arr[seq]`. In the future this will be interpreted as an array index, `arr[np.array(seq)]`, which will result either in an error or a different result.
  return np.add.reduce(sorted[indexer] * weights, axis=axis) / sumval

#直方图和密度图
tips['tip_pct'].plot.hist(bins=50)

#密度图
tips['tip_pct'].plot.density()

#直方图和密度估计图
comp1 = np.random.normal(0,1,size=200)

comp2 = np.random.normal(10,2,size=200)

values = pd.Series(np.concatenate([comp1,comp2]))
sns.distplot(values,bins=100,color='k')

C:\Anaconda\lib\site-packages\scipy\stats\stats.py:1713: FutureWarning: Using a non-tuple sequence for multidimensional indexing is deprecated; use `arr[tuple(seq)]` instead of `arr[seq]`. In the future this will be interpreted as an array index, `arr[np.array(seq)]`, which will result either in an error or a different result.
  return np.add.reduce(sorted[indexer] * weights, axis=axis) / sumval

#散点图或点图
macro = pd.read_csv('examples/macrodata.csv')
data = macro[['cpi', 'm1', 'tbilrate', 'unemp']]
trans_data = np.log(data).diff().dropna()#计算对数差
trans_data[-5:]

	cpi	m1	tbilrate	unemp
198	-0.007904	0.045361	-0.396881	0.105361
199	-0.021979	0.066753	-2.277267	0.139762
200	0.002340	0.010286	0.606136	0.160343
201	0.008419	0.037461	-0.200671	0.127339
202	0.008894	0.012202	-0.405465	0.042560

sns.regplot('m1','unemp',data=trans_data)
plt.title('changes in log %s versus log %s'%('m1','unemp'))

C:\Anaconda\lib\site-packages\scipy\stats\stats.py:1713: FutureWarning: Using a non-tuple sequence for multidimensional indexing is deprecated; use `arr[tuple(seq)]` instead of `arr[seq]`. In the future this will be interpreted as an array index, `arr[np.array(seq)]`, which will result either in an error or a different result.
  return np.add.reduce(sorted[indexer] * weights, axis=axis) / sumval





Text(0.5,1,'changes in log m1 versus log unemp')

#散点图矩阵
sns.pairplot(trans_data, diag_kind='kde', plot_kws={'alpha': 0.2})

C:\Anaconda\lib\site-packages\scipy\stats\stats.py:1713: FutureWarning: Using a non-tuple sequence for multidimensional indexing is deprecated; use `arr[tuple(seq)]` instead of `arr[seq]`. In the future this will be interpreted as an array index, `arr[np.array(seq)]`, which will result either in an error or a different result.
  return np.add.reduce(sorted[indexer] * weights, axis=axis) / sumval

#分面网格图 添加额外分组维度
sns.factorplot(x='day', y='tip_pct', hue='time', col='smoker',
                 kind='bar', data=tips[tips.tip_pct < 1])

C:\Anaconda\lib\site-packages\seaborn\categorical.py:3666: UserWarning: The `factorplot` function has been renamed to `catplot`. The original name will be removed in a future release. Please update your code. Note that the default `kind` in `factorplot` (`'point'`) has changed `'strip'` in `catplot`.
  warnings.warn(msg)
C:\Anaconda\lib\site-packages\scipy\stats\stats.py:1713: FutureWarning: Using a non-tuple sequence for multidimensional indexing is deprecated; use `arr[tuple(seq)]` instead of `arr[seq]`. In the future this will be interpreted as an array index, `arr[np.array(seq)]`, which will result either in an error or a different result.
  return np.add.reduce(sorted[indexer] * weights, axis=axis) / sumval

#箱型图
sns.factorplot(x='tip_pct', y='day', kind='box',
                 data=tips[tips.tip_pct < 0.5])

C:\Anaconda\lib\site-packages\seaborn\categorical.py:3666: UserWarning: The `factorplot` function has been renamed to `catplot`. The original name will be removed in a future release. Please update your code. Note that the default `kind` in `factorplot` (`'point'`) has changed `'strip'` in `catplot`.
  warnings.warn(msg)

你可能感兴趣的:(利用python进行数据分析)

利用python进行数据分析（重点、易忘点）---第五章Pandas基础学习 tenderjets 利用python进行数据分析 pandas
之前看的pandas的教材和课程里，内容参差不齐，实际使用很少的方法的内容有点多，导致很乱而且记不住那么多，这个帖子尽量用最少的文字，最精炼的语言来总结比较实用的方法，内容主要来源于《利用python进行数据分析》。1.创建Series直接给列表，加index。obj=pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])也可以用字典sdata={'O
《利用python进行数据分析》——3.1数据结构和序列——元组、列表、字典、集合——读书笔记 pillow_L python数据分析
第3章Python的数据结构、函数和文件3.1数据结构和序列Python中常见的数据结构可以统称为容器。序列（如列表和元组）、映射（如字典）以及集合（set）是三类主要的容器。1.元组——tuple元组是一个固定长度，不可改变的Python序列对象。元组与列表一样，也是一种序列，唯一不同的是元组不能被修改（字符串其实也有这种特点）元组Tuple，一经初始化，就不能修改，没有列表List中的appe
打卡第13天：《利用python进行数据分析》学习笔记且不了了
第7章——数据规整化：清理、转换、合并、重塑数据变换http://nbviewer.jupyter.org/github/qiebuliaoliao/data_analysis_python/blob/master/ch7/20180405.ipynb
matplotlib和seaborn绘图 Oliveee
https://www.jianshu.com/p/7a0eafdd1340《利用Python进行数据分析·第2版》第9章绘图和可视化matplotlib引入%matplotlibnotebookimportmatplotlib.pyplotasplt简单示例fig=plt.figure()ax1=fig.add_subplot(2,2,1)ax2=fig.add_subplot(2,2,2)ax
《利用Python进行数据分析》附录 A.3 广播 CCC考研
附录A高阶NumpyA.3广播广播描述了算法如何在不同形状的数组之间进行运算。它是一个强大的功能，但可能会导致混淆，即使对于有经验的用户也是如此。1.最简单的广播示例发生在将标量值与数组组合的时候（见图A-1）图A-1:简单广播注：有关此操作的说明，请参见图A-2。对行进行减均值的广播需要更小心。幸运的是，只要遵循规则，就可以在数组的任何维度上对潜在较低维度值进行广播（例如从二维数组的每一列中减去
Week 02 Python初步图小加
本周是Python的基本使用，从真正小白零接触，跟着大神们开始学习参考书：利用Python进行数据分析（原书第2版）中第三章和第五章一、Python基础1）Python环境安装（1）下载anaconda是python的包管理器和环境管理器，是在conda（一个包管理器和环境管理器）上发展出来的。在数据分析中，将会用到很多第三方的包，而conda（包管理器）可以很方便地在计算机上安装和管理这些包，包
《利用Python进行数据分析》 14.2 MovieLens 1M数据集 CCC考研
第十四章数据分析示例注：本章示例数据集可在附带的GitHub仓库（http://github.com/wesm/pydata-book）中找到14.2MovieLens1M数据集GroupLens实验室（http://www.grouplens.org/node/73）提供了一些从MovieLens用户那里收集的20世纪90年代末和21世纪初的电影评分数据的集合。这些数据提供了电影的评分、电影的元
2018-11-28 wangyou2550
python书籍入门：python基础教程第二版，笨方法学python进阶：流畅的python，effictivepython，Python编程实战，编写高质量代码：python，python核心编程第三版，PythonCookbook中文版第3版计算：python科学计算，利用Python进行数据分析前端：FlaskWeb开发：基于Python的Web应用开发实战，DjangoWeb开发指南网络
【读书笔记】《利用Python进行数据分析》第2版_第二章：Python语言基础、IPython及Jupyternotebook is_colorful python python pytorch 深度学习
推荐使用IPython命令行和Jupyternotebook来实验代码示例，以及探索各种类型、函数和方法的文档。和其他键盘控制的命令行环境一样，练就常用命令的肌肉记忆也是学习曲线的一部分。优秀Python书籍推荐《PythonCookbook》（第3版），作者为DavidBeazley和BrianK.Jones（O’Reilly）《FluentPython》，作者为LucianoRamalho（O
利用python进行数据分析(第二版)_第十四章 shifanfashi 数据分析数据分析
本书正文的最后一章，我们来看一些真实世界的数据集。对于每个数据集，我们会用之前介绍的方法，从原始数据中提取有意义的内容。展示的方法适用于其它数据集，也包括你的。本章包含了一些各种各样的案例数据集，可以用来练习。案例数据集可以在Github仓库找到，见第一章。#14.1来自Bitly的USA.gov数据2011年，URL缩短服务Bitly跟美国政府网站USA.gov合作，提供了一份从生成.gov或.
利用Python进行数据分析的学习笔记——chap10 调停者จุ๊บ 笔记 python 开发语言后端
时间序列日期和时间数据类型及工具fromdatetimeimportdatetimenow=datetime.now()nowdatetime.datetime(2022,3,4,8,23,31,842698)now.year,now.month,now.day(2022,3,4)#时间差delta=datetime(2022,3,3)-datetime(1998,10,20,8,10)delta
利用python进行数据分析(1) Doter
第一章一.数据的类型表格数据多维数据(矩阵)多张表数据(主外键关联)时间序列二.重要的Python库NumPy基础数据结构和函数pandas高级数据结构和函数matplotlib二维数据可视化IPython和Jupyter交互Scipy科学计算领域scikit-learn机器学习包statsmodels统计分析包第二章Python基础略第三章NumPy菜鸟教程比书详细第四章pandas易百教程最简
学习python数据分析必看，《利用Python进行数据分析》新潮看世界
利用Python进行数据分析pdf:讲述了从pandas库的数据分析工具开始利用高性能工具、matpIotlib、pandas的groupby功能等处理各种各样的时间序列数据。
NumPy教程（一）—— ndarray：多维数组对象 m0_61766362 Numpy python学习笔记 numpy python 学习方法
前言该numpy学习笔记参考了菜鸟教程网、b站up主孙兴华zz的《孙兴华中文讲python数据分析三部曲》以及《北理-python数据分析与展示》，课本推荐使用《利用python进行数据分析》Numpy简介：NumPy(NumericalPython)是Python语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。1.数组(array)的介绍数组是相同数据
字符串与正则表达式python实验报告分析_《利用Python进行数据分析》第7章字符串操作与正则表达式... weixin_39615257
字符串操作Python有简单易用的字符串和文本处理功能，大部分文本运算都直接做成了字符串对象的内置方法。对于更为复杂的模式匹配和文本操作，则可能需要用到正则表达式。字符串对象方法以逗号分隔的字符串可以用split拆分成数段In[4]:val='a,bc,c,gudio'In[5]:val.split(',')Out[5]:['a','bc','c','gudio']In[6]:val='a,bc,
chatgpt赋能python：Python统计总分——利用Python进行数据分析 laingziwei ChatGpt python chatgpt 开发语言计算机
Python统计总分——利用Python进行数据分析Python是一门流行的编程语言，有着广泛的应用领域。其中，Python在数据分析和统计领域也发挥着重要作用。本文将介绍如何利用Python进行数据分析，进而实现统计总分的功能。什么是数据分析？数据分析是指用各种统计方法对数据进行处理和分析，以获取数据中的信息和规律，并进行有效的决策。在现代社会中，数据分析已经成为了各行各业必备的技能之一。而Py
打卡第11天：《利用python进行数据分析》学习笔记且不了了
第五章——pandas入门第二部分：pandas主要功能（四）http://nbviewer.jupyter.org/github/qiebuliaoliao/data_analysis_python/blob/master/ch5/20180403.ipynb
day14：《利用python进行数据分析》学习笔记且不了了
第7章——数据规整化：清理、转换、合并、重塑字符串处理http://nbviewer.jupyter.org/github/qiebuliaoliao/data_analysis_python/blob/master/ch7/20180406.ipynb
《利用Python进行数据分析》 13.1pandas与建模代码的结合 CCC考研
第十三章Python建模库介绍13.1pandas与建模代码的结合使用pandas用于数据载入和数据清洗，之后切换到模型库去建立模型是一个常见的模型开发工作流。在机器学习中，特征工程是模型开发的重要部分之一。特征工程是指从原生数据集中提取可用于模型上下文的有效信息的数据转换过程或分析，书中会展示一些可以在利用pandas进行数据操作和建模之间无痛切换的方法。1.panas和其他分析库的结合点通常是
利用python进行数据分析第十四章 14.3 1880-2010年间全美婴儿姓名小猞猁啥都学利用Python进行数据分析 python 数据分析开发语言
14.31880-2010年间全美婴儿姓名美国社会保障总署（SSA）ᨀ供了一份从1880年到现在的婴儿名字频率数据。HadleyWickham（许多流行R包的作者）经常用这份数据来演示R的数据处理功能。我们要做一些数据规整才能加载这个数据集，这么做就会产生一个如下的DataFrame：In[4]:names.head(10)Out[4]:namesexbirthsyear0MaryF7065188
利用python进行数据分析第十四章 14.5 2012联邦选举委员会数据库小猞猁啥都学利用Python进行数据分析 python 数据分析开发语言
14.52012联邦选举委员会数据库美国联邦选举委员会发布了有关政治竞选赞助方面的数据。其中包括赞助者的姓名、职业、雇主、地址以及出资额等信息。我们对2012年美国总统大选的数据集比较感兴趣（http://www.fec.gov/disclosurep/PDownload.do）。我在2012年6月下载的数据集是一个150MB的CSV文件（P00000001-ALL.csv），我们先用pandas
利用python进行数据分析第十章数据聚合与分组运算小猞猁啥都学利用Python进行数据分析 python 数据分析开发语言
对数据集进行分组并对各组应用一个函数（无论是聚合还是转换），通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后，通常就是计算分组统计或生成透视表。pandasᨀ供了一个灵活高效的gruopby功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。关系型数据库和SQL（StructuredQueryLanguage，结构化查询语言）能够如此流行的原因之一就是其能够方便地对数
利用python进行数据分析第十三章 Python建模库介绍小猞猁啥都学利用Python进行数据分析 python 数据分析开发语言
本书中，我已经介绍了Python数据分析的编程基础。因为数据分析师和科学家总是在数据规整和准备上花费大量时间，这本书的重点在于掌握这些功能。开发模型选用什么库取决于应用本身。许多统计问题可以用简单方法解决，比如普通的最小二乘回归，其它问题可能需要复杂的机器学习方法。幸运的是，Python已经成为了运用这些分析方法的语言之一，因此读完此书，你可以探索许多工具。本章中，我会回顾一些pandas的特点，
利用python进行数据分析第九章绘图和可视化小猞猁啥都学利用Python进行数据分析 python 数据分析开发语言
信息可视化（也叫绘图）是数据分析中最重要的工作之一。它可能是探索过程的一部分，例如，帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外，做一个可交互的数据可视化也许是工作的最终目标。Python有许多库进行静态或动态的数据可视化，但我这里重要关注于matplotlib（http://matplotlib.org/）和基于它的库。matplotlib是一个用于创建出版质量图表的桌面绘
利用python进行数据分析第八章数据规整：聚合、合并和重塑小猞猁啥都学利用Python进行数据分析 python 数据分析数据挖掘
8.1层次化索引层次化索引（hierarchicalindexing）是pandas的一项重要功能，它使你能在一个轴上拥有多个（两个以上）索引级别。抽象点说，它使你能以低维度形式处理高维度数据。我们先来看一个简单的例子：创建一个Series，并用一个由列表或数组组成的列表作为索引：In[9]:data=pd.Series(np.random.randn(9),...:index=[['a','a'
利用python进行数据分析第七章数据清洗和准备小猞猁啥都学利用Python进行数据分析 python 数据分析开发语言
7.1处理缺失数据在许多数据分析工作中，缺失数据是经常发生的。pandas的目标之一就是尽量轻松地处理缺失数据。例如，pandas对象的所有᧿述性统计默认都不包括缺失数据。缺失数据在pandas中呈现的方式有些不完美，但对于大多数用户可以保证功能正常。对于数值数据，pandas使用浮点值NaN（NotaNumber）表示缺失数据。我们称其为哨兵值，可以方便的检测出来：In[10]:string_d
利用python进行数据分析第六章数据加载、存储与文件格式小猞猁啥都学利用Python进行数据分析 python 数据分析开发语言
访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出，虽然别的库中也有不少以此为目的的工具。输入输出通常可以划分为几个大类：读取文本文件和其他更高效的磁盘存储格式，加载数据库中的数据，利用WebAPI操作网络资源。6.1读写文本格式的数据pandasᨀ供了一些用于将表格型数据读取为DataFrame对象的函数。表6-1对它们进行了总结，其中read_csv和read
利用python进行数据分析第十四章数据分析案例小猞猁啥都学利用Python进行数据分析 python 数据分析开发语言
本书正文的最后一章，我们来看一些真实世界的数据集。对于每个数据集，我们会用之前介绍的方法，从原始数据中ᨀ取有意义的内容。展示的方法适用于其它数据集，也包括你的。本章包含了一些各种各样的案例数据集，可以用来练习。案例数据集可以在Github仓库找到，见第一章。14.1来自Bitly的USA.gov数据2011年，URL缩短服务Bitly跟美国政府网站USA.gov合作，ᨀ供了一份从生成.gov或.m
2021-07-15 大竹英雄
周四，对目前的项目进展进行一个简单的小结。对于python进行数据处理来说，pandas式一个不得不用的包，它比numpy很为强大。通过对《利用python进行数据分析》这本书中介绍pandas包的学习，再加以自己的理解，写下这篇随笔，与一起喜欢数据分析的朋友分享和相互学习。importnumpyasnpimportpandasaspdfrompandasimportSeries,DataFram
利用Python进行数据分析（Ⅰ）小灵宝机器学习 python 机器学习数据分析大数据
利用Python进行数据分析（Ⅰ）本文参考书籍：《利用Python进行数据分析》目录利用Python进行数据分析（Ⅰ）1.准备工作1.1重要的Python库NumPypandasmatplotlibIPython与JupyterSciPyscikit-learnstatsmodels导入约定术语2.Python基础、IPython及Jupyternotebook2.1IPython基础运行IPyt
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str