Chen_Chance

pandas入门

Pandas 是在 Numpy 上的封装。继承了 Numpy 的所有优点，但是这种封装有好有坏
我们对比一下两者创建的形式和效果

import pandas as pd
import numpy as np
a=np.array([[1,2],[3,4]])
b=pd.DataFrame(
    {
        "a":[1,2],
        "b":[3,4]
    }
)
print(a,"\n",b)

Pandas 就像字典一样，还记录着数据的外围信息，比如标签（Column 名）和索引（Row index）

可以简单理解为Numpy 是 Python 里的列表，而 Pandas 是 Python 里的字典

Pandas 和 NumPy 都是Python中用于数据处理和分析的重要库，但它们具有不同的优点和缺点，适用于不同类型的任务和应用场景。

Pandas的优点：

表格数据处理: Pandas以DataFrame的形式支持表格型数据处理，这种结构非常适合处理多维数据，例如SQL数据库或电子表格。DataFrame允许你轻松地执行各种操作，如筛选、合并、聚合、透视等。
标签: Pandas提供了丰富的标签，可以用于行和列，使得数据的访问和操作更加直观和容易理解。
缺失数据处理: Pandas提供了有效的方法来处理缺失数据，这在实际数据分析中非常常见。你可以轻松地填充、删除或插入缺失的数据。
时间序列数据: Pandas对时间序列数据的支持非常强大，包括日期范围生成、滚动窗口、时间重采样等功能。
数据可视化: Pandas可以与其他数据可视化库（如Matplotlib和Seaborn）结合使用，以便快速生成图表和可视化数据。

Pandas的缺点：

性能: 对于大型数据集，Pandas的性能可能不如NumPy，因为Pandas的DataFrame会消耗更多的内存和计算资源。
学习曲线: 对于初学者来说，Pandas的学习曲线可能较陡峭，因为需要了解各种函数和概念，如索引、层次化索引、多级列等。

NumPy的优点：

性能: NumPy是一个高性能的数值计算库，它用C语言编写，并且对数组操作进行了优化。对于大型数据集和数值计算任务，NumPy通常比Pandas更快。
多维数组: NumPy的核心数据结构是多维数组（ndarray），它非常适合进行数学和科学计算，如线性代数、统计分析和信号处理。
广泛的数学函数: NumPy提供了大量的数学和统计函数，包括线性代数、傅立叶变换、随机数生成等。
与其他库的集成: NumPy与许多其他科学计算库（如SciPy、scikit-learn）以及数据可视化库（如Matplotlib）紧密集成，使得它成为构建复杂数据分析和科学计算应用的基础。

NumPy的缺点：

缺少表格数据结构: NumPy主要关注多维数组，缺少直接支持表格数据的数据结构。这使得处理类似数据库表格或电子表格的数据时，需要使用较多的代码。
不适用于非数值数据: NumPy主要用于数值数据，不太适用于处理文本或混合类型的数据。

综上所述，Pandas和NumPy在数据处理和分析中各有其优点和缺点，通常会根据任务的性质和需求来选择使用哪个库，甚至可以同时使用它们以发挥各自的优势。如果需要处理表格型数据、进行数据清洗和转换，通常会首选Pandas。如果需要进行数值计算、线性代数运算或高性能的科学计算，NumPy可能更适合。

基本操作

从文件读取数据

excel文件

我们先创建一个excel文件

import pandas as pd
# 读取
a=pd.read_excel("体检数据.xlsx")
print(a)
# index_col=0，把第一个 column（学号）的数据当做 row 索引
a=pd.read_excel("体检数据.xlsx",index_col=0)
print(a)

# 修改（此时原始数据并没有被修改）
a.loc[2,"体重"]=1
print(a)

# 保存（此时新保存的excel里的数据是被修改后的）
a.to_excel("保存的体检数据.xlsx")

.loc[] 是pandas库用于选择DataFrame中特定行和列的方法。在这里，它被用来定位特定的行和列。
[2, "体重"] 是.loc[]的参数，这里表示选择第2行（索引为2的行）和名为"体重"的列。

csv或txt等纯文本文件

我们先创建一个csv文件

# 用python方法打开
with open("体检数据.csv","r",encoding="utf-8") as f:
    print(f.read())

# 用pandas打开,sep表示分割符号，如果别人给你的数据不走常规用+分割，那么你的sep就要是+
a=pd.read_csv("体检数据.csv",index_col=0,sep=",")
print(a)

# 保存
a.to_csv("保存的体检数据.csv")
a.to_excel("保存的体检数据.xlsx")

其他有趣的方法

后面再补上

Pandas 中的数据是什么

数据序列Series（一维）

Pandas 中的 Series 的核心其实就是一串类似于 Python List 的序列。只是它要比 Python List 丰富很多，有更多的功能属性

# list和pd的Series的区别
a=[11,22,33]
b=pd.Series(a)
print(a)
print(b)

# 自定义索引
b=pd.Series(a,index=["a","b","c"])
print(b)
b=pd.Series({"a":11,"b":22,"c":33})
print(b)

# 将列表换成numpy数组
import numpy as np
b=pd.Series(np.random.rand(3),index=["a","b","c"])
print(b)

# 把Series返回成numpy数组或list
print(b.to_numpy())
print(b.values.tolist())

b.to_numpy() 和 b.values 功能基本上是相同的，它们都用于将 pandas DataFrame 中的数据转换为 NumPy 数组，但有一些微小的差异：

命名不同：b.to_numpy() 是一个方法，而 b.values 是一个属性。使用方法时需要添加括号，而属性不需要。
版本兼容性：在较旧版本的 pandas 中，可能没有 to_numpy() 方法，因此 b.values 是更通用的选择。
潜在性能：在某些情况下，b.to_numpy() 可能会在性能上略优于 b.values，因为它可以更好地处理某些特殊情况，例如，当 DataFrame 包含不同数据类型的列时，to_numpy() 可以将数据类型更好地匹配到 NumPy 数组的数据类型，而 b.values 会将所有列都强制转换为一种通用数据类型。

总的来说，功能上它们是相同的，可以根据个人偏好选择使用哪个，但在大多数情况下，它们都会产生相似的结果。

数据表DataFrame（二维）

a=pd.DataFrame([[1,2],[3,4]])
print(a)
# 第一行，第0列的数字
print(a.at[1,0])

# 通过字典的方式创建，修改的是列索引
a=pd.DataFrame({"col1":[1,3],"col2":[2,4]})
print(a)

# 由DataFrame创建Series
print(a["col1"])
print(type(a["col1"]))

# 由Series创建DataFrame
print(pd.DataFrame({"col1":pd.Series([1,3]),"col2":pd.Series([2,4])},index=["a","b"]))

#  获取行索引和列索引
print(a.index,"\n",a.columns)

#json格式转换成DataFrame
json=[
    {"age":18,"weight":"60"},
    {"age":20,"weight":"70"},
]
print(pd.DataFrame(json,index=["jack","rose"]))

#DataFrame转换成numpy
print(a.to_numpy())

我们发现有一处的值都是Nan，这是什么原因，我们先定位到是哪个语句出了问题

# 由Series创建DataFrame
print(pd.DataFrame({"col1":pd.Series([1,3]),"col2":pd.Series([2,4])},index=["a","b"]))

在这段代码中，创建了一个新的 pandas DataFrame，但在创建过程中似乎存在一个问题，导致数据出现NaN（Not a Number）。让我来解释问题所在：

你尝试创建一个DataFrame，其中包含两列（“col1"和"col2”），并且给定了index参数来指定行的索引，索引为[“a”, “b”]。但是，问题在于，你的数据中包含的是pd.Series对象，并且这两个Series对象的索引与你的DataFrame的索引不匹配。

默认情况下，pandas会根据索引来对齐数据。由于你的两个Series对象没有与DataFrame索引[“a”, “b”]匹配的索引标签，所以在对齐数据时，会导致所有值都变成NaN。

要解决这个问题，你可以通过确保你的pd.Series对象具有与DataFrame索引匹配的索引标签，或者使用NumPy数组等其他数据结构来创建DataFrame。以下是两种可能的解决方法：

确保索引匹配：

import pandas as pd

data = {"col1": pd.Series([1, 3], index=["a", "b"]),
        "col2": pd.Series([2, 4], index=["a", "b"])}

df = pd.DataFrame(data)
print(df)

使用NumPy数组创建DataFrame：

import pandas as pd
import numpy as np

data = {"col1": np.array([1, 3]),
        "col2": np.array([2, 4])}

df = pd.DataFrame(data, index=["a", "b"])
print(df)

这样，你将能够创建一个包含正确数据的DataFrame，而不会出现NaN值。

选取数据

我们先准备一个DataFrame

import pandas as pd
import numpy as np
data=np.arange(-12,12).reshape(6,4)
a=pd.DataFrame(data,index=list("abcdef"),columns=list("ABCD"))
print(a)

选Column

看到了上面这份数据后，我们发现，DataFrame 会分 Column 和 Row（index）。如果你搞机器学习，通常我们的 Column 是特征，Row 是数据样本，在要对某个特征进行分析的时候，比如要做特征数值分布的分析，我们得把特征取出来吧。那么你可以这么做。

#选取一个特征
print(a["B"])

#选取多个特征
print("选取多个特征","\n",a[["B","C"]])

loc（通过自定义的序号索引）

# loc选择指定行和列
print(a.loc["a":"c","B":"C"])
# loc选定指定行所有内容
print(a.loc[["a","c"],:])

iloc（通过默认的序号索引）

# iloc选择指定行列
print(a.iloc[2:3,1:3])

#iloc选择指定行所有内容
print(a.iloc[[3,1],:])

loc和iloc混搭

有时候，我们需要混搭 loc 和 iloc 的方式，比如我想要选取第 2 到第 4 位数据的 A C 两个特征,采用索引转换的方式，比如我在 .loc 模式下，将序号索引转换成 .loc 的标签索引。

# 转换成loc，即把索引都转成默认数字索引
row_labels=a.index[2:4]
print(row_labels)
print(a.loc[row_labels,["A","C"]])

col_labels = a.columns[[0, 3]]
print(col_labels)
print(a.loc[row_labels,col_labels])

# 转换成iloc，即把索引都转成自定义的索引
col_index=a.columns.get_indexer(col_labels)
print(col_index)
row_index=a.index.get_indexer(row_labels)
print(row_index)
print(a.iloc[row_index,col_index])

条件过滤筛选

选在 A Column 中小于 0 的那些数据

print(a["A"]<0)
print(a[a["A"]<0])

选在第一行数据不小于 -10 的数据

print(a.loc[:,~(a.iloc[0]<-10)])
#等价于
print(a.loc[:,a.iloc[0]>=-10])

选在第一行数据不小于 -10 或小于 -11 的数据

i0=a.iloc[0]
print(i0)
print(a.loc[:,~(i0<-10)|(i0<-11)])

小插曲

print(a.iloc[:,~(a.iloc[0]<-10)])

如果用的是iloc，即上面这段代码执行时，就会报错

loc 的行索引可以接受布尔值，用于筛选行数据。当你传递一个布尔Series给 loc 的行索引时，它将返回满足条件为True的行。这是一种非常有用的功能，可以用来根据某些条件选择DataFrame中的行。

例如，假设你有一个DataFrame df，你可以使用布尔索引来选择满足某些条件的行，如下所示：

# 创建一个布尔Series，选择年龄大于30的行
condition = df['年龄'] > 30

# 使用布尔索引选择满足条件的行
selected_rows = df.loc[condition]

# 打印满足条件的行
print(selected_rows)

在上面的示例中，condition 是一个布尔Series，它选择了DataFrame中年龄大于30的行，然后通过 df.loc[condition] 来选择这些行。这将返回一个包含满足条件的行的新DataFrame。

所以，loc 的行索引可以接受布尔值，用于基于条件选择行。

iloc 通常不用于接受布尔值来选择行。它主要用于基于整数位置来选择数据，而不是基于条件或布尔值来选择数据。

如果你想使用布尔值来选择行，通常应该使用 loc。使用布尔索引和 loc 结合可以方便地根据条件筛选行数据，如我在前面的回答中所示。对于 iloc，通常使用整数索引或整数切片来选择行和列，而不是布尔值索引。

例如，以下是一个使用 iloc 来选择前三行的示例：

selected_rows = df.iloc[0:3, :]

在这个示例中，iloc 使用整数切片选择了前三行，而不是基于布尔条件选择。如果你想基于条件选择行，请使用 loc。

总而言之，loc的行索引可以用布尔值，但是iloc不可以，这也就是出错的原因

因为当我们执行这段代码时，会发现结果是布尔值

print(~(a.iloc[0]<-10))

Series和DataFrame类似

我们同样先建一个Series

list_data=list(range(-4,4))
a=pd.Series(list_data,index=list("abcdefgh"))
print(a)

#按照标签选择数据loc
print(a.loc["a":"c"])
print(a.loc[["a","b"]])
#按照index选择数据iloc
print(a.iloc[2:4])
print(a.iloc[[3,1]])
#iloc和loc混用
print(a.iloc[a.index.get_indexer(["a","b"])])
print(a.index.get_indexer(["a","b"]))
print(a.loc[a.index[[3,2]]])
print(a.index[[3,2]])
#按照条件过滤筛选
print(a.loc[a<-3])
print(a.loc[(a>-3)&(a<3)])
print(a.loc[(a<-3)|(a>2)])

统计展示

基础统计方法

数据

import pandas as pd
import numpy as np
data=np.array([
    [1.39, 1.77, None],
    [0.34, 1.91, -0.05],
    [0.34, 1.47, 1.22],
    [None, 0.27, -0.61]
])
a=pd.DataFrame(data,index=["r0","r1","r2","r3"],columns=["c0","c1","c2"])
print(a)

快速总结

print(a.describe())

这里，会显示出来 count 计数（剔除掉 None 或者 NAN 这种无效数据），所以你在结果中能看到 c0，c2 两个的有效数是 3 个，而 c1 有效数有 4 个。

unique 表示的是每个 column 中有多少独特的数据。这个在初步感知数据丰富度上会有一定的作用。

top 表示出现最多的数据是哪一个，这组数据在 c0 column 处，我们能观察到 0.34 出现了两次，所以它选的 top 是 0.34，如果出现的数字概率相同，则选最先出现的数字

freq 是继续了 top，表述的是这个出现频率最多的数据，出现的次数有多少次。

上面这份数据还不是纯数据，如果是存数值型的数据，我们跑 describe() 还能看到统计学的信息。

a=pd.DataFrame(np.random.random((4,3)),columns=["c0","c1","c2"])
print(a)
print(a.describe())

创建了一个包含4行和3列的DataFrame，其中每个元素都是从0到1之间的随机数。然后，你使用 a.describe() 方法来生成关于这个DataFrame中数值列的统计摘要。以下是你的代码输出和结果的解释：

首先，创建了一个DataFrame a，它包含4行和3列的随机数。这是你的DataFrame的内容：

         c0        c1        c2
0  0.412172  0.409382  0.289723
1  0.289591  0.943983  0.319834
2  0.834625  0.394380  0.121346
3  0.592600  0.340653  0.239218

接下来，使用 a.describe() 来生成统计摘要，结果如下：

             c0        c1        c2
count  4.000000  4.000000  4.000000
mean   0.532997  0.522849  0.242030
std    0.229065  0.272370  0.102891
min    0.289591  0.340653  0.121346
25%    0.386007  0.389205  0.221967
50%    0.502386  0.401881  0.264471
75%    0.649376  0.535525  0.284533
max    0.834625  0.943983  0.319834

解释每一行统计信息：

count 表示每列的非缺失值数量，由于这是随机生成的数据，因此每列都有4个非缺失值。
mean 表示每列的平均值。例如，‘c0’ 列的平均值约为0.533。
std 表示每列的标准差，衡量数据的离散程度。例如，‘c1’ 列的标准差约为0.272。
min 和 max 分别表示每列的最小值和最大值，即数据范围。
25%、50% 和 75% 分别表示第25、50和75百分位数，它们对应于数据的第一四分位数、中位数和第三四分位数。这些百分位数可用于了解数据的分布。

均值中位数

print(a.mean())

#对a的第0个维度求均值
print(a.mean(axis=0))
#对a的第1个维度求均值
print(a.mean(axis=1))

# 跳过 None 或者 NaN的数据的某列或某行（这段代码后面再修改，有些没弄清楚的地方）
# print(a.mean(axis=0,skipna=False))

#求中位数
print(a.median())

累加累乘

a=pd.DataFrame(np.arange(12).reshape((4,3)),columns=["c0","c1","c2"])
print(a)
# 累加
print(a.sum())
print(a.sum(axis=0))
print(a.sum(axis=1))
# 累乘
print(a.prod())
print(a.prod(axis=0))
print(a.prod(axis=1))

最大最小

a=pd.DataFrame(np.arange(12).reshape((4,3)),columns=["c0","c1","c2"])
print(a)
# 对一个维度进行最大最小值的找取
print(a.max())
print(a.min())

# 找全局的最大最小值
print(a.max().max())
print(a.values.ravel().max())

最后两行代码是用来获取一个数据结构（可能是一个NumPy数组或Pandas DataFrame）中的最大值，并且使用了不同的方法来实现相同的目标。让我们一一解释这两行代码：

print(a.max().max())：
- a 可能是一个二维的数据结构，比如一个NumPy数组或Pandas DataFrame。
- a.max() 这一部分首先计算 a 中每列的最大值（如果是DataFrame的话，这将是每个列的最大值），并将结果返回为一个新的数据结构，可能是一个NumPy数组或Pandas Series，其最大值是该列的最大值。
- .max() 第二次调用 max() 方法，这次是在上一步结果的基础上，计算最大值，即计算所有列的最大值的最大值，返回一个标量值。
print(a.values.ravel().max())：
- a 可能是一个NumPy数组或Pandas DataFrame。
- a.values 是一个将NumPy数组或DataFrame转换为NumPy数组的属性。它将数据结构转换为一个二维数组，其中每个元素对应于原始数据结构中的元素。
- .ravel() 是NumPy中的一个函数，用于将多维数组转换为一维数组，即将数组展平。
- 最后，.max() 用于计算展平后的一维数组中的最大值，返回一个标量值，即数组中的最大元素。

总结：这两行代码都是为了获取给定数据结构中的最大值，但它们使用了不同的方法。第一行代码首先计算每列的最大值，然后找到这些最大值中的最大值。第二行代码将数据展平为一维数组，然后计算该一维数组中的最大值。这两种方法都可以用来找到数据结构中的最大值，但是根据具体的情况和数据类型选择合适的方法。

处理空值

a=pd.DataFrame([[1,2,3,4],
                [5,6,None,8],
                [None,None,None,None],
                [None,14,None,16]],columns=list("abcd"))
print(a)
print(a.isnull())#true为空
print(a.notnull())#flase为空

# 放弃有空值的数据的整行
print(a.dropna())

#放弃有空值数据的整列
print(a.dropna(axis=1))

# 有值留下来，只去掉全为空的整行的数据
print(a.dropna(how="all"))
# 有值留下来，只去掉全为空的整列的数据
print(a.dropna(how="all",axis=1))

# 对空值进行填充
print(a.fillna(111))

# 对不同特征做差异化的填充数据
b={"a":111,"b":222,"c":333,"d":444}
print(a.fillna(value=b))

# 你甚至可以用一个全新的DataFrame来做空值的填充
b=pd.DataFrame(np.arange(16).reshape((4,4)),columns=list("abcd"))
print(a.fillna(b))

获取索引

a=pd.DataFrame([[1,2,3,0],
                [3,4,None,1],
                [3,5,2,1],
                [3,2,2,3]],
               columns=list("abcd"))
print(a)
print(a.idxmax())
print(a.idxmin())
print(a.idxmax(skipna=False))

绘制图表

散点图Scatter

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

n=128 #数据数量
a=pd.DataFrame({
    "x":np.random.normal(0,1,n),
    "y":np.random.normal(0,1,n),
})
color=np.arctan2(a["y"],a["x"])
a.plot.scatter("x","y",c=color,s=60,alpha=0.5,cmap="rainbow")
plt.show()

这段代码使用NumPy、Pandas和Matplotlib库生成一个散点图，其中包含128个数据点，每个数据点由两个随机正态分布的值（x和y坐标）组成。以下是代码的详细解释：

import numpy as np：导入NumPy库，并为其取一个别名np，以便在代码中使用更短的名称引用库中的函数和对象。
import pandas as pd：导入Pandas库，并为其取一个别名pd，以便在代码中使用更短的名称引用库中的函数和对象。
import matplotlib.pyplot as plt：导入Matplotlib库中的pyplot模块，并为其取一个别名plt，以便在代码中使用更短的名称引用该模块中的函数。
n = 128：定义变量n，表示数据点的数量，本例中为128。
a = pd.DataFrame(...)：创建一个Pandas DataFrame对象a，其中包含两列数据："x"列和"y"列。这两列数据分别使用NumPy的np.random.normal()函数生成，该函数用于生成服从正态分布（均值为0，标准差为1）的随机数。因此，DataFrame a 包含128行，每行有一个x和y坐标。
color = np.arctan2(a["y"], a["x"])：计算每个数据点的颜色值。np.arctan2()函数用于计算每个数据点的极坐标角度，其参数分别是y坐标和x坐标，结果表示颜色映射中的角度值。
a.plot.scatter("x", "y", c=color, s=60, alpha=0.5, cmap="rainbow")：使用Pandas DataFrame的plot.scatter()方法创建散点图。具体参数如下：
- "x"和"y"：分别指定x轴和y轴的数据列。
- c=color：使用上面计算的颜色值来指定每个点的颜色。
- s=60：指定散点的大小为60。
- alpha=0.5：指定点的透明度为0.5，使得点具有一定的透明度。
- cmap="rainbow"：指定颜色映射为"rainbow"，这将使不同的角度值映射到不同的颜色。
plt.show()：最后，使用Matplotlib的show()函数显示散点图。

综上所述，这段代码生成了一个具有128个随机数据点的散点图，每个点的位置由DataFrame a 中的"x"和"y"列确定，颜色由极坐标角度确定。这种可视化方式可以用于显示数据点之间的分布和关系。

折线图Plot

# 绘制单条线
n=20
x=np.linspace(-1,1,n)
y=x*2+0.4+np.random.normal(0,0.3,n)
a=pd.DataFrame({"x":x,"y":y})
a.plot(x="x",y="y",alpha=0.5,c="r")
plt.show()

#绘制多条线
n=20
x=np.linspace(-1,1,n)
y1=x*2-0.1+np.random.normal(0,0.3,n)
y2=x*(-2)+0.4+np.random.normal(0,0.3,n)
a=pd.DataFrame({
    "x":x,
    "y1":y1,
    "y2":y2
})
a.plot(x="x",y=["y1","y2"],alpha=0.5)
plt.show()

条形图Bar

# 看5组数据，每组还有3个数据
a=pd.DataFrame(np.random.rand(5,3),columns=list("abc"))
a.plot.bar()
plt.show()

# 把每行的3列数据放在一列上看
a.plot.bar(stacked=True)
plt.show()

# 我想横着看
a.plot.barh()
plt.show()

分布图Hist

# 单个分布图
b=np.random.normal(0,0.3,100)
a=pd.DataFrame({"a":b})
a.plot.hist()
plt.show()

#多个分布图重合
a=pd.DataFrame(
    {
        "a":np.random.randn(10)+1,
        "b":np.random.randn(10),
        "c":np.random.rand(10)-4
    }
)
# bins=20：这是一个可选参数，用于指定直方图的柱子（条形）数量。
# 在这里，设置为20，表示将数据范围分成20个区间，
# 并在每个区间内绘制直方图的柱子。这可以控制直方图的分辨率，
# 使你可以更清晰地看到数据的分布情况。
a.plot.hist(alpha=0.5,bins=20)
plt.show()

饼图Pie

# 画一个饼状图
a=pd.DataFrame(
    {"boss":np.random.rand(4)},
    index=["meeting","supervise","teaching","study"]
)
print(a)
# figsize=(7, 7)：这是一个可选参数，用于指定绘制的图形的尺寸。
# 在这里，设置为(7, 7)，表示饼图将以7x7的尺寸绘制，
# 以确保饼图具有适当的大小。
a.plot.pie(y="boss",figsize=(7,7))
plt.show()

# 画多个饼状图
a=pd.DataFrame(
    {"boss":np.random.rand(4),
    "smallboss":np.random.rand(4)},
    index=["meeting","supervise","teaching","study"]
)
a.plot.pie(subplots=True,figsize=(9,9))
plt.show()

面积图Area

a=pd.DataFrame(
    np.random.rand(10,4),
    columns=list("abcd")
)
print(a)
a.plot.area()
plt.show()

# 不想堆砌起来，起点我想统一
a.plot.area(stacked=False)
plt.show()

数据处理

运算方法

筛选赋值运算

先新建一个数据

import pandas as pd
import numpy as np
data=np.arange(-12,12).reshape((6,4))
a=pd.DataFrame(
    data,
    index=list("abcdef"),
    columns=list("ABCD")
)
print(a)

# 对第一列×0
a["A"]*=0
print(a)
#iloc 找的是 index，loc 找的是标签
a.loc["a","A"]=100
a.iloc[1,0]=200
print(a)
a.loc["a",:]=a.loc["a",:]*2
print(a)
a["A"][a["A"]==0]=-1
print(a)

这行代码a["A"][a["A"]==0]=-1对Pandas DataFrame（假设为a）进行了一系列操作，让我来解释它的作用：

a["A"]：首先，从DataFrame a 中选择名为"A"的列，这是一个Series对象，包含了列"A"的所有值。
[a["A"] == 0]：使用布尔索引，这部分代码将返回一个与列"A"具有相同索引的布尔Series，其中每个元素的值为True或False，取决于对应位置的元素是否等于0。换句话说，它会创建一个布尔掩码，用于筛选出列"A"中值为0的行。
= -1：最后，这部分代码将列"A"中值为0的行，使用赋值操作将它们的值改为-1。换句话说，它将DataFrame中所有等于0的值替换为-1。

总结起来，这行代码的作用是将DataFrame df 中名为"A"的列中所有等于0的值替换为-1。这种操作通常用于数据预处理，以将特定值替换为其他值，以符合分析或可视化的需求。

Apply方法

针对数据做自定义功能的运算
先构建一个数据

a=pd.DataFrame([[1,2]]*3,columns=["A","B"])
print([[1,2]]*3)
print(a)

# 对a做平方根运算
print(np.sqrt(a))
#用apply方法
print(a.apply(np.sqrt))
# 看上去apply似乎更麻烦了，但是别急，他的强大之处还在后面
def func(x):
    return x[0]*2,x[1]+1
print(a.apply(func,axis=1))
# "expand" 表示要扩展函数的返回值，以便每个返回值都成为一个新的列。
print(a.apply(func,axis=1,result_type="expand"))
# reult_type="broadcast"，
# 那么原 column 和 index 名会继承到新生成的数据中
print(a.apply(func,axis=1,result_type="broadcast"))

# 只改一个 column
def func(x):
    return x["A"]*10
print(a.apply(func,axis=1))

# 返回原a，但只有一个 column 被修改了
a["A"]=a.apply(func,axis=1)
print(a)

# 对row进行操作
a=pd.DataFrame(np.arange(10).reshape((5,2)),columns=list("ab"))
print(a)

def func(r):
    return r[1]*10

last_row=a.apply(func,axis=0)
print(last_row)
# 对比看下axis=0和1的区别
b=a.apply(func,axis=1)
print(b)

a.iloc[2,:]=last_row
print(a)

文字处理

格式化字符

#先对标python中自带的文字处理功能
import pandas as pd

py_s = "A,B,C,Aaba,Baca,CABA,dog,cat"
pd_s = pd.Series(
    ["A", "B", "C", "Aaba", "Baca", "CABA", "dog", "cat"],
    dtype="string")
print(py_s.upper())
print(pd_s.str.upper())

# 注意如果要用到 Pandas 丰富的文字处理功能，
# 你要确保 Series 或者 DataFrame 的 dtype="string"
#如果不是我们要调整到string格式

pd_not=pd.Series(
    ["A", "B", "C", "Aaba", "Baca", "CABA", "dog", "cat"],
)
print(pd_not.dtype)
pd_s=pd_not.astype("string")
print(pd_s.dtype)

# 我们接着对比python功能
print(py_s.lower())
print(pd_s.str.lower())

print([len(s) for s in py_s.split(",")])
print(pd_s.str.len())

# 对比对文字的裁剪
# str.strip()  ： 去除字符串两边的空格
# str.lstrip() ： 去除字符串左边的空格
# str.rstrip() ： 去除字符串右边的空格
py_s=["    jack","jill   ","   jesse  ","frank"]
pd_s=pd.Series(py_s,dtype="string")

print([s.strip() for s in py_s])
print(pd_s.str.strip())

print([s.lstrip() for s in py_s])
print(pd_s.str.lstrip())

print([s.rstrip() for s in py_s])
print(pd_s.str.rstrip())

# 对比split拆分的方法
py_s = ["a_b_c", "jill_jesse", "frank"]
pd_s = pd.Series(py_s, dtype="string")

print([s.split("_") for s in py_s])
print(pd_s.str.split("_"))
print(pd_s.str.split("_",expand=True))

#DataFrame也是一样的
pd_df=pd.DataFrame([["a","b"],["c","d"]])
print(pd_df.iloc[0,:].str.upper())

正则方案

先跳过

拼接

# 拼接
s1=pd.Series([1,2,3],dtype="string")
s2=pd.Series(["a","b","c"],dtype="string")
print(s1.str.cat(s2))

更专业的更多的方法会在后续段落写出，实在太多了

异常数据处理

找到NaN数据

我们先生成一份带NaN的数据

import pandas as pd
import numpy as np
a=pd.DataFrame([[1,None],[np.nan,4]])
print(a)

#找哪些是NaN
print(a.isna())
#找哪些不是NaN
print(a.notna())

NaN的影响

a=pd.DataFrame({"a":[1,None,1],
                "b":[np.nan,4,4]
                })
print(a.mean(axis=0))
print(a.mean(axis=0,skipna=False))

移除NaN

# 选择要施加的 axis 比如 axis=0 的时候，
# 如果某一 row 有 NaN，就会丢弃这一 row。
# 同理 axis=1 的时候， column 有 NaN 丢弃 column，
a=pd.DataFrame({"a":[1,None,3],
                "b":[4,5,6]})
print(a.dropna(axis=0))
print(a.dropna(axis=1))

填充NaN

a=pd.DataFrame({
    "a":[1,None,3],
    "b":[4,5,6]
})
a_mean=a["a"].mean()
new_col=a["a"].fillna(a_mean)
a["a"]=new_col
print(a)
# a column 和 b column 是有一定关系的，
# 用b的值去替代a的值
a=pd.DataFrame({
    "a":[1,None,3,None],
    "b":[4,8,12,12]
})
a_nan=a["a"].isna()
a_new_value=a["b"][a_nan]/4
print(a_new_value)
new_col=a["a"].fillna(a_new_value)
a["a"]=new_col
print(a)
# 也可以这样子
a.loc[a_nan,"a"]=a["b"][a_nan]/4
print(a)

不符合范围的值

import matplotlib.pyplot as plt
a=pd.DataFrame({
    "a":[1,2,3,4,5,100,7,8]
})
a.plot()
plt.show()

a["a"]=a["a"].clip(lower=0,upper=10)
a.plot()
plt.show()

时间数据

读时间序列数据

import pandas as pd
a=pd.DataFrame({
    "time":["2022/03/12","2022/03/13","2022/03/14"],
    "valte":[1,2,3]
})
print(a)
print(a["time"])

# 现在，Pandas 是不知道 time 这个 column 是时间序列的（现在认为它是 object），
# 我们需要告诉 Pandas 把这个 time 套上时间序列的标识。
print(pd.to_datetime(a["time"]))

# 还可以自己创造区分规则
a=pd.to_datetime(
    [
        "1@21@2022%%11|11|32",
        "12@01@2022%%44|02|2",
        "4@01@2022%%14|22|2"
    ],
    format="%m@%d@%Y%%%%%S|%H|%M"
)
print(a)

命令	含义
%m	月
%d	日
%Y	年
%%
%S	秒
%H	时
%M	分

自建时间序列

import datetime

start=datetime.datetime(2022,3,12)
end=datetime.datetime(2022,3,18)

# 类似列表的range
index=pd.date_range(start,end)
print(index)
print(pd.date_range(start,end,freq="48h"))

# 类似列表的linespace
print(pd.date_range(start,end,periods=5))

选取时间

import datetime
import matplotlib.pyplot as plt
start=datetime.datetime(2022,3,1)
end=datetime.datetime(2022,5,3)

rng=pd.date_range(start,end)
# 这一行代码使用numpy库生成与时间范围长度相同的随机数，并将这些随机数创建成一个pandas时间序列（Series）。
# 时间序列的索引使用了前面创建的时间范围rng，并且每个日期都对应一个随机数值。
ts=pd.Series(np.random.rand(len(rng)),index=rng)
print(ts)
# 画图展示
ts.plot()
plt.show()
# 画图展示少量数据
ts[:5].plot()
plt.show()
# 用index切片不知道对应的日期，我们试试用时间切片
t1=datetime.datetime(2022,3,1)
t2=datetime.datetime(2022,3,18)
ts[t1:t2].plot()
plt.show()
# 还可以直接写日期
ts["2022-03-12":"2022-03-18"].plot()
plt.show()
# 还可以只看某个月的
ts["2022-03"].plot()
plt.show()

时间运算

# 日期加上一个时间
rng=pd.date_range("2022-01-01","2022-01-07")
print(rng+pd.Timedelta(weeks=1))
# Timedelta可以乘除
print(rng+2*pd.Timedelta(weeks=1))

rng=pd.date_range("2022-02-08","2022-02-11")
# 这一行代码打印了rng中每个日期的年内第几天。dayofyear是DatetimeIndex对象的属性，
# 用于获取每个日期在年内的天数。结果将显示每个日期在年内的第几天。
print(rng.dayofyear)
# 按制定规则输出日期形式
print(rng.strftime("%m/%d/%Y"))

时区

rng=pd.date_range("2022-01-08","2022-01-11")
# 默认生成的时候，是不带时区的。
# tz属性用于获取DatetimeIndex对象的时区信息。如果tz属性为None，则表示该日期范围不具有时区信息。
print(rng.tz)

s=pd.to_datetime(["2022/03/12 22:11","2022/03/13 12:11","2022/03/14 2:11"])
s_us=s.tz_localize("America/New_York")
print(s_us)

s_cn=s_us.tz_convert("Asia/Shanghai")
print(s_cn)
# 你要获取对应的时区名称，你可以用 pytz 这个库来看
import pytz
print(pytz.country_timezones("CN"))

rng=pd.date_range("2022-01-08","2022-01-11",tz="America/New_York")
print(rng)

这里有人会发现美国一会儿-4，一会儿-5，这是为什么？

DatetimeIndex(['2022-03-12 22:11:00-05:00', '2022-03-13 12:11:00-04:00',
               '2022-03-14 02:11:00-04:00'],
              dtype='datetime64[ns, America/New_York]', freq=None)

这是一个DatetimeIndex对象，其中包含了三个日期时间值，这些日期时间已经本地化到美国纽约时区（Eastern Standard Time，EST，或Eastern Daylight Time，EDT）。

第一个日期时间是"2022-03-12 22:11:00-05:00"，表示2022年3月12日晚上22:11（EST）。
第二个日期时间是"2022-03-13 12:11:00-04:00"，表示2022年3月13日中午12:11（EDT）。
第三个日期时间是"2022-03-14 02:11:00-04:00"，表示2022年3月14日凌晨02:11（EDT）。

这些日期时间都带有时区信息，因此显示了与美国纽约时区相关的偏移量（-05:00 或 -04:00），取决于是否处于夏令时（Daylight Saving Time，DST）期间。这些日期时间对象的数据类型是datetime64[ns, America/New_York]，指示它们的时区信息为"America/New_York"。

数据管理

融合数据

拼接Concat

import pandas as pd
df1 = pd.DataFrame({
    "A": ["A0", "A1", "A2", "A3"],
    "B": ["B0", "B1", "B2", "B3"],
    "C": ["C0", "C1", "C2", "C3"],
    "D": ["D0", "D1", "D2", "D3"],
}, index=[0, 1, 2, 3],)


df2 = pd.DataFrame({
    "A": ["A4", "A5", "A6", "A7"],
    "B": ["B4", "B5", "B6", "B7"],
    "C": ["C4", "C5", "C6", "C7"],
    "D": ["D4", "D5", "D6", "D7"],
}, index=[4, 5, 6, 7],)


df3 = pd.DataFrame({
    "A": ["A8", "A9", "A10", "A11"],
    "B": ["B8", "B9", "B10", "B11"],
    "C": ["C8", "C9", "C10", "C11"],
    "D": ["D8", "D9", "D10", "D11"],
}, index=[8, 9, 10, 11],)

print(df1,"\n",df2,"\n",df3)

print(pd.concat([df1,df2,df3]))


a=pd.concat([df1,df2,df3],
            keys=["x","y","z"])
print(a)
print(a.loc["y"])

# pd.concat 的默认是上下拼接的，我们也可以指定进行左右拼接。这种模式叫做 join="outer" 的方式（默认方式）
df4 = pd.DataFrame({
    "B": ["B2", "B3", "B6", "B7"],
    "D": ["D2", "D3", "D6", "D7"],
    "F": ["F2", "F3", "F6", "F7"],
}, index=[2, 3, 6, 7],)
print(pd.concat([df1,df4],axis=1))
# 我们还可以用内拼接 join="inner"
print(pd.concat([df1,df4],axis=1,join="inner"))

在 pandas 中，join="inner"和join="outer"是 DataFrame 上的两种不同类型的合并操作，通常用于将两个 DataFrame 进行合并。它们的主要区别在于如何处理合并操作中的缺失值以及保留哪些行和列。

join="inner"：
- join="inner"表示内连接（inner join）。这种连接只会保留两个 DataFrame 中共有的行，即在连接键（通常是列）上存在匹配的行。
- 只有当连接键在两个 DataFrame 中都存在时，才会保留该行。
- 结果中不包含任何来自输入 DataFrame 的缺失值。
join="outer"：
- join="outer"表示外连接（outer join）。这种连接会保留两个 DataFrame 中的所有行，并在连接键上根据需要进行匹配。
- 如果某一行在一个 DataFrame 中存在但在另一个 DataFrame 中不存在，仍然会保留。
- 结果中可能包含来自输入 DataFrame 的缺失值，因为不是所有行都会有匹配。

总之，join="inner"保留共有的行，而join="outer"保留所有行，填充缺失值。选择哪种连接方式取决于您的需求和数据的特点。

import pandas as pd
df1 = pd.DataFrame({
    "A": ["A0", "A1", "A2", "A3"],
    "B": ["B0", "B1", "B2", "B3"],
    "C": ["C0", "C1", "C2", "C3"],
    "D": ["D0", "D1", "D2", "D3"],
}, index=[0, 1, 2, 3],)
df4 = pd.DataFrame({
    "B": ["B2", "B3", "B6", "B7"],
    "D": ["D2", "D3", "D6", "D7"],
    "F": ["F2", "F3", "F6", "F7"],
}, index=[2, 3, 6, 7],)
# ignore_index=True 表示在进行合并时忽略原来的索引,重新生成一个 RangeIndex。
# sort=False 表示在合并时不排序,保持原来的顺序。默认值就是False
a=pd.concat([df1,df4],
            ignore_index=True,
            sort=False)
print(a)

# 如何添加数据
new_col=pd.Series(
    ["X0","X1","X2","X3"],
    name="X"
)
print(new_col)
print(pd.concat([df1,new_col],axis=1))

# 那如何向下添加呢
new_row=pd.Series(
    ["Y0","Y1","Y2","Y3"],
    index=["A","B","C","D"]
)
# new_row.to_frame()会把这个Series转化为单列的DataFrame
# 这里有个问题就是为什么要转换成DataFrame呢，直接转置不是更方便吗?
# 应该是因为Series的数据转置是没有作用的
print(pd.concat([df1,new_row.to_frame().T],ignore_index=True))

融合Merge

注意，concat 可以一次性合并多个 df，可以【左右】，也可以【上下】拼接，但是 merge 是用来针对两张 df 做【左右】拼接的。但是如果你真的懂 merge 的功能，也许你会更喜欢用 merge。

重要的事说三遍，merge 只做左右拼接。左右拼接。左右拼接。

import pandas as pd
left = pd.DataFrame({
    "key": ["K0", "K1", "K2", "K3"],
    "A": ["A0", "A1", "A2", "A3"],
    "B": ["B0", "B1", "B2", "B3"],
})


right = pd.DataFrame({
    "key": ["K0", "K1", "K2", "K3"],
    "C": ["C0", "C1", "C2", "C3"],
    "D": ["D0", "D1", "D2", "D3"],
})
# merge() 只在你指定的 col 作为 index 来合并，所以有一个 on="key" 参数。
# 而 concat 只在 index/column 上寻找统一索引
print(pd.merge(left,right,on="key"))

left = pd.DataFrame({
    "key1": ["K0", "K0", "K1", "K2"],
    "key2": ["K0", "K1", "K0", "K1"],
    "A": ["A0", "A1", "A2", "A3"],
    "B": ["B0", "B1", "B2", "B3"],
})


right = pd.DataFrame({
    "key1": ["K0", "K1", "K1", "K2"],
    "key2": ["K0", "K0", "K0", "K0"],
    "C": ["C0", "C1", "C2", "C3"],
    "D": ["D0", "D1", "D2", "D3"],
})
print(left,"\n",right)
# 也可以基于2个key,注意这里可以是1对多的关系
print(pd.merge(left,right,on=["key1","key2"]))

命令	含义	merge	concat
outer	集合2个df所有的key	√	√
inner	只集合2个df都有的key	√	√
left	只考虑左边df的所有key	√
right	只考虑右边df所有的key	√
cross	两个df的key的笛卡尔积	√

上述命令都可以通过how参数控制

import pandas as pd
left = pd.DataFrame({
    "key1": ["K0", "K0", "K1", "K2"],
    "key2": ["K0", "K1", "K0", "K1"],
    "A": ["A0", "A1", "A2", "A3"],
    "B": ["B0", "B1", "B2", "B3"],
})


right = pd.DataFrame({
    "key1": ["K0", "K1", "K1", "K2"],
    "key2": ["K0", "K0", "K0", "K0"],
    "C": ["C0", "C1", "C2", "C3"],
    "D": ["D0", "D1", "D2", "D3"],
})
print(left,"\n",right)
print(pd.merge(left,right,how="outer",on=["key1","key2"]))
print(pd.merge(left,right,how="inner",on=["key1","key2"]))

print(pd.merge(left,right,how="left",on=["key1","key2"]))
print(pd.merge(left,right,how="right",on=["key1","key2"]))

接入Join

明白了 merge，我就可以来说说 join 了。join 其实是 df.join()。但是它其实更像是 merge 和 concat 的某种结合体，merge() 是基于给定的某个 on=“key” 来拼接，而 df.join() 使用的 key 可以和 concat() 一样，都是 index，也可以像 merge() 带一个 on=“key” 去使用一个 column 作为索引。

import pandas as pd
left = pd.DataFrame({
    "A": ["A0", "A1", "A2"],
    "B": ["B0", "B1", "B2"]
}, index=["K0", "K1", "K2"])


right = pd.DataFrame({
    "C": ["C0", "C2", "C3"],
    "D": ["D0", "D2", "D3"]
}, index=["K0", "K2", "K3"])
# df.join() 的时候默认是使用 how="left" 的。你可以在上面尝试将 how 这个参数明确出来，写不同的 join 方式，
# 比如 ‘left’, ‘right’, ‘outer’, ‘inner’
print(left.join(right))

left = pd.DataFrame({
    "A": ["A0", "A1", "A2", "A3"],
    "B": ["B0", "B1", "B2", "B3"],
    "key": ["K0", "K1", "K0", "K1"],
})

right = pd.DataFrame({
    "C": ["C0", "C1"],
    "D": ["D0", "D1"]
}, index=["K0", "K1"])

print(left.join(right,on="key"))

数据分组

先建立数据

import pandas as pd
df=pd.DataFrame(
    [
        ("小红","哈利波特",80),
        ("小明","雷神",90),
        ("小红","哈利波特",70),
        ("小明","蜘蛛侠",60),

    ],
    columns=("人","人物","评价")
)
print(df)
# 获取了 Pandas 当中的 group 类
grouped=df.groupby("人")
# 看看这个 grouped 当中究竟是怎么组织我们的数据的
print(grouped.groups)

分组

print(df.iloc[grouped.groups["小红"]])
# 等价于
print(grouped.get_group("小红"))

调用分好的组

# 返回每一组的第一个数据
print(grouped.first())
# # 返回每一组的最后一个数据
print(grouped.last())
# 对每一组里面的数据进行sum操作
print(grouped.sum())

循环处理

# 会带着两个字段做循环。 一个是组名，一个是组数据
for name,group in grouped:
    print(name)
    print(group)

多从分组

对不只一个 column 的值进行分组

df=pd.DataFrame(
    [
        ("小红","哈利波特",80),
        ("小明","雷神",90),
        ("小红","哈利波特",70),
        ("小明","蜘蛛侠",60),

    ],
    columns=("人","人物","评价")
)
print(df.groupby(["人","人物"]).get_group(("小红","哈利波特")))

聚合计算

import numpy as np
grouped=df.groupby("人")
print(grouped.aggregate(np.sum))
# 做更多的聚合计算
# .agg() 是 .aggregate() 的缩写
print(grouped["评价"].agg([np.sum,np.mean,np.std]))
# 小技巧，用rename重新描述column
print(grouped["评价"].agg([np.sum,np.mean,np.std])
    .rename(columns={
        "sum":"和"  ,
        "mean":"平均值"  ,
        "std":"标准差"})
      )

grouped.aggregate(np.sum)和grouped.sum()似乎作用是一样的，感觉第二种方法更方便，我们为什么还要用第一种方法呢？
grouped.aggregate(np.sum) 和 grouped.sum() 都是用于对分组后的数据进行求和操作的方法，但它们在使用方式和一些细节上有一些区别。

使用方式：
- grouped.aggregate(np.sum)：这种方式使用了显式的聚合函数，你需要传递一个聚合函数给 aggregate 方法。在这种情况下，你明确指定了要使用的聚合函数，可以是 NumPy 中的 np.sum，也可以是其他自定义的聚合函数。
- grouped.sum()：这种方式更为简洁，不需要明确指定聚合函数，因为 Pandas 已经内置了求和操作。你只需要调用 .sum() 方法，Pandas 会自动应用求和操作到每个分组中的数据。
结果：
- 两者的结果是相同的，都会对分组后的数据进行求和操作。每个分组将被独立地求和，然后返回一个包含每个分组求和结果的 DataFrame 或 Series。
可读性：
- grouped.sum() 更为简洁和易读，因为它是 Pandas 的内置方法，常见且容易理解。
- grouped.aggregate(np.sum) 的方式可能在需要使用自定义聚合函数或进行更复杂的聚合操作时才会更有用。

总之，如果只是对分组后的数据进行求和操作，并且不需要自定义聚合函数，建议使用 grouped.sum() 方法，因为它更简洁和易读。如果需要进行其他自定义聚合操作，可以使用 grouped.aggregate() 并传递适当的聚合函数。

多索引数据

后面再补充

小练习

疫情数据分析

数据一览

import pandas as pd
df=pd.read_csv("covid19_day_wise.csv")
print(df.head())

获取 2020 年 2 月 3 日的所有数据

print(df["Date"][:4])

print(df[df["Date"]=="2020-02-03"])

2020 年 1 月 24 日之前的累积确诊病例有多少个？

confirmed0124=df.loc[df["Date"]=="2020-01-24","Confirmed"]
print(confirmed0124)
print(confirmed0124.values)

2020 年 7 月 23 日的新增死亡数是多少？

result=df.loc[df["Date"]=="2020-07-23","New deaths"]
print(result.values)

从 1 月 25 日到 7 月 22 日，一共增长了多少确诊病例？

date=pd.to_datetime(df["Date"])
print(date)
date_range=(date>="2020-01-25")&(date<="2020-07-22")
new_cases=df.loc[date_range,"New cases"]
overall =new_cases.sum()
print(overall)

每天新增确诊数和新恢复数的比例？平均比例，标准差各是多少？

ratio=df["New cases"]/df["New recovered"]
print(ratio[:5])

打印输出，看下NaN产生的原因

print(df.loc[0,"New cases"])
print(df.loc[0,"New recovered"])

原来是出现了0/0的情况，我们把 New recovered 为零的数都剔除掉

not_zero_mask=df["New recovered"]!=0
ratio=df.loc[not_zero_mask,"New cases"]/df.loc[not_zero_mask,"New recovered"]

ratio_mean=ratio.mean()
ratio_std=ratio.std()
print(ratio_mean,ratio_std)

画图展示新增确诊的变化曲线，画图展示死亡率的变化曲线

import matplotlib.pyplot as plt
df["New cases"].plot()
plt.show()
df["Deaths / 100 Cases"].plot()
plt.show()

机器学习数据预处理

后续补充

你可能感兴趣的:(pandas)

使用scikit-learn实现线性回归对自定义数据集进行拟合 Luzem0319 scikit-learn 线性回归 python
1.引入必要的库首先，需要引入必要的库。scikit-learn提供了强大的机器学习工具，pandas和numpy则用于数据处理，matplotlib用于结果的可视化。importpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLinear
使用PyTorch实现逻辑回归：从训练到模型保存与加载 Luzem0319 pytorch 逻辑回归人工智能
1.引入必要的库首先，需要引入必要的库。PyTorch用于构建和训练模型，pandas和numpy用于数据处理，matplotlib用于结果的可视化。importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,TensorDatasetimportpandasaspdimport
5_建立可比字典对象【“依存句法”之“MD&A分析”】 Zephrus·Coder python
importpandasaspdimportosimportopenpyxlimportre###建立各类型词库#建立“宏观”词库Mac=[]Mac_path="D:/【Pycharm阶段性学习文件】/依存句法/txt_宏观词典.txt"withopen(Mac_path,'r',encoding='utf-8')asMac_file:forlineinMac_file:#去除行尾的换行符或者制表
度量年报中MD&A部分的信息含量的Python代码 Xiaorui~ 文本分析会计学 python pandas 开发语言
研究需求：度量年报中管理层讨论与分析部分的信息含量的代码，环境为python3，可更改年报的选取时间。代码实现：首先，需要安装tika和pandas库，tika用于解析PDF文件，pandas用于数据处理。可以使用以下命令进行安装：!pipinstalltika!pipinstallpandas然后，需要下载年报的PDF文件，并将其放置在指定路径下。接下来，可以使用以下代码对管理层讨论与分析部分进
Python酷库之旅-第三方库Pandas(138) 神奇夜光杯 python pandas 开发语言人工智能标准库及第三方库 excel 学习与成长
目录一、用法精讲621、pandas.plotting.lag_plot方法621-1、语法621-2、参数621-3、功能621-4、返回值621-5、说明621-6、用法621-6-1、数据准备621-6-2、代码示例621-6-3、结果输出622、pandas.plotting.parallel_coordinates方法622-1、语法622-2、参数622-3、功能622-4、返回值62
python绘图实例 charlie_wang007 python python
pythonPlt实例背景：业务的健身数据，有一个字段是其他附加信息，格式是json，需要查出该字段，解出json，拿到目标数据，按要求聚合，如燃脂是0.25的有几个目的：要验证运营页面的概览数据是否正确策略：从表中查出数据，格式化，用plt绘制，与被测页面的图形数据对比代码如下：#coding:utf8importMySQLdbimportjsonimportpandasaspdimportnu
flask+layui学生信息管理系统元宇宙中的程序员 flask layui python
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。一、数据库建模1、创建数据模型classStudentORM(db.Model):stu_id=d
Pandas基础05（数据的映射/replace()、rename()、map()、apply() 和 transform()） XYX的Blog 数据分析与可视化 pandas
数据映射：使用Pandas进行高效的数据处理在数据分析中，我们经常需要对数据进行处理、转换和映射。Pandas提供了许多强大的方法来帮助我们高效地完成这些任务。本文将介绍几个常用的映射函数，并展示它们在实际数据处理中的应用。具体来说，我们将介绍replace()、rename()、map()、apply()和transform()函数，这些都是非常常见的用于数据映射的操作。1.replace()函
Pandas基础01（Series创建/索引/切片/属性/方法/运算） XYX的Blog 数据分析与可视化 pandas
Pandas基础Pandas是一个功能强大的数据分析和操作库，主要用于处理和分析表格型数据（例如：CSV、Excel、SQL数据库等）。它建立在NumPy基础上，提供了许多便捷的数据结构，主要是Series和DataFrame，用于处理和分析数据。3.1Series数据结构Series是一种类似于一维数组的对象，它包含了一组数据（可以是整数、浮点数等）以及与之相关的标签（索引）。可以将Series
Mongodb 慢查询日志分析 - 1 草明 mongodb mongodb python 数据库
Mongodb慢查询日志分析使用mloginfo处理过的日志会在控制台输出,显示还是比较友好的.但是如果内容较大,就不方便查看了,如果可以导入到excel就比较方便筛选/排序.但是mloginfo并没有提供生成到excel的功能.可以通过一个python脚本辅助生成:importpandasaspdimportre#定义文件路径mloginfo_output_file="mloginfo_outp
python制作日历_Python如何绘制日历图和热力图 weixin_39692847 python制作日历
本文以2019年全国各城市的空气质量观测数据为例，利用matplotlib、calmap、pyecharts绘制日历图和热力图。在绘图之前先利用pandas对空气质量数据进行处理。数据处理从网站下载的数据为逐小时数据，每天一个文件。如果要绘制全年的日历图或者热图，首先要将所有的数据进行合并处理。下载好数据之后，将数据解压到当前目录的2019文件夹内，然后处理数据：importglobfromdat
自定义数据集使用scikit-learn中的包实现线性回归方法对其进行拟合灵封～ scikit-learn 线性回归 python
一、导入必要的库importpandasaspdfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLinearRegressionfromsklearn.metricsimportmean_squared_error,r2_score二、加载自定义数据集#创建自定义数据集#假设我们有一个简单
使用scikit-learn中的KNN包实现对鸢尾花数据集的预测。灵封～ scikit-learn 机器学习人工智能
导入必要的库和数据集#导入鸢尾花数据集fromsklearn.datasetsimportload_iris#数据化可视包importpandasaspdfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportMinMaxScaler,StandardScalerfromsklearn.neig
python 基本知识达达玲玲 python 开发语言
Python：背景知识及环境安装什么是Python？Python是一种解释型、面向对象的高级编程语言。它的设计哲学强调代码的可读性和简洁性，因此被广泛应用于各种领域，包括：数据科学与机器学习：NumPy,Pandas,Matplotlib,Scikit-learn等库让Python成为了数据分析和机器学习的首选语言。Web开发：Django,Flask等框架提供了高效的Web开发解决方案。自动化：
python 八文件操作读写.doc 空灵宫（Ethereal Palace） python python 开发语言
Python操作Word文档可以使用以下库：python-docx：用于处理.docx文件，支持读取和写入操作。pywin32：用于操作MicrosoftWord应用程序（适用于.doc和.docx文件，但仅在Windows上可用）。pandas等库可结合用于数据转换。以下是如何使用python-docx读写Word文档的详细教程：1.安装python-docx在开始之前，需要安装库：pipins
python 七文件操作读写Excel 空灵宫（Ethereal Palace） python python excel 开发语言
在Python中，处理Excel文件通常使用以下库：openpyxl：支持读取和写入Excel2007+（.xlsx）文件。pandas：结合强大的数据处理能力，适合读取和操作Excel文件。xlrd/xlwt：支持旧版Excel（.xls），但已逐渐被替代。以下是使用openpyxl和pandas操作Excel的详细教程。1.使用openpyxl处理Excelopenpyxl是一个强大的库，支持
python缺失值处理 fillna_python 处理缺失值 weixin_39888018 python缺失值处理 fillna
数据缺失主要包括记录缺失和字段信息缺失等情况，其对数据分析会有较大影响，导致结果不确定性更加显著缺失值的处理：删除记录/数据插补/不处理1.判断是否有缺失数据importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltfromscipyimportstats%matplotlibinlines=pd.Series([12,33,45,23,
python在统计专业的应用_Python在计量经济与统计学中的应用 weixin_39851457 python在统计专业的应用
PythonforEconometricsandStatistics(Python在计量经济与统计学中的应用)【点击链接进入主页】。这套笔记将重点介绍Python在计量经济学与统计分析中的应用。内容涵盖Python基本数据类型，Numpy科学运算，Pandas数据分析，统计分析，蒙特卡洛过程，最优化过程，数据可视化功能，以及在计量经济与统计模型中的应用等。随后还将陆续推出统计学习在在量化金融中的应
pandas合并groupby_遍历Pandas Groupby和合并DataFrames weixin_39616367 pandas合并groupby
Thisseemslikeitshouldbestraightforwardbutisstumpingme.ReallylovebeingabletoiteratethroughthegroupsofagroupbyoperationandIamgettingtheresultIwantfromthegroupbybutIamunabletomergethefinalresultintooneda
python代码实现了一个基于储备库计算的时间序列预测系统 go5463158465 python 算法深度学习 python numpy 开发语言
#!/usr/bin/envpython#coding:utf-8importnumpyasnpimportscipy.sparseassparsefromscipy.sparseimportlinalgimportpandasaspd#globalvariables#Thiswillchangetheinitialconditionused.Currentlyitstartsfromthefir
Python Pandas 数据 GroupBy 分组操作详解：分组、聚合与遍历敲代码不忘补水一起学 Python pandas python numpy matplotlib 开发语言数据分析大数据
PythonPandas数据GroupBy分组操作详解：分组、聚合与遍历本文详细介绍了Pandas中数据分组（GroupBy）的常用操作，包括按单列和多列分组、分组后的数据访问与聚合计算。通过实例讲解了如何使用groupby()方法对数据进行分组，并展示了如何使用first()、last()等方法获取分组后的特定数据。此外，还介绍了如何使用agg()方法进行多种聚合计算，如求和、均值和标准差，及如
【Python进阶】5步掌握Pandas数据结构，你真的学会了吗？墨瑾轩 Python入门~精通 python pandas 数据结构
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣5步掌握Pandas数据结构，你真的学会了吗？引言❓亲爱的小伙伴们，你们有没有遇到过这样的情况：在处理结构化数据时，总是觉得Python内置的列表和字典不够灵活？别担心，今天我们就来一场“Pandas数据结构大挑战”，手把手教你如何使用Pandas的两大核心数
Python数据获取：从基础到实践，一场数据探索之旅傻啦嘿哟关于python那些事儿 python oracle 开发语言
目录一、引言二、理解数据获取的基本概念三、使用Python进行网络数据抓取3.1基础工具：requests库3.2解析HTML：BeautifulSoup库3.3实战案例：抓取网页新闻列表四、从文件中读取数据4.1使用pandas读取CSV文件4.2读取Excel文件五、数据库数据访问六、数据清洗与预处理6.1处理缺失值6.2处理异常值6.3处理重复值6.4数据格式化与编码6.5数据标准化与归一化
Python数据分析之共享单车及建模探索(CLV建模、可视化) weixin_46205203 笔记 python 数据分析数据建模
Python数据分析之共享单车及建模探索(CLV建模、可视化)开发环境4.3【开发平台及环境】Windons10教育版Python3.7IntelliJIDEA2018.2.1/PyCharmGoogeChrome数据清洗分析模块pandas，numpy可视化模块matplotlib上期原创：Python数据分析之智联招聘职位分析完整项目（数据爬取,数据分析,数据可视化）链接:https://bl
python实战项目27：boss直聘招聘数据可视化分析 wp_tao Python副业接单实战项目信息可视化 python 数据分析
boss直聘招聘数据可视化分析一、数据预处理二、数据可视化三、完整代码一、数据预处理在上一篇博客中，笔者已经详细介绍了使用selenium爬取南昌市web前端工程师的招聘岗位数据，数据格式如下：这里主要对薪水列进行处理，为方便处理，将日薪和周薪的数据删除，将带有13薪和14薪的数据也删除，计算出最低薪资、最高薪资和平均薪资三列。数据预处理代码如下：importpandasaspddf=pd.rea
【2024最新】python第三方库的概述——功能、特点西西很呆 python 开发语言源代码管理编辑器计算机网络 scrapy pandas
文章目录一、网络请求与爬虫Requests：Scrapy：BeautifulSoup：二、数据处理与分析NumPy：Pandas：SQLAlchemy：SciPy：matplotlib：Seaborn：三、Web开发Flask：Django：四、图像处理Pillow（PILFork）：OpenCV-Python：五、游戏开发Pygame：Pyglet：六、自然语言处理NLTK（NaturalLan
【Pandas】pandas Series autocorr liuweidong0802 Pandas Series pandas
#Pandas2.2Series##Computationsdescriptivestats|方法|描述||-|:-------||Series.abs()|用于计算`Series`中每个元素的绝对值||Series.all()|用于检查`Series`中的所有元素是否都为`True`或非零值（对于数值型数据）||Series.any()|用于检查`Series`中是否至少有一个元素为`True`
Python酷库之旅-第三方库Pandas(049) 神奇夜光杯 python pandas 开发语言标准库及第三方库人工智能 excel 学习与成长
目录一、用法精讲176、pandas.Series.rank方法176-1、语法176-2、参数176-3、功能176-4、返回值176-5、说明176-6、用法176-6-1、数据准备176-6-2、代码示例176-6-3、结果输出177、pandas.Series.sem方法177-1、语法177-2、参数177-3、功能177-4、返回值177-5、说明177-6、用法177-6-1、数据准
openpyxl表格样式设置 ꧁ᝰ苏苏ᝰ꧂ Python自动化办公 python
importpandasaspdfromopenpyxlimportWorkbookfromopenpyxlimportload_workbookfromopenpyxl.stylesimportAlignment,Font,Side,Borderdefmm(wb):forsheet_nameinwb.sheetnames:ws=wb[sheet_name]maxrows=ws.max_row#获
6 回归集成：xgb、lgb、cat 汀沿河 #2比赛常用的代码回归数据挖掘人工智能
这个代码是从kaggle上拷贝过来的：如何使用三个树模型模块化训练；文本特征如何做，如何挖掘；时间特征的处理；模型权重集成；importpandasaspdimportmathimportnumpyasnpimportjoblibimportoptunafromlightgbmimportLGBMRegressorfromcatboostimportCatBoostRegressorfromxgb
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p