Alex好好干饭

pandas-task07-缺失数据.md

文章目录

缺失数据
- 一、缺失值的统计和删除
- - 1. 缺失信息的统计
  - 2. 缺失信息的删除
- 二、缺失值的填充和插值
- - 1. 利用fillna进行填充
  - - 练一练
  - 2. 插值函数
  - - 扩充知识
- 三、Nullable类型
- - 1. 缺失记号及其缺陷
  - 2. Nullable类型的性质
  - 3. 缺失数据的计算和分组
- 四、练习(待完成)
- - Ex1：缺失值与类别的相关性检验
  - Ex2：用回归模型解决分类问题

缺失数据

在数据处理过程种我们经常会遇到缺失数据如NaN或None这样的值，我们一般会对这些数据单独处理，删除或者修改或者忽略等，下面分不同情况讨论下如何处理缺失数据。
下面操作以此表格为基础，表格如下

df = pd.read_csv('data/learn_pandas.csv',
                     usecols = ['Grade', 'Name', 'Gender', 'Height',
                                'Weight', 'Transfer'])
df.head()

	Grade	Name	Gender	Height	Weight	Transfer
0	Freshman	Gaopeng Yang	Female	158.9	46	N
1	Freshman	Changqiang You	Male	166.5	70	N
2	Senior	Mei Sun	Male	188.9	89	N
3	Sophomore	Xiaojuan Sun	Female	nan	41	N
4	Sophomore	Gaojuan You	Male	174	74	N

看下前三个和最后三个的空值情况，都不为空。

	Grade	Name	Gender	Height	Weight	Transfer
0	0	0	0	0	0	0
1	0	0	0	0	0	0
2	0	0	0	0	0	0
197	0	0	0	0	0	0
198	0	0	0	0	0	0
199	0	0	0	0	0	0

pd.concat([df.isna().head(3),df.isna().tail(3)])

一、缺失值的统计和删除

1. 缺失信息的统计

缺失数据可以使用 isna 或 isnull （两个函数没有区别）来查看每个单元格是否缺失，结合sum()和mean()可以查看某缺失值数量及占比情况：

print(df.isna().sum())
print(df.isna().mean())

空值数量

	0
Grade	0
Name	0
Gender	0
Height	17
Weight	11
Transfer	12

空值占比情况

	0
Grade	0
Name	0
Gender	0
Height	0.085
Weight	0.055
Transfer	0.06

如果想要查看某一列缺失或者非缺失的行，可以利用 Series 上的 isna 或者 notna 进行布尔索引。例如，查看身高缺失的行：

df[df.Height.isna()].head()

	Grade	Name	Gender	Height	Weight	Transfer
3	Sophomore	Xiaojuan Sun	Female	nan	41	N
12	Senior	Peng You	Female	nan	48	nan
26	Junior	Yanli You	Female	nan	48	N
36	Freshman	Xiaojuan Qin	Male	nan	79	Y
60	Freshman	Yanpeng Lv	Male	nan	65	N

打印一下df.Height.isna()看看上面df传入的是什么

df.Height.isna()

可以看到本质传入的是一个bool型的Series，筛选出非空的数据（索引为Ture）。那么我们试一下传入一个bool型的list是不是一样的效果。

test1=[True for i in range(1,len(df))]
test1.append(False)
df[test1].tail()

	Grade	Name	Gender	Height	Weight	Transfer
194	Senior	Yanmei Qian	Female	160.3	49	nan
195	Junior	Xiaojuan Sun	Female	153.9	46	N
196	Senior	Li Zhao	Female	160.9	50	N
197	Senior	Chengqiang Chu	Female	153.9	45	N
198	Senior	Chengmei Shen	Male	175.3	71	N

可以看到效果完全一致，我们传入了一个长度和df相同的bool型list,除最后一共元素为False外全为True,成功过滤掉最后一行。

如果想要同时对几个列，检索出全部为缺失或者至少有一个缺失或者没有缺失的行，可以使用 isna, notna 和 any, all 的组合。例如，对身高、体重和转系情况这3列分别进行这三种情况的检索：

sub_set = df[['Height', 'Weight', 'Transfer']]
df[sub_set.isna().all(1)]# 全部缺失
df[sub_set.isna().any(1)].head() # 至少有一个缺失
df[sub_set.notna().all(1)].head() # 没有缺失

all的作用是判断指定轴的所有元素是否都为真，返回bool型的Series。any是只要有真就返回True.
全部缺失情况

	Grade	Name	Gender	Height	Weight	Transfer
102	Junior	Chengli Zhao	Male	nan	nan	nan

至少有一个缺失

	Grade	Name	Gender	Height	Weight	Transfer
3	Sophomore	Xiaojuan Sun	Female	nan	41	N
9	Junior	Juan Xu	Female	164.8	nan	N
12	Senior	Peng You	Female	nan	48	nan
21	Senior	Xiaopeng Shen	Male	166	62	nan
26	Junior	Yanli You	Female	nan	48	N

没有缺失

	Grade	Name	Gender	Height	Weight	Transfer
0	Freshman	Gaopeng Yang	Female	158.9	46	N
1	Freshman	Changqiang You	Male	166.5	70	N
2	Senior	Mei Sun	Male	188.9	89	N
4	Sophomore	Gaojuan You	Male	174	74	N
5	Freshman	Xiaoli Qian	Female	158	51	N

2. 缺失信息的删除

数据处理中经常需要根据缺失值的大小、比例或其他特征来进行行样本或列特征的删除， pandas 中提供了 dropna 函数来进行操作。

dropna 的主要参数为轴方向 axis （默认为0，即删除行）、删除方式 how 、删除的非缺失值个数阈值 thresh—threshold阈值的简写 （非缺失值没有达到这个数量的相应维度会被删除）、备选的删除子集 subset ，其中 how 主要有 any 和 all 两种参数可以选择。

例如，删除身高体重至少有一个缺失的行：

res=df.dropna(axis=0,subset =['Height','Weight'],how='any')
res.shape

输出为(174, 6)，删掉了26行数据。

例如，删除超过15个缺失值的列：

res=df.dropna(axis=1,thresh=df.shape[0]-15)
res.shape

输出(200, 5) 身高被删除。

当然，不用 dropna 同样是可行的，例如上述的两个操作，也可以使用布尔索引来完成：

res1 = df.loc[df[['Height', 'Weight']].notna().all(1)]
res2 = df.loc[:, ~(df.isna().sum()>15)]

二、缺失值的填充和插值

1. 利用fillna进行填充

在 fillna 中有三个参数是常用的： value, method, limit 。其中， value 为填充值，可以是标量，也可以是索引到元素的字典映射； method 为填充方法，有用前面的元素填充 ffill 和用后面的元素填充 bfill 两种类型， limit 参数表示连续缺失值的最大填充次数。

s = pd.Series([np.nan, 1, np.nan, np.nan, 2, np.nan],
                  list('aaabcd'))
s.fillna(method='ffill', limit=1) # 用前面的值向后填充
s.ffill(limit=1) # 和上面的等价
s.fillna(s.mean())

注意含有缺失值的列中，计算均值时缺失值是不计算的，如果希望含有缺失值的行都不计入计算过程，可以事先采用上面提到的统计和删除操作进行预处理。如果希望计入计算，可以使用对应规则对缺失值填充。
有时为了更加合理地填充，需要先进行分组后再操作。例如，根据年级进行身高的均值填充：

df.Height=df.groupby('Grade')['Height'].transform(
                         lambda x: x.fillna(x.mean()))
df=df.round({
     'Height':2})
df.head(5)

	Grade	Name	Gender	Height	Weight	Transfer
0	Freshman	Gaopeng Yang	Female	158.9	46	N
1	Freshman	Changqiang You	Male	166.5	70	N
2	Senior	Mei Sun	Male	188.9	89	N
3	Sophomore	Xiaojuan Sun	Female	163.08	41	N
4	Sophomore	Gaojuan You	Male	174	74	N

使用上述操作，对不同年级学生的缺失值用相应年级非缺失值均值进行填充。

练一练

对一个序列以如下规则填充缺失值：如果单独出现的缺失值，就用前后均值填充，如果连续出现的缺失值就不填充，即序列[1, NaN, 3, NaN, NaN]填充后为[1, 2, 3, NaN, NaN]，请利用 fillna 函数实现。（提示：利用 limit 参数）

实现方法：想了好久脑壳疼，刚开始还想到了之前的滑窗和今天学到的结合，复习了一下滑窗发现好像没用。后面想到可以利用两次fillna，一次向前，一次向后，然后取均值的方法得到结果，试验了下果然可行。
测试的例子如下：

s = pd.Series([1,np.nan, 3, np.nan,np.nan, 4],
                  list('aabcdd'))
s

	0
a	1
a	nan
b	3
c	nan
d	nan
d	4

实现方法：

s1 = s.fillna(method='ffill',limit=1)
s2 = s.fillna(method='backfill',limit=1)
s=(s1+s2)/2
s

	0
a	1
a	2
b	3
c	nan
d	nan
d	4

2. 插值函数

在关于 interpolate 函数的文档描述中，列举了许多插值法，包括了大量 Scipy 中的方法。由于很多插值方法涉及到比较复杂的数学知识，因此这里只讨论比较常用且简单的三类情况，即线性插值、最近邻插值和索引插值。

对于 interpolate 而言，除了插值方法（默认为 linear 线性插值）之外，有与 fillna 类似的两个常用参数，一个是控制方向的 limit_direction ，另一个是控制最大连续缺失值插值个数的 limit 。其中，限制插值的方向默认为 forward ，这与 fillna 的 method 中的 ffill 是类似的，若想要后向限制插值或者双向限制插值可以指定为 backward 或 both 。

扩充知识

这里看得不是很明白，啥是线性插值啊？去找了英文文档看了。
所谓线性插值是一种针对一维数据的插值方法，它根据一维数据序列中需要插值的点的左右邻近两个数据点来进行数值的估计。当然了它不是求这两个点数据大小的平均值（当然也有求平均值的情况），而是根据到这两个点的距离来分配它们的比重的。
图片比较容易看懂。

公式：

因为需要插入的位置前后都有数据才方便插，所以对于插入位置左右只有一个数据的情况（比如上面代码的例子），就根据插入方向向前/后复制。

线性插值的例子：

s = pd.Series([np.nan, np.nan, 1,
                   np.nan, np.nan, np.nan,
                   2, np.nan, np.nan])
s.values
# 输出为array([nan, nan,  1., nan, nan, nan,  2., nan, nan])

例如，在默认线性插值法下分别进行 backward 和双向限制插值，同时限制最大连续条数为1：

res = s.interpolate(limit_direction='backward', limit=1)
res.values
#输出为array([ nan, 1.  , 1.  ,  nan,  nan, 1.75, 2.  ,  nan,  nan])

res = s.interpolate(limit_direction='both', limit=1)
res.values
#输出为array([ nan, 1.  , 1.  , 1.25,  nan, 1.75, 2.  , 2.  ,  nan])

第二种常见的插值是最近邻插补，即缺失值的元素和离它最近的非缺失值元素一样：

s.interpolate('nearest').values
# 输出为array([nan, nan,  1.,  1.,  1.,  2.,  2., nan, nan])

这种只在两端非缺失的位置插，距离两端位置一样情况按前一个复制插。

最后来介绍索引插值，即根据索引大小进行线性插值。例如，构造不等间距的索引进行演示：

In [33]: s = pd.Series([0,np.nan,10],index=[0,1,10])

In [34]: s
Out[34]: 
0      0.0
1      NaN
10    10.0
dtype: float64

In [35]: s.interpolate() # 默认的线性插值，等价于计算中点的值
Out[35]: 
0      0.0
1      5.0
10    10.0
dtype: float64

In [36]: s.interpolate(method='index') # 和索引有关的线性插值，计算相应索引大小对应的值
Out[36]: 
0      0.0
1      1.0
10    10.0
dtype: float64

同时，这种方法对于时间戳索引也是可以使用的，有关时间序列的其他话题会在第十章进行讨论，这里举一个简单的例子：

In [37]: s = pd.Series([0,np.nan,10],
   ....:               index=pd.to_datetime(['20200101',
   ....:                                     '20200102',
   ....:                                     '20200111']))
   ....: 

In [38]: s
Out[38]: 
2020-01-01     0.0
2020-01-02     NaN
2020-01-11    10.0
dtype: float64

In [39]: s.interpolate()
Out[39]: 
2020-01-01     0.0
2020-01-02     5.0
2020-01-11    10.0
dtype: float64

In [40]: s.interpolate(method='index')
Out[40]: 
2020-01-01     0.0
2020-01-02     1.0
2020-01-11    10.0
dtype: float64

三、Nullable类型

1. 缺失记号及其缺陷

在 python 中的缺失值用 None 表示，该元素除了等于自己本身之外，与其他任何元素不相等：

In [41]: None == None
Out[41]: True

In [42]: None == False
Out[42]: False

In [43]: None == []
Out[43]: False

In [44]: None == ''
Out[44]: False

在 numpy 中利用 np.nan 来表示缺失值，该元素除了不和其他任何元素相等之外，和自身的比较结果也返回 False ：

In [45]: np.nan == np.nan
Out[45]: False

In [46]: np.nan == None
Out[46]: False

In [47]: np.nan == False
Out[47]: False

值得注意的是，虽然在对缺失序列或表格的元素进行比较操作的时候， np.nan 的对应位置会返回 False ，但是在使用 equals 函数进行两张表或两个序列的相同性检验时，会自动跳过两侧表都是缺失值的位置，直接返回 True ：

s1 = pd.Series([1, np.nan])
s2 = pd.Series([1, 2])
s3 = pd.Series([1, np.nan])

print(s1 == 1)
print(s1 == s3)
print(s1.equals(s3))

前两个都输出如下
0 True
1 False
dtype: bool
第三个输出为True

在时间序列的对象中， pandas 利用 pd.NaT 来指代缺失值，它的作用和 np.nan 是一致的（时间序列的对象和构造将在第十章讨论）：

In [54]: pd.to_timedelta(['30s', np.nan]) # Timedelta中的NaT
Out[54]: TimedeltaIndex(['0 days 00:00:30', NaT], dtype='timedelta64[ns]', freq=None)

In [55]: pd.to_datetime(['20200101', np.nan]) # Datetime中的NaT
Out[55]: DatetimeIndex(['2020-01-01', 'NaT'], dtype='datetime64[ns]', freq=None)

那么为什么要引入 pd.NaT 来表示时间对象中的缺失呢？仍然以 np.nan 的形式存放会有什么问题？在 pandas 中可以看到 object 类型的对象，而 object 是一种混杂对象类型，如果出现了多个类型的元素同时存储在 Series 中，它的类型就会变成 object 。例如，同时存放整数和字符串的列表：

pd.Series([1, 'two']).dtype

dtype(‘O’)
NaT 问题的根源来自于 np.nan 的本身是一种浮点类型，而如果浮点和时间类型混合存储，如果不设计新的内置缺失类型来处理，就会变成含糊不清的 object 类型，这显然是不希望看到的。

In [57]: type(np.nan)
Out[57]: float

同时，由于 np.nan 的浮点性质，如果在一个整数的 Series 中出现缺失，那么其类型会转变为 float64 ；而如果在一个布尔类型的序列中出现缺失，那么其类型就会转为 object 而不是 bool ：

In [58]: pd.Series([1, np.nan]).dtype
Out[58]: dtype('float64')

In [59]: pd.Series([True, False, np.nan]).dtype
Out[59]: dtype('O')

因此，在进入 1.0.0 版本后， pandas 尝试设计了一种新的缺失类型 pd.NA 以及三种 Nullable 序列类型来应对这些缺陷，它们分别是 Int, boolean 和 string 。

2. Nullable类型的性质

从字面意义上看 Nullable 就是可空的，言下之意就是序列类型不受缺失值的影响。例如，在上述三个 Nullable 类型中存储缺失值，都会转为 pandas 内置的 pd.NA ：

In [60]: pd.Series([np.nan, 1], dtype = 'Int64') # "i"是大写的
Out[60]: 
0    <NA>
1       1
dtype: Int64

In [61]: pd.Series([np.nan, True], dtype = 'boolean')
Out[61]: 
0    <NA>
1    True
dtype: boolean

In [62]: pd.Series([np.nan, 'my_str'], dtype = 'string')
Out[62]: 
0      <NA>
1    my_str
dtype: string

在 Int 的序列中，返回的结果会尽可能地成为 Nullable 的类型,操作的时候缺失值保持不变。

对于 boolean 类型的序列而言，其和 bool 序列的行为主要有两点区别：

第一点是带有缺失的布尔列表无法进行索引器中的选择，而 boolean 会把缺失值看作 False ：

s = pd.Series(['a', 'b'])
s_boolean = pd.Series([True, np.nan],dtype='boolean')
 #s_boolean 不指定类型下面的索引会报错
s[s_boolean]

第二点是在进行逻辑运算时， bool 类型在缺失处返回的永远是 False ，而 boolean 会根据逻辑运算是否能确定唯一结果来返回相应的值。那什么叫能否确定唯一结果呢？举个简单例子： True | pd.NA 中无论缺失值为什么值，必然返回 True ； False | pd.NA 中的结果会根据缺失值取值的不同而变化，此时返回 pd.NA ； False & pd.NA 中无论缺失值为什么值，必然返回 False 。

In [70]: s_boolean & True
Out[70]: 
0    True
1    <NA>
dtype: boolean

In [71]: s_boolean | True
Out[71]: 
0    True
1    True
dtype: boolean

In [72]: ~s_boolean # 取反操作同样是无法唯一地判断缺失结果
Out[72]: 
0    False
1     <NA>
dtype: boolean

关于 string 类型的具体性质将在下一章文本数据中进行讨论。

一般在实际数据处理时，可以在数据集读入后，先通过 convert_dtypes 转为 Nullable 类型：

df = pd.read_csv('data/learn_pandas.csv')
df = df.convert_dtypes()
df.dtypes

	0
School	string
Grade	string
Name	string
Gender	string
Height	float64
Weight	Int64
Transfer	string
Test_Number	Int64
Test_Date	string
Time_Record	string

3. 缺失数据的计算和分组

当调用函数 sum, prob 使用加法和乘法的时候，缺失数据等价于被分别视作0和1，即不改变原来的计算结果。
当使用累计函数时，会自动跳过缺失值所处的位置。
下面是奇奇怪怪的比较结果：

In [80]: np.nan == 0
Out[80]: False

In [81]: pd.NA == 0
Out[81]: <NA>

In [82]: np.nan > 0
Out[82]: False

In [83]: pd.NA > 0
Out[83]: <NA>

In [84]: np.nan + 1
Out[84]: nan

In [85]: np.log(np.nan)
Out[85]: nan

In [86]: np.add(np.nan, 1)
Out[86]: nan

In [87]: np.nan ** 0
Out[87]: 1.0

In [88]: pd.NA ** 0
Out[88]: 1

In [89]: 1 ** np.nan
Out[89]: 1.0

In [90]: 1 ** pd.NA
Out[90]: 1

对于一些函数而言，缺失可以作为一个类别处理，例如在 groupby, get_dummies 中可以设置相应的参数来进行增加缺失类别：

df_nan = pd.DataFrame({
     'category':['a','a','b',np.nan,np.nan],
                           'value':[1,3,5,7,9]})
df_nan

	category	value
0	a	1
1	a	3
2	b	5
3	nan	7
4	nan	9

df_nan.groupby('category',
                    dropna=False)['value'].mean()

category	value
a	2
b	5
nan	8

pd.get_dummies(df_nan.category, dummy_na=True)

	a	b	nan
0	1	0	0
1	1	0	0
2	0	1	0
3	0	0	1
4	0	0	1

四、练习(待完成)

Ex1：缺失值与类别的相关性检验

在数据处理中，含有过多缺失值的列往往会被删除，除非缺失情况与标签强相关。下面有一份关于二分类问题的数据集，其中 X_1, X_2 为特征变量， y 为二分类标签。

事实上，有时缺失值出现或者不出现本身就是一种特征，并且在一些场合下可能与标签的正负是相关的。关于缺失出现与否和标签的正负性，在统计学中可以利用卡方检验来断言它们是否存在相关性。按照特征缺失的正例、特征缺失的负例、特征不缺失的正例、特征不缺失的负例，可以分为四种情况，设它们分别对应的样例数为 n11,n10,n01,n00 。假若它们是不相关的，那么特征缺失中正例的理论值，就应该接近于特征缺失总数 × 总体正例的比例，即：
$E_{11} = n_{11} \approx (n_{11}+n_{10})\times\frac{n_{11}+n_{01}}{n_{11}+n_{10}+n_{01}+n_{00}} = F_{11}$
其他的三种情况同理。现将实际值和理论值分别记作 $E_{ij}, F_{ij}$ ，那么希望下面的统计量越小越好，即代表实际值接近不相关情况的理论值：
$\sum_{i\in \{0,1\}}\sum_{j\in \{0,1\}} \frac{(E_{ij}-F_{ij})^2}{F_{ij}}$
可以证明上面的统计量近似服从自由度为 1 的卡方分布，即 $S\overset{\cdot}{\sim} \chi^2(1)$ 。因此，可通过计算 $P(\chi^2(1)>S)$ 的概率来进行相关性的判别，一般认为当此概率小于 0.05 时缺失情况与标签正负存在相关关系，即不相关条件下的理论值与实际值相差较大。

上面所说的概率即为统计学上关于 2×2 列联表检验问题的 p 值，它可以通过 scipy.stats.chi2(S, 1) 得到。请根据上面的材料，分别对 X_1, X_2 列进行检验。

Ex2：用回归模型解决分类问题

KNN 是一种监督式学习模型，既可以解决回归问题，又可以解决分类问题。对于分类变量，利用 KNN 分类模型可以实现其缺失值的插补，思路是度量缺失样本的特征与所有其他样本特征的距离，当给定了模型参数 n_neighbors=n 时，计算离该样本距离最近的 n 个样本点中最多的那个类别，并把这个类别作为该样本的缺失预测类别，具体如下图所示，未知的类别被预测为黄色：

上面有色点的特征数据提供如下：
已知待预测的样本点为 X1=0.8,X2=−0.2 ，那么预测类别可以如下写出：

对于回归问题而言，需要得到的是一个具体的数值，因此预测值由最近的 n 个样本对应的平均值获得。请把上面的这个分类问题转化为回归问题，仅使用 KNeighborsRegressor 来完成上述的 KNeighborsClassifier 功能。
请根据第1问中的方法，对 audit 数据集中的 Employment 变量进行缺失值插补。

你可能感兴趣的:(pandas,python,数据分析,深度学习)

python+wave+pyaudio：调用电脑麦克风进行声音录制觅远 python 音视频 python 开发语言 ffmpeg
pyaudio：用于音频输入。wave：用于音频文件的读写。importwave,pyaudiop=pyaudio.PyAudio()#获取设备上的所有麦克风设备info=p.get_host_api_info_by_index(0)num_devices=info.get('deviceCount')foriinrange(0,num_devices):ifp.get_device_info_b
C#实现AES-CBC加密工具类（含完整源码及使用教程） WangMing_X C#实现各种功能工具集 c#AES-CBC加密
一、AES-CBC加密应用场景AES（AdvancedEncryptionStandard）作为全球公认的安全加密标准，广泛使用在以下场景：API通信加密：保护HTTP接口传输的敏感数据（如身份令牌、支付信息）文件安全存储：加密本地配置文件、数据库连接字符串等用户隐私保护：加密存储密码、身份证号等PII（个人身份信息）跨平台数据交换：与Java/Python等其他语言实现的加密系统互通物联网设备通
Python真经：筑基开光篇 zzzzjflzdvkk python 开发语言
第一章：灵脉筑基Python真经乃跨三界之法，无论Windows、Linux、MacOSX，抑或云端秘境、移动外域，皆可开辟灵脉，筑基修炼。修士欲入此道，须先探查本命灵台是否已结Python丹种。可于终端秘境中掐诀念咒，输入「python」真言，若有金光浮现，则显其丹种品阶；若无回应，便是灵脉未开，需行筑基之法。第二章：天机阁取经灵脉之源修士当登临「天机阁」此乃Python真经本源之地。阁中藏有最
《Python实战进阶》No23: 使用 Selenium 自动化浏览器操作带娃的IT创业者 Python实战进阶 python selenium 自动化
No23:使用Selenium自动化浏览器操作摘要Selenium是自动化浏览器操作的“瑞士军刀”，可模拟人类行为操作网页，适用于爬虫、测试、重复任务自动化等场景。本集通过代码驱动实战，从安装配置到复杂交互，带你掌握Selenium的核心技能，并结合电商网站登录、商品下单等真实场景，解决动态加载、反爬等实际问题。核心概念与代码实战1.环境配置与WebDriver基础安装命令：pipinstalls
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
Python使用pycryptodome库来进行AES加密解密飞起来fly呀 Python python
在现代通信和数据存储中，加密技术是保障数据安全的核心手段。AES（AdvancedEncryptionStandard）是一种对称加密算法，广泛应用于各种信息安全领域。Python提供了丰富的加密库，其中PyCryptodome是一个功能强大且常用的库，它支持多种加密算法和模式。以下指南将详细介绍如何在Python中使用PyCryptodome库进行AES加密和解密。一、安装PyCryptodom
janeczku / calibre-web忘记密码命令行重置密码慌雨前端 linux 运维
根据博客https://blog.csdn.net/gaoxiangfei/article/details/137070897但一直报错：Passworddoesn’tcomplywithpasswordvalidationrules进入容器：dockerexec-itcontainer_id/bin/bash直到我尝试这样的方式：root@782e4226f457:/#python3/app/c
Python二级考试试题汇总（史上最全） m0_67265464 面试学习路线阿里巴巴前端 intellij-idea 经验分享
Python二级考试试题（一）以下关于程序设计语言的描述，错误的选项是：APython语言是一种脚本编程语言B汇编语言是直接操作计算机硬件的编程语言C程序设计语言经历了机器语言、汇编语言、脚本语言三个阶段D编译和解释的区别是一次性翻译程序还是每次执行时都要翻译程序正确答案：C表达式1001==0x3e7的结果是：AfalseBFalseCtrueDTrue正确答案：B以下选项，不是Python保留
ModuleNotFoundError: No module named ‘Crypto‘ 小武小武每天练武 python 开发语言
看到这个错误提示“ModuleNotFoundError:Nomodulenamed‘Crypto’”，说明Python环境中缺少Crypto模块。这通常发生在pycryptodome库没有正确安装的情况下。解决步骤1.安装pycryptodome确保你安装了pycryptodome库，这是包含Crypto模块的库。使用以下命令来安装：pipinstallpycryptodome2.检查Pytho
Python, Java 开发全国苦难人群诉苦平台APP Geeker-2025 python java
开发一个“全国苦难人群诉苦平台APP”是一个非常有社会意义的项目，旨在为需要帮助的人群提供一个表达困难、寻求支持和解决方案的平台。这种APP可以帮助政府、公益组织和社会各界更好地了解和解决社会问题，同时为苦难人群提供心理支持和实际帮助。以下是一个高层次的开发思路，以及如何用**Python**和**Java**实现相关功能的示例。---###**1.功能需求分析**一个“全国苦难人群诉苦平台APP
【蓝桥杯集训·每日一题2025】 AcWing 4905. 面包店 python 查理零世蓝桥杯2025每日一题蓝桥杯算法 python
AcWing4905.面包店Week43月14日题目描述贝茜开了一家面包店。贝茜的面包店中只有一个烤箱，该烤箱制作一块饼干需要花费的时间为tCt_CtC，制作一块松饼需要花费的时间为tMt_MtM。烤箱每次只能制作一个糕点，也就是说制作AAA块饼干和BBB块松饼需要花费的时间为A×tC+B×tMA\timest_C+B\timest_MA×tC+B×tM。有NNN个客人来光顾贝茜的生意，编号1∼N
吴恩达出手，开源最新Python包，一个接口调用OpenAI等模型 Bryan Ding python
用相同的代码方式调用OpenAI、Anthropic、Google等发布的大模型，还能实现便捷的模型切换和对比测试。刚刚，AI著名学者、斯坦福大学教授吴恩达最新开源项目实现了。吴恩达在推文中宣布了这一好消息开源新的Python包：aisuite！这个工具可以让开发者轻松使用来自多个提供商的大型语言模型。在谈到为何构建这个项目时，吴恩达表示构建应用时，发现与多个提供商集成非常麻烦。aisuite正是
项目报错 SyntaxError: Unexpected token ‘??=‘ 和node-sass报python错误；nuxt、vue项目院人冲冲冲前端 javascript 开发语言
前提：node14.21.3项目报错SyntaxError:Unexpectedtoken'??='1.仔细看错误代码位置，发现是在node_modules文件中（找来源）2.node_modules文件报错Unexpectedtoken'??='15:59:58constlist=obj[list]??=[];^^^SyntaxError:Unexpectedtoken'??='atnewScr
python的reload 风语者666 python java linux
先看看from...import...的问题#importparse_tumor_report.parse_tumor_report#这样是错的fromparse_tumor_reportimportparse_tumor_report#这个是正确用法再看reload的问题parse_report是我自定义的一个模块文件。该文件（模块）中包含了一个parse_tumor_report类。这样是没错
Python中三种表示NA的方式风语者666 python
Python中三种表示NA的方式#-*-coding:utf-8-*-importnumpyasnpimportpandasaspd#data_frame=np.load('a.npy',allow_pickle=True)#print(data_frame.columns)df=pd.DataFrame({'one':[1,2,3,pd.NA]})df=pd.DataFrame({'one':[
Python API接口君王的羔羊 Python AI python
人工智能机器人EverydayWechat老李API图灵机器人：http://www.turingapi.com/（需求实名制认证，并每天免费数量只有100条）青云客智能聊天机器人：http://api.qingyunke.com/（无须申请，无数量限制，但有点智障，分手神器。分手神器，慎用）智能闲聊（腾讯）：https://ai.qq.com/product/nlpchat.shtml(申请使用
梯度下降法以及随机梯度下降法 HKkuaidou 人工智能深度学习 python pytorch
梯度下降法就是在更新weight的时候，向函数值下降的最快方向进行更新，具体的原理我就不再写了，就是一个求偏导的过程，有高数基础的都能够很快的理解过程。我在我的github里面会一直更新自己学习pytorch的过程，地址为：https://github.com/00paning/Pytorch_Learning这里我直接展示一个简易实现的python代码，我们还是先看一下运行的效果图：相关pyth
MATLAB 操作指南（结尾附实操案例） vvvae1234 信息可视化
一、MATLAB简介MATLAB（矩阵实验室）是一个高级技术计算语言和交互环境，它主要用于数值计算、数据分析、算法开发和可视化。MATLAB的核心功能是矩阵运算，它能够处理向量和矩阵为中心的数学问题，方便用户进行算法的开发和数据可视化。主要特点高效的数值计算：MATLAB内置了许多用于数学和工程计算的函数，用户可以轻松地进行数值运算。可视化功能：MATLAB提供了丰富的工具，用于生成各种类型的图形
Python 实现的采集诸葛灵签老大白菜 python python 开发语言
Python实现的采集诸葛灵签项目介绍这是一个基于Python开发的诸葛灵签数据采集和展示项目。通过爬虫技术获取诸葛神签的签文和解签内容，并提供数据存储和查询功能。项目结构zhuge/├──zhuge_scraper.py#爬虫主程序├──zhuge_pages/#数据存储目录│├──all_signs.json#汇总数据│└──zhuge_sign_*.json#单个签文数据└──zhuge.m
Python爬虫实战：从青铜到王者的数据采集进化论 Loving_enjoy 实用技巧爬虫 python
#开篇：当你打开浏览器时，爬虫程序在暗处露出了姨母笑某日凌晨3点，程序员老张盯着满屏的404错误，突然领悟了爬虫的真谛——这哪里是数据采集，分明是与网站运维人员斗智斗勇的谍战游戏！本文将带你体验从"HelloWorld"式爬虫到工业级采集系统的奇幻漂流，全程高能预警，请系好安全带。---###第一章青铜时代：初学者的三板斧####1.1环境搭建：你的第一把手术刀安装Python就像选择武器库：``
python常用的第三方库下载方法 ZJ_star_1220 pycharm ide python
方法一：在windows系统中使用pip命令下载打开dos窗口输入命令“pipinstallselenium“后按回车键，看到successfully既安装成功。其他常用的命令：【pipinstallselenium==4.4.3】安装指定版本的库/包【pipinstallselenium】安装最新版本的库/包【pipshowselenium】查看库/包的安装路径、版本号【pipuninstall
PyWavelets（pywt）安装与使用指南贾雁冰
PyWavelets（pywt）安装与使用指南项目地址:https://gitcode.com/gh_mirrors/pyw/pywtPyWavelets是一个用于离散小波变换（DiscreteWaveletTransform,DWT）和连续小波变换（ContinuousWaveletTransform,CWT）的Python库。该库广泛应用于信号处理、图像分析以及数据压缩等领域。以下是基于提供的
python 开放的通讯系统高保密性张小秦命令模式算法 python
优点1.点对点（P2P）加密通信：•采用点对点通信模式，消息直接在客户端之间传输，无需通过中央服务器。•提高隐私性，避免中央服务器成为单点故障或攻击目标。•降低通信延迟，消息传输更高效。2.强大的加密机制：•使用AES（高级加密标准）对消息进行加密，确保通信内容的安全性。•每个会话生成唯一的加密密钥，确保密钥的安全性。•使用AES的EAX模式，支持加密和消息认证，防止消息被篡改。3.临时数据存储：
pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
Python的pywt库的安装赵孝正 Python标准库使用 #python和pip安装 python 数据库开发语言
目录pywt库的全称是PyWavelets，https://pywavelets.readthedocs.io/en/latest/。安装pywt库：pipinstallPyWavelets而不是VS2017中默认的pipinstallpywt，真是坑啊。>>>importpywt>>>x=[3,7,1,1,-2,5,4,6]>>>cA,cD=pywt.dwt(x,‘db2′)>>>printcA
Python漂浮爱心代码 Want595 趣味编程 python 开发语言
目录系列文章前言小海龟漂浮爱心完整代码尾声系列文章序号直达链接表白系列1Python无法拒绝的表白界面（完整代码）_python玫瑰花雨编程-CSDN博客2Python满屏飘字表白代码（完整代码）_抖音同款满屏飘字表白代码(python版)-CSDN博客3Python无限弹窗满屏表白代码（完整代码）_python弹窗满屏幕-CSDN博客4Python李峋同款跳动的爱心（完整代码）_python绘制
VSCode 2025最新后端开发必备插件汇总（必备插件合集，Python、Java、Go等语言） Code_流苏实用软件与高效工具 vscode python java 后端开发必备插件合集
前言:作为微软推出的轻量级跨平台编辑器，VSCode凭借智能代码补全、远程开发、Git集成等核心功能，已成为后端开发者首选工具。其强大的插件生态更是覆盖了主流后端语言支持、代码质量优化、性能分析等全场景需求。名人说：博观而约取，厚积而薄发。——苏轼《稼说送张琥》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）目录一、语言支持类插件二、代码质量和格式化工具三、数据库工具四、AP
2025年Python后端开发指南：从基础到云原生实践 ctrl_cv工程师￥云原生 django flask pycharm
在2025年，Python后端开发已全面进入云原生与智能化时代。开发者不仅需要掌握传统后端技术栈，还需融合容器化、AI辅助编程等新兴技术。本文基于行业最新趋势与最佳实践，系统梳理Python后端开发的核心要点与进阶方向，涵盖开发环境、架构设计、性能优化等关键领域。一、开发环境与工具链1.环境配置标准化Python版本：推荐Python3.12+，支持模式匹配（PatternMatching）和更优
shell脚本重启python脚本 mzgong python
#!/bin/bashwhiletrue#循环检测脚本是否停止doprocnum=$(ps-ef|grep"run.py"|grep-vgrep|wc-l)#记录正在运行run.py的数量echo"ps-efgrepreturn:"${procnum}#信息输出if[[${procnum}==0]];then#如果run.py正在运行数量等于0，脚本中断，需要重启filename=$(date+%
使用Python的 multiprocessing 模块实现多进程并行计算（上完整代码）小码小李开发语言 python 数据库
使用Python的multiprocessing模块实现多进程并行计算的较为详细复杂的示例代码，用于计算一个较大范围内数字的平方，并将结果汇总。以下是一个更具体、复杂且详尽的多进程并行计算代码示例，用于分析多个大型文本文件中单词出现的频率：importmultiprocessingimporttimeimportrefromcollectionsimportCounter#函数用于读取单个文件内容
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro