佛系

动手学数据分析-task2数据清洗及特征处理

数据分析主要是包括：

数据清洗
数据的特征处理
数据重构
数据可视化

开始之前，导入numpy、pandas包和数据

#加载所需的库
import numpy as np
import pandas as pd

#加载数据train.csv
train_data = pd.read_csv('../titanic/train.csv')

2 数据清洗及特征处理

我们拿到的数据通常是不干净的，所谓的不干净，就是数据中有缺失值，有一些异常点等，需要经过一定的处理才能继续做后面的分析或建模，所以拿到数据的第一步是进行数据清洗，本章我们将学习缺失值、重复值、字符串和数据转换等操作，将数据清洗成可以分析或建模的亚子。

2.1 缺失值观察与处理

我们拿到的数据经常会有很多缺失值，比如我们可以看到Cabin列存在NaN，那其他列还有没有缺失值，这些缺失值要怎么处理呢

2.1.1 任务一：缺失值观察

(1) 请查看每个特征缺失值个数
(2) 请查看Age， Cabin， Embarked列的数据

查看缺失值个数

①train_data.info()
②train_data.isnull().sum()

#写入代码
train_data.info()


RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB

#写入代码
train_data.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

tips:由以上可知，总共为891条数据，

Age缺失了大概1/4左右，考虑Age可以进行各种插值方法填充

Cabin缺失了7/9左右，考虑模型的噪音，要么直接将这列特征drop，要么想办法构建模型去对此列进行预测填充

Embarked只缺失了2个，插值或者直接drop都可，没太大影响

# 请查看Age， Cabin， Embarked列的数据
columns = ['Age','Cabin','Embarked']
train_data[columns].head()

	Age	Cabin	Embarked
0	22.0	NaN	S
1	38.0	C85	C
2	26.0	NaN	S
3	35.0	C123	S
4	35.0	NaN	S

2.1.2 任务二：对缺失值进行处理

(1)处理缺失值一般有几种思路

丢弃
补全
- 统计法：对于数值型的数据，使用均值，加权均值，中位数等方法补足，对于分类型数据，使用类别众数最多的值补足
- 模型法：基于其他已有的其他字段，将缺失字段作为目标变量进行预测，从而得到最为可能的补全值。如果带有缺失值的列式数值变量，采用回顾模型补全，如果是分类变量，则采用分类模型补全。
真值转换法，承认缺失值的存在
不处理

(2) 请尝试对Age列的数据的缺失值进行处理

(3) 请尝试使用不同的方法直接对整张表的缺失值进行处理

# 对Age进行缺失值处理
age_median = train_data.Age.median()
train_data.Age.fillna(age_median,inplace=True)
train_data.Age.describe()

count    891.000000
mean      29.361582
std       13.019697
min        0.420000
25%       22.000000
50%       28.000000
75%       35.000000
max       80.000000
Name: Age, dtype: float64

# 更好的处理方法是按照性别分组，各自计算男性和女性的年龄的中位数然后再填充
age_median_sex = train_data.groupby('Sex').Age.median()
train_data.set_index('Sex',inplace = True)#设置原数据集的索引为'Sex'
# train_data.head()
age_median_sex

Sex
female    28.0
male      28.0
Name: Age, dtype: float64

"""
Pandas 的值在运算的过程中，会根据索引的值来进行自动的匹配。
在这里我们可以看到上一步骤的Series：age_median_sex的索引是 female 和 male 两个值，
所以需要把原始数据titanic_df中的性别也设置为索引，用 fillna 自动匹配相应的索引进行填充。
"""
train_data.Age.fillna(age_median_sex,inplace = True)
train_data.reset_index(inplace=True)

train_data.Age.describe()

count    891.000000
mean      29.361582
std       13.019697
min        0.420000
25%       22.000000
50%       28.000000
75%       35.000000
max       80.000000
Name: Age, dtype: float64

Cabin的缺失，由于损失太多选择直接删除

#写入代码
train_data.drop(['Cabin'],axis = 1,inplace = True)
train_data.head()

	Sex	PassengerId	Survived	Pclass	Name	Age	SibSp	Ticket	Fare	Embarked
0	male	1	0	3	Braund, Mr. Owen Harris	22.0	1	A/5 21171	7.2500	S
1	female	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	38.0	1	PC 17599	71.2833	C
2	female	3	1	3	Heikkinen, Miss. Laina	26.0	0	STON/O2. 3101282	7.9250	S
3	female	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	35.0	1	113803	53.1000	S
4	male	5	0	3	Allen, Mr. William Henry	35.0	0	373450	8.0500	S

分类型数据缺失值处理Embarked

train_data.describe(include=[np.object])#利用include=[np.object]查看分类型数据的描述性统计

	Sex	Name	Ticket	Embarked
count	891	891	891	889
unique	2	891	681	3
top	male	Nicholson, Mr. Arthur Ernest	CA. 2343	S
freq	577	1	7	644

# 能看到‘S’出现的频数最多，咖位最高
# 其实这里也可以利用技术统计的方式，求出Embarked列频数最多的值
train_data.Embarked.value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

train_data.fillna({
     'Embarked':'S'},inplace=True)

train_data['Embarked'].isnull().sum()

【思考1】dropna和fillna有哪些参数，分别如何使用呢?

使用DataFrame.dropna(axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
参数说明：

axis:

axis=0: 删除包含缺失值的行
axis=1: 删除包含缺失值的列
how: 与axis配合使用
how=‘any’ :只要有缺失值出现，就删除该行货列
how=‘all’: 所有的值都缺失，才删除行或列
thresh： axis中至少有thresh个非缺失值，否则删除
比如 axis=0，thresh=10：标识如果该行中非缺失值的数量小于10，将删除改行
subset: list
在哪些列中查看是否有缺失值
inplace: 是否在原数据上操作。如果为真，返回None否则返回新的copy，去掉了缺失值

DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors=‘raise’)

labels: 要删除行或列的列表
axis: 0 行；1 列

使用DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

value: scalar, dict, Series, or DataFrame
dict 可以指定每一行或列用什么值填充
method： {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None
在列上操作
ffill / pad: 使用前一个值来填充缺失值
backfill / bfill :使用后一个值来填充缺失值
limit 填充的缺失值个数限制。应该不怎么用

【参考】https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html

【参考】https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html

2.2 重复值观察与处理

由于这样那样的原因，数据中会不会存在重复值呢，如果存在要怎样处理呢

2.2.1 任务一：请查看数据中的重复值

#写入代码
train_data[train_data.duplicated()]

	Sex	PassengerId	Survived	Pclass	Name	Age	SibSp	Parch	Ticket	Fare	Embarked

2.2.2 任务二：对重复值进行处理

(1)重复值有哪些处理方式呢？

(2)处理我们数据的重复值

方法多多益善

#重复值有哪些处理方式：
train_data.drop_duplicates().head()

	Sex	PassengerId	Survived	Pclass	Name	Age	SibSp	Ticket	Fare	Embarked
0	male	1	0	3	Braund, Mr. Owen Harris	22.0	1	A/5 21171	7.2500	S
1	female	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	38.0	1	PC 17599	71.2833	C
2	female	3	1	3	Heikkinen, Miss. Laina	26.0	0	STON/O2. 3101282	7.9250	S
3	female	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	35.0	1	113803	53.1000	S
4	male	5	0	3	Allen, Mr. William Henry	35.0	0	373450	8.0500	S

2.3 特征观察与处理

我们对特征进行一下观察，可以把特征大概分为两大类：
数值型特征：Survived ，Pclass， Age ，SibSp， Parch， Fare，其中Survived， Pclass为离散型数值特征，Age，SibSp， Parch， Fare为连续型数值特征
文本型特征：Name， Sex， Cabin，Embarked， Ticket，其中Sex， Cabin， Embarked， Ticket为类别型文本特征，数值型特征一般可以直接用于模型的训练，但有时候为了模型的稳定性及鲁棒性会对连续变量进行离散化。文本型特征往往需要转换成数值型特征才能用于建模分析。

2.3.1 任务一：对年龄进行分箱（离散化）处理

(1) 分箱操作是什么？

(2) 将连续变量Age平均分箱成5个年龄段，并分别用类别变量12345表示

(3) 将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段，并分别用类别变量12345表示

(4) 将连续变量Age按10% 30% 50 70% 90%五个年龄段，并用分类变量12345表示

(5) 将上面的获得的数据分别进行保存，保存为csv格式

分箱操作是什么：
1.1 对异常数据有很强的鲁棒性：比如一个特征是会话时长=702341sec，换算成天是8.1天，这属于明显的异常值。如果特征没有离散化，一个异常数据“会话时长=8.1天”会给模型造成很大的干扰；

在很多网页分析系统中，0点之后会话将被强行切分，所以会话时长不可能超过1天。
1.2 在逻辑回归模型中，单变量离散化为N个哑变量后，每个哑变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；

1.3 缺失值也可以作为一类特殊的变量进入模型

1.4 分箱后降低模型运算复杂度，提升模型运算速度，对后后期生产上线较为友好

#将连续变量Age平均分箱成5个年龄段，并分别用类别变量12345表示
train_data['Age'] = pd.cut(train_data['Age'],5,labels = ['1','2','3','4','5'])
train_data.head()

	Sex	PassengerId	Survived	Pclass	Name	Age	SibSp	Ticket	Fare	Embarked
0	male	1	0	3	Braund, Mr. Owen Harris	2	1	A/5 21171	7.2500	S
1	female	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	3	1	PC 17599	71.2833	C
2	female	3	1	3	Heikkinen, Miss. Laina	2	0	STON/O2. 3101282	7.9250	S
3	female	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	3	1	113803	53.1000	S
4	male	5	0	3	Allen, Mr. William Henry	3	0	373450	8.0500	S

#将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段，并分别用类别变量12345表示
train_data['Age'] = pd.cut(train_data['Age'],[0,5,15,30,50,80],labels = ['1','2','3','4','5'])
train_data.head()

	Sex	PassengerId	Survived	Pclass	Name	Age	SibSp	Ticket	Fare	Embarked
0	male	1	0	3	Braund, Mr. Owen Harris	3	1	A/5 21171	7.2500	S
1	female	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	4	1	PC 17599	71.2833	C
2	female	3	1	3	Heikkinen, Miss. Laina	3	0	STON/O2. 3101282	7.9250	S
3	female	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	4	1	113803	53.1000	S
4	male	5	0	3	Allen, Mr. William Henry	4	0	373450	8.0500	S

#将连续变量Age按10% 30% 50 70% 90%五个年龄段，并用分类变量12345表示
train_data['Age'] = pd.cut(train_data['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels = ['1','2','3','4','5'])
train_data.head()

	Unnamed: 0	Sex	PassengerId	Survived	Pclass	Name	Age	SibSp	Ticket	Fare	Embarked
0	0	male	1	0	3	Braund, Mr. Owen Harris	NaN	1	A/5 21171	7.2500	S
1	1	female	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	NaN	1	PC 17599	71.2833	C
2	2	female	3	1	3	Heikkinen, Miss. Laina	NaN	0	STON/O2. 3101282	7.9250	S
3	3	female	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	NaN	1	113803	53.1000	S
4	4	male	5	0	3	Allen, Mr. William Henry	NaN	0	373450	8.0500	S

【参考】https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html

【参考】https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.qcut.html

2.3.2 任务二：对文本变量进行转换

(1) 查看文本变量名及种类

train_data.describe(include = [np.object])首先查看文本变量名
然后通过train_data.feature.value_counts()查看种类

(2) 将文本变量Sex， Cabin ，Embarked用数值变量12345表示

replace
map

(3) 将文本变量Sex， Cabin， Embarked用one-hot编码表示

#查看文本变量名及种类
train_data.describe(include = [np.object])

	Sex	Name	Ticket	Embarked
count	891	891	891	891
unique	2	891	681	3
top	male	Nicholson, Mr. Arthur Ernest	CA. 2343	S
freq	577	1	7	646

train_data.Embarked.value_counts()

S    646
C    168
Q     77
Name: Embarked, dtype: int64

train_data.Sex.value_counts()

male      577
female    314
Name: Sex, dtype: int64

train_data.Sex.unique()

array(['male', 'female'], dtype=object)

#将文本变量Sex， Cabin ，Embarked用数值变量12345表示
train_data['Sex'] = train_data.Sex.replace(['male','female'],[1,2])
train_data.head()

	Sex	PassengerId	Survived	Pclass	Name	Age	SibSp	Ticket	Fare	Embarked
0	1	1	0	3	Braund, Mr. Owen Harris	22.0	1	A/5 21171	7.2500	S
1	2	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	38.0	1	PC 17599	71.2833	C
2	2	3	1	3	Heikkinen, Miss. Laina	26.0	0	STON/O2. 3101282	7.9250	S
3	2	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	35.0	1	113803	53.1000	S
4	1	5	0	3	Allen, Mr. William Henry	35.0	0	373450	8.0500	S

train_data['Embarked'] = train_data.Embarked.replace(['S','C','Q'],[1,2,3])
train_data.head()

	Sex	PassengerId	Survived	Pclass	Name	Age	SibSp	Ticket	Fare	Embarked
0	1	1	0	3	Braund, Mr. Owen Harris	22.0	1	A/5 21171	7.2500	1
1	2	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	38.0	1	PC 17599	71.2833	2
2	2	3	1	3	Heikkinen, Miss. Laina	26.0	0	STON/O2. 3101282	7.9250	1
3	2	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	35.0	1	113803	53.1000	1
4	1	5	0	3	Allen, Mr. William Henry	35.0	0	373450	8.0500	1

# 法二进行map
# train_data = pd.read_csv('data_tmp.csv')
# train_data.head()
dict = {
     'female':1,'male':2}
train_data['Sex'] = train_data.Sex.map(dict)

# train_data = pd.read_csv('../titanic/train.csv')
# train_data.Cabin.unique()
# train_data.Cabin.nunique()

array([nan, 'C85', 'C123', 'E46', 'G6', 'C103', 'D56', 'A6',
       'C23 C25 C27', 'B78', 'D33', 'B30', 'C52', 'B28', 'C83', 'F33',
       'F G73', 'E31', 'A5', 'D10 D12', 'D26', 'C110', 'B58 B60', 'E101',
       'F E69', 'D47', 'B86', 'F2', 'C2', 'E33', 'B19', 'A7', 'C49', 'F4',
       'A32', 'B4', 'B80', 'A31', 'D36', 'D15', 'C93', 'C78', 'D35',
       'C87', 'B77', 'E67', 'B94', 'C125', 'C99', 'C118', 'D7', 'A19',
       'B49', 'D', 'C22 C26', 'C106', 'C65', 'E36', 'C54',
       'B57 B59 B63 B66', 'C7', 'E34', 'C32', 'B18', 'C124', 'C91', 'E40',
       'T', 'C128', 'D37', 'B35', 'E50', 'C82', 'B96 B98', 'E10', 'E44',
       'A34', 'C104', 'C111', 'C92', 'E38', 'D21', 'E12', 'E63', 'A14',
       'B37', 'C30', 'D20', 'B79', 'E25', 'D46', 'B73', 'C95', 'B38',
       'B39', 'B22', 'C86', 'C70', 'A16', 'C101', 'C68', 'A10', 'E68',
       'B41', 'A20', 'D19', 'D50', 'D9', 'A23', 'B50', 'A26', 'D48',
       'E58', 'C126', 'B71', 'B51 B53 B55', 'D49', 'B5', 'B20', 'F G63',
       'C62 C64', 'E24', 'C90', 'C45', 'E8', 'B101', 'D45', 'C46', 'D30',
       'E121', 'D11', 'E77', 'F38', 'B3', 'D6', 'B82 B84', 'D17', 'A36',
       'B102', 'B69', 'E49', 'C47', 'D28', 'E17', 'A24', 'C50', 'B42',
       'C148'], dtype=object)

#将文本变量Sex， Cabin ，Embarked用数值变量12345表示
import pandas as pd
train_data = pd.read_csv('../titanic/train.csv')
from sklearn.preprocessing import LabelEncoder
for f in ['Ticket','Cabin']:
    lbl = LabelEncoder()
    label_dict = dict(zip(train_data[f].unique(),range(train_data[f].nunique())))
    train_data[f+'_labelEncoder'] = train_data[f].map(label_dict)
train_data.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked	Ticket_labelEncoder	Cabin_labelEncoder
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S	0	0.0
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C	1	1.0
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S	2	0.0
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S	3	2.0
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S	4	0.0

for feat in ['Ticket','Cabin']:
    lbl = LabelEncoder()
    train_data[feat+'_labelEncoder'] = lbl.fit_transform(train_data[f].astype(str))

# One-hotEncoder
for f in ['Age','Embarked']:
    x = pd.get_dummies(train_data[f],prefix = f)
    train_data = pd.concat([train_data,x],axis = 1)
train_data.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	...	Embarked_C	Embarked_S
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	...	0	1
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	...	1	0
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	...	0	1
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	...	0	1
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	...	0	1

5 rows × 195 columns

2.3.3 任务三：从纯文本Name特征里提取出Titles的特征(所谓的Titles就是Mr,Miss,Mrs等)

#写入代码
train_data['title'] = train_data.Name.str.extract('([A-Za-z]+\.)',expand = False)
train_data.title[:20]

0         Mr.
1        Mrs.
2       Miss.
3        Mrs.
4         Mr.
5         Mr.
6         Mr.
7     Master.
8        Mrs.
9        Mrs.
10      Miss.
11      Miss.
12        Mr.
13        Mr.
14      Miss.
15       Mrs.
16    Master.
17        Mr.
18       Mrs.
19       Mrs.
Name: title, dtype: object

Python 对海表面温度进行EOF分解与前n模态合成我有一个梦想——人在家中葛优躺 python matplotlib
一、EOF分解数据来源：来自NOAA的2017-2021年0.25°×0.25°的日平均OISST数据（海表面温度数据）。关于EOF的理解：利用2017-2020年4年数据进行EOF分解，2021年1月1日的数据来做合成检验。对长度是1461的二维海表面温度数据进行分解，分解得到的时间序列一共1461组长度1461的时间序列，一共1461个二维空间模态。按照方差大小从前到后。代码实现：import
「C/C++」C++关键字之 mutable 可变变量关键字何曾参静谧 c语言 c++java
✨博客主页何曾参静谧的博客（✅关注、点赞、⭐收藏、转发）全部专栏（专栏会有变化，以最新发布为准）「Win」Windows程序设计「IDE」集成开发环境「定制」定制开发集合「C/C++」C/C++程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」BlockUI集合「Py」Python程序设计「Math」探秘数学世界「PK」Paras
华为 Ascend 平台 YOLOv5 目标检测推理教程 Lunar* 目标检测华为 YOLO 目标检测
1.背景介绍随着人工智能技术的快速发展，目标检测在智能安防、自动驾驶、工业检测等领域中扮演了重要角色。YOLOv5是一种高效的目标检测模型，凭借其速度和精度的平衡广受欢迎。华为Ascend推理框架（ACL）是AscendCANN软件栈的核心组件，专为AscendAI加速硬件（如Atlas300I）设计，可实现高性能的深度学习推理。在本文中，我们将介绍如何基于华为AscendACL推理框架对YOLO
【OpenCV入门学习--python】绘图函数喜欢星星的田螺姑娘 OpenCV opencv python 学习
源代码：（查看教材《OpenCV-Python中文教程》段力辉译）importnumpyasnpimportcv2#Createablackimageimg=np.zeros((512,512,3),np.uint8)#将所有像素点的各通道数值赋0#其中“3”是三个通道的意思#np.zeros函数用于创建一个数值全为0的矩阵，np.ones用于创建一个数值全为1的矩阵#Drawadiagonalb
CentOS 9 Stream 中查看 Python 版本并升级 Python 一个小坑货 CentOS9 Stream Python python centos 开发语言
CentOS9Stream中查看Python版本并升级Python1.查看当前Python版本2.升级Python版本（1）安装开发工具（2）安装必要的依赖包（3）下载和安装新版本的Python（4）验证安装3.更新`python`和`python3`命令（可选）4.安装pip（如果没有安装）5.升级pip（可选）在CentOS9Stream中查看Python版本并升级Python版本的方法如下：
使用Python实现一键转换pdf为docx word ccieluo Python python pdf 开发语言
使用前先安装pdf2docx模块pipinstallpdf2docx然后创建Python脚本，内容为：frompdf2docximportConverterimportos#用法：只需要输入文件路径，就可以自动转换为docx文件，并保存在当前路径下defpdf_to_word(pdf_file):#自动生成Word文件路径word_file=os.path.splitext(pdf_file)[0
代码结构与模块化设计：Python 项目架构与高效开发技巧全栈探索者chen python python 架构开发语言模块化性能优化程序人生案例分析
代码结构与模块化设计：Python项目架构与高效开发技巧目录为什么模块化设计是高效开发的基础Python项目的理想目录结构模块与包：概念与使用详解模块化设计的核心原则常见设计模式与模块化案例分析：从零搭建模块化Python项目高级技巧：动态模块加载与插件化设计模块化开发中的常见问题与解决方案总结与实践建议1.为什么模块化设计是高效开发的基础模块化设计是一种将复杂的软件系统分解为多个小模块的开发方式
python的多线程编程之锁代码输入中... python 爬虫数据分析开发语言 pycharm
1、背景概述在上篇文章中，主要讲述了python中的socket编程的一些基本方面，但是缺少关于锁的相关概念，从而在这篇文章中进行补充。由于在python中，存在了GIL，也就是全局解释器锁，从而在每次进行获得cpu的时候，同时只有一个线程获得了cpu的运行，在这个方面可以认为是线程安全的，但是在线程运行的时候，是共享内存的，共享相同的数据信息，从而这个时候python的线程就不那么安全了。在py
大数据毕业设计—基于python+Django自然灾害频发地区情况数据分析系统 qq_1406299528 python 计算机毕业设计 python 大数据课程设计
一、项目技术开发语言：Pythonpython框架：Django软件版本：python3.7/python3.8数据库：mysql5.7或更高版本数据库工具：Navicat11开发软件：PyCharm/vscode前端框架:vue.js二、项目内容和项目介绍 1.项目内容 1.开发语言：该系统采用Python作为开发语言，Python具有优雅的语法和动态类型，以及解释型语言的本质，使其成为许多
使用Python解析pdf、docx等格式文件。 Shy960418 Python使用技巧 python pdf linux
针对不同类型的文件，需要采取特定的访问与解析策略来有效获取其中蕴含的知识。下面我们将介绍对于不同数据源数据的获取方式。1解析Docx文档1.1获取Docx文档中文本fromdocximportDocument#pipinstallpython-docx#python-docx==0.8.11filename='xxx.docx'doc=Document(filename)forparaindoc.
python多线程的锁用法 hellenlee22 python
锁机制在了解锁机制前，我们先来看一下下面这个例子：##使用多线程进行加法运算importthreading#定义全局变量VALUEVALUE=0#定义加法线程函数defadd_value():globalVALUEforxinrange(1000000):VALUE+=1print('value=',VALUE)#定义两个线程并发执行加法操作defadd_thread_main():forxinr
EOF分析在Python中的利器：eofs库使用指南潘妙霞
EOF分析在Python中的利器：eofs库使用指南项目地址:https://gitcode.com/gh_mirrors/eo/eofs项目介绍eofs是一个专为Python环境设计的开源包，用于执行经验正交分解（EmpiricalOrthogonalFunction,EOF）分析。该库遵循GNUGPLv3许可协议，旨在简化Python中进行EOF分析的流程。它特别适合处理大型时空数据集，通过高
机器学习和深度学习的概念你好呀我是裤裤深度学习笔记机器学习深度学习人工智能
MachineLearning机器学习，可以看作是找一个函数。这个函数是人类找不到的，所以交给机器来找。DifferenttypesofFunctions**Regression：**函数的输出是一个数值forexample：**Classification：**给出选项，让机器去选择。forexample：检测一个邮件是不是垃圾文件，就可以通过这个来做。选项是两个：垃圾文件or非垃圾文件。下面，
《深入浅出HTTPS》读书笔记（29）：TLS/SSL协议 earthzhang2021 网络协议算法开发语言 https ssl
《深入浅出HTTPS》读书笔记（29）：TLS/SSL协议TLS/SSL协议是一系列算法的组合，相比密码学算法来说，TLS/SSL协议的复杂性就更大了，主要体现在以下方面。◎协议设计的复杂性：一个完整的解决方案考虑的问题非常多，需要考虑扩展性、适用性、性能等方面，一旦方案设计不充分，攻击者不用攻击特定的密码学算法，而会基于协议进行攻击。◎协议实现的严谨性：即使协议设计是完美的，在实现协议的时候，也
python实现pdf和word互转 cicif2006 python pdf 开发语言
首先，安装python-office包python3-mpipinstallpython-office-ihttps://pypi.tuna.tsinghua.edu.cn/simple第二步，撰写代码pdf转wordimportoffice#转单个文件office.pdf.pdf2docx(file_path=r'D:\税务\税务师\法律\【直播预习讲义】6月10日_涉税法律教材研读_第四章_行
用python编写的UKF（无迹卡尔曼滤波）代码，状态量和观测量都是三维、非线性的，注释使用中文 MATLAB卡尔曼卡尔曼与python python 开发语言
用python编写的UKF（无迹卡尔曼滤波）代码，状态量和观测量都是三维、非线性的，注释使用中文文章目录代码讲解UKF类的构造预测步骤更新步骤辅助函数示例用法总结importnumpyasnpclassUKF:def__init__(self,dim_x,dim_z,alpha=1e-3,beta=2,kappa=0):self.dim_x=dim_x#状态维度self.dim_z=dim_z#观
Pytorch实现：LSTM-火灾温度预测骑猪玩狗 pytorch lstm 人工智能
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前期工作语言环境：Python3.9.18编译器：JupyterLab深度学习环境：Pytorch1.12.11.设置GPUimporttorchimporttorch.nnasnnimporttorchvisionfromtorchvisionimporttransforms,datasetsimportos,PIL,pathlibde
Python学习路线 Python_JC python
Python是一门易学易用的编程语言，广泛应用于数据处理、Web开发、人工智能、自动化运维、游戏开发等领域。本篇文章将介绍Python的学习路线以及一些值得参考的书籍。Python学习路线Python的学习路线主要包括以下几个方面：掌握Python基础知识：了解变量、数据类型、表达式、流程控制、函数、模块等基础概念。学习Python面向对象编程：学习类、对象、继承、多态等面向对象编程的概念和技术。
【2025最新计算机毕业设计】基于SSM的旅游与自然保护平台【提供源码+答辩PPT+文档+项目部署】万码堂源码计算机毕设精品实战案例实战项目源码课程设计 vue.js 前端计算机毕业设计毕设项目 spring boot
作者简介：✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、单片机开发、物联网设计与开发设计、简历模板、学习资料、面试题库、技术互助、就业指导等。业务范围：免费功能设计、开题报告、任务书
【源码+文档】基于SpringBoot+Vue旅游网站系统【提供源码+答辩PPT+参考文档+项目部署】万码堂源码实战项目源码计算机毕设精品实战案例 spring boot vue.js 旅游
作者简介：✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、单片机开发、物联网设计与开发设计、简历模板、学习资料、面试题库、技术互助、就业指导等。业务范围：免费功能设计、开题报告、任务书
利用Python爬虫获取阿里巴巴商品详情：代码示例与实践指南小爬虫程序猿 API python 爬虫开发语言
在电商数据分析和市场研究中，获取商品详情是至关重要的一步。虽然阿里巴巴开放平台提供了官方API来获取商品信息，但在某些情况下，使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Python爬虫获取阿里巴巴商品详情，并提供详细的代码示例。一、准备工作（一）环境搭建确保你的Python环境已经安装了以下必要的库：requests：用于发送HTTP请求。BeautifulSoup：用于解析HT
深度学习项目--基于LSTM的火灾预测研究(pytorch实现) 羊小猪~~ RNN LSTM神经网络案例机器学习/数据分析案例深度学习 lstm pytorch 人工智能机器学习 rnn gru
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言LSTM模型一直是一个很经典的模型，这个模型当然也很复杂，一般需要先学习RNN、GRU模型之后再学，GRU、LSTM的模型讲解将在这两天发布更新，其中：深度学习基础–一文搞懂RNN深度学习基础–GRU学习笔记(李沐《动手学习深度学习》)这一篇：是基于LSTM模型火灾预测研究，讲述了如何构建时间数据、模型如何构建、pytorch中LST
Python AI教程之二十一：监督学习之支持向量机（SVM）算法潜洋人工智能 Python中级支持向量机算法机器学习 python
支持向量机（SVM）算法支持向量机(SVM)是一种功能强大的机器学习算法，广泛用于线性和非线性分类以及回归和异常值检测任务。SVM具有很强的适应性，适用于各种应用，例如文本分类、图像分类、垃圾邮件检测、笔迹识别、基因表达分析、人脸检测和异常检测。SVM特别有效，因为它们专注于寻找目标特征中不同类别之间的最大分离超平面，从而使其对二分类和多分类都具有鲁棒性。在本大纲中，我们将探讨支持向量机(SVM)
腾讯蓝鲸团队最佳实践卫玠_juncheng 数据库服务器 python
蓝鲸最佳实践该文档为腾讯蓝鲸团队多年的编程最佳实践总结，包括Python\Golang等多个语言及其相关领域。内容将跟随项目发展与语言/框架的更新不断改进。为了更方便地索引最佳实践，我们建立了一个简单的标号机制BBP，你可以阅读BBP-0000了解更多。目录Python内置数据结构BBP-1001避免魔术数字BBP-1002不要预计算字面量表达式BBP-1003优先使用列表推导或内联函数内置模块B
odoo 学习卫玠_juncheng python
环境问题psycopg2-binary==2.9.9python-ldap==3.4.0gevent==22.10.2环境问题。最后使用的是conda环境pythonodoo-bin-codoo.conf-ibase使用了conda环境执行命令：pythonodoo-bin-codoo.conf-ibase开发顺序打开视图添加菜单自定义表单自定义树自定义脚手架安装开发者模式进入开发者模式：?deb
python 服务端主动发数据_python使用socket向客户端发送数据的方法 weixin_39565910 python 服务端主动发数据
PythonSocket通讯例子详解创新从模仿开始！python中内置的socket模块使得网络编程更加简单化，下面就通过两个小小脚本来了解客户端如何与服务器端建立socket。客户端代码：#clietn.pyif__name__==＇__main__＇:#判断是否调用自己本身，如果不是则__name__为脚本名称...文章余二五2017-11-17991浏览量pythonsocket模块基本的P
Python图形用户界面（GUI）库 Botiway FlaskWeb python
Python图形用户界面（GUI）库是用于创建图形用户界面的工具集，它们允许开发者使用Python语言来构建具有图形元素的用户界面。以下是一些常用的PythonGUI库：1.Tkinter•简介：Tkinter是Python的标准GUI库，它提供了创建窗口、按钮、文本框和其他GUI组件的工具。由于它是Python安装包的一部分，因此无需额外安装。•特点：简单易用，适合初学者和快速原型开发。虽然功能
TOGAF中的企业架构：让业务架构与数据、应用、技术架构形成闭环的魔法之旅火山说数数字化企业架构架构微服务云原生
前言你是否曾经有过这样一种感觉：企业在进行数字化转型时，架构之间常常感觉像是一盘散沙？业务部门、IT部门、数据分析师各自为政，技术团队则像一群“救火队员”随时准备扑灭各种系统bug。好消息是，TOGAF（TheOpenGroupArchitectureFramework）可以帮助企业打破这种局面，让业务架构（BusinessArchitecture）和其他“三A”架构——数据架构（DataArch
Python globals 函数 - Python零基础入门教程苹果酱0567 面试题汇总与解析课程设计 spring boot layui 毕业设计 java
目录一.Pythonglobals函数语法二.Pythonglobals函数使用三.猜你喜欢零基础Python学习路线推荐:Python学习目录>>Python基础入门在前面我们讲解了Python内置函数locals，内置函数locals直接以字典的形式返回当前位置的所有局部变量，今天需要介绍的是另外一个Python内置函数globals，该函数直接以字典dict的形式返回当前位置的所有全局变量；
【WRF理论第九期】输出文件：wrfout 和 wrfrst WW、forever WRF模型原理及应用 WRF
【WRF理论第九期】输出文件：wrfout和wrfrst1.wrfout文件wrfout文件读取（Python）2.wrfrst文件参考在WRF（WeatherResearchandForecasting）模型中，wrfout和wrfrst是两种重要的输出文件，分别代表不同类型的模拟结果和功能。1.wrfout文件wrfout文件是WRF模拟的主要输出文件，包含了模型在指定时间步长下的所有模拟结果
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement