数据地狱官

Python之探索式数据分析

探究数据分析的目的是为了找到有助于清理/准备/转换数据的思路，这些数据最终将用于机器学习算法/模型的建立。我们将采取以下行动：

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

plt.style.use('bmh')

Seaborn是一个基于matplotlib的Python数据可视化库。它提供了一个绘制信息统计图形的高级界面。

即使是漂亮的图表bokeh。

考虑住房价格及其影响因素。

data = pd.read_csv('data/train.csv')
data.head()

以上为部分数据截图

data.info()


RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
Id               1460 non-null int64
MSSubClass       1460 non-null int64
MSZoning         1460 non-null object
LotFrontage      1201 non-null float64
LotArea          1460 non-null int64
Street           1460 non-null object
Alley            91 non-null object
LotShape         1460 non-null object
LandContour      1460 non-null object
Utilities        1460 non-null object
LotConfig        1460 non-null object
LandSlope        1460 non-null object
Neighborhood     1460 non-null object
Condition1       1460 non-null object
Condition2       1460 non-null object
BldgType         1460 non-null object
HouseStyle       1460 non-null object
OverallQual      1460 non-null int64
OverallCond      1460 non-null int64
YearBuilt        1460 non-null int64
YearRemodAdd     1460 non-null int64
RoofStyle        1460 non-null object
RoofMatl         1460 non-null object
Exterior1st      1460 non-null object
Exterior2nd      1460 non-null object
MasVnrType       1452 non-null object
MasVnrArea       1452 non-null float64
ExterQual        1460 non-null object
ExterCond        1460 non-null object
Foundation       1460 non-null object
BsmtQual         1423 non-null object
BsmtCond         1423 non-null object
BsmtExposure     1422 non-null object
BsmtFinType1     1423 non-null object
BsmtFinSF1       1460 non-null int64
BsmtFinType2     1422 non-null object
BsmtFinSF2       1460 non-null int64
BsmtUnfSF        1460 non-null int64
TotalBsmtSF      1460 non-null int64
Heating          1460 non-null object
HeatingQC        1460 non-null object
CentralAir       1460 non-null object
Electrical       1459 non-null object
1stFlrSF         1460 non-null int64
2ndFlrSF         1460 non-null int64
LowQualFinSF     1460 non-null int64
GrLivArea        1460 non-null int64
BsmtFullBath     1460 non-null int64
BsmtHalfBath     1460 non-null int64
FullBath         1460 non-null int64
HalfBath         1460 non-null int64
BedroomAbvGr     1460 non-null int64
KitchenAbvGr     1460 non-null int64
KitchenQual      1460 non-null object
TotRmsAbvGrd     1460 non-null int64
Functional       1460 non-null object
Fireplaces       1460 non-null int64
FireplaceQu      770 non-null object
GarageType       1379 non-null object
GarageYrBlt      1379 non-null float64
GarageFinish     1379 non-null object
GarageCars       1460 non-null int64
GarageArea       1460 non-null int64
GarageQual       1379 non-null object
GarageCond       1379 non-null object
PavedDrive       1460 non-null object
WoodDeckSF       1460 non-null int64
OpenPorchSF      1460 non-null int64
EnclosedPorch    1460 non-null int64
3SsnPorch        1460 non-null int64
ScreenPorch      1460 non-null int64
PoolArea         1460 non-null int64
PoolQC           7 non-null object
Fence            281 non-null object
MiscFeature      54 non-null object
MiscVal          1460 non-null int64
MoSold           1460 non-null int64
YrSold           1460 non-null int64
SaleType         1460 non-null object
SaleCondition    1460 non-null object
SalePrice        1460 non-null int64
dtypes: float64(3), int64(35), object(43)
memory usage: 924.0+ KB

从这些信息中我们已经可以看出，有些数据将与我们的目的无关，因为它包含了太多的NaN值（Drummer、Alley和PoolQC）。此外，即使没有这些数据，表中也有足够的证据进行分析，所以我们可能不会考虑其中的一些数据。让我们去掉变量Id和含有30%以上NaN值的变量。

# pandas.DataFrame.count() does not include NaN values
data_without_nan = data[[column for column in data if data[column].count() / len(data) >= 0.3]]
data_without_nan = data_without_nan.drop(columns=['Id'])

dropped_columns = [col for col in data.columns if col not in data_without_nan.columns ]
print("List of dropped columns: ", dropped_columns)

现在我们来看看房价的分布情况。

data_without_nan['SalePrice'].describe()

# histogram and normal probability plot
from scipy import stats
from scipy.stats import norm

sns.distplot(data_without_nan['SalePrice'], fit=norm);
fig = plt.figure()
res = stats.probplot(data_without_nan['SalePrice'], plot=plt)

我们可以看到，价格是向右倾斜的，而且有一些排放量在~500000以上。最终，我们将需要摆脱它们，以获得自变量（'SalePrice'）的正态分布。

右斜分布有一个长长的右尾。右斜分布也叫正斜分布，因为数值线上有一个正方向的长尾。均值和中位数也是在峰值的右侧。

在偏移量为正值的情况下，数据的对数化效果非常好。

此外，你还可以使用Box-Cox转换。

# transformed histogram and normal probability plot
sns.distplot(np.log(data_without_nan['SalePrice']), fit=norm);
fig = plt.figure()
res = stats.probplot(np.log(data_without_nan['SalePrice']), plot=plt)

我们来看看其他星座的分布情况。要做到这一点，您必须首先只选择数字数据。

list(set(data_without_nan.dtypes.tolist()))

data_without_nan_num = data_without_nan.select_dtypes(include = ['float64', 'int64'])
data_without_nan_num.head()

以下为部分结果截图

现在让我们把它们都建起来。

data_without_nan_num.hist(figsize=(16, 20), bins=50, xlabelsize=8, ylabelsize=8); 
# ; avoid having the matplotlib verbose informations

如 "1stFlrSF"、"TotalBsmtSF"、"LotFrontage"、"GrLiveArea "等功能......。图形上与 "SalePrice "变量的分布相似。

相关性

让我们试着找到与 "SalePrice "相关的标志。

corr_data = data_without_nan_num.corr()['SalePrice'][:-1]
correlated_features_list = corr_data[abs(corr_data) > 0.5].sort_values(ascending=False)
print("There are {} strongly correlated values with SalePrice:\n{}".format(len(correlated_features_list), 
                                                                          correlated_features_list))

现在，我们有了一份与住房成本相关的变量清单，但这份清单并不完整，因为我们知道，这种相关性取决于排放量。因此，我们可以进行如下操作：

得到一张数字特征图，看看哪些人的排放很少或解释的排放。
删去排放，重新计算相关。
顺便说一下，相关性本身不一定能解释数据之间的关系。例如，比线性关系更复杂的关系，就不能简单地看关联度的值来猜测。所以，我们也来看看我们从关联表中排除的征兆，并建立它们，看看它们和房价之间是否有关联性。

考虑下图中的许多相关领域（Correlation）。值的分布(,)，每一个值都有相应的相关系数。相关系数反映了线性依赖关系的 "噪声"（上线），但不能描述线性依赖关系的斜率（中线），完全不适合描述复杂的非线性依赖关系（下线）。对于图中所示的分布，由于离散度y为零，所以没有定义相关系数。

for i in range(0, len(data_without_nan_num.columns), 5):
    sns.pairplot(data=data_without_nan_num,
                x_vars=data_without_nan_num.columns[i:i+5],
                y_vars=['SalePrice'])

我们可以清楚地发现这些迹象之间的一些联系。它们中的大多数似乎与 "SalePrice "有线性联系，如果你仔细观察数据，你会发现许多数据点位于x=0，这可能表明在特定的房屋中没有这样的调查特征（例如，"OpenPorchSF"--存在一个开放的门廊）。

我们试着把这些0从数值中去掉，重复寻找与房价最相关的数值。

import operator

individual_features_df = []
for i in range(0, len(data_without_nan_num.columns) - 1): # -1 because the last column is SalePrice
    tmp_data = data_without_nan_num[[data_without_nan_num.columns[i], 'SalePrice']]
    tmp_data = tmp_data[tmp_data[data_without_nan_num.columns[i]] != 0]
    individual_features_df.append(tmp_data)

all_correlations = {feature.columns[0]: feature.corr()['SalePrice'][0] for feature in individual_features_df}
all_correlations = sorted(all_correlations.items(), key=operator.itemgetter(1))
for (key, value) in all_correlations:
    print("{:>15}: {:>15}".format(key, value))

还有一个与 "SalePrice "相关的标志--"2ndFlrSF"。

correlated_features_list = [key for key, value in all_correlations if abs(value) >= 0.5]
print("There is {} strongly correlated values with SalePrice:\n{}".format(len(correlated_features_list), 
                                                                          correlated_features_list))

因此，有11个预测因素与 "SalePrice "相关。

我们还可以为我们暂时排除在考虑范围之外的分类特征引入额外的虚拟变量。

符号'2ndFlrSF'（有很多零）也可以通过标记1它的存在使其分类，数值可以加到变量'1stFlrSF'中。

data_without_nan_num[['1stFlrSF', '2ndFlrSF']]

1stFlrSF	2ndFlrSF
0	856	854
1	1262	0
2	920	866
3	961	756
4	1145	1053
5	796	566
6	1694	0
7	1107	983
8	1022	752
9	1077	0
10	1040	0
11	1182	1142
12	912	0
13	1494	0
14	1253	0
15	854	0
16	1004	0
17	1296	0
18	1114	0
19	1339	0
20	1158	1218
21	1108	0
22	1795	0
23	1060	0
24	1060	0
25	1600	0
26	900	0
27	1704	0
28	1600	0
29	520	0
...	...	...
1430	734	1104
1431	958	0
1432	968	0
1433	962	830
1434	1126	0
1435	1537	0
1436	864	0
1437	1932	0
1438	1236	0
1439	1040	685
1440	1423	748
1441	848	0
1442	1026	981
1443	952	0
1444	1422	0
1445	913	0
1446	1188	0
1447	1220	870
1448	796	550
1449	630	0
1450	896	896
1451	1578	0
1452	1072	0
1453	1140	0
1454	1221	0
1455	953	694
1456	2073	0
1457	1188	1152
1458	1078	0
1459	1256	0

1460 rows × 2 columns

特征与特征间的关系

让我们看看变量之间的关系，而不是与 "SalePrice "的关系。

corr = data_without_nan_num.drop('SalePrice', axis=1).corr() # We've already examined SalePrice correlations
plt.figure(figsize=(12, 10))

sns.heatmap(corr[(corr >= 0.5) | (corr <= -0.4)], 
            cmap='viridis', vmax=1.0, vmin=-1.0, linewidths=0.1,
            annot=True, annot_kws={"size": 8}, square=True);

很多因素是相互关联的。

一些因素，如YearBuild/GarageYrBlt，可能只是表明一段时间内的价格上涨。至于1stFlrSF/TotalBsmtSF这一对的相关性，似乎符合逻辑，1楼越大（考虑到很多房子只有1楼），普通的地下室就越大。这对于GarageCars/GarageArea对来说也是一样的。

因此，对于强相关的特征(1FlrSF/TotalBsmtSF，GarageCars/GarageArea)，只包含其中的一对是有意义的。

Q -> Q (Quantitative to Quantitative relationship)

除了按数据类型选择外，还可以查看数据描述（如果有的话），并选择严格的定量特征来查看数据和因变量之间的关系。

quantitative_features_list = ['LotFrontage', 'LotArea', 'MasVnrArea', 'BsmtFinSF1', 'BsmtFinSF2', 'TotalBsmtSF', '1stFlrSF',
    '2ndFlrSF', 'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath', 'HalfBath',
    'BedroomAbvGr', 'KitchenAbvGr', 'TotRmsAbvGrd', 'Fireplaces', 'GarageCars', 'GarageArea', 'WoodDeckSF', 'OpenPorchSF', 
    'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea', 'MiscVal', 'SalePrice']
df_quantitative_values = data_without_nan[quantitative_features_list]
df_quantitative_values.head()

LotFrontage	LotArea	MasVnrArea	BsmtFinSF1	BsmtFinSF2	1stFlrSF	2ndFlrSF	LowQualFinSF	...	GarageCars	GarageArea	WoodDeckSF	OpenPorchSF	EnclosedPorch	3SsnPorch
0	65.0	8450	196.0	706	856	856	854	1710	...	2	548	0	61	0	208500
1	80.0	9600	0.0	978	1262	1262	0	1262	...	2	460	298	0	0	181500
2	68.0	11250	162.0	486	920	920	866	1786	...	2	608	0	42	0	223500
3	60.0	9550	0.0	216	756	961	756	1717	...	3	642	0	35	272	140000
4	84.0	14260	350.0	655	1145	1145	1053	2198	...	3	836	192	84	0	250000

5 rows × 28 columns

让我们挑出与房价相关性最大的因素。

features_to_analyse = [x for x in quantitative_features_list if x in correlated_features_list]
features_to_analyse.append('SalePrice')
features_to_analyse

我们来看看所选数据的回归图。

fig, ax = plt.subplots(round(len(features_to_analyse) / 3), 3, figsize = (18, 12))

for i, ax in enumerate(fig.axes):
    if i < len(features_to_analyse) - 1:
        sns.regplot(x=features_to_analyse[i], y='SalePrice', data=data_without_nan[features_to_analyse], ax=ax)

TotalBsmtSF、1stFlrSF（之前我们已经决定用2ndFlrSF进行总结，并为2ndFlrSF进入类别变量）、GrLivArea和GarageArea适合在定量变量中建立模型。

C -> Q (Categorical to Quantitative relationship)

让我们来看看断然的特征。

# quantitative_features_list[:-1] as the last column is SalePrice and we want to keep it
categorical_features = [a for a in quantitative_features_list[:-1] + 
                        data_without_nan.columns.tolist() if (a not in quantitative_features_list[:-1]) or 
                        (a not in data_without_nan.columns.tolist())]
df_categ = data_without_nan[categorical_features]
df_categ.head()

MSSubClass	MSZoning	Street	LotShape	LandContour	Utilities	LotConfig	LandSlope	Neighborhood	Condition1	...	GarageYrBlt	GarageFinish	GarageQual	GarageCond	PavedDrive	MoSold	YrSold	SaleType	SaleCondition	SalePrice
0	60	RL	Pave	Reg	Lvl	AllPub	Inside	Gtl	CollgCr	Norm	...	2003.0	RFn	TA	TA	Y	2	2008	WD	Normal	208500
1	20	RL	Pave	Reg	Lvl	AllPub	FR2	Gtl	Veenker	Feedr	...	1976.0	RFn	TA	TA	Y	5	2007	WD	Normal	181500
2	60	RL	Pave	IR1	Lvl	AllPub	Inside	Gtl	CollgCr	Norm	...	2001.0	RFn	TA	TA	Y	9	2008	WD	Normal	223500
3	70	RL	Pave	IR1	Lvl	AllPub	Corner	Gtl	Crawfor	Norm	...	1998.0	Unf	TA	TA	Y	2	2006	WD	Abnorml	140000
4	60	RL	Pave	IR1	Lvl	AllPub	FR2	Gtl	NoRidge	Norm	...	2000.0	RFn	TA	TA	Y	12	2008	WD	Normal	250000

5 rows × 49 columns

df_not_num = df_categ.select_dtypes(include = ['O'])
print('There is {} non numerical features including:\n{}'.format(len(df_not_num.columns), df_not_num.columns.tolist()))

让我们来看看特征

plt.figure(figsize = (10, 6))
ax = sns.boxplot(x='Neighborhood', y='SalePrice', data=df_categ)
plt.setp(ax.artists, alpha=.5, linewidth=2, edgecolor="k")
plt.xticks(rotation=45)

plt.figure(figsize = (12, 6))
ax = sns.boxplot(x='HouseStyle', y='SalePrice', data=df_categ)
plt.setp(ax.artists, alpha=.5, linewidth=2, edgecolor="k")
plt.xticks(rotation=45)

(array([0, 1, 2, 3, 4, 5, 6, 7]), )

让我们来看看它们的分布情况。

fig, axes = plt.subplots(round(len(df_not_num.columns) / 3), 3, figsize=(12, 30))

for i, ax in enumerate(fig.axes):
    if i < len(df_not_num.columns):
        ax.set_xticklabels(ax.xaxis.get_majorticklabels(), rotation=45)
        sns.countplot(x=df_not_num.columns[i], alpha=0.7, data=df_not_num, ax=ax)  # bar plots showing the counts of observations in each categorical bin

fig.tight_layout()

你可以看到，对于一些属性（Utilities、Heating、GarageCond、Functional）来说，有一个值是主要的。这些特征不携带进一步建模的信息。

用分类特征工作

替换值
编码标签Encoding labels
一热编码One-Hot encoding
二进制编码Binary encoding
后向差异编码Backward difference encoding
杂项特征Miscellaneous features

# convert categorical variable into dummy
data_with_dummies = pd.get_dummies(data_without_nan.dropna())
data_with_dummies.head()

MSSubClass	LotFrontage	LotArea	OverallQual	OverallCond	YearBuilt	YearRemodAdd	MasVnrArea	BsmtFinSF1	BsmtFinSF2	SaleType_ConLD	SaleCondition_Abnorml	SaleCondition_Alloca	SaleCondition_Partial
1	20	80.0	9600	6	8	1976	1976	0.0	978	...	1	0	1
2	60	68.0	11250	7	5	2001	2002	162.0	486	...	1	0	1
3	70	60.0	9550	7	5	1915	1970	0.0	216	...	1	1	0
4	60	84.0	14260	8	5	2000	2000	350.0	655	...	1	0	1
6	20	75.0	10084	8	5	2004	2005	186.0	1369	...	1	0	1

5 row

MSSubClass	MSZoning	LotFrontage	LotArea	Street	LotShape	LandContour	Utilities	LotConfig	LandSlope	...	EnclosedPorch	3SsnPorch	YrSold	SaleType	SaleCondition	SalePrice
0	60	RL	65.0	8450	Pave	Reg	Lvl	AllPub	Inside	Gtl	...	0	2	2008	WD	Normal	208500
1	20	RL	80.0	9600	Pave	Reg	Lvl	AllPub	FR2	Gtl	...	0	5	2007	WD	Normal	181500
2	60	RL	68.0	11250	Pave	IR1	Lvl	AllPub	Inside	Gtl	...	0	9	2008	WD	Normal	223500
3	70	RL	60.0	9550	Pave	IR1	Lvl	AllPub	Corner	Gtl	...	272	2	2006	WD	Abnorml	140000
4	60	RL	84.0	14260	Pave	IR1	Lvl	AllPub	FR2	Gtl	...	0	12	2008	WD	Normal	250000

5 rows × 76 columns

data_without_nan.head()

MSSubClass	MSZoning	LotFrontage	LotArea	Street	LotShape	LandContour	Utilities	LotConfig	LandSlope	...	EnclosedPorch	3SsnPorch	YrSold	SaleType	SaleCondition	SalePrice
0	60	RL	65.0	8450	Pave	Reg	Lvl	AllPub	Inside	Gtl	...	0	2	2008	WD	Normal	208500
1	20	RL	80.0	9600	Pave	Reg	Lvl	AllPub	FR2	Gtl	...	0	5	2007	WD	Normal	181500
2	60	RL	68.0	11250	Pave	IR1	Lvl	AllPub	Inside	Gtl	...	0	9	2008	WD	Normal	223500
3	70	RL	60.0	9550	Pave	IR1	Lvl	AllPub	Corner	Gtl	...	272	2	2006	WD	Abnorml	140000
4	60	RL	84.0	14260	Pave	IR1	Lvl	AllPub	FR2	Gtl	...	0	12	2008	WD	Normal	250000

5 rows × 76 columns

变量选择
因此，在NaN的清洗阶段，所有迹象都被过滤掉了，除了：巷子里的游泳池QC围栏MiscFeature.

经过定量特征的图形分析，看到了最适合进一步建立模型。1stFlrSF GarageArea GrLivArea LotFrontage TotalBsmtSF

通过与被调查变量SalePrice的相关性：OverallQual GrLivArea 2ndFlrSF。

根据各变量之间的相关性，有必要取其一FlrSF或TotalBsmtSF进行分析（相关系数0.82）。

按回归图：TotalBsmtSF GrLivArea 1stFlrSF GarageArea

其中优质功能：邻里外景1st / Exterior2nd HouseStyle BsmtFinType1。

最后一组：1stFlrSF(或TotalBsmtSF)、GarageArea、GrLivArea、LotFrontage、OverallQual(意义更大)、2ndFlrSF(可能要分类修改)、Neighborhood、Exterior1st(或Exterior2nd)、HouseStyle和BsmtFinType1。

你可能感兴趣的:(Python)

高并发解决方案：SpringBoot+Redis分布式缓存实战 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人高并发解决方案：SpringBoot
SpringBoot缓存技术全解析：Redis+Caffeine二级缓存架构 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot缓存技术全解析：
后端开发：Spring Boot 的分布式缓存方案大厂资深架构师 Spring Boot 开发实战 spring boot 分布式缓存 ai
后端开发：SpringBoot的分布式缓存方案关键词：SpringBoot、分布式缓存、Redis、Caffeine、缓存策略、缓存失效摘要：本文深入探讨了在SpringBoot后端开发中分布式缓存方案的相关技术。首先介绍了分布式缓存在现代应用中的重要性及本文的研究范围，接着阐述了核心概念如分布式缓存的原理与架构，详细讲解了常用的核心算法原理及具体操作步骤，包括使用Python代码示例说明。通过数
上位机知识篇---Prompt&PowerShell Prompt Atticus-Orion 上位机知识篇 prompt powershell
在Anaconda环境中，AnacondaPrompt和AnacondaPowerShellPrompt是两个常用的命令行工具，它们的核心功能都是为了方便管理Python环境和执行相关命令，但底层依赖的命令行解释器不同，因此在使用场景和语法上存在一些区别。下面详细介绍两者的差异：1.底层依赖的命令行解释器不同这是两者最根本的区别，决定了它们的语法规则和功能范围：AnacondaPrompt基于Wi
virtualenv 小小怪吃吃吃
virtualenv就是用来为一个应用创建一套“隔离”的Python运行环境。(1)用pip安装virtualenv:pip3installvirtualenv(2)创建开发项目目录:mkdirprojectcdproject/(3)创建一个独立的Python运行环境，命名为venv:virtualenv--no-site-packagesvenv命令virtualenv就可以创建一个独立的Pyt
VSCode使用Jupyter完整指南配置机器学习环境 z日火校招学习日记 vscode jupyter 机器学习
接下来开始机器学习部分第一步配置环境：VSCode使用Jupyter完整指南1.安装必要的扩展打开VSCode，按Ctrl+Shift+X打开扩展市场，搜索并安装以下扩展：必装扩展：Python(Microsoft官方)-Python语言支持Jupyter(Microsoft官方)-Jupyternotebook支持Pylance(Microsoft官方)-Python智能提示和语法检查推荐扩展：
python虚拟环境打包_python项目打包虚拟环境 weixin_39933356 python虚拟环境打包
python项目打包时，需要将虚拟环境与python自身安装路径下的lib包整合在一起，将该文件保存为packvenv.sh，放入虚拟环境目录下，chmod+xpackvenv.sh，./packvenv.sh执行即可#!/bin/bashPYTHON_PATH=/usr/local/python2.7VENV_PATH=~/.virtualenvs/venv-linux6VENV_NAME=`b
python连接数据库的方法,Python 连接数据库的多种方法 AI MIU python连接数据库的方法
JZGKCHINAPython是一种计算机程序设计语言，它是一种动态的、面向对象的脚本语言。它是一种跨平台的，可以运行在Windows，Mac和Linux/Unix系统上。在日常使用中需要对大量数据进行数据分析，那么就必然用到数据库，我们常用的数据库有SQLServer,MySQL,Oracle,DB2,SQLite，Hive，PostgreSQL,MongoDB还有其他常用的MicrosoftA
pycharm2023，修改文件夹路径，venv解释器无法新增 day_323 python pycharm
pycharm2023，修改文件夹路径，venv解释器无法新增1问题描述2处理方法1问题描述我的pycharm版本为2023.1.2。原有代码所在文件夹路径变更后，再用pycharm打开代码，然后进入setting-pythoninterpreter中，新增venv虚拟环境，pycharm无反应，venv环境一直无法新增。2处理方法1关闭pycharm。然后进入代码文件夹，删除.idea文件夹和v
python 连接数据库小鱼拉灯 mysql 数据库 python
一.连接MYSQL1.下载PyMySql模块2.在MYSQL中创建数据库并连接importpymysqlconn=pymysql.connect(host='localhost',user='root',password='123456',database='ikun',charset='utf8',port=3306)3.创建表importpymysqlconn=pymysql.connect(
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
python基础笔记大大的大大笔记 python 前端数据库
输入就是print()；#括号里面双引号(“xxxx”)=单引号('xxxx')必须在一行；但是三引号"""xxxx"""='''xxx'''可以换行输出；#'''xxxnnn'''xx=open(('C:\py\py笔记.txt','a+')print('hello',file=xx)xx.close()可以在python中新建文本文本档等(看后缀)："xx"=open('C:\py\py笔记.
python venv不适合变更路径（路径变更）的几种解决方案（venvpack、pip download、pip install --no-index --find-links=packages）
文章目录**为什么会出现路径问题？**1.**`pyvenv.cfg`文件**：该文件记录了虚拟环境的Python解释器路径（`home`字段）。如果源和目标机器的Python安装路径不一致，虚拟环境将无法找到正确的解释器。2.**脚本路径硬编码**：虚拟环境中的激活脚本（如`activate`）和可执行文件（如`python`）可能包含绝对路径或硬编码的相对路径，导致路径不匹配时失效。**解决方
python-程序编程-实例“温度转换”
实例：温度刻画的两种不同的体系。摄氏度、华氏度需求：将两种不同的摄氏度进行转换。问题分析：输入：输入一个华氏度的温度或者摄氏度的温度值处理：根据温度标志进行温度转换。输出：输出一个带华氏度或者摄氏度的温度值。(f代表华氏度，c代表是摄氏度)c=(f-32)/1.8f=c*1.8+32代码如下：temp=input("请输入有符号的温度值")iftemp[-1]in['f','F']:c=(eval
基于Docker构建Python后端项目落地总结
Docker使用总结基于Dockerfile的镜像构建示例dockerfile解析#加载centos7的最小镜像源FROMcentos:7RUNyumcleanallRUNyum-yupdate#修改时区RUNln-sf/usr/share/zoneinfo/Asia/Shanghai/etc/localtime&&echo"Asia/Shanghai">/etc/timezone#安装中文支持R
python集合常用函数 Lo-Y-eH python
Python集合是一种无序、可变且不重复的数据类型，常用于处理一组唯一的数据。下面是常用的Python集合函数及其用法：add()：向集合添加一个元素。s=set()s.add(1)s.add(2)s.add(3)print(s)#输出{1,2,3}clear()：移除集合中的所有元素。s=set([1,2,3])s.clear()print(s)#输出set()copy()：返回集合的一个浅拷贝
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 基于wordcloud库实现词云图
大家好，我是java1234_小锋老师，最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程，持续更新中，计划月底更新完，感谢支持。今天讲解基于wordcloud库实现词云图视频在线地址：2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫)视频教程（火爆连载更新中..
Python领域制造业的Python应用 Python编程之道 Python编程之道 python 开发语言 ai
Python在制造业中的应用：从自动化到智能制造关键词：Python、制造业、工业自动化、数据分析、机器学习、物联网、智能制造摘要：本文深入探讨Python编程语言在制造业中的广泛应用。从基础的自动化脚本到复杂的智能制造系统，Python凭借其丰富的库生态系统和易用性，正在重塑现代制造业。我们将分析Python在制造业中的核心应用场景，包括设备监控、质量控制、预测性维护和供应链优化等，并通过实际案
Python 爬虫实战：自动化获取学术会议数据（会议安排、论文提交等） Python爬虫项目 python 爬虫自动化智能家居数据分析开发语言运维
1.引言学术会议是研究人员获取最新科研成果、发表论文、交流思想的重要平台。对于研究者而言，掌握最新的会议安排、论文提交截止日期、会议议程以及演讲嘉宾等信息至关重要。然而，学术会议信息通常分散在不同的官方网站上，人工查找和整理这些数据既费时又容易遗漏。为了提高效率，我们可以使用Python爬虫自动化获取学术会议数据，包括：会议名称、日期、地点论文提交截止日期会议议程及嘉宾信息论文录用结果重要通知及相
Python条件语句(if-elif-else)的完整用法与嵌套技巧梦幻南瓜 python python 网络服务器
引言条件语句是编程中最基础也是最重要的控制结构之一，它使程序能够根据不同条件执行不同的代码路径。Python中的条件语句以if、elif和else关键字实现，语法简洁但功能强大。本文将全面介绍Python条件语句的各种用法，从基础语法到高级嵌套技巧，通过大量代码示例、对比表格和实际应用场景，帮助你掌握条件语句的精髓。1.条件语句基础1.1基本语法结构Python条件语句的基本结构如下：if条件1:
Python特性：装饰器解决数据库长时间断连问题超龄超能程序猿数据库 python
前言在基于Python的Web应用开发里，数据库连接是极为关键的一环。不过，像网络波动、数据库服务器维护这类因素，都可能造成数据库长时间断连，进而影响应用的正常运作。本文将详细介绍怎样运用retry_on_failure装饰器来解决数据库长时间断连的难题一问题背景在实际开发场景中，应用和数据库之间的连接可能会由于各种缘由中断（长时间系统无人访问，再次访问，数据库连接超时）。当应用尝试执行数据库操作
Python 字符串前缀详解
Python提供了多种字符串前缀，用于改变字符串的创建方式和行为。下面我将全面汇总并详细解释每种字符串前缀的特性、用途和示例。1.原始字符串(RawString)-r前缀语法:r'...'或r"..."作用:禁用字符串中的转义字符反斜杠\被视为普通字符特别适合处理包含大量反斜杠的字符串适用场景:文件路径(特别是Windows路径)正则表达式需要保留反斜杠的任何情况示例:#普通字符串中的转义path
Python中的条件语句：if-else使用指南 AI软件改变生活 Python 数据库前端 python
在编程中，条件语句是控制程序流程的核心工具之一，它允许程序根据不同的条件执行不同的代码块。Python提供了简洁而强大的条件语句语法，其中最常用的就是if-else语句。本文将详细介绍Python中if-else的使用方法、常见用法以及一些高级技巧。1.基本语法if-else语句的基本结构如下：Python复制if条件表达式:#如果条件表达式为True，执行这里的代码块passelse:#如果条件
这么简单的从零到一做HTML 网页，你确定不来看看吗？ paid槮 html 服务器前端
HTML网页的介绍HTML(HypertextMarkupLanguage,超文本标记语言)是一种用于创建网页的标准标记语言,是一种与Python不同的编程语言。网页文件的扩展名通常为,html或.htm,这两种扩展名都可使用,并不会影响文件内容简单的HTML网页框架每一个HTML网页都包含一个基础框架，其他的内容都是在基础框架内进行扩充的。示例代码:这里是标题在这里填入正文这是一个较为基础的HT
Python 2和Python 3的区别？山禾家的猫
Python社区，有这么个怪问题：“学Python到底是学2还是学3？”这个问题就像月经一样每隔断时间就出现在你面前，也成了很多初学者的选择困惑，这个问题的“始作俑者”当然是Python它爹，大家众说纷纭，有说Python2是主流，大公司都在用，你应该学2。也有说Python3才是未来主流，大多数第三方框架已基本支持Python3。个人看法是Python2还会存在很长一段时间（只要那些用Pytho
Python基础和高级【抽取复习】斟的是酒中桃 python 学习
1.Python的深拷贝和浅拷贝有什么区别？浅拷贝【ls.copy()】：将列表的不可变对象【值】复制一份，同时引用其中的可变对象【列表】，共用一个内存地址深拷贝【ls=copy.deepcopy(list)】：完全的复制原可变对象，生成新的可变对象，两个对象互相独立2.列表和元组的区别是什么？1.列表概念：有序序列，使用[]定义，元素之间用，隔开有序序列增删改操作：可以增删改列表的任意元素不可变
[Python]Python中if-else的语法，用法示例 LN花开富贵 Python python 学习笔记嵌入式单片机 opencv
Python中多条件判断通过if-elif-else结构实现，elif是elseif的缩写。一、基础语法结构if条件1:#条件1为真时执行的代码块elif条件2:#条件2为真时执行的代码块elif条件3:#条件3为真时执行的代码块else:#所有条件均不满足时执行的代码块顺序判断，当第一个条件满足时其对应的代码块会被执行，后续elif的条件不在检查，如果都是if语句，那么执行完第一个if后后面的i
python源码下载
python源码下载(2010-12-1823:11)不知道python.org一直被堵在墙外…1、http://ftp.python.org/ftp/python/2、http://www.python.org/ftp/python/
Python接地气入门。
欢迎来到"鑫哆哆"编程角世界上最好的语言PYTHON?鑫哆哆跟python的机缘为什么选择python合理的设计学习计划，有助于攻略的成功合理驯服自己脑子合理骗过自己脑子合理安排反馈鑫哆哆的学习python计划基础语法缩进语句规则控制语句规则表达式规则函数规则对象规则类型规则数学运算直接觉醒！鑫哆哆的课程选取迈出第一步恭喜大家成功入门python！总结世界上最好的语言PYTHON?新的一年祝大家心
Python镜像源染诗 python
https://www.cnblogs.com/songzhixue/p/11296720.html
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite