云流寂川

Kaggle竞赛——房价预测（一）

文章目录

任务要求
- 数据说明
- 最终目标
- 评价指标：RMSE
实施流程
代码实现
- 导包
- 读取并查看数据集
- 保存并删除原有Id列
数据预处理和特征工程
- 异常值处理
- 目标变量分析
- 缺失值处理
- - 1、首先将训练集和测试集合并在一起
  - 2、统计各个特征的缺失情况
- 3、填补缺失值
- 4、特征相关性
- 5、进一步挖掘特征
- - 1、转换部分数值特征为分类特征
  - 2、转换部分分类特征为数值特征
  - 3. 利用一些重要的特征构造更多的特征
- 4、对特征进行Box-Cox变换
- 5、独热编码

任务要求

影响房价的因素有很多，在本题的数据集中，有79个解释变量几乎描述了爱荷华州艾姆斯（Ames, Iowa）住宅的方方面面，要求预测每套房屋最终的销售价格。

数据说明

train.csv - 训练集

test.csv - 测试集

data_description.txt - 每列的完整描述，最初由 Dean De Cock 准备，但经过稍微编辑以匹配此处使用的列名

sample_submission.csv - 根据销售年份和月份、地块面积和卧室数量进行线性回归的基准提交

最终目标

要求预测每栋房屋的销售价格，即对于测试集test.csv中的每个 Id，预测对应 SalePrice 变量的值。**

评价指标：RMSE

即根据预测值的对数和观察到的房价对数之间的均方根误差对提交结果进行评估。公式如下
$\sqrt{\frac {\sum_{i=1}^N{(y_i-\hat{y}_i)^2}} N}\,$

实施流程

1）了解、分析问题；
2）获取训练集和测试集，做一些数据预览工作；
3）进行数据预处理和特征工程；
4）建模、改进模型、做出预测；
5）提交结果。

代码实现

导包

import warnings
warnings.filterwarnings("ignore")   # 忽略警告信息

from scipy.stats import norm, skew  # 获取统计信息
from scipy import stats
import numpy as np
import pandas as pd    # 数据处理包
import seaborn as sns  # 绘图包
color = sns.color_palette()
sns.set_style('darkgrid')
import matplotlib.pyplot as plt 
%matplotlib inline

pd.set_option('display.float_format', lambda x: '{:.3f}'.format(x))  # 限制浮点输出到小数点后3位

import os
print('\n'.join(os.listdir('./input')))  # 列出目录中可用的文件

读取并查看数据集

# 加载数据
train = pd.read_csv('./input/train.csv')
test = pd.read_csv('./input/test.csv')

# 检查样本和特征的数量
print("删除Id列前训练集大小: {} ".format(train.shape))
print("删除Id列前测试集大小: {} ".format(test.shape))

train.head(5)

删除Id列前训练集大小: (1460, 81) 
删除Id列前测试集大小: (1459, 80)

保存并删除原有Id列

#保存Id列
train_ID = train['Id']
test_ID = test['Id']
# 删除原数据集的Id列
train.drop("Id", axis=1, inplace=True)
test.drop("Id", axis=1, inplace=True)

数据预处理和特征工程

异常值处理
目标变量分析
缺失值处理
特征相关性
进一步挖掘特征
对数值型特征进行Box-Cox变换
独热编码

异常值处理

通过绘制散点图可以直观地看出训练集特征是否有离群值，这里以地上生活面积 GrLivArea 为例。
我们可以看到，图像右下角的两个点有着很大的GrLivArea，但相应的SalePrice却异常地低，我们有理由相信它们是离群值，要将其剔除。

plt.figure(figsize=(14, 4))

plt.subplot(121)
plt.scatter(x=train['GrLivArea'], y=train['SalePrice'])
plt.ylabel('SalePrice', fontsize=13)
plt.xlabel('GrLivArea', fontsize=13)

train = train.drop(train[(train['GrLivArea'] > 4000) & (train['SalePrice'] < 300000)].index)
plt.subplot(122)
plt.scatter(train['GrLivArea'], train['SalePrice'])
plt.ylabel('SalePrice', fontsize=13)
plt.xlabel('GrLivArea', fontsize=13)

注意：删除离群值并不总是安全的。我们不能也不必将所有的离群值全部剔除，因为测试集中依然会有一些离群值。用带有一定噪声的数据训练出的模型会具有更高的鲁棒性，从而在测试集中表现得更好。

目标变量分析

SalePrice 是我们将要预测的目标，有必要对其进行分析和处理。
我们画出SalePrice的分布图和QQ图（Quantile Quantile Plot）。QQ图是由标准正态分布的分位数为横坐标，样本值为纵坐标绘制而成的散点图。如果QQ图上的点在一条直线附近，则说明数据近似于正态分布，且该直线的斜率为标准差，截距为均值。

# 分布图
fig, ax = plt.subplots(nrows=2, figsize=(6, 10))
sns.distplot(train['SalePrice'], fit=norm, ax=ax[0])
(mu, sigma) = norm.fit(train['SalePrice'])
ax[0].legend(['Normal dist. ($\mu=$ {:.2f} and $\sigma=$ {:.2f} )'.format(mu, sigma)], loc='best')
ax[0].set_ylabel('Frequency')
ax[0].set_title('SalePrice distribution')
# QQ图
stats.probplot(train['SalePrice'], plot=ax[1])
plt.show()

可以看到，SalePrice的分布呈正偏态，而线性回归模型要求因变量服从正态分布。我们对其做对数变换，让数据接近正态分布。

# 使用numpy中函数log1p()将log(1+x)应用于列的所有元素
train["SalePrice"] = np.log1p(train["SalePrice"])

# 查看转换后数据分布
# 分布图
fig, ax = plt.subplots(nrows=2, figsize=(6, 10))
sns.distplot(train['SalePrice'], fit=norm, ax=ax[0])
(mu, sigma) = norm.fit(train['SalePrice'])
ax[0].legend(['Normal dist. ($\mu=$ {:.2f} and $\sigma=$ {:.2f} )'.format(
    mu, sigma)], loc='best')
ax[0].set_ylabel('Frequency')
ax[0].set_title('SalePrice distribution')

# QQ图
stats.probplot(train['SalePrice'], plot=ax[1])
plt.show()

缺失值处理

1、首先将训练集和测试集合并在一起

all_data = pd.concat((train, test)).reset_index(drop=True)
all_data.drop(['SalePrice'], axis=1, inplace=True)

print("all_data size is : {}".format(all_data.shape)) # print(f"all_data size is : {all_data.shape}")

all_data size is : (2917, 79)

2、统计各个特征的缺失情况

all_data_na = (all_data.isnull().sum() / len(all_data)) * 100
#pd.set_option('display.max_rows', 500)
all_data_na
#pd.reset_option('display.max_rows')

过滤缺失率为0的特征并按照缺失率降序排列

all_data_na = all_data_na.drop(all_data_na[all_data_na == 0].index).sort_values(ascending=False) 
missing_data = pd.DataFrame({'Missing Ratio': all_data_na})
missing_data.head(10)

为了便于直观的展示和分析，我们每个特征的缺失率的柱状图：

fig,ax = plt.subplots(figsize=(15,8))
sns.barplot(x=missing_data.index,y=all_data_na)
plt.xticks(rotation='90')#将x轴标签旋转90°，这样显示就不会挤在一起
plt.xlabel('Features',fontsize=15)
plt.ylabel('Percent of missing values',fontsize=15)
plt.title('Percent missing data by features')

3、填补缺失值

在data_description中已经说明，一部分特征值的缺失是因为这些房子根本就没有这个特征，比如游泳池面积之类，对于这种情况我们统一用None或者0来填充
Python中的None是一个特殊变量，不是0，也不是False，不是空字符串，更多的是表示一种不存在，是真正的空

PoolQC : 数据描述说 NA 表示“没有泳池”。这是有道理的，因为大多数房子一般都没有游泳池，因而缺失值的比例很高（+99%）。
MiscFeature : 数据描述说 NA 表示“没有杂项”。
Alley : 数据描述NA 表示“没有小巷通往”。
Fence : 数据描述说 NA 表示“没有围栏”。
FireplaceQu : 数据描述说 NA 的意思是“没有壁炉”。
…

针对特征的不同特点及含义，对缺失值我们通常采用不同的处理方式

对于缺失率非常高的特征，我们用None或0来填补

all_data["PoolQC"] = all_data["PoolQC"].fillna("None")
all_data["MiscFeature"] = all_data["MiscFeature"].fillna("None")
all_data["Alley"] = all_data["Alley"].fillna("None")
all_data["Fence"] = all_data["Fence"].fillna("None")
all_data["FireplaceQu"] = all_data["FireplaceQu"].fillna("None")
all_data["MasVnrType"] = all_data["MasVnrType"].fillna("None")
all_data["MasVnrArea"] = all_data["MasVnrArea"].fillna(0)
for col in ('GarageType', 'GarageFinish', 'GarageQual', 'GarageCond'):
    all_data[col] = all_data[col].fillna('None')
for col in ('GarageYrBlt', 'GarageArea', 'GarageCars'):
    all_data[col] = all_data[col].fillna(0)
for col in ('BsmtFinSF1', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'BsmtFullBath', 'BsmtHalfBath'):
    all_data[col] = all_data[col].fillna(0)
for col in ('BsmtQual', 'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinType2'):
    all_data[col] = all_data[col].fillna('None')

对于缺失值较少的离散型特征，比如Electrical，可以使用众数插补

all_data['MSZoning'] = all_data['MSZoning'].fillna(all_data['MSZoning'].mode()[0])
all_data['Electrical'] = all_data['Electrical'].fillna(all_data['Electrical'].mode()[0])
all_data['KitchenQual'] = all_data['KitchenQual'].fillna(all_data['KitchenQual'].mode()[0])
all_data['Exterior1st'] = all_data['Exterior1st'].fillna(all_data['Exterior1st'].mode()[0])
all_data['Exterior2nd'] = all_data['Exterior2nd'].fillna(all_data['Exterior2nd'].mode()[0])
all_data['SaleType'] = all_data['SaleType'].fillna(all_data['SaleType'].mode()[0])

LotFrontage:由于房屋到街道的距离，最有可能与其附近其他房屋到街道的距离相同或相似，因此我们可以通过该社区的LotFrontage的中位数来填充缺失值

all_data['LotFrontage'] = all_data.groupby("Neighborhood")["LotFrontage"].transform(lambda x:x.fillna(x.median()))

Functional:居家功能性，数据描述说NA表示类型“Typ”。因此，我们用其填充

all_data['Functional'] = all_data['Functional'].fillna("Typ")

Utillties：设备可用性，对于这个特征，所有记录除了一个“NoSeWa”和两个NA,其余值都是“AllPub",因此该项特征的方差非常小。并且带有”NoSewa“的房子在训练集中，也就是说测试集都是”AllPub“,这个特征对预测建模没有帮助。因此，我们可以安全的删除他

all_data = all_data.drop(['Utilities'],axis=1)

至此，所有的缺失值都已处理完毕

4、特征相关性

相关性矩阵热图可以表现特征与目标值之间以及两两特征之间的相关程度，对特征的处理有指导意义

#seaborn中函数heatmap()可以查看特征如何与SalePrice相关联
corrmat = train.corr()
plt.figure(figsize=(12,9))
sns.heatmap(corrmat,vmax=0.9,square=True)

5、进一步挖掘特征

1、转换部分数值特征为分类特征

我们注意到有些特征虽然是数值型的，但其实表征的只是不同类别，其数值的大小并没有实际意义，因此我们将其转化为分类特征
MSSubClass:住宅标识
YrSold:开售年份
MoSold:开售月份

all_data['MSSubClass'] = all_data['MSSubClass'].apply(str)#apply函数默认对列进行操作
all_data['YrSold'] = all_data['YrSold'].apply(str)
all_data['MoSold'] = all_data['MoSold'].apply(str)

2、转换部分分类特征为数值特征

反过来，有些类别特征实际上有高低好坏之分，这些特征的质量越高，就可能在一定程度上导致房价越高
我们将这些特征的类别映射成有大小的数字，以此来表征这种潜在的偏序关系。（标签编码：LabelEncoder）

PoolQC:泳池质量，有Ex Excellent，Gd Good等

from sklearn.preprocessing import LabelEncoder
cols = ('FireplaceQu', 'BsmtQual', 'BsmtCond', 'GarageQual', 'GarageCond',
        'ExterQual', 'ExterCond', 'HeatingQC', 'PoolQC', 'KitchenQual', 'BsmtFinType1',
        'BsmtFinType2', 'Functional', 'Fence', 'BsmtExposure', 'GarageFinish', 'LandSlope','LotShape',
        'PavedDrive', 'Street', 'Alley', 'CentralAir', 'MSSubClass', 'OverallCond','YrSold', 'MoSold')

#处理列，将标签编码应用于分类特征
for c in cols:
    lbe = LabelEncoder()
    all_data[c] = lbe.fit_transform(list(all_data[c].values))

print('Shape all_data:{}'.format(all_data.shape))

Shape all_data:(2917, 78)

3. 利用一些重要的特征构造更多的特征

TotalBsmtSF：地下室总面积
1stFlrSF：一层面积
2ndFlrSF：二层面积
OverallQual：整体材料和装饰综合质量
GrLivArea：地上生活面积
TotRmsAbvGrd：地上总房间数
GarageArea：车库面积
YearBuilt：建造时间

合并策略

1、将地下室总面积和一层二层面积这三个特征相加，叫房屋可用总面积
2、构建整体质量和重要特征之间的交互项，就是相乘

# 构造更多的特征
all_data['TotalSF'] = all_data['TotalBsmtSF'] + all_data['1stFlrSF'] + all_data['2ndFlrSF'] # 房屋总面积

all_data['OverallQual_TotalSF'] = all_data['OverallQual'] * all_data['TotalSF']  # 整体质量与房屋总面积交互项
all_data['OverallQual_GrLivArea'] = all_data['OverallQual'] * all_data['GrLivArea'] # 整体质量与地上总房间数交互项
all_data['OverallQual_TotRmsAbvGrd'] = all_data['OverallQual'] * all_data['TotRmsAbvGrd'] # 整体质量与地上生活面积交互项
all_data['GarageArea_YearBuilt'] = all_data['GarageArea'] * all_data['YearBuilt'] # 车库面积与建造时间交互项

4、对特征进行Box-Cox变换

Box-Cox变换简介：对于存在正负偏态的特征，我们通常有对数变换和开方变换两种方式，那么Box-Cox就是一种自动根据数据进行变换纠偏的方法。
https://blog.csdn.net/lx529068450/article/details/117419208

1、对数值型特征，我们希望他们尽量服从正态分布，也就是不希望这些特征出现正负偏态。那么我们先来计算一下各个特征的偏度

#筛选出所有数值型特征
numeric_feats = all_data.dtypes[all_data.dtypes != "object"].index
#计算特征的偏度
numeric_data = all_data[numeric_feats]
skewed_feats = numeric_data.apply(lambda x:skew(x.dropna())).sort_values(ascending=False)
skewness = pd.DataFrame({'skew':skewed_feats})
skewness

2、对高偏度的特征进行Box-Cox变换

new_skewness = skewness[skewness.abs() > 0.75]
print('有{}个特征被Box-Cox变换'.format(new_skewness.shape[0]))

有63个特征被Box-Cox变换

我们使用scipy中的boxcox1p()函数计算1+x的Box-Cox变换，当参数等于0时等效于目标变量的log1p
选出偏度绝对值大于0.75的数据，找出这些偏度对应的特征，将偏度平滑至0.15

from scipy.special import boxcox1p

skewed_features = new_skewness.index
lam = 0.15
for feat in skewed_features:
    all_data[feat] = boxcox1p(all_data[feat],lam)#指定要平滑的列和需要平滑到的峰度

5、独热编码

上述我们主要在处理数值型特征，接下来我们处理类别特征

那么对于类别特征，我们将其转化为独热编码，这样既解决了模型不好处理属性数据的问题，在一定程度上也起到了扩充特征的作用
　什么时候使用标签编码/独热编码呢，例如：有个特征代表颜色，有红黄蓝三种，这三种如果使用labelencoder则是012，但是在机器学习中我们这就赋予了红黄蓝一个天然的大小关系，而本质上三种颜色不存在任何的比较关系，赋予特征错误的信息将会造成模型的准确率下降，这个时候我们就应该使用独热编码
　从另一个方面来说，每个特征向量的距离都是根号二，在向量空间中的距离都相等，即不会影响基于向量空间度量算法的一个效果

下面我们对数据进行独热编码

all_data = pd.get_dummies(all_data)
print(all_data.shape)

至此，我们完成了在模型训练前全部的数据准备工作。

C++数据结构————二叉树 Гений.大天才 C++语言入门以及基础算法 c++数据结构开发语言
【前言】在数据结构与算法的世界里，二叉树（BinaryTree）始终占据着核心地位。它既是众多高级树形结构（B+树、红黑树、线段树、字典树……）的“基因”，又是面试、竞赛与工程实战中绕不开的考点。本文将用大约2万字的篇幅，从“零”开始，把C++二叉树的所有常见形态、常见算法、常见坑点与常见优化一次性讲透。全文配套可编译运行的C++17/20代码2000余行，所有示例均在GCC13/Clang17/
告别内存焦虑！用Dask打开Python大数据并行计算的“任意门“ 小张在编程 python 大数据开发语言
引言当你在Jupyter里用Pandas读取20GB的CSV文件，看到内存占用率从10%飙升到90%，最后弹出"MemoryError"时；当你想对亿级数据做分组聚合，却发现单线程计算要等上半小时——这些场景是不是像极了用小推车搬运万吨货物？Python生态中，Dask库就像一台"并行计算推土机"，能把大数据拆分成小块并行处理，让你的普通电脑也能拥有分布式计算的能力。本文将从原理到实战，带你掌握这
Django项目运行报错：ModuleNotFoundError: No module named ‘MySQLdb‘
解决方法：在__init__.py文件下，新增下面这段代码importpymysqlpymysql.install_as_MySQLdb()注意：确保你的python有下载pymysql库，没有的话可以使用pipinstallpymysql安装原理：用pymysql来代替mysqlLab__init__.py文件大致位置在：
[Py026]Snakefile灵活传递param 安哥生个信
snakemake是用python编写的，最近串流程用的比较频繁，所以也归纳在python实用技巧里面。现在需要实现的一个功能是——根据每一个input自身的特点，返回一个值（可能是固定，也可能是随机）；然后将这个返回值传递给下面的运行代码。举例：现在有两个fastq文件20192.fastq.gz20193.fastq.gz，需要通过seqkit转换为fasta文件；如果文件名是奇数，则转换出来
Python日志终极指南：深入探索logging日志管理模块 c01dkit python python 开发语言
在任何一个严谨的软件开发项目中，日志（Logging）都是不可或缺的一环。它不仅是调试代码的利器，更是线上问题追踪、性能分析和数据监控的重要依据。相比于随处可见的print()语句，Python内置的logging模块提供了更为强大、灵活且标准化的解决方案。[1][2]这篇博客将带你由浅入深，全面掌握logging模块的使用，从基础配置到高级技巧，再到企业级项目的最佳实践。一、告别print()：
python大数据论文_大数据环境下基于python的网络爬虫技术 weixin_39775976 python大数据论文
软件开发大数据环境下基于python的网络爬虫技术作者/谢克武，重庆工商大学派斯学院软件工程学院摘要：随着互联网的发展壮大，网络数据呈爆炸式增长，传统捜索引擎已经不能满足人们对所需求数据的获取的需求，作为搜索引擎的抓取数据的重要组成部分，网络爬虫的作用十分重要，本文首先介绍了在大数据环境下网络爬虫的重要性，接着介绍了网络爬虫的概念，工作原理，工作流程，网页爬行策略，python在编写爬虫领域的优势
推荐文章：《同济大学软件学院万院长谈择业》 weixin_34087301
同济大学软件学院万院长谈择业一、关于企业计算方向企业计算（EnterpriseComputing）是稍时髦较好听的名词，主要是指企业信息系统，如ERP软件（企业资源规划）、CRM软件（客户关系管理）、SCM软件（供应链管理，即物流软件），银行证券软件，财务软件，电子商务/政务（包括各种网站），数据仓库，数据挖掘，商务智能等企业信息管理系统。企业计算领域对人才的需求显然永远是数量最大的，因为这是计算
【Python爬虫(26)】Python爬虫进阶：数据清洗与预处理的魔法秘籍奔跑吧邓邓子 Python爬虫 python 爬虫开发语言数据清洗预处理
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、数据清洗的重要性二、数据清洗的常见任务2.1去除噪声数据2.2
117、Python机器学习：数据预处理与特征工程技巧多多的编程笔记 python 机器学习开发语言
Python开发之机器学习准备：数据预处理与特征工程机器学习是当前人工智能领域的热门方向之一。而作为机器学习的核心组成部分，数据预处理与特征工程对于模型的性能有着至关重要的影响。本文将带领大家了解数据预处理与特征工程的基本概念，以及它们在实际应用场景中的重要性。数据预处理数据预处理是机器学习中的第一步，它的主要目的是将原始数据转换成适合进行机器学习模型训练的形式。就像我们在做饭之前需要清洗和准备食
如何通过linux黑窗口实现对远程服务器的操作
①选择合适的云平台进行设备的租用并复制好远程设备的IP地址②使用管理员权限打开黑窗口③输入命令连接远程的设备：ssh用户名@服务器IP地址，此时得到的是一个什么都没有的设备④由于该设备什么都没有，故先：sudoaptupdate，然后安装gcc编译器：sudoaptinstallbulid-essential，再然后安装python：sudoaptinstallpython-3.8，再然后安装mi
Redis——API的理解和使用莫问以
一、全局命令1、查看所有键keys*下面插入了3对字符串类型的键值对：127.0.0.1:6379>sethelloworldOK127.0.0.1:6379>setjavajedisOK127.0.0.1:6379>setpythonredis-pyOKkeys*命令会将所有的键输出：127.0.0.1:6379>keys*1)"python"2)"java"3)"hello"2、键总数dbsi
PYTHON对接第三方验证码短信接口短信接口开发
PYTHON短信接口对接demo#接口类型：互亿无线触发短信接口，支持发送验证码短信、订单通知短信等。#账户注册：请通过该地址开通账户http://user.ihuyi.com/?DKimmu#注意事项：#（1）调试期间，请使用用系统默认的短信内容：您的验证码是：【变量】。请不要把验证码泄露给其他人。#（2）请使用APIID及APIKEY来调用接口，可在会员中心获取；#（3）该代码仅供接入互亿无线
第二十四篇 Requests+BeautifulSoup，秒抓网站信息！你的智能信息收集器！爱分享的飘哥日常效率自动化 beautifulsoup Python爬虫 Requests 数据抓取办公自动化信息收集
python爬虫序言：手动复制粘贴网页数据？效率太低了1.网页数据抓取基础：HTTP请求与网页结构速览1.1HTTP请求：浏览器如何和网页交互？1.2网页结构：HTML，信息的载体2.Requests库：发送网络请求的利器2.1安装与基础用法：你的第一个HTTP请求2.2处理请求头与参数：模拟浏览器访问3.BeautifulSoup：解析网页的利器3.1安装与基础用法：快速解析HTML内容3.2精
Redis 安全加固：从密码保护到高级安全配置 Seal^_^ 数据库专栏 #数据库--Redis redis 安全数据库 Redis 安全加固
Redis安全加固：从密码保护到高级安全配置一、Redis安全概述二、密码认证配置1.设置Redis密码临时设置（重启后失效）永久设置（修改配置文件）2.密码认证流程3.Python连接示例三、网络层安全加固1.绑定内网IP2.修改默认端口3.防火墙配置四、危险命令禁用1.禁用敏感命令2.命令禁用前后对比五、高级安全配置1.TLS加密传输2.客户端证书认证3.ACL细粒度权限控制（Redis6.0
计算机系毕业生的前途在哪（一个牛人对计算机系的阐述）蚊子嵌入式嵌入式操作系统 wince linux 手机游戏 j2me
值得未毕业的、刚毕业的、或想转行的朋友们揣摩参考。一、关于企业计算方向企业计算(EnterpriseComputing)是稍时髦较好听的名词，主要是指企业信息系统如：ERP软件(企业资源规划)、CRM软件(客户关系管理)、SCM软件(供应链管理，即物流软件)，银行证券软件财务软件电子商务/政务(包括各种网站)，数据仓库，数据挖掘，商务智能等企业信息管理系统。企业计算领域对人才的需求显然永远是数量最
【python库对比】路径专题 os.path和pathlib对比尚未想好 python高频库对比 python 开发语言 vscode
专栏收录：python高频库对比本专栏将持续更新在工程领域高频使用的python库之间的对比文章概览：简单介绍路径处理常用的python库及特点对比os.path和pathlib的异同结合代码示例说明两个库的差异.补充：os.path和pathlib高频使用接口见os.path和pathlib高频使用接口及示例1.简介Python中处理路径的库有很多，其中一些常用的包括：os.path模块：os.
如何解决pip安装报错ModuleNotFoundError: No module named ‘flask’问题万粉变现经纪人全栈Bug解决方案专栏 pip flask python pycharm scrapy pandas 后端
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘flask’问题摘要在使用PyCharm进行Python开发时，常常需要通过pip安装第三方包以满足项目依赖。但在控制台执行pipinstallflask后，依旧可能出现ModuleNotFoundError:Nomodulenamed
如何解决pip安装报错ModuleNotFoundError: No module named ‘sqlalchemy’问题万粉变现经纪人全栈Bug解决方案专栏 pip pandas python pycharm scipy beautifulsoup numpy
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘sqlalchemy’问题摘要在使用PyCharm控制台执行pipinstallsqlalchemy后，仍然在代码中提示ModuleNotFoundError:Nomodulenamed'sqlalchemy'，让许多开发者头疼。本文将
大学生学软件必看欧巴Godwin 日志嵌入式嵌入式操作系统 wince linux 手机游戏 j2me
一、关于企业计算方向企业计算(EnterpriseComputing)是稍时髦较好听的名词，主要是指企业信息系统,如ERP软件（企业资源规划）、CRM软件（客户关系管理）、SCM软件（供应链管理，即物流软件）,银行证券软件,财务软件,电子商务/政务（包括各种网站），数据仓库，数据挖掘，商务智能等企业信息管理系统.企业计算领域对人才的需求显然永远是数量最大的,因为这是计算机应用最多的领域.搞这方面的
初识linux 贩卖纯净水. Linux linux
Linux从哪里来？（东土大唐）它是怎么发展的？（一个筋斗云翻身）历史沿革我是程序猿，你是运动员，我们都有缘。作为一个码农，有一些计算机界的“常识”是需要了解的。计算机是在什么时候诞生的呢？又是在一个怎样的背景下，计算机诞生了呢？计算机的发明其实早期的计算机是为了给军事提供支持才被发明出来的，被用于计算导弹弹道轨迹。在美苏冷战时期，军备竞赛转变为科技竞赛，计算机于对抗中产生，首先应用于军事。计算机
selenium后续！！ paid槮 selenium 测试工具
小项目案例:实现批量下载网页中的资源根据15.3.2小节中的返回网页内容可知,用户只有获取了网页中的图片url才可以将图片下载到*在使用selenium库渲染网页后,可直接通过正则表达式过滤出指定的网页图片，从而实现批量下载接下来以此为思路来实现一个小项目案例。项目任务实现批量下载人民邮电出版社官网中与Python相关的图书封面图片。项目实步骤步骤1，获取人民邮电出版社官网中与Python相关的图
Python爬虫博客：使用Selenium模拟登录并抓取需要身份验证的网站内容 Python爬虫项目 2025年爬虫实战项目 python 爬虫 selenium 信息可视化开发语言百度测试工具
引言在爬虫开发的过程中，我们常常遇到需要身份验证才能访问的网站。例如，很多社交媒体、新闻网站、电商平台等都要求用户登录才能访问一些特定内容。如何模拟登录并抓取这些需要身份验证的网页内容成为了一个非常重要且常见的需求。Selenium，作为一个强大的浏览器自动化工具，不仅可以模拟用户的浏览行为，还能够模拟用户输入用户名和密码、点击登录按钮等操作，突破了普通爬虫工具（如requests）无法处理的Ja
如何解决pip安装报错ModuleNotFoundError: No module named ‘django’问题万粉变现经纪人全栈Bug解决方案专栏 pip django python numpy pycharm 后端 pandas
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘django’问题摘要在日常Django项目开发中，最常见的“拦路虎”之一就是ModuleNotFoundError:Nomodulenamed'django'。该异常通常在以下场景出现：在PyCharm2025中新建项目后，直接在Py
基于生成对抗网络增强主动学习的超高温陶瓷硬度优化神经网络15044 深度学习算法仿真模型生成对抗网络学习人工智能
复现论文：基于生成对抗网络增强主动学习的超高温陶瓷硬度优化我将使用Python复现这篇关于使用生成对抗网络(GAN)增强主动学习来优化超高温陶瓷(UHTC)硬度的研究论文。以下是完整的实现代码和解释。1.环境准备和数据加载首先，我们需要准备必要的Python库并加载数据。importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimpor
基于R、Python的Copula变量相关性分析及AI大模型应用梦想的初衷~ 环境气象人工智能 r语言 python
在工程、水文和金融等各学科的研究中，总是会遇到很多变量，研究这些相互纠缠的变量间的相关关系是各学科的研究的重点。虽然皮尔逊相关、秩相关等相关系数提供了变量间相关关系的粗略结果，但这些系数都存在着无法克服的困难。例如，皮尔逊相关系数只能反映变量间的线性相关，而秩相关则更多的适用于等级变量。大多数情况下变量间的相关性非常复杂，而且随着变量取值的变化而变化，而这些相关系数都是全局性的，因此无法提供变量间
Python 桌面版数独游戏（一版）香蕉可乐荷包蛋 #数独 python 游戏 java
设计思路详解：Python桌面版数独游戏1.功能需求分析构建一个9x9的数独游戏界面。支持玩家手动输入数字。提供两个按钮：“重新开始本局”：恢复当前棋盘到初始状态（保留原始数字）。“生成新棋局”：生成一个新的随机数独题目。使用标准库实现，无需额外安装。2.技术选型使用tkinter：Python标准GUI库，适合小型桌面应用。使用random和copy：用于生成数独题目和深拷贝原始题目。采用回溯算
Copula 回归与结构方程模型：R 语言构建多变量因果关系网络
技术点目录专题一、R及Python语言及相关性研究初步专题二、二元Copula理论与实践（一）专题三、二元Copula理论与实践（二）【R语言为主】专题四、Copula函数的统计检验与选择【R语言为主】专题五、高维数据与VineCopula【R语言】专题六、正则VineCopula（一）【R语言】专题七、正则VineCopula（二）【R语言】专题八、时间序列中的Copula【R语言】专题九、Co
centos7安装python3并配置环境变量 weixin_46119222 centos python3.11
在CentOS7上安装Python3并将其设置为默认版本，可以按照以下步骤进行：1.安装Python3首先，你需要安装Python3。在CentOS7上，你可以通过yum包管理器来安装Python3。执行以下命令：bash复制代码sudoyuminstallpython3这个命令会使用yum来安装Python3。2.安装依赖文件（可选）如果你打算从源代码安装Python3，或者需要某些特定的库和功
python automl_自动化的机器学习(AutoML)：将AutoML部署到云中
编辑推荐:在本文中，将介绍一种AutoML设置，使用Python、Flask在云中训练和部署管道；以及两个可自动完成特征工程和模型构建的AutoML框架。本文来自于搜狐网，由火龙果软件Alice编辑、推荐。AutoML到底是什么？AutoML是一个很宽泛的术语，理论上来说，它囊括从数据探索到模型构建这一完整的数据科学循环周期。但是，我发现这个术语更多时候是指自动的特征预处理和选择、模型算法选择和超
利用Python实现QQ实时到账免签支付原创 0xdF Python学习 python
原创转载请注明出处核心部分:解决QQ的登录验证问题主要利用python的selenium库和QQ的快速登录实现登录网页再利用抓到的json来输出今日的订单情况直接上代码importrequestsimporttimeimportosfromseleniumimportwebdriverimportsysimportshutilimportjson'''注意:要实现QQ钱包实时到账需要在服务器上登录
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方