努力的骆驼

小呆学数据分析——House Prices房价预测

文章目录

0. 问题

1.数据分析
1.1 初识数据
1.2 缺失值分析和处理

None
0 值
Miss
处理缺失值

1.3 数值型特征相关性分析
1.4 异常值检测和处理
1.6 去除相关性高的变量
1.5 数值型转换为分类变量
1.6 偏态分布转换
1.7 分类变量编码
1.8 标准化

2.模型训练及预测

0. 问题

通过对统计的房屋价格和79个相关因素的数据集分析挖掘，来预测房屋该卖多少钱。这个题目主要是监督学习的回归类型。
项目数据摘自：https://www.kaggle.com/c/house-prices-advanced-regression-techniques/overview.

1.数据分析

1.1 初识数据

从kaggle中下载数据有train.csv、test.csv。
先对数据集进行观察。

import pandas as pd

train_df = pd.read_csv(r'H:\DataAnalysis\predictprice\train.csv')
print(train_df.info())

结果如下，可见总共有1460个样本，81列中除去Id和SalePrice两列，有79列特征项，81列中有浮点数3列，整型数35列，其他都是对象（文本型数据），而且有部分特征是有缺失值的。特征说明详见https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data.


RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
Id               1460 non-null int64
MSSubClass       1460 non-null int64
MSZoning         1460 non-null object
LotFrontage      1201 non-null float64
LotArea          1460 non-null int64
Street           1460 non-null object
Alley            91 non-null object
...
YrSold           1460 non-null int64
SaleType         1460 non-null object
SaleCondition    1460 non-null object
SalePrice        1460 non-null int64
dtypes: float64(3), int64(35), object(43)
memory usage: 924.0+ KB
None

Process finished with exit code 0

首先观察训练集中售出价格的分布，如下图，典型的右偏分布（即众数<中位数<平均数）。符合一般的认识。

在对特征进行分析之前先将特征归个类别，如下表。

类别	特征
住宅概况	BldgType　HouseStyle YearBuilt　YearRemodAdd LandContour　LandSlope MSSubClass Functional MiscFeature MiscVal
建筑详情	OverallQual　　OverallCond RoofStyle　　RoofMatl Exterior1st　　Exterior2nd MasVnrType　MasVnrArea ExterQual　ExterCond 3SsnPorch　ScreenPorch EnclosedPorch　OpenPorchSF Foundation WoodDeckSF
房间及硬件	Kitchen KitchenQual Bedroom FullBath HalfBath PoolArea PoolQC Fireplaces FireplaceQu TotRmsAbvGrd Fence
楼层面积	1stFlrSF2ndFlrSFLowQualFinSFGrLivArea
地下室相关	BsmtQual （地下室高度）　　　BsmtCond BsmtExposure　　BsmtFinType1 BsmtFinSF1　　BsmtFinType2 BsmtFinSF2　　BsmtUnfSF TotalBsmtSF 　 BsmtFullBath BsmtHalfBath
地块	LotFrontage　　LotArea LotShape
交通及环境	Street　Alley MSZoning　Neighborhood Utilities PavedDrive Condition1 Condition2
设备	Heating　HeatingQC Electrical　CentralAir
车库	GarageType　GarageYrBlt GarageFinish　GarageCars GarageArea　GarageCond GarageQual
房屋售出详情	MoSold　YrSold SaleType　SaleCondition

1.2 缺失值分析和处理

将训练集和测试集导入，并检查缺失值的数量：

train_df.T[train_df.isnull().any().values].T.isnull().sum()
test_df.T[test_df.isnull().any().values].T.isnull().sum()

可以得到

LotFrontage      259
Alley           1369
MasVnrType         8
MasVnrArea         8
BsmtQual          37
BsmtCond          37
BsmtExposure      38
BsmtFinType1      37
BsmtFinType2      38
Electrical         1
FireplaceQu      690
GarageType        81
GarageYrBlt       81
GarageFinish      81
GarageQual        81
GarageCond        81
PoolQC          1453
Fence           1179
MiscFeature     1406

MSZoning           4
LotFrontage      227
Alley           1352
Utilities          2
Exterior1st        1
Exterior2nd        1
MasVnrType        16
MasVnrArea        15
BsmtQual          44
BsmtCond          45
BsmtExposure      44
BsmtFinType1      42
BsmtFinSF1         1
BsmtFinType2      42
BsmtFinSF2         1
BsmtUnfSF          1
TotalBsmtSF        1
BsmtFullBath       2
BsmtHalfBath       2
KitchenQual        1
Functional         2
FireplaceQu      730
GarageType        76
GarageYrBlt       78
GarageFinish      78
GarageCars         1
GarageArea         1
GarageQual        78
GarageCond        78
PoolQC          1456
Fence           1169
MiscFeature     1408
SaleType           1
dtype: int64

观察总共有34个特征有缺失值，其中在训练集中有19个特征存在缺失值，测试集有33个特征有缺失值。接下来来具体分析一下各个特征缺失值的具体情况，这里需要用到变量说明data_description.txt。

None

变量说明中可以看到有些类型变量值NA本来就是一个分类值，比如Alley, Basement系列的，FireplaceQu，Garage系列的，PoolQC，Fence，MiscFeature。在这些特征中NA代表着None，而不是缺失值。

Alley: Type of alley access to property

       Grvl	Gravel
       Pave	Paved
       NA 	No alley access

BsmtQual: Evaluates the height of the basement

       Ex	Excellent (100+ inches)	
       Gd	Good (90-99 inches)
       TA	Typical (80-89 inches)
       Fa	Fair (70-79 inches)
       Po	Poor (<70 inches
       NA	No Basement
       
FireplaceQu: Fireplace quality

       Ex	Excellent - Exceptional Masonry Fireplace
       Gd	Good - Masonry Fireplace in main level
       TA	Average - Prefabricated Fireplace in main living area or Masonry Fireplace in basement
       Fa	Fair - Prefabricated Fireplace in basement
       Po	Poor - Ben Franklin Stove
       NA	No Fireplace
       
GarageType: Garage location
		
       2Types	More than one type of garage
       Attchd	Attached to home
       Basment	Basement Garage
       BuiltIn	Built-In (Garage part of house - typically has room above garage)
       CarPort	Car Port
       Detchd	Detached from home
       NA	No Garage

0 值

有一些有缺失值的特征应该定义为0，就像如果没有车库，那么相应的车库面积及车库可放车数都应该是0，比如 GarageCars，GarageArea ，BsmtFinSF1，BsmtFinSF2，BsmtUnfSF，TotalBsmtSF，BsmtFullBath，BsmtHalfBath。

Miss

有一些缺失值就是在收集数据的时候漏缺的，可以通过中位数或者众数填充，比如LotFrontage，MasVnrType等。

可以得到一下缺失值表格。

+-------------+-------+-------------+---------------+-------+-------+
train dataset  number    type          test dataset   number   type
+-------------+-------+-------------+---------------+-------+-------+
LotFrontage      259    miss           LotFrontage      227    miss      
Alley           1369    None           Alley           1352    None      
MasVnrType         8    miss or none   MasVnrType        16    miss or none     
MasVnrArea         8    miss or none   MasVnrArea        15    miss or none      
BsmtQual          37    None           BsmtQual          44    None      
BsmtCond          37    None           BsmtCond          45    None      
BsmtExposure      38    None           BsmtExposure      44    None      
BsmtFinType1      37    None           BsmtFinType1      42    None      
BsmtFinType2      38    None           BsmtFinType2      42    None      
Electrical         1    miss                                             
FireplaceQu      690    None           FireplaceQu      730    None      
GarageType        81    None           GarageType        76    None      
GarageYrBlt       81    None           GarageYrBlt       78    None      
GarageFinish      81    None           GarageFinish      78    None      
GarageQual        81    None           GarageQual        78    None      
GarageCond        81    None           GarageCond        78    None      
PoolQC          1453    None           PoolQC          1456    None      
Fence           1179    None           Fence           1169    None      
MiscFeature     1406    None           MiscFeature     1408    None      
                                       MSZoning           4    miss      
                                       Utilities          2    miss      
                                       Exterior1st        1    miss      
                                       Exterior2nd        1    miss      
                                       GarageCars         1    may be 0  
                                       GarageArea         1    may be 0  
                                       BsmtFinSF1         1    may be 0  
                                       BsmtFinSF2         1    may be 0  
                                       BsmtUnfSF          1    may be 0  
                                       TotalBsmtSF        1    may be 0  
                                       BsmtFullBath       2    may be 0  
                                       BsmtHalfBath       2    may be 0  
                                       KitchenQual        1    miss      
                                       Functional         2    miss  
                                       SaleType           1    miss

处理缺失值

# 针对NA代表None的情况，直接将NA用None替换
train_feature1 = ('Alley', 'BsmtQual', 'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinType2', 'FireplaceQu',
                  'GarageType', 'GarageYrBlt', 'GarageFinish', 'GarageQual', 'GarageCond', 'PoolQC', 'Fence',
                  'MiscFeature', 'MasVnrType')
test_feature1 = ('Alley', 'BsmtQual', 'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinType2', 'FireplaceQu',
                 'GarageType', 'GarageYrBlt', 'GarageFinish', 'GarageQual', 'GarageCond', 'PoolQC', 'Fence',
                 'MiscFeature', 'MasVnrType')
for loopi in train_feature1:
    train_df[loopi] = train_df[loopi].fillna('None')
for loopj in test_feature1:
    test_df[loopj] = test_df[loopj].fillna('None')

# 针对NA代表0的情况，直接用0替换
train_df['MasVnrArea'] = train_df['MasVnrArea'].fillna(0)
test_feature2 = ('GarageCars', 'GarageArea', 'BsmtFinSF1', 'BsmtUnfSF', 'TotalBsmtSF', 'BsmtFinSF2', 'BsmtFullBath', 'BsmtHalfBath', 'MasVnrArea')
for loopk in test_feature2:
    test_df[loopk] = test_df[loopk].fillna(0)


# 针对NA代表缺失值，暂采用众数（文本型）或者平均数（数值型）替换
train_df['Electrical'] = train_df['Electrical'].fillna(train_df.Electrical.mode()[0])
test_feature3 = ('MSZoning', 'Utilities', 'KitchenQual', 'Functional', 'SaleType', 'Exterior1st', 'Exterior2nd')
for loopn in test_feature3:
    test_df[loopn] = test_df[loopn].fillna(test_df[loopn].mode()[0])
train_df['LotFrontage'] = train_df['LotFrontage'].fillna(train_df['LotFrontage'].mean())
test_df['LotFrontage'] = test_df['LotFrontage'].fillna(test_df['LotFrontage'].mean())

经过检测，现在样本矩阵中没有缺失值了。

1.3 数值型特征相关性分析

在初始数据中可以看到在79个特征中数值型特征有36个（+2列是Id和SalePrice）。计算相关系数矩阵，并制图如下

从中挑选出有相关系数大于0.5的项组成相关系数子矩阵，如下图所示。

从中可以总结，对于售价影响较大的几点：

OverallQual（整体材质和竣工质量）与SalePirce的相关系数最高，达到0.79，说明在房屋销售中，大众最关心的还是房屋的质量。
GrLivArea（地面以上居住面积）与SalePirce的相关系数其次，达到0.71，这个很容易理解，肯定是越大的房子越贵嘛（单价相同的情况下）。
GarageCars（车库可容纳几辆车）和GarageArea（车库面积）与SalePirce的相关系数也很大，分别是0.64和0.62，说明在美国人心目中车库大小的重要程度。
TotalBsmtSF（地下室总面积）和1stFlrSF（一楼面积）与SalePirce的相关系数均为0.61，说明美国人把地下室的地位看的很重，与一楼面积同等重要。

当然观察各个因素之间的相关系数，可以发现更多信息，比如：
1.GarageCars与GarageArea相关系数高达0.88，这也可以理解，毕竟车库越大就能放更多车，能放很多车的车库面积自然大；
2.GarageYrBlt与YearBuilt相关系数达到0.83，这也不难理解；
3.TotRmsAbvGrd与GrLivArea相关系数达到0.83，同理面积大了房间就多；
4.其他互相相关系数较高的有(1stFlrSF, TotalBsmtSF)=0.82.

1.4 异常值检测和处理

检测离群值同样重要。由于这个问题中的特征特别的多，所以以与SalePrice相关系数高的几个特征入手，来检测异常值，是一个有用的途径。下图可见在OverallQual中，有许多值在箱型图外面，但是远离的程度并不高，由于还有几个相关系数较高的因素，所以可能在这些样本中由于其他特征使得售价变高了。其中OverallQual=4的样本（40，198）和OverallQual=8的样本（770），但是观察这几个样本的其他特征，比如GrLivArea（40，198，770）=（2287，3112，3279），由于面积大所以贵，还是可以解释的通。

所以先放一放，继续来看GrLivArea与SalePrice的散点图，可以看到整体显示很高的正相关趋势，其中右下角两个样本有点反常，这两个样本是（524，1299），同样查其他特征下的值OverallQual（524，1299）=（10，10），这就有点奇怪了，为啥评价高而且面积达的价格这么低。再看GarageCars（524，1299）=(3,2)，同样不错，所以判定这两个样本应该是异常值或者离群值，应该去掉。

train_df.drop([524,1299], inplace=True)

1.6 去除相关性高的变量

从1.4节中可以看到很多特征相互的相关系数特别高，特征矩阵中去除部分特征以解决这些共线性问题，可以去除一下特征

drop_feature = ('GarageArea', 'GarageYrBlt',  'TotalBsmtSF', 'TotalRmsAbvGrd', 'BsmtFinSF1', '1stFlrSF')
train_df.drop(drop_feature, axis=1, inplace=True)

1.5 数值型转换为分类变量

可以看到其实MSSubClass虽然是数值型变量，但是其实是分类变量，所以将其转换为分类变量

train_df['MSSubClass'] = train_df['MSSubClass'].astype(str)
test_df['MSSubClass'] = test_df['MSSubClass'].astype(str)

1.6 偏态分布转换

我们回忆一下SalePrice的分布，SalePrice是右偏分布。

from scipy.stats import norm
sns.distplot(train_df.SalePrice, fit=norm)

对SalePrice取对数，在来看，基本上符合正态分布。

price = np.log(train_df.SalePrice)

对于数值型其他变量也要做这样的转换

dataset = pd.concat([train_df, test_df])
skew_value = dataset.select_dtypes(include=['int64', 'float']).apply(lambda x: skew(x.dropna()))
skew_df = pd.DataFrame({'Skew':skew_value})
skew_df = skew_df[np.abs(skew_df.Skew)>0.5]
for loopm in skew_df.index.drop('SalePrice').values:
    dataset[loopm] = boxcox1p(dataset[loopm], 0.1)

1.7 分类变量编码

dataset = pd.get_dummis(dataset)

1.8 标准化

sc = RobustScaler()
train_feature = sc.fit_transform(train_feature)
test_feature = sc.transform(test_feature)

2.模型训练及预测

本文采用Lasso模型来预测

# lasso model
model = Lasso(alpha=0.0005, random_state=0)
model.fit(train_feature, price)

predict = model.predict(test_feature)
predicts = np.exp(predict)
output = pd.DataFrame({'Id':test_df.Id, 'SalePrice':predicts})
output.to_csv(r'H:\DataAnalysis\predictprice\regression.csv', index=False)

上传得分为0.11974

Python 报错分析：IndexError: list index out of range 小馒头学python 问题 python 开发语言
在Python编程中，IndexError:listindexoutofrange是一个常见的错误，通常发生在我们尝试访问超出列表（或其他可迭代对象）有效范围的索引时。这个错误通常会让初学者感到困惑，但实际上它是很直观的，只要理解了列表的索引机制，我们就能轻松避免它。本文将带你深入了解这个错误的原因，并展示如何通过几个实际的例子来解决它。1.什么是IndexError:listindexoutof
WSL中安装python环境详解小蘑菇二号 python
在WindowsSubsystemforLinux(WSL)上安装Python环境，按照以下步骤操作：确认WSL已安装并更新：首先，确保已经安装了WSL，并且您的WSL环境已经更新至最新状态。打开WSL终端：打开Windows的开始菜单，找到并启动WSL发行版（例如Ubuntu）。确认Python已安装：在WSL终端中，输入python3--version来确认Python是否已安装，并查看其版本
Python图形界面 Tkinter入门6 数据库sqlite3 mango大侠 Python python 数据库 sqlite3 tkinter
6.1数据库sqlite3基础fromtkinterimport*importsqlite3importosroot=Tk()root.title('数据库sqlite3操作')root.geometry('400x400')#sqlite3-------------------------------------------------##检查数据库文件是否存在，不存在就创建，user表：ifn
小学python教材电子版_【python爬虫】中小学人教版教材下载（调用IDM） weixin_39981185 小学python教材电子版
根据楼主的python改的。就没做成运行文件，代码如下：新手勿喷。#!/usr/bin/envpython3#encoding:utf-8'''@author:zengyun@software:tool@application:@file:down.py@time:2020/2/2115:46@desc:'''importrequests,bs4fromtqdmimporttqdm#获取文件名称和
flask实现mysql连接池_如何在python flask中使用mysql.connection数据库池 weixin_39710396 flask实现mysql连接池
Traceback(mostrecentcalllast):File"/home/myuser/virtualenv/py2.7-myapp-server-logger/lib/python2.7/site-packages/flask/app.py",line1836,in__call__returnself.wsgi_app(environ,start_response)File"/home/
AWS上基于Llama 3模型检测Amazon Redshift里文本数据的语法和语义错误的设计方案 weixin_30777913 数据仓库云计算 aws llama
一、技术栈选型核心服务：AmazonRedshift：存储原始文本和检测结果AmazonBedrock：托管Llama370B模型AWSLambda：无服务计算（Python运行时）AmazonS3：中间数据存储AWSStepFunctions：工作流编排辅助工具：psycopg2：RedshiftPython连接器boto3：AWSSDKforPythonPandas：数据批处理JSONSche
DeepSeek推荐未来好就业的十大专业东锋1.3 人工智能 deepseek推荐就业
一、人工智能与数据科学专业聚焦人工智能、大数据技术、计算机科学与技术、机器学习、数据科学与大数据技术等专业，构成了这一前沿领域的核心。这些专业旨在培养学生掌握从数据收集、处理到模型构建、算法优化的全流程能力。就业前景洞察人工智能已广泛渗透到医疗、金融、制造、交通等众多领域。在医疗领域，AI辅助诊断系统帮助医生更精准地识别疾病；金融行业里，智能风控模型有效防范风险。未来，算法工程师负责开发和优化各种
Python爬虫实战教程——如何抓取社交媒体用户信息（以Twitter和Instagram为例） Python爬虫项目 2025年爬虫实战项目 python 爬虫媒体开发语言信息可视化
1.引言社交媒体平台如Twitter和Instagram每天都会生成大量的用户内容，包括文本、图片、视频等。对于数据分析师和研究人员来说，抓取社交媒体平台的数据是进行趋势分析、情感分析、用户行为分析等工作的基础。本文将介绍如何通过Python爬虫技术抓取Twitter和Instagram的用户信息。我们将详细探讨如何使用最新的技术栈和API来实现社交媒体数据的抓取，并结合具体的代码示例，帮助您快速
pptx文档提取信息 DreamBoy_W.W.Y 知识图谱 python
目录一、前言二、python-pptx提取核心代码三、LibreOffice转换pdf再提取的核心代码一、前言pptx文档提取解析常用的库。如果只需要解析.pptx的文本、表格、图片，推荐使用python-pptx（开源，轻量级）。如果需要高性能、支持.ppt、动画、格式转换，推荐Aspose.Slides（收费）。如果需要PPTX转PDF或者HTML，适用于Linux服务器，推荐LibreOff
python 如何解析PDF文件，并将其翻译为其他语言 openwin_top python编程示例系列 pdf python
要解析PDF文件并将其翻译为其他语言，可以使用Python中的PyPDF2库和baidu_trans库。以下是解析PDF文件并将其翻译为其他语言的基本步骤：安装PyPDF2和baidu_trans库pipinstallPyPDF2baidu_trans可以使用PyPDF2库中的PdfFileWriter和PdfFileMerger类。以下是将翻译后的文本重新组织为PDF文档的代码示例：import
python flask django在线投票系统 md14i 专注分享bishe530 python flask django
文章目录具体实现截图项目技术介绍论文写作思路核心代码部分展示可定制开发功能创新亮点django项目示例源码/演示视频获取方式具体实现截图项目技术介绍Python版本：python3.7以上框架支持：flask/django开发软件：PyCharm数据库：mysql数据库工具：Navicat浏览器：谷歌浏览器(PycharmFlaskDjangoVuemysql)论文写作思路第一部分绪论，主要介绍所
python系列：使用Python快速读取PDF中的表单数据以及error处理坦笑&&life #python python pdf 数据库
使用Python快速读取PDF中的表单数据以及error处理使用Python快速读取PDF中的表单数据安装PythonPDF库Python读取PDF表单数据1、一次性读取多种PDF表单的数据2、读取特定PDF表单的数据python读取PDF文件中文本、表格、图片python读取PDF文件中文本、表格、图片一、文本读取二、图片读取三、表格读取问题AttributeError:'PdfPageBase
Python如何用pdfplumber读取解析pdf文件 ToMiky明明 python pdf 开发语言
1.首先安装pdfplumber库：pipinstallpdfplumber2.如果安装失败，首先应该升级pip，用低版本的pip可能导致pdfplumber安装不成功：python-mpipinstall--upgradepip#coding:utf-8importpdfplumberwithpdfplumber.open('./test.pdf')aspdf:#遍历每个页面forpageinp
Python利用伪代码制作一个简单的登录系统千帆过尽皆不是 python 开发语言
一.代码所需知识1.1伪代码伪代码（Pseudocode）是一种非正式的，用于描述模块结构图的语言。人们在实现一个算法时，尤其是对于那些熟练于不同编程语言的程序员要理解一个算法功能时可能很难，因为程序语言的形式限制了程序员对程序关键部分的理解。所以伪代码就应运而生了，伪代码提供了更多的设计信息。1.2for...else...循环在for...else...的循环中，很多人以为进入了for的循环后
Python - WSGI 和 ASGI 服务器小菠萝测试笔记网络网关 java python http
WSGIwiki上的解释WebServerGatewayInterfaceWeb服务器网关接口是为Python定义的Web服务器和Web应用程序或框架之间的一种简单而通用的接口WSGI的问题随着移动网络的发展，Web技术也在升级，比如WebSocket、HTTP/2，HTTP/3WSGI应用是一个单调用、同步接口，即输入一个请求，返回一个响应；这个模式无法支持长连接或者WebSocket这样的连接
python解析pdf文件 irisMoon06 python pdf microsoft
先安装PyPDF2，据说这是目前最好的解析pdf的包pipinstallPyPDF2PDF文件分割、拼接importosfromPyPDF2importPdfFileWriter,PdfFileReaderdefclear_dir(dir_path): """清空目录下的文件""" names=os.listdir(dir_path) fornameinnames: file_path
如何解决Python不支持中文路径的问题？ cda2024 python 开发语言
在编程的世界里，遇到问题并不罕见，但有些问题可能会让人感到格外棘手。比如，你是否曾经在使用Python处理文件时，因为路径中包含中文字符而头疼不已？这个问题不仅影响了代码的可读性和健壮性，还可能导致程序运行失败。今天，我们就来深入探讨一下“如何解决Python不支持中文路径的问题”，希望能为你的编程之路扫清障碍。问题背景Python与中文路径Python是一种广泛使用的高级编程语言，以其简洁明了的
Python pdfplumber库：轻松解析PDF文件 engchina LINUX python pdf pdfplumber 开发语言
Pythonpdfplumber库：轻松解析PDF文件1.安装2.基本概念3.使用场景和示例代码3.1提取文本3.2提取表格数据3.3获取图像信息3.4分析页面布局3.5搜索特定文本4.总结在处理PDF文件时,我们经常需要提取文本、图像或表格数据。Python的pdfplumber库为这些任务提供了强大而灵活的解决方案。本文将介绍pdfplumber的基本概念和常见使用场景,并通过示例代码展示如何
C#中的动态类型用法总结带演示代码 yuanpan c#windows microsoft
在C#中，dynamic类型是一种特殊的类型，它允许你在编译时绕过类型检查，而是在运行时解析类型。这使得你可以编写更灵活的代码，但也增加了运行时错误的风险。dynamic类型通常用于与动态语言（如Python、JavaScript）交互，或者处理一些在编译时无法确定类型的场景。1.基本用法你可以使用dynamic关键字来声明一个动态类型的变量。这个变量在编译时不会进行类型检查，而是在运行时根据实际
深入剖析 Python 类属性与对象的底层创建与内存分析 web安全工具库 python 开发语言
各类资料学习下载合集https://pan.quark.cn/s/8c91ccb5a474在Python中，类和对象是面向对象编程（OOP）的核心组成部分。类属性与实例属性的存储和管理方式，以及类和对象在内存中的分布和结构，对于深入理解Python的底层机制至关重要。本文将带你详细解析Python中类属性的本质、类和对象的内存分布，以及它们在底层是如何创建与管理的。通过代码案例与操作演示，我们将逐
YOLOv1 损失函数余将董道而不豫兮 YOLO 神经网络 python 深度学习人工智能机器学习计算机视觉
相关文章YOLOv1论文简要YOLOv1数据集加载YOLOv1损失函数YOLOv1模型构建与训练YOLOv1目标检测项目地址：YOLOv1VOC2007笔者训练的权重地址：阿里云盘分享10秒文章速览对于YOLOv1的损失函数，使用Python程序实现损失函数的计算关于损失函数的计算，在《YOLOv1论文简要》一文中已经进行了较详细的解释。只不过，在本文中，需要以代码的形式表达出来平方和误差在YOL
pycharm社区版有个window和arm64版本，到底下载哪一个？还有pycharm官网 huiyuanzhenduo pycharm ide python
首先pycharm官网是这一个。我是在2025年2月16日9:57进入的网站。如果网站还没有更新的话，那么就往下滑一下找到communityEdition,这个就是社区版了免费的。PyCharm：适用于数据科学和Web开发的PythonIDE适用于数据科学和Web开发的PythonIDE，具有智能代码补全、实时错误检查、快速修复等。https://www.jetbrains.com.cn/pych
速科普：pip和conda安装的区别 _Paste_ 工程实践 pip conda
实践指南:pipinstall和condainstall结合使用，可以在conda环境（如test）中使用pip来安装不在conda仓库中的包，但要注意这样可能会导致依赖冲突。先用conda安装大部分包，然后用pip安装conda找不到的包。condainstall和pipinstall是用于安装Python包的两个不同工具，它们之间有一些重要的区别：1.包管理范围condainstall:Con
ubuntu20.04中vscode配置django Galaxy_1229 vscode django ide
1.下载插件我用的是这两个2.配置环境Ubuntu20.04创建虚拟环境python3-mvenv.venv没有venv的记得装一下sudoaptinstallpython3.8-venv装好之后，会出现.venv的文件夹找一下activate，我的在bin里按照提示sourcebin/activate完成后会显示（.venv）的虚拟环境，然后我们安装一下djangopipinstalldjang
Html、Markdown的信息提取 DreamBoy_W.W.Y 知识图谱 python
目录一、前言二、核心代码1、解析提取html文档2、提取Markdown文档信息一、前言【python】mistune转换md为HTML，BeautifulSoup解析读取。【python】Html文档，使用BeautifulSoup解析读取。二、核心代码1、解析提取html文档defextract_all_content(soup):content={'text':[]
Python实战：解析labelme标注数据——如何将数据转换为COCO格式程序员杨弋 Python全栈工程师学习指南 python 开发语言
在计算机视觉中，标注数据是非常重要的，而Labelme是一个简单易用的自由标注工具，被广泛应用于图像语义分割、目标检测、实例分割等领域，然而标注数据并不总是以我们需要的格式存在，因此需要进行适当的转换，本文将详细介绍如何将Labelme标注数据转换为COCO格式。首先需要安装相关的Python库，包括labelme、numpy、matplotlib、pillow等，在安装完成后设置数据路径，并读取
python运行路径和脚本文件所在路径 Wiseehw Python
我在sublimeText2编辑python脚本程序，用ipython导入脚本模块，打开文件时总是报错，原来是路径问题deffile2matrix(filename):fp=open(filename,'r')datalines=fp.readlines()lenlines=len(datalines)dataSet=np.zeros((lenlines,3))labels=[]index=0fo
揭秘！100 个 Python 常用易错知识点的避坑指南 tekin Python python Python 易错点 Python 编程避坑 Python 知识总结 Python 基础与进阶 Python 代码优化 Python 常见错误解析
目录简介1.类方法命名中的下划线2.函数形参中的*和**3.函数实参中的*4.变量作用域5.浅拷贝和深拷贝6.默认参数的陷阱7.迭代器和生成器相关迭代器使用后耗尽生成器表达式和列表推导式混淆8.异常处理相关捕获异常范围过大异常处理中的finally子句9.多线程和多进程相关全局解释器锁（GIL）误解多线程性能提升多进程中的资源共享问题10.字符串编码问题编码和解码错误11.模块导入相关循环导入问题
Deepseek与doubao|tongyi|wenxin三个大模型对比编写数据处理脚本 AI技术老狗（QA） Deepseek 大模型 AI编写脚本
‌DeepSeek在编写脚本方面的能力非常强大，尤其在编程、推理和数学计算方面展现出了超越普通AI的能力‌。DeepSeek的核心优势在于其编程能力的显著提高，能够轻松应对前端脚本和后端逻辑的编写，大大降低了程序员编写代码的难度。今天我们就对比下deepseek、豆包、通义千问、文心一言这四个进行一下对比，对比的题目为：《帮我写一个处理excel数据的python脚本，要求：100万条数据，去除重
python工作目录与文件目录我家大宝最可爱 python 开发语言
总结open函数中的相对路径是以工作目录为基准的import导入package时，相对路径是以当前执行import的文件路径为基准的由于python规定顶层模块不能作为package，因此import只能导入当前文件所在的目录以及子路下的package，无法导入上层目录的pakcage，例如import..xxx是不行的，只能是importx或者importx.y想要导入上层目录的package，
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/