ora_dy

探索性数据分析（EDA，Exploratory Data Analysis）

打卡Datawhale数据挖掘学习，数据挖掘之二手车交易价格预测，该内容来自 Datawhale与天池联合发起的“0基础入门系列”赛事第一场。https://tianchi.aliyun.com/competition/entrance/231784/introduction

分析赛题，昨晚天池直播，借用今天群里大佬分享的两张图，很明显解释分析两个字的重点。第一张图总体分析了一下。很精炼，也很有意义。

下面这张图具体分析了EDA目标，以及我们要做什么，结合赛题，后面继续讲讲。

结合题目，二手车交易价格预测。

1.了解题目的价值，意义，分析题目属于什么类型。回归or分类or其他。当然这题属于回归问题。所以，下面进行回归问题分析。

2.（基于本题分析）了解回归问题变量间的相互关系，以及隐藏问题，比如漂移，缺失。了解字段的意义，进行分类。

3.分析题目可能用到的分析方法，预估我们将要达到的效果。

4.分析数据集。

EDA目标

EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。
当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。
引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。
完成对于数据的探索性分析，并对于数据进行一些图表或者文字总结

内容介绍

#载入各种数据科学以及可视化库

import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

#载入数据

path = './data/'
Train_data = pd.read_csv(path+'train.csv', sep=' ')
Test_data = pd.read_csv(path+'testA.csv', sep=' ')

#简略观察数据(head()+shape)
#要养成看数据集的head()以及shape的习惯，这会让你每一步更放心，
# 导致接下里的连串的错误, 如果对自己的pandas等操作不放心，
# 建议执行一步看一下，这样会有效的方便你进行理解函数并进行操作

a = Train_data.head().append(Train_data.tail())
print(a)
Train_data.shape
b = Test_data.head().append(Test_data.tail())
print(b)
Test_data.shape

#通过describe()来熟悉数据的相关统计量
'''
describe种有每列的统计量，个数count、平均值mean、方差std、最小值min、
中位数25% 50% 75% 、以及最大值 看这个信息主要是瞬间掌握数据的大概的范围以及
每个值的异常值的判断，比如有的时候会发现999 9999 -1 等值这些其实都是nan的
另外一种表达方式，有的时候需要注意下
'''
#info 通过info来了解数据每列的type，有助于了解是否存在除了nan以外的特殊符号异常

Train_data.describe()
Test_data.describe()

#通过info()来熟悉数据类型

Train_data.info()
Test_data.info()

##判断数据缺失和异常
#查看每列的存在nan情况

Train_data.isnull().sum()
Test_data.isnull().sum()

# nan可视化

missing = Train_data.isnull().sum()
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()
plt.show()

'''
通过以上两句可以很直观的了解哪些列存在 “nan”, 并可以把nan的个数打印，
主要的目的在于 nan存在的个数是否真的很大，如果很小一般选择填充，
如果使用lgb等树模型可以直接空缺，让树自己去优化，但如果nan存在的过多、可以考虑删掉
'''
# 可视化看下缺省值

msno.matrix(Train_data.sample(250))
msno.bar(Train_data.sample(1000))
plt.show()

# 可视化看下缺省值

msno.matrix(Test_data.sample(250))
msno.bar(Test_data.sample(1000))
plt.show()

#查看异常值检测

Train_data.info()

#可以发现除了notRepairedDamage 为object类型其他都为数字
# 这里我们把他的几个不同的值都进行显示就知道了

k = Train_data['notRepairedDamage'].value_counts()
print(k)

#可以看出来‘ - ’也为空缺值，
# 因为很多模型对nan有直接的处理，这里我们先不做处理，先替换成nan

Train_data['notRepairedDamage'].replace('-', np.nan, inplace=True)
s = Train_data['notRepairedDamage'].value_counts()
print(s)
f = Train_data.isnull().sum()
print(f)
Test_data['notRepairedDamage'].value_counts()
Test_data['notRepairedDamage'].replace('-', np.nan, inplace=True)

#以下两个类别特征严重倾斜，一般不会对预测有什么帮助，故这边先删掉，
# 当然你也可以继续挖掘，但是一般意义不大

Train_data["seller"].value_counts()
Train_data["offerType"].value_counts()
del Train_data["seller"]
del Train_data["offerType"]
del Test_data["seller"]
del Test_data["offerType"]

#了解预测值的分布

Train_data['price']
Train_data['price'].value_counts()

## 总体分布概况（无界约翰逊分布等）

import scipy.stats as st
y = Train_data['price']
plt.figure(1); plt.title('Johnson SU')
sns.distplot(y, kde=False, fit=st.johnsonsu)
plt.show()
plt.figure(2); plt.title('Normal')
sns.distplot(y, kde=False, fit=st.norm)
plt.show()
plt.figure(3); plt.title('Log Normal')
sns.distplot(y, kde=False, fit=st.lognorm)
plt.show()

#价格不服从正态分布，所以在进行回归之前，它必须进行转换。
# 虽然对数变换做得很好，但最佳拟合是无界约翰逊分布
## 查看skewness and kurtosis

sns.distplot(Train_data['price']);
print("Skewness: %f" % Train_data['price'].skew())
print("Kurtosis: %f" % Train_data['price'].kurt())

Train_data.skew(), Train_data.kurt()
sns.distplot(Train_data.skew(),color='blue',axlabel ='Skewness')
sns.distplot(Train_data.kurt(),color='orange',axlabel ='Kurtness')

##  查看预测值的具体频数

plt.hist(Train_data['price'], orientation = 'vertical',histtype = 'bar', color ='red')
plt.show()

#查看频数, 大于20000得值极少，
# 其实这里也可以把这些当作特殊得值（异常值）
# 直接用填充或者删掉，再前面进行

# log变换 z之后的分布较均匀，可以进行log变换进行预测，这也是预测问题常用的trick

plt.hist(np.log(Train_data['price']), orientation = 'vertical',histtype = 'bar', color ='red')
plt.show()

# 特征分为类别特征和数字特征，并对类别特征查看unique分布
# 分离label即预测值

Y_train = Train_data['price']
numeric_features = ['power', 'kilometer', 'v_0', 'v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13','v_14' ]
categorical_features = ['name', 'model', 'brand', 'bodyType', 'fuelType', 'gearbox', 'notRepairedDamage', 'regionCode',]

# Train_data特征nunique分布

for cat_fea in categorical_features:
    print(cat_fea + "的特征分布如下：")
    print("{}特征有个{}不同的值".format(cat_fea, Train_data[cat_fea].nunique()))
    print(Train_data[cat_fea].value_counts())

# Test_data特征nunique分布

for cat_fea in categorical_features:
    print(cat_fea + "的特征分布如下：")
    print("{}特征有个{}不同的值".format(cat_fea, Test_data[cat_fea].nunique()))
    print(Test_data[cat_fea].value_counts())

#数字特征分析

numeric_features.append('price')
q = numeric_features
print(q)
Train_data.head()

##  相关性分析

price_numeric = Train_data[numeric_features]
correlation = price_numeric.corr()
print(correlation['price'].sort_values(ascending = False),'\n')

f , ax = plt.subplots(figsize = (7, 7))
plt.title('Correlation of Numeric Features with Price',y=1,size=16)
sns.heatmap(correlation,square = True,  vmax=0.8)

del price_numeric['price']

##  查看几个特征得 偏度和峰值

for col in numeric_features:
    print('{:15}'.format(col),
          'Skewness: {:05.2f}'.format(Train_data[col].skew()) ,
          '   ' ,
          'Kurtosis: {:06.2f}'.format(Train_data[col].kurt())
         )

## 每个数字特征分布可视化

f = pd.melt(Train_data, value_vars=numeric_features)
g = sns.FacetGrid(f, col="variable",  col_wrap=2, sharex=False, sharey=False)
g = g.map(sns.distplot, "value")
plt.show()

## 数字特征相互之间的关系可视化

sns.set()
columns = ['price', 'v_12', 'v_8' , 'v_0', 'power', 'v_5',  'v_2', 'v_6', 'v_1', 'v_14']
sns.pairplot(Train_data[columns],size = 2 ,kind ='scatter',diag_kind='kde')
plt.show()

Train_data.columns
Y_train

## 多变量互相回归关系可视化

fig, ((ax1, ax2), (ax3, ax4), (ax5, ax6), (ax7, ax8), (ax9, ax10)) = plt.subplots(nrows=5, ncols=2, figsize=(24, 20))
# ['v_12', 'v_8' , 'v_0', 'power', 'v_5',  'v_2', 'v_6', 'v_1', 'v_14']
v_12_scatter_plot = pd.concat([Y_train,Train_data['v_12']],axis = 1)
sns.regplot(x='v_12',y = 'price', data = v_12_scatter_plot,scatter= True, fit_reg=True, ax=ax1)

v_8_scatter_plot = pd.concat([Y_train,Train_data['v_8']],axis = 1)
sns.regplot(x='v_8',y = 'price',data = v_8_scatter_plot,scatter= True, fit_reg=True, ax=ax2)

v_0_scatter_plot = pd.concat([Y_train,Train_data['v_0']],axis = 1)
sns.regplot(x='v_0',y = 'price',data = v_0_scatter_plot,scatter= True, fit_reg=True, ax=ax3)

power_scatter_plot = pd.concat([Y_train,Train_data['power']],axis = 1)
sns.regplot(x='power',y = 'price',data = power_scatter_plot,scatter= True, fit_reg=True, ax=ax4)

v_5_scatter_plot = pd.concat([Y_train,Train_data['v_5']],axis = 1)
sns.regplot(x='v_5',y = 'price',data = v_5_scatter_plot,scatter= True, fit_reg=True, ax=ax5)

v_2_scatter_plot = pd.concat([Y_train,Train_data['v_2']],axis = 1)
sns.regplot(x='v_2',y = 'price',data = v_2_scatter_plot,scatter= True, fit_reg=True, ax=ax6)

v_6_scatter_plot = pd.concat([Y_train,Train_data['v_6']],axis = 1)
sns.regplot(x='v_6',y = 'price',data = v_6_scatter_plot,scatter= True, fit_reg=True, ax=ax7)

v_1_scatter_plot = pd.concat([Y_train,Train_data['v_1']],axis = 1)
sns.regplot(x='v_1',y = 'price',data = v_1_scatter_plot,scatter= True, fit_reg=True, ax=ax8)

v_14_scatter_plot = pd.concat([Y_train,Train_data['v_14']],axis = 1)
sns.regplot(x='v_14',y = 'price',data = v_14_scatter_plot,scatter= True, fit_reg=True, ax=ax9)

v_13_scatter_plot = pd.concat([Y_train,Train_data['v_13']],axis = 1)
sns.regplot(x='v_13',y = 'price',data = v_13_scatter_plot,scatter= True, fit_reg=True, ax=ax10)

#类别特征分析
##  unique分布

for fea in categorical_features:
    print(Train_data[fea].nunique())

categorical_features

## 类别特征箱形图可视化

# 因为 name和 regionCode的类别太稀疏了，这里我们把不稀疏的几类画一下

categorical_features = ['model',
 'brand',
 'bodyType',
 'fuelType',
 'gearbox',
 'notRepairedDamage']
for c in categorical_features:
    Train_data[c] = Train_data[c].astype('category')
    if Train_data[c].isnull().any():
        Train_data[c] = Train_data[c].cat.add_categories(['MISSING'])
        Train_data[c] = Train_data[c].fillna('MISSING')

def boxplot(x, y, **kwargs):
    sns.boxplot(x=x, y=y)
    x=plt.xticks(rotation=90)

f = pd.melt(Train_data, id_vars=['price'], value_vars=categorical_features)
g = sns.FacetGrid(f, col="variable",  col_wrap=2, sharex=False, sharey=False, size=5)
g = g.map(boxplot, "value", "price")

Train_data.columns

##  类别特征的小提琴图可视化

catg_list = categorical_features
target = 'price'
for catg in catg_list :
    sns.violinplot(x=catg, y=target, data=Train_data)
    plt.show()

categorical_features = ['model',
 'brand',
 'bodyType',
 'fuelType',
 'gearbox',
 'notRepairedDamage']

##  类别特征的柱形图可视化

def bar_plot(x, y, **kwargs):
    sns.barplot(x=x, y=y)
    x=plt.xticks(rotation=90)

f = pd.melt(Train_data, id_vars=['price'], value_vars=categorical_features)
g = sns.FacetGrid(f, col="variable",  col_wrap=2, sharex=False, sharey=False, size=5)
g = g.map(bar_plot, "value", "price")

##  类别特征的每个类别频数可视化(count_plot)

def count_plot(x,  **kwargs):
    sns.countplot(x=x)
    x=plt.xticks(rotation=90)

f = pd.melt(Train_data,  value_vars=categorical_features)
g = sns.FacetGrid(f, col="variable",  col_wrap=2, sharex=False, sharey=False, size=5)
g = g.map(count_plot, "value")

#用pandas_profiling生成一个较为全面的可视化和数据报告(较为简单、方便) 最终打开html文件即可

import pandas_profiling

pfr = pandas_profiling.ProfileReport(Train_data)
pfr.to_file("./example.html")

经验总结

对于EDA数据分析，总的来说，需要运用统计的各种手段，对数据进行清洗，变换。第一次操作这个，虽然有点蒙，但是做下来感觉明白差不多，今后需要更多的操作。数据分析是数据挖掘的第一步，也是最重要的一步。

操作图表是对数据分析最直观的操作，简单明了。

截取一段EDA的定义：

是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。

学习网络技术有必要学习python吗？就是不吃苦瓜 python入门学习程序人生职场和发展数据分析 python windows 智能路由器
学习网络技术当然可以学习Python。他俩还能结合起来呢，以实现网络编程的目的。具体来说，可以从以下几个方面结合：1.网络爬虫Python有强大的网络爬虫和数据采集库，如BeautifulSoup、Scrapy、Requests等，可以用来爬取互联网上的各种数据，如新闻、图片、视频、商品信息等。2.Web开发Python有多种Web框架，如Django、Flask等，可以用来进行Web开发，实现网
Python-playwright：一款强大的UI自动化工具、新兴爬虫利器 m0_74824054 面试学习路线阿里巴巴 python ui 自动化
点击名片关注阿尘blog，一起学习，一起成长本文主要分享由微软开发的实现WebUI自动化测试工具Playwright库，相比于之前学习过selenium库，playwright对于编写自动化代码绝对是更轻松了，因为它支持脚本录制，如果只求简单点可以不用写一行代码就能够实现自动化，而且playwright有许多强大的api，很多功能比起selenium都轻松简单，好了话不多说，开启正文~playwr
在Python中高效操作三维和四维数组相乘：人工智能基础 NumPy部分秋‍. python numpy 开发语言人工智能
一、前言在深度学习、科学计算和数据分析领域，处理高维数组是家常便饭。本文将深入探讨三维和四维数组的相乘操作，通过NumPy库演示各种实用技巧。二、核心概念梳理1.数组维度理解三维数组：(层,行,列)可理解为多个二维矩阵的堆叠四维数组：(批次大小,通道数,高度,宽度)常见于图像处理2.关键函数对比函数特性说明支持维度np.multiply元素级相乘任意np.dot标准矩阵点积≤2np.matmul广
JAVA版本GDAL安装使用教程(详细步骤） Roc-xb java GDAL
GDAL由加拿大航天代理局开发，采用MIT/X开源协议，由OpenSourceGeospatialFoundation维护。它通过抽象数据模型统一支持多种地理数据格式，包括栅格数据（如GeoTIFF、JPEG2000、HDF）和矢量数据（如Shapefile、GeoJSON）。其跨平台性支持Windows、Linux、macOS等操作系统，并提供了Python、C/C++、Java等多种语言接口一
J-LangChain，用Java实现LangChain编排！轻松加载PDF、切分文档、向量化存储，再到智能问答花千树-010 JLangChain-TG langchain java pdf AIGC nlp AI编程
Java如何玩转大模型编排、RAG、Agent？？？在自然语言处理（NLP）的浪潮中，LangChain作为一种强大的模型编排框架，已经在Python社区中广受欢迎。然而，对于Java开发者来说，能否有一个同样高效、灵活的工具来实现类似功能？答案是肯定的！今天，我们将聚焦J-LangChain——一个专为Java打造的LangChain实现，带你探索如何用Java语言轻松构建从PDF处理到智能问答
python蓝桥杯备赛（day8）[KMP算法] kiki坤哥蓝桥杯职场和发展
第四章字符串part02[KMP算法]今日任务28.实现strStr()题目链接：28.找出字符串中第一个匹配项的下标-力扣（LeetCode）文章链接：代码随想录这题要用kmp算法，一下是我认为搞清楚kmp需要知道的前缀表是什么：记录下标i之前（包括i）的字符串（即子串）中，最大长度相同前缀后缀前缀表有什么作用：前缀表是用来回退的，它记录了模式串与主串(文本串)不匹配的时候，模式串应该从哪里开始
Python接口测试实践：参数化测试、数据驱动测试和断言的使用测试1998 python 测试用例软件测试自动化测试测试工具职场和发展接口测试
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快在Python接口测试实践中，参数化测试、数据驱动测试和断言是常用的技术手段。参数化测试参数化测试是指将测试用例中的某些部分（如输入数据或配置）作为参数传递给测试函数，以便于复用和减少代码重复。例如，使用unittest库进行参数化测试：importunittestclassTestMyAPI(unittest.TestCase):@cl
python+requests+pytest+allure自动化测试框架测试1998 python 软件测试自动化测试单元测试 pytest 职场和发展测试工具
视频学习：文末有免费的配套视频可观看关注公众号【互联网杂货铺】，回复1，免费获取软件测试全套资料，资料在手，涨薪更快1、核心库requestsrequest请求openpyxlexcel文件操作loggin日志smtplib发送邮件configparserunittest.mockmock服务2、目录结构baseutilstestDatasconftestCasestestReportlogs其他
深入探索 Python 线程：原理、应用、问题与解决方案听潮阁 Python完全教程 python
一、Python线程简介在Python编程的世界里，线程是实现并发编程的重要概念。线程是操作系统能够进行运算调度的最小单位，它被包含在进程之中，是进程中的实际运作单位。Python中的线程允许在单个进程中同时执行多个操作。这对于提高程序的效率和响应性非常有帮助。例如，在一个网络爬虫程序中，可以使用线程同时对多个网页进行抓取，而不是一个接一个地抓取，大大节省了时间。二、Python线程的创建与启动（
后端开发技术栈和知识点的分类，以及按学习顺序推荐的相关书籍输出输入学习后端
以下是后端开发技术栈和知识点的分类，以及按学习顺序推荐的相关书籍：1.基础编程语言后端开发通常需要掌握至少一种编程语言，如Java、Python、Go或Node.js。推荐书籍：•Java：•《Java核心技术卷I》：适合Java初学者，涵盖语言基础、面向对象编程、异常处理等内容。•《Java编程思想》：深入讲解Java的核心概念和编程思想。•《EffectiveJava》：Java开发的最佳实践
Python Cookbook-2.19 根据指定的搜索路径和模式寻找文件我不会编程555 #Python学习 python 前端 linux
任务给定一个搜索路径(一个描述目录信息的字符串)，需要在此目录中找出所有符合匹配模式的文件。解决方案基本上，需要循环路径中的所有目录。这个循环最好被封装成一个生成器:importglob，osdefall_files(pattern,search_path,pathsep=os.pathsep):'''给定搜索路径，找出所有满足匹配条件的文件'''forpathinsearch_path.spli
python中的线程了解与学习想做个小Torvalds Python学习 python 学习服务器
文章目录前言一、计算密集型与IO操作密集型1.计算密集型任务2.I/O密集型任务二、线程的创建和使用2.1线程的简单创建和使用2.2创建两个线程2.3创建两个线程，并且不让主线程等子线程了。2.4创建两个线程，并且设置主线程等待子线程的最大等待时间。2.5为什么有时候多线程运行的时候结果是不一样的？2.6再补充一个创建线程的方法三、总结前言全局解释器锁（GlobalInterpreterLock，
前后端数据传输加密：Python 与 Vue 的实践风清扬【coder】 Web应用 vue.js python 前端
Python与Vue实现接口数据加密传输在当今互联网应用开发中，数据安全是重中之重。尤其是在前后端进行数据交互时，确保传输数据的保密性、完整性和可用性，是每一位开发者不可忽视的关键环节。本文将深入探讨如何运用Python后端和Vue前端技术，实现接口数据传输过程中的加密处理，为大家揭开数据安全保护的神秘面纱。加密基石：AES算法我们选用的加密算法是AES（AdvancedEncryptionSta
Python+requests+pytest+allure自动化测试框架测试1998 软件测试自动化测试测试工具测试用例 python pytest 职场和发展
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快1、核心库requestsrequest请求openpyxlexcel文件操作loggin日志smtplib发送邮件configparserunittest.mockmock服务2、目录结构baseutilstestDatasconftestCasestestReportlogs其他2.1basebase_path.py存放绝对路径,do
Python：线程 00&00 Python 服务器 python
线程是操作系统和编程中非常重要的概念，是进程中的一个执行单元。它可以看作是轻量级的进程，多个线程可以共享同一进程的资源，如内存和文件句柄。以下是对线程的详细介绍：1.线程概念线程是操作系统能够调度的最小单位，代表了程序执行的一个单独的序列。一个进程可以包含多个线程，所有线程共享进程的地址空间和资源，但每个线程有其独立的执行栈和程序计数器。2.线程的组成线程通常由以下几个部分组成：线程ID：唯一标识
500G机械硬盘换成120固态硬盘+500G机械硬盘上官-王野 win10开发
一、电脑太卡换SSD固态硬盘本人用联想E40，老机器，8G内存，2.3GHz，i5处理器，做python开发，发现电脑刷新太慢，所以想换120G固态硬盘，据说能提速，于是我在京东买了一个金士顿的SSD固态硬盘京东地址1、你问我为什么选120G固态硬盘？答：性价比高。你太大内存的固态硬盘用于装文件和软件不值得，我们一般系统装固态硬盘里，重要软件装固态硬盘里，剩下的可以装机械硬盘里，读取速度还是以固态
Python基础——分支结构全端工程师 python基础 python
Python基础——分支结构前言1.顺序结构示例代码2.分支结构2.1单分支结构2.2双分支结构2.3多分支结构2.4嵌套分支结构2.5条件表达式（也称为三元运算符）2.6组合条件2.7`match`语句（Python3.10及以上版本）3.实际应用示例3.1计算BMI指数3.2判断用户年龄的合法性3.3检查输入的用户名和密码4.总结前言在编写程序时，控制流结构至关重要，它决定了程序的执行路径。P
python数据预处理技术与实践期末考试_Python机器学习手册：从数据预处理到深度学习... 坂田月半
内容简介O'ReillyMedia,Inc．介绍第1章向量、矩阵和数组1.0简介1.1创建一个向量1.2创建一个矩阵1.3创建一个稀疏矩阵1.4选择元素1.5展示一个矩阵的属性1.6对多个元素同时应用某个操作1.7找到最大值和最小值1.8计算平均值、方差和标准差1.9矩阵变形1.10转置向量或矩阵1.11展开一个矩阵1.12计算矩阵的秩1.13计算行列式1.14获取矩阵的对角线元素1.15计算矩阵
python运行程序为什么会卡住_为什么我的 Python 程序卡住啦！ weixin_39808953
本文简答介绍在linux环境下如何利用gdb来分析卡住的程序，本文使用的Python为Cpython2.7，操作系统为Debian。阻塞在IO程序被卡住，很可能是程序被阻塞了，即在等待(wait)等个系统调用的结束，比如磁盘IO与网络IO、多线程，默认的情况下很多系统调用都是阻塞的。多线程的问题复杂一下，后面专门介绍。下面举一个UDPSocket的例子(run_forever_block.py)：
python pickle模块懒大王爱吃狼 python python php 数据库服务器 Python基础 python学习开发语言
pickle是Python的一个标准模块，它实现了基本的二进制协议，用于对象的序列化和反序列化。序列化是指将对象转换为字节流的过程，这样对象就可以被保存到文件中或通过网络传输。反序列化是指将字节流转换回对象的过程。使用pickle序列化对象要将一个对象序列化（即保存到文件中），你可以使用pickle.dump()函数。这个函数接受两个必需的参数：要序列化的对象和保存对象的文件对象（通常是一个打开的
python读取xml文件懒大王爱吃狼 python python xml java 网络 Python基础 pycharm 开发语言
在Python中读取XML文件可以使用内置的xml.etree.ElementTree模块，它提供了一个轻量级且易于使用的API来解析和创建XML数据。下面是一个基本的示例，展示如何读取XML文件并提取数据。假设我们有一个名为example.xml的XML文件，内容如下：[email protected]@example.com以下
Python之re模块懒大王爱吃狼 python python mysql 数据库 pycharm pandas python环境配置开发语言
Python的re模块提供了对正则表达式的支持，允许你进行复杂的字符串搜索、替换和解析操作。正则表达式（RegularExpressions）是一种强大的文本处理工具，使用一种特定的语法模式来描述在搜索文本时要匹配的一个或多个字符串。以下是一些re模块中常用的函数和方法：编译正则表达式importrepattern=re.compile(r'\d+')#匹配一个或多个数字搜索字符串re.searc
Python __init__.py 作用详解代码输入中... python 开发语言 numpy 数据库
__init__.py文件的作用是将文件夹变为一个Python模块,Python中的每个模块的包中，都有__init__.py文件。通常__init__.py文件为空，但是我们还可以为它增加其他的功能。我们在导入一个包时，实际上是导入了它的__init__.py文件。这样我们可以在__init__.py文件中批量导入我们所需要的模块，而不再需要一个一个的导入。#package#__init__.p
推荐项目：FontTools——字体操作的瑞士军刀包怡妹Alina
推荐项目：FontTools——字体操作的瑞士军刀fonttoolsAlibrarytomanipulatefontfilesfromPython.项目地址:https://gitcode.com/gh_mirrors/fo/fonttools在数字设计和开发领域，字体是不可或缺的一部分。今天，我们来探索一款名为FontTools的开源宝藏工具，它为字体爱好者和开发者们提供了强大的字体操控能力。让
python的__init__的作用 darren2015zdc python
__init__.py文件的作用是将文件夹变为一个Python模块,Python中的每个模块的包中，都有__init__.py文件.这篇文章主要介绍了Python中__init__.py文件的作用详解,非常不错，具有参考借鉴价值，需要的朋友可以参考下批量引入init.py文件的作用是将文件夹变为一个Python模块,Python中的每个模块的包中，都有__init__.py文件。通常__init_
用win+python+pycharm 开发一个项目，负责档案审核上官-王野 python pycharm 开发语言
用win+python+pycharm开发一个项目，负责档案审核，对已有的档案jpg格式，进行读取，提取图片中的信息，并建立关联性。对这些信息（三龄、二历、一身份）即1.三龄：年龄、工龄、党龄，具体指出生日期、参加工作时间、入党时间。2.二历：学历、工作经历。3.一身份：干部身份。核对校验。为了实现一个基于Win+Python+PyCharm的档案审核项目，我们需要完成以下步骤：1.环境准备操作系
Python字体处理工具FontTools教程与实战聚合收藏
本文还有配套的精品资源，点击获取简介：本文详细解析了Python字体处理工具FontTools库及其WindowsAMD64平台上的使用方法。通过"fonttools-4.31.2-cp39-cp39-win_amd64.whl.zip"文件，深入探讨了FontTools的核心功能，包括字体解析、转换、裁剪、字形操作、验证及变体合成等。文档还包括了安装指南，指导用户如何在Python中使用Font
第16届蓝桥杯模拟赛3 python组个人题解 lskkkkkkkkkkkk 蓝桥杯 python 题解
第16届蓝桥杯模拟赛3python组思路和答案不保证正确1.填空如果一个数p是个质数，同时又是整数a的约数，则p称为a的一个质因数。请问，2024的最大的质因数是多少？因为是填空题，所以直接枚举2023~2，第一个即是质数也是2024的因数的数就是答案。defisprime(x):foriinrange(2,int(x**0.5)+1):if(x%i==0):returnFalsereturnTr
python网络爬虫——爬取新发地农产品数据张謹礧 python网络爬虫 python 爬虫开发语言
这段代码是一个爬取新发地蔬菜价格信息的程序，它使用了多线程来加快数据获取和解析的速度。具体的步骤如下：导入所需的库：json、requests、threading和pandas。初始化一些变量，包括页数、商品总列表以及存放json数据的列表。定义了一个函数url_parse()，用于发送请求并解析网页数据。函数使用requests.post()方法发送POST请求，获取商品信息，并将其保存到jso
python pip怎么升级_使用Python pip怎么升级pip weixin_39608118 python pip怎么升级
Pip是一个Python的包管理工具，实际上它也可以被看待为是一个包，Pip相当于Linux上的yum，对python的开发者来说相当方便。我们再也无需去焦头烂额的寻找whl包，直接通过pip就可以在线安装(前提是有网络+pip版本合适的情况下)可见pip的版本更新是相当重要的，今天小编就来教大家怎么升级pip方法/步骤我们首先来看看pip的版本。pipshowpip可以看到，小编这里的pip版本
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

探索性数据分析（EDA，Exploratory Data Analysis）

你可能感兴趣的:(python)