liying_tt

Day8-Python缺失值(DataWhale)

缺失数据

import pandas as pd 
import numpy as np

一、缺失信息的统计和删除

1. 缺失信息的统计

缺失数据可以使用 isna 或 isnull （两个函数没有区别）来查看每个单元格是否缺失，结合 mean 可以计算出每列缺失值的比例，sum可以计算每列缺失值的总数：

df = pd.read_csv('data/learn_pandas.csv',
                usecols=['Grade','Name','Gender','Height','Weight','Transfer'])
df.isna().head()

	Grade	Name	Gender	Height	Weight	Transfer
0	False	False	False	False	False	False
1	False	False	False	False	False	False
2	False	False	False	False	False	False
3	False	False	False	True	False	False
4	False	False	False	False	False	False

df.isna().mean()

Grade        0
Name         0
Gender       0
Height      17
Weight      11
Transfer    12
dtype: int64

1.查看某一列缺失或者非缺失的行，可以利用 Series 上的 isna 或者 notna 进行布尔索引

df[df.Height.isna()].head()

	Grade	Name	Gender	Height	Weight	Transfer
3	Sophomore	Xiaojuan Sun	Female	NaN	41.0	N
12	Senior	Peng You	Female	NaN	48.0	NaN
26	Junior	Yanli You	Female	NaN	48.0	N
36	Freshman	Xiaojuan Qin	Male	NaN	79.0	Y
60	Freshman	Yanpeng Lv	Male	NaN	65.0	N

2.同时对几个列，检索出全部为缺失或者至少有一个缺失或者没有缺失的行，可以使用 isna, notna 和 any, all 的组合

sub_set = df[['Height','Weight','Transfer']]
df[sub_set.isna().all(1)]#全部缺失

	Grade	Name	Gender	Height	Weight	Transfer
102	Junior	Chengli Zhao	Male	NaN	NaN	NaN

df[sub_set.isna().any(1)].head() #至少一个缺失

	Grade	Name	Gender	Height	Weight	Transfer
3	Sophomore	Xiaojuan Sun	Female	NaN	41.0	N
9	Junior	Juan Xu	Female	164.8	NaN	N
12	Senior	Peng You	Female	NaN	48.0	NaN
21	Senior	Xiaopeng Shen	Male	166.0	62.0	NaN
26	Junior	Yanli You	Female	NaN	48.0	N

df[sub_set.notna().all(1)].head()

	Grade	Name	Gender	Height	Weight	Transfer
0	Freshman	Gaopeng Yang	Female	158.9	46.0	N
1	Freshman	Changqiang You	Male	166.5	70.0	N
2	Senior	Mei Sun	Male	188.9	89.0	N
4	Sophomore	Gaojuan You	Male	174.0	74.0	N
5	Freshman	Xiaoli Qian	Female	158.0	51.0	N

2. 缺失信息的删除

1.dropna函数

参数：

axis：轴方向，默认0(行)

how：删除方式，any/all

thresh：删除的非缺失值个数阈值（非缺失值没有达到这个数量的相应维度会被删除

subset：备选的删除子集

例：删除身高体重至少有一个缺失的行

res = df.dropna(how='any', subset=['Height','Weight'])
print(df.shape)
res.shape

(200, 6)





(174, 6)

例：删除超过15个缺失值的列

df.shape[0]

res = df.dropna(1, thresh=df.shape[0]-15)
#1代表按列删除，thresh反映的非缺失值，所以这里需要转换一下
res.head()

	Grade	Name	Gender	Weight	Transfer
0	Freshman	Gaopeng Yang	Female	46.0	N
1	Freshman	Changqiang You	Male	70.0	N
2	Senior	Mei Sun	Male	89.0	N
3	Sophomore	Xiaojuan Sun	Female	41.0	N
4	Sophomore	Gaojuan You	Male	74.0	N

二、缺失值的填充和插值

1. 利用fillna进行填充

参数:

value：填充值，可以是标量、索引到元素的字典映射

method：填充方法，ffill：前面的元素填充；bfill：用后面的元素填充

limit：连续缺失值的最大填充次数

s = pd.Series([np.nan, 1, np.nan, np.nan, 2, np.nan],
             list('aaabcd'))
s

a    NaN
a    1.0
a    NaN
b    NaN
c    2.0
d    NaN
dtype: float64

s.fillna(method='ffill')

a    NaN
a    1.0
a    1.0
b    1.0
c    2.0
d    2.0
dtype: float64

s.fillna(method='ffill',limit=1)# 连续出现的缺失，最多填充一次

a    NaN
a    1.0
a    1.0
b    NaN
c    2.0
d    2.0
dtype: float64

s.fillna(s.mean())# value为标量

a    1.5
a    1.0
a    1.5
b    1.5
c    2.0
d    1.5
dtype: float64

s.fillna({
     'a':100, 'd':200}) # 通过索引映射填充的值

a    100.0
a      1.0
a    100.0
b      NaN
c      2.0
d    200.0
dtype: float64

1.进行分组后再操作

例：据年级进行身高的均值填充

df.groupby('Grade')['Height'].transform(lambda x: x.fillna(x.mean())).head()

0    158.900000
1    166.500000
2    188.900000
3    163.075862
4    174.000000
Name: Height, dtype: float64

2. 练一练1

对一个序列以如下规则填充缺失值：如果单独出现的缺失值，就用前后均值填充，如果连续出现的缺失值就不填充，即序列[1, NaN, 3, NaN, NaN]填充后为[1, 2, 3, NaN, NaN]，请利用 fillna 函数实现。（提示：利用 limit 参数）

思路：缺失值只出现一次，所以限制limit=1

df1 = pd.Series([1, np.nan, 3, np.nan, np.nan])
df1.fillna(df1.mean(),limit=1)

0    1.0
1    2.0
2    3.0
3    NaN
4    NaN
dtype: float64

之后在群里看见大佬的解释，如果将序列变为[1, np.nan, 3, np.nan, np.nan,5,np.nan]，上面的条件就是错误的，还在考虑如何实现

df2 = pd.Series([1, np.nan, 3, np.nan, np.nan,5,np.nan])
df2.fillna(df2.mean(),limit=1)

0    1.0
1    3.0
2    3.0
3    NaN
4    NaN
5    5.0
6    NaN
dtype: float64

3. 插值函数

interpolate函数：

参数：

limit_direction：控制方向，默认为 forward，向后：backward，双向：both

limit：控制最大连续缺失值插值个数
默认为 linear 线性插值插入方法

s = pd.Series([np.nan, np.nan, 1, np.nan, np.nan, np.nan, 2, np.nan, np.nan])
s.values

array([nan, nan,  1., nan, nan, nan,  2., nan, nan])

1.线性插值法

res = s.interpolate(limit_direction='forward',limit=1) 
res.values

array([ nan,  nan, 1.  , 1.25,  nan,  nan, 2.  , 2.  ,  nan])

res = s.interpolate(limit_direction='backward',limit=1) 
res.values

array([ nan, 1.  , 1.  ,  nan,  nan, 1.75, 2.  ,  nan,  nan])

res = s.interpolate(limit_direction='both',limit=1)
res.values

array([ nan, 1.  , 1.  , 1.25,  nan, 1.75, 2.  , 2.  ,  nan])

2.最近邻插补(nearest)

缺失值的元素和离它最近的非缺失值元素一样

s.interpolate('nearest').values

array([nan, nan,  1.,  1.,  1.,  2.,  2., nan, nan])

3.索引插值

根据索引大小进行线性插值

s = pd.Series([0,np.nan,10],index=[0,1,10])
s

0      0.0
1      NaN
10    10.0
dtype: float64

s.interpolate() # 默认的线性插值，等价于计算中点的值

0      0.0
1      5.0
10    10.0
dtype: float64

s.interpolate(method='index')# 和索引有关的线性插值，计算相应索引大小对应的值

0      0.0
1      1.0
10    10.0
dtype: float64

这种方法对于时间戳索引也是可以使用

s = pd.Series([0,np.nan,10],
             index=pd.to_datetime(['20200101','20200102','20200111']))
s

2020-01-01     0.0
2020-01-02     NaN
2020-01-11    10.0
dtype: float64

s.interpolate()

2020-01-01     0.0
2020-01-02     5.0
2020-01-11    10.0
dtype: float64

s.interpolate(method='index')

2020-01-01     0.0
2020-01-02     1.0
2020-01-11    10.0
dtype: float64

三、Nullable类型

1. 缺失记号及其缺陷

1.None

在 python 中的缺失值用 None 表示，该元素除了等于自己本身之外，与其他任何元素不相等

None == None

True

None == False

False

2.np.nan

在 numpy 中利用 np.nan 来表示缺失值，该元素除了不和其他任何元素相等之外，和自身的比较结果也返回 False

np.nan == np.nan

False

虽然在对缺失序列或表格的元素进行比较操作的时候， np.nan 的对应位置会返回 False ，但是在使用 equals 函数进行两张表或两个序列的相同性检验时，会自动跳过两侧表都是缺失值的位置，直接返回 True

s1 = pd.Series([1,np.nan])
s2 = pd.Series([1,2])
s3 = pd.Series([1, np.nan])
s1 == 1

0     True
1    False
dtype: bool

s1.equals(s2)

False

s1.equals(s3)

True

3.pd.NaT

在时间序列的对象中， pandas 利用 pd.NaT 来指代缺失值，它的作用和 np.nan 是一致的

pd.to_timedelta(['30s',np.nan])# Timedelta中的NaT

TimedeltaIndex(['0 days 00:00:30', NaT], dtype='timedelta64[ns]', freq=None)

pd.to_datetime(['20200101', np.nan]) # Datetime中的NaT

DatetimeIndex(['2020-01-01', 'NaT'], dtype='datetime64[ns]', freq=None)

为什么要引入 pd.NaT 来表示时间对象中的缺失呢？仍然以 np.nan 的形式存放会有什么问题？在 pandas 中可以看到 object 类型的对象，而 object 是一种混杂对象类型，如果出现了多个类型的元素同时存储在 Series 中，它的类型就会变成 object

pd.Series([1,'two'])

0      1
1    two
dtype: object

NaT 问题的根源来自于 np.nan 的本身是一种浮点类型，而如果浮点和时间类型混合存储，如果不设计新的内置缺失类型来处理，就会变成含糊不清的 object 类型

type(np.nan)

float

同时，由于 np.nan 的浮点性质，如果在一个整数的 Series 中出现缺失，那么其类型会转变为 float64 ；而如果在一个布尔类型的序列中出现缺失，那么其类型就会转为 object 而不是 bool

pd.Series([1, np.nan]).dtype

dtype('float64')

pd.Series([True, False, np.nan]).dtype

dtype('O')

pandas 尝试设计了一种新的缺失类型 pd.NA 以及三种 Nullable 序列类型来应对这些缺陷，它们分别是 Int, boolean 和 string

2. Nullable类型的性质

Nullable 就是可空的，言下之意就是序列类型不受缺失值的影响，例如，在上述三个 Nullable 类型(Int, boolean 和 string)中存储缺失值，都会转为 pandas 内置的 pd.NA ：

pd.Series([np.nan, 1],dtype='Int64') #'I'大写

0    
1       1
dtype: Int64

pd.Series([np.nan, True], dtype = 'boolean')

0    
1    True
dtype: boolean

pd.Series([np.nan, 'my_str'], dtype = 'string')

0      
1    my_str
dtype: string

在 Int 的序列中，返回的结果会尽可能地成为 Nullable 的类型：

pd.Series([np.nan, 0], dtype = 'Int64') + 1

0    
1       1
dtype: Int64

pd.Series([np.nan, 0], dtype = 'Int64') == 0

0    
1    True
dtype: boolean

 pd.Series([np.nan, 0], dtype = 'Int64') * 0.5 # 只能是浮点

0    NaN
1    0.0
dtype: float64

对于 boolean 类型的序列而言，其和 bool 序列的行为主要有两点区别:

(1)带有缺失的布尔列表无法进行索引器中的选择，而 boolean 会把缺失值看作 False

s = pd.Series(['a', 'b'])
s_bool = pd.Series([True, np.nan])
s_boolean = pd.Series([True, np.nan]).astype('boolean')

try:
    s[s_bool]
except Exception as e:
        Err_Msg = e
Err_Msg

ValueError('Cannot mask with non-boolean array containing NA / NaN values')

s[s_boolean]

0    a
dtype: object

(2) 在进行逻辑运算时， bool 类型在缺失处返回的永远是 False ，而 boolean 会根据逻辑运算是否能确定唯一结果来返回相应的值。

那什么叫能否确定唯一结果呢？举个简单例子： True | pd.NA 中无论缺失值为什么值，必然返回 True ； False | pd.NA 中的结果会根据缺失值取值的不同而变化，此时返回 pd.NA ； False & pd.NA 中无论缺失值为什么值，必然返回 False

s_boolean & True

0    True
1    
dtype: boolean

s_boolean | True

0    True
1    True
dtype: boolean

~s_boolean # 取反操作同样是无法唯一地判断缺失结果

0    False
1     
dtype: boolean

一般在实际数据处理时，可以在数据集读入后，先通过 convert_dtypes 转为 Nullable 类型

df = pd.read_csv('data/learn_pandas.csv')
df = df.convert_dtypes()
df.dtypes

School          string
Grade           string
Name            string
Gender          string
Height         float64
Weight           Int64
Transfer        string
Test_Number      Int64
Test_Date       string
Time_Record     string
dtype: object

3. 缺失数据的计算和分组

1.sum, prod

当调用函数 sum, prob 使用加法和乘法的时候，缺失数据等价于被分别视作0和1，即不改变原来的计算结果

s = pd.Series([2,3,np.nan,4,5])
s.sum()

14.0

s.prod()

120.0

2.累计函数

当使用累计函数时，会自动跳过缺失值所处的位置

s.cumsum()

0     2.0
1     5.0
2     NaN
3     9.0
4    14.0
dtype: float64

3.单个标量运算

除了 np.nan ** 0 和 1 ** np.nan 这两种情况为确定的值之外，所有运算结果全为缺失（ pd.NA 的行为与此一致），并且 np.nan 在比较操作时一定返回 False ，而 pd.NA 返回 pd.NA

np.nan ** 0

1.0

1 ** np.nan

1.0

pd.NA ** 0

1 ** pd.NA

np.nan == 0

False

pd.NA == 0

np.nan + 1

nan

np.log(np.nan)

nan

np.add(np.nan, 1)

nan

4.diff, pct_change

diff：凡是参与缺失计算的部分全部设为了缺失值，求与前一个元素的差

pct_change：缺失值位置会被设为 0% 的变化率，求当前元素与先前n个元素的相差百分比，指定periods=n

0    2.0
1    3.0
2    NaN
3    4.0
4    5.0
dtype: float64

s.diff()

0    NaN
1    1.0
2    NaN
3    NaN
4    1.0
dtype: float64

s.pct_change()

0         NaN
1    0.500000
2    0.000000
3    0.333333
4    0.250000
dtype: float64

5.对于一些函数而言，缺失可以作为一个类别处理，例如在 groupby, get_dummies 中可以设置相应的参数来进行增加缺失类别

df_nan = pd.DataFrame({
     'category':['a','a','b',np.nan,np.nan],
                      'value':[1,3,5,7,9]})
df_nan

	category	value
0	a	1
1	a	3
2	b	5
3	NaN	7
4	NaN	9

df_nan.groupby('category',dropna=False)['value'].mean()

category
a      2
b      5
NaN    8
Name: value, dtype: int64

pd.get_dummies(df_nan.category, dummy_na=True)

	a	b	NaN
0	1	0	0
1	1	0	0
2	0	1	0
3	0	0	1
4	0	0	1

练习题我还没看懂，计划学到后面之后再回来继续写

你可能感兴趣的:(Python,python)

【Python 算法零基础 4.排序 ⑦ 桶排序】 L_cl Python常见算法排序算法数据结构算法
草木不争高，争的是生生不息——25.5.26选择排序回顾①遍历数组：从索引0到n-1（n为数组长度）。②每轮确定最小值：假设当前索引i为最小值索引min_index。从i+1到n-1遍历，若找到更小元素，则更新min_index。③交换元素：若min_index≠i，则交换arr[i]与arr[min_index]。'''①遍历数组：从索引 0 到 n-1（n 为数组长度）。②每轮确定最小值：假设
【Python 算法零基础 4.排序 ⑥ 快速排序】 L_cl Python常见算法排序算法算法
既有锦绣前程可奔赴，亦有往日岁月可回首——25.5.25选择排序回顾①遍历数组：从索引0到n-1（n为数组长度）。②每轮确定最小值：假设当前索引i为最小值索引min_index。从i+1到n-1遍历，若找到更小元素，则更新min_index。③交换元素：若min_index≠i，则交换arr[i]与arr[min_index]。'''①遍历数组：从索引 0 到 n-1（n 为数组长度）。②每轮确定
Python练习--Day1 IT小白成长记 python
1、输入三个整数：判断这三个整数能否组成一个三角形？构成三角形的条件：任意两个数之和大于第三个数首先输入三个数：使用Python内置函数input()从标准输入读入一行文本，默认的标准输入为键盘输入input所读入内容的数据类型为字符串类型，需要使用int、float等转换成我们需要的数据类型使用分支结构判断a=int(input("请输入第一个整数："))b=int(input("请输入第二个整
基于python+flask框架的某图书馆书籍推荐系统的设计与实现（开题+程序+论文）计算机毕设 zhihao502 python flask 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景在数字化时代，图书馆作为知识传播与积累的重要场所，面临着如何更有效地服务于广大读者的挑战。随着信息量的爆炸式增长，读者在浩瀚的书海中寻找符合个人兴趣和需求的书籍变得日益困难。传统的图书检索方式已难以满足读者快速、精准获取推荐书籍的需求。因此，开发一套智能化的图书馆
【Python】深入解析 Hydra 库宅男很神经 python 开发语言
第一章:混沌的终结：在配置泥潭中挣扎与Hydra的曙光在任何一个软件项目的生命周期中，无论是小型的个人脚本，还是大型的企业级分布式系统，我们都无法回避一个核心问题：如何管理配置。配置，是连接我们静态的代码逻辑与动态的运行环境之间的桥梁。它决定了我们的程序连接哪个数据库、使用哪个API密钥、以多大的批次处理数据、模型的学习率应该是多少、日志应该输出到哪里、以何种级别输出…可以说，配置定义了程序的行为
“解锁自动化新可能：使用Robocorp构建Python机器人“ sjufgwgfhoia 自动化 python 服务器
在这个快速变化的技术时代，自动化已经成为提高生产力和效率的关键驱动力。Robocorp提供了一种强大且灵活的平台，帮助开发者构建和运行Python机器人，以满足各类业务需求。引言在本文中，我们将深入探讨如何使用Robocorp构建和操作可以运行在任何地方且具备任意规模的Python工作器。本文旨在帮助你快速上手Robocorp平台的安装和设置，并分享如何在实践中应用它。主要内容1.Robocorp
Conda 虚拟环境与 venv、virtualenv、pipenv 的对比 drebander conda virtualenv python
1.引言在Python开发中，虚拟环境是解决不同项目依赖冲突的关键工具。Python提供了多种虚拟环境管理工具，包括Conda、venv、virtualenv和pipenv。每种工具都有其独特的特点和适用场景。本篇博客将简要对比这些工具，帮助你选择最适合的虚拟环境管理工具。2.Conda虚拟环境2.1Conda概述Conda是Anaconda提供的跨平台、跨语言的包和环境管理工具。除了管理Pyth
量化开发（系列第3篇）： C++在高性能量化交易中的核心应用与技术栈深度解析 Natsume1710 c++开发语言性能优化 python
本文为《量化开发》系列第3篇参考GitHub项目：Awesome-QuantDev-Learn前言在量化交易领域，Python以其开发效率高、生态系统丰富等优势，成为策略研究、数据分析及中低频交易的首选语言。在本系列前两篇文章中，我们详细探讨了Python在量化入门与策略回测中的实践。然而，当进入对延迟要求极为严苛的高频交易（High-FrequencyTrading,HFT）领域时，Python
使用Robocorp和LangChain构建可扩展的Python自动化工作流 qq_37836323 langchain python 自动化
使用Robocorp和LangChain构建可扩展的Python自动化工作流引言在当今快速发展的技术世界中，自动化已成为提高效率和生产力的关键。Robocorp是一个强大的平台，它允许开发者构建和运行可在任何地方、任何规模无缝运行的Python工作流。本文将探讨如何结合Robocorp和LangChain来创建灵活、可扩展的自动化解决方案。Robocorp简介Robocorp是一个现代化的自动化平
Robocorp自动化框架使用教程
Robocorp自动化框架使用教程robocorpCreatePythonAIActionsandAutomations,anddeploy&operatethemanywhere项目地址:https://gitcode.com/gh_mirrors/ro/robocorp1.项目介绍Robocorp是一个开源自动化框架，旨在帮助开发者创建PythonAIActions和自动化任务，这些任务可以部
Python量化策略与回测框架实战：从“纸上谈兵”到“真金白银”的第一步（系列第2篇） Natsume1710 python 开发语言 github
作者：GitHub项目地址Awesome-QuantDev-Learn本文为量化开发学习路线系列第2篇，欢迎收藏与关注。引言：为什么选择Python作为量化入门的起点？在上一篇文章中，我们详细讲解了量化开发的基本框架与开发者思维的转变路径。那么，具体要如何开始第一步实践呢？答案是：从Python入门。Python以其快速原型开发能力、丰富的数据分析工具包，以及良好的社区生态，已经成为全球范围内量化
【Python】Python 3.10 新特性月落一寸光 Python新特性 python 开发语言
文章目录前言：一、新特性1.1PEP617；带括号的上下文管理器1.2更清楚的错误消息1.3PEP634：结构化模式匹配（match）1.4PEP604：有关类型提示的新增特性1.5PEP613：类型别名二、改进的模块2.1`asyncio`2.2`argparse`2.3`base64`2.4`collections.abc`2.5`dataclasses``__slots__`2.6`trac
程序代码篇---Python指明函数参数类型
文章目录前言简介一、函数参数的类型指定1.基本类型提示2.默认参数3.可变参数4.联合类型（Union）5.可选类型（Optional）6.复杂类型二、返回值的类型指定1.基本返回类型2.无返回值（None）3.返回多个值（Tuple）4.生成器（Generator）三、高级类型提示用法1.类型别名（TypeAliases）2.泛型（Generics）3.可调用对象（Callable）4.NewT
五、Python新特性指定类型用法 ZingKings Python python
1.什么是类型注解类型注解是Python3.5+引入的特性，用于为变量、函数参数和返回值指定类型。它不会影响代码运行，但有助于代码可读性和IDE支持。2.基本类型注解#变量类型注解name:str="张三"age:int=25height:float=175.5is_student:bool=True#列表类型注解numbers:list[int]=[1,2,3,4,5]names:list[st
python笔记-Selenium谷歌浏览器驱动下载 hero.zhong python 笔记 selenium
Selenium谷歌浏览器驱动下载地址：https://googlechromelabs.github.io/chrome-for-testing/#stable下面是遇到的问题：python网络爬虫技术中使用谷歌浏览器代码，报错：OSError:[WinError193]%1不是有效的Win32应用程序：遇到错误OSError:[WinError193]%1不是有效的Win32应用程序通常意味着
网络编程底层通信（socket） En^_^Joy python应用网络 python
文章目录一、socket函数介绍二、TCP/IP服务端/客户端三、UDP/IP服务端/客户端四、多线程服务器（threading）五、网络编程常见问题（地址复用、粘包、数据长度）网络编程指通过计算机网络实现程序间通信的技术。Python提供了丰富的库支持各种网络协议和编程模式套接字是网络通信的基本操作单元，是应用层与TCP/IP协议族通信的中间软件抽象层。它提供了一组接口，允许不同主机或同一主机的
python unicode汉字转成各种进制，以及进制互相转换丧尽天良的良！ python python
例如，汉字：“五”的unicode编码为：4e94，使用二进制的结果为：100111010010100，转换为十进制是：20116对应转换如下：
Python办公—Excel嵌入图片提取&重命名(包含重复图片) 小庄-Python办公 Python办公自动化 python excel Excel图片获取 Excel批量获取嵌入图片 Excel嵌入图片
目录专栏导读背景解决方案1、背景介绍2、库的介绍①：openpyxl3、库的安装4、核心代码5、完整代码总结专栏导读欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手️‍博客主页：请点击——>一晌小贪欢的博客主页求关注该系列文章专栏：请点击——>Python办公自动化专栏求订阅此外还有爬虫专栏：请点击——>Python爬虫基础专栏求订阅此外还有python基础专栏：请点击—
Python 是如何执行我的代码的？冰糖心书房 Python python java linux
理解Python如何执行你的代码，可以帮助我们解释很多“为什么”——为什么会有.pyc文件？为什么Python相对较慢？多线程为什么不能利用多核？我们可以用一个“厨师做菜”的比喻来理解整个过程，然后再深入技术细节。一、比喻：厨师（Python）根据菜谱（你的代码）做菜想象一下，你是一位顾客，写了一份非常精确的菜谱（你的.py文件）交给一位名叫CPython的大厨（最常见的Python解释器）。第一
探索Cachier：Python函数的持久化缓存利器胡同琥Randolph
探索Cachier：Python函数的持久化缓存利器cachierPersistent,stale-free,localandcross-machinecachingforPythonfunctions.项目地址:https://gitcode.com/gh_mirrors/ca/cachier在Python开发的世界中，性能优化和资源管理是永恒的话题。今天，我们要介绍的是一个强大的开源项目——C
Pyramda：Python 中的函数式编程利器惠悦颖
Pyramda：Python中的函数式编程利器pyramdaPythonpackagesupportingheavyfunctionalprogrammingthroughcurrying.TranslationoftheRamdalibraryfromjavascripttopython.项目地址:https://gitcode.com/gh_mirrors/py/pyramdaPyramda是
[特殊字符] Excel 读取收件人 + Outlook 批量发送带附件邮件 —— Python 自动化实战 happydog007 python自动化办公 excel outlook python
许多公司定期需要将不同部门或客户的报告发送给指定人员。手动操作容易出错、耗时且繁琐。今天这篇文章教你如何利用Python实现：从Excel中读取“收件人+抄送人+附件文件路径”；使用win32com.client调用Outlook自动生成并发送邮件；✅附加模板正文，并保持批量发送规范无需手工操作。从Excel中读取部门、收件人与附件路径fromopenpyxlimportload_workbook
[特殊字符] Python 实战 | 批量统计中文文档词频并导出 Excel happydog007 python自动化办公 python 开发语言
本文展示如何用Python脚本：批量读取文件夹中的多篇中文文档；用jieba分词并统计词频（过滤停用词与单字符）；将各文档词频输出为对应Excel文件；是文本分析、内容审查、报告编写中的实用技巧。Step1：批量加载文件夹中文本文件路径importospath='主要业务'files=[os.path.join(path,f)forfinos.listdir(path)]使用标准库os.listd
探索开源虚拟 Excel 函数模块：Python 中的 Excel 功能利器
在数据处理和分析的领域中，Excel一直是一款备受青睐的工具，它提供了丰富多样的函数，帮助用户高效地完成各种数据操作。而现在，我（董翔）开发一个基于Python的虚拟Excel函数模块，它将Excel的强大功能带到了Python的世界里，让你在Python环境中也能轻松使用类似Excel的函数。这个模块我已经在GitHub上发布，项目链接为：https://github.com/dxiang-wi
写测试太烦？Copilot + Jest 让你 3 分钟搞定单元测试
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
60天python训练营打卡day46
学习目标：60天python训练营打卡学习内容：DAY46通道注意力(SE注意力)知识点回顾：1.不同CNN层的特征图：不同通道的特征图2.什么是注意力：注意力家族，类似于动物园，都是不同的模块，好不好试了才知道。3.通道注意力：模型的定义和插入的位置4.通道注意力后的特征图和热力图学习时间：2025.06.29@浙大疏锦行
python规划 t_hj python
-----------动态内容与反爬策略----------动态页面处理Selenium：自动化浏览器（点击、滚动、表单提交）Playwright（更现代的替代方案）API逆向工程分析Ajax请求（ChromeDevTools）直接调用API接口（如知乎热榜API）反爬应对User-Agent轮换、IP代理（免费/付费代理池）验证码处理（简单验证码用OCR，复杂验证码需打码平台）请求频率控制（ti
Python 训练营打卡 Day 46 2401_86382089 Python打卡 python
通道注意力一、什么是注意力注意力机制是一种让模型学会「选择性关注重要信息」的特征提取器，就像人类视觉会自动忽略背景，聚焦于图片中的主体（如猫、汽车）。transformer中的叫做自注意力机制，他是一种自己学习自己的机制，他可以自动学习到图片中的主体，并忽略背景。我们现在说的很多模块，比如通道注意力、空间注意力、通道注意力等等，都是基于自注意力机制的。从数学角度看，注意力机制是对输入特征进行加权求
Python训练营打卡 Day53 yunvwugua__ python自学打卡 python 开发语言
对抗生成网络知识点回顾：对抗生成网络的思想：关注损失从何而来生成器、判别器nn.sequential容器：适合于按顺序运算的情况，简化前向传播写法leakyReLU介绍：避免relu的神经元失活现象对抗生成网络（GAN）知识点回顾对抗生成网络的思想思想：就像在餐厅中，有一个厨师（生成器）负责制作假菜，一个评论家（判别器）负责区分真菜和假菜。厨师的目标是制作出评论家无法区分的假菜，而评论家的目标是找
华为OD机试 2025B卷 - 货币单位转换(C++&Python&JAVA&JS&C语言) YOLO大师华为od c++python 华为OD机试华为OD机试2025B卷华为OD2025B卷华为OD机考2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型题目描述记账本上记录了若干条多国货币金额，需要转换成人民币分（fen），汇总后输出。每行记录一条金额，金额带有货币单位，格式为数字+单位，可能是单独元，或者单独分，或者元与分的组合。要求将这些货币全部换算成人民币分（fen）后进行汇总，汇总结果仅保留整数，小数部分舍弃。元和分的换算关系都是
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul