Young_win

Python3pandas库DataFrame用法(基础整理)

pandas库DataFrame用法

创建一个DataFrame:

1）用字典dict，字典值value是列表list
2）用Series构建DataFrame
3）用一个字典构成的列表list of dicts来构建DataFrame

广播特性
定位DataFrame里的元素

1）利用表达式boolean定位
2）利用loc，iloc，ix函数定位

loc：通过“行标签”索引行数据
iloc：通过“行号”索引行数据
ix：通过行标签或者行号索引行数据（基于loc和iloc 的混合）

可以定位数字,就可以赋值
info()、describe()、head()、tail()
条件判断与条件组合
缺省值填充fillna,ffill,bfill

fillna
inplace
ffill
bfill

层次化的index
unstack：Series转化成DataFrame
csv文件读写read_ csv/to_csv

创建一个DataFrame:

一个DataFrame就是一张表格,Series可以理解成一维数据,DataFrame就是一个二维数据,DataFrame可以由多个Series组成(DataFrame可以理解成Series的一个集合)

1）用字典dict，字典值value是列表list

population={'city':['Beijing','Shanghai','Guangzhou','Shenzhen','Hangzhou','Chongqing'],
            'year':[2016,2017,2016,2017,2016,2016],
            'population':[2100,2300,1000,700,500,500]
            }
population=pd.DataFrame(population)   ###
print(population)

        city  population  year
0    Beijing        2100  2016
1   Shanghai        2300  2017
2  Guangzhou        1000  2016
3   Shenzhen         700  2017
4   Hangzhou         500  2016
5  Chongqing         500  2016

pdc=pd.DataFrame(population,columns=['year','city','population'])   #columns参数改变列名
print(pdc)

   year       city  population
0  2016    Beijing        2100
1  2017   Shanghai        2300
2  2016  Guangzhou        1000
3  2017   Shenzhen         700
4  2016   Hangzhou         500
5  2016  Chongqing         500

tmp={'city':['Beijing','Shanghai','Guangzhou','Shenzhen','Hangzhou','Chongqing'],
     'year':[2016,2017,2016,2017,2016,2016],
     'population':[2100,2300,1000,700,500,500]
     }
pdci=pd.DataFrame(tmp,columns=['year','city','population'],
                  index=['one','two','three','four','five','six'])  #改变行index索引和列名columns
print(pdci)

      year       city  population
one    2016    Beijing        2100
two    2017   Shanghai        2300
three  2016  Guangzhou        1000
four   2017   Shenzhen         700
five   2016   Hangzhou         500
six    2016  Chongqing         500

2）用Series构建DataFrame

cities={'Beijing':55000,'Shanghai':60000,'shenzhen':50000,'Hangzhou':20000,'Guangzhou':45000,'Suzhou':None}
apts=pd.Series(cities,name='income')
apts['shenzhen']=70000
less_than_50000=(apts<50000)
apts[less_than_50000]=40000
apts2=pd.Series({'Beijing':10000,'Shanghai':8000,'shenzhen':6000,'Tianjin':40000,'Guangzhou':7000,'Chongqing':30000})
# print(apts2)
apts=apts+apts2
apts[apts.isnull()]=apts.mean()
# print(apts)

df=pd.DataFrame({'apts':apts,'apts2':apts2})   ###
print(df)

              apts    apts2
Beijing    65000.0  10000.0
Chongqing  64000.0  30000.0
Guangzhou  47000.0   7000.0
Hangzhou   64000.0      NaN
Shanghai   68000.0   8000.0
Suzhou     64000.0      NaN
Tianjin    64000.0  40000.0
shenzhen   76000.0   6000.0

3）用一个字典构成的列表list of dicts来构建DataFrame

data=[{'JackMa':99999999999,'Han':5000,'David':10000},
   {'JackMa':99999999998,'Han':4000,'David':11000}]
pdl=pd.DataFrame(data,index=['salary1','salary2'])
print(pdl)

         David   Han       JackMa
salary1  10000  5000  99999999999
salary2  11000  4000  99999999998

广播特性

cities={'Beijing':55000,'Shanghai':60000,'shenzhen':50000,'Hangzhou':20000,'Guangzhou':45000,'Suzhou':None}
apts=pd.Series(cities,name='income')
apts['shenzhen']=70000
less_than_50000=(apts<50000)
apts[less_than_50000]=40000
apts2=pd.Series({'Beijing':10000,'Shanghai':8000,'shenzhen':6000,'Tianjin':40000,'Guangzhou':7000,'Chongqing':30000})
apts=apts+apts2
apts[apts.isnull()]=apts.mean()
df=pd.DataFrame({'apts':apts,'apts2':apts2})
#print(df)
df['bonus']=2000  #增加一个新列bonus,并且都赋值2000
print(df)

              apts    apts2  bonus
Beijing    65000.0  10000.0   2000
Chongqing  64000.0  30000.0   2000
Guangzhou  47000.0   7000.0   2000
Hangzhou   64000.0      NaN   2000
Shanghai   68000.0   8000.0   2000
Suzhou     64000.0      NaN   2000
Tianjin    64000.0  40000.0   2000
shenzhen   76000.0   6000.0   2000

df['income']=df['apts']*2+df['apts2']*1.5+df['bonus']
print(df)

              apts    apts2  bonus    income
Beijing    65000.0  10000.0   2000  147000.0
Chongqing  64000.0  30000.0   2000  175000.0
Guangzhou  47000.0   7000.0   2000  106500.0
Hangzhou   64000.0      NaN   2000       NaN
Shanghai   68000.0   8000.0   2000  150000.0
Suzhou     64000.0      NaN   2000       NaN
Tianjin    64000.0  40000.0   2000  190000.0
shenzhen   76000.0   6000.0   2000  163000.0

print(df.index)

Index(['Beijing', 'Chongqing', 'Guangzhou', 'Hangzhou', 'Shanghai', 'Suzhou',
       'Tianjin', 'shenzhen'],
      dtype='object')

定位DataFrame里的元素

1）利用表达式boolean定位

import pandas as pd
cities={'Beijing':55000,'Shanghai':60000,'shenzhen':50000,'Hangzhou':20000,'Guangzhou':45000,'Suzhou':None}
apts=pd.Series(cities,name='income')
apts['shenzhen']=70000
less_than_50000=(apts<50000)
apts[less_than_50000]=40000
apts2=pd.Series({'Beijing':10000,'Shanghai':8000,'shenzhen':6000,'Tianjin':40000,'Guangzhou':7000,'Chongqing':30000})
apts=apts+apts2
apts[apts.isnull()]=apts.mean()
df=pd.DataFrame({'apts':apts,'apts2':apts2})
df['bonus']=2000  #增加一个新列bonus,并且都赋值2000
df['income']=df['apts']*2+df['apts2']*1.5+df['bonus']
#print(df)
#              apts    apts2  bonus    income
#Beijing    65000.0  10000.0   2000  147000.0
#Chongqing  64000.0  30000.0   2000  175000.0
#Guangzhou  47000.0   7000.0   2000  106500.0
#Hangzhou   64000.0      NaN   2000       NaN
#Shanghai   68000.0   8000.0   2000  150000.0
#Suzhou     64000.0      NaN   2000       NaN
#Tianjin    64000.0  40000.0   2000  190000.0
#shenzhen   76000.0   6000.0   2000  163000.0
print(df.apts==64000)
print(df['apts']==64000)  #boolean条件

Beijing      False
Chongqing     True
Guangzhou    False
Hangzhou      True
Shanghai     False
Suzhou        True
Tianjin       True
shenzhen     False
Name: apts, dtype: bool

print(df[df['apts']==64000]) #对行做选择,就是把apts列等于64000的行取出来

              apts    apts2  bonus    income
Chongqing  64000.0  30000.0   2000  175000.0
Hangzhou   64000.0      NaN   2000       NaN
Suzhou     64000.0      NaN   2000       NaN
Tianjin    64000.0  40000.0   2000  190000.0

df[df.apts==64000]['income']=200000 #报错,在复制片段上赋值,原来的df没被改变

2）利用loc，iloc，ix函数定位

loc：通过“行标签”索引行数据

print(df.loc['Hangzhou'])  #定位选某一行

apts      64000.0
apts2         NaN
bonus      2000.0
income        NaN
Name: Hangzhou, dtype: float64

print(df.loc[['Hangzhou','Shanghai']])

             apts   apts2  bonus    income
Hangzhou  64000.0     NaN   2000       NaN
Shanghai  68000.0  8000.0   2000  150000.0

print(df.loc[df['apts']==64000,['apts2','apts','bonus']])
#前面的部分是对行做选择,后面的部分是对列做选择

             apts2     apts  bonus
Chongqing  30000.0  64000.0   2000
Hangzhou       NaN  64000.0   2000
Suzhou         NaN  64000.0   2000
Tianjin    40000.0  64000.0   2000

iloc：通过“行号”索引行数据

 print(df.iloc[0:5])

              apts    apts2  bonus    income
Beijing    65000.0  10000.0   2000  147000.0
Chongqing  64000.0  30000.0   2000  175000.0
Guangzhou  47000.0   7000.0   2000  106500.0
Hangzhou   64000.0      NaN   2000       NaN
Shanghai   68000.0   8000.0   2000  150000.0

ix：通过行标签或者行号索引行数据（基于loc和iloc 的混合）

print(df.ix[1:4,1:3])  #用行号和列号做数据选择

             apts2  bonus
Chongqing  30000.0   2000
Guangzhou   7000.0   2000
Hangzhou       NaN   2000

可以定位数字,就可以赋值

df.loc[:,'income']=5000
print(df)

              apts    apts2  bonus  income
Beijing    65000.0  10000.0   2000    5000
Chongqing  64000.0  30000.0   2000    5000
Guangzhou  47000.0   7000.0   2000    5000
Hangzhou   64000.0      NaN   2000    5000
Shanghai   68000.0   8000.0   2000    5000
Suzhou     64000.0      NaN   2000    5000
Tianjin    64000.0  40000.0   2000    5000
shenzhen   76000.0   6000.0   2000    5000

info()、describe()、head()、tail()

print(df.info())


Index: 8 entries, Beijing to shenzhen
Data columns (total 4 columns):
apts      8 non-null float64
apts2     6 non-null float64
bonus     8 non-null int64
income    8 non-null int64
dtypes: float64(2), int64(2)
memory usage: 320.0+ bytes
None

print(df.describe())

               apts         apts2   bonus  income
count      8.000000      6.000000     8.0     8.0
mean   64000.000000  16833.333333  2000.0  5000.0
std     8017.837257  14483.323744     0.0     0.0
min    47000.000000   6000.000000  2000.0  5000.0
25%    64000.000000   7250.000000  2000.0  5000.0
50%    64000.000000   9000.000000  2000.0  5000.0
75%    65750.000000  25000.000000  2000.0  5000.0
max    76000.000000  40000.000000  2000.0  5000.0

print(df.head(2))

              apts    apts2  bonus  income
Beijing    65000.0  10000.0   2000    5000
Chongqing  64000.0  30000.0   2000    5000

print(df.tail(2))

             apts    apts2  bonus  income
Tianjin   64000.0  40000.0   2000    5000
shenzhen  76000.0   6000.0   2000    5000

条件判断与条件组合

#df2.loc[((df2['dow']==0)|(df2['dow']==2)|(df2['dow']==4)),:]
#df2.loc[ df2['dow'].isin([0,2,4]) , : ]  #可以是一个列表，numpy array，Series
#~(df2['dow'].isin([0,2,4]))

缺省值填充fillna,ffill,bfill

fillna

import pandas as pd
cities={'Beijing':55000,'Shanghai':60000,'shenzhen':50000,'Hangzhou':20000,'Guangzhou':45000,'Suzhou':None}
apts=pd.Series(cities,name='income')
apts['shenzhen']=70000
less_than_50000=(apts<50000)
apts[less_than_50000]=40000
apts2=pd.Series({'Beijing':10000,'Shanghai':8000,'shenzhen':6000,'Tianjin':40000,'Guangzhou':7000,'Chongqing':30000})
apts=apts+apts2
apts[apts.isnull()]=apts.mean()
df=pd.DataFrame({'apts':apts,'apts2':apts2})
df['bonus']=2000 
df['income']=df['apts']*2+df['apts2']*1.5+df['bonus']
#print(df)
#              apts    apts2  bonus    income
#Beijing    65000.0  10000.0   2000  147000.0
#Chongqing  64000.0  30000.0   2000  175000.0
#Guangzhou  47000.0   7000.0   2000  106500.0
#Hangzhou   64000.0      NaN   2000       NaN
#Shanghai   68000.0   8000.0   2000  150000.0
#Suzhou     64000.0      NaN   2000       NaN
#Tianjin    64000.0  40000.0   2000  190000.0
#shenzhen   76000.0   6000.0   2000  163000.0

dff=df.fillna(value=0)   #df没变
print(dff)

              apts    apts2  bonus    income
Beijing    65000.0  10000.0   2000  147000.0
Chongqing  64000.0  30000.0   2000  175000.0
Guangzhou  47000.0   7000.0   2000  106500.0
Hangzhou   64000.0      0.0   2000       0.0
Shanghai   68000.0   8000.0   2000  150000.0
Suzhou     64000.0      0.0   2000       0.0
Tianjin    64000.0  40000.0   2000  190000.0
shenzhen   76000.0   6000.0   2000  163000.0

inplace

dff=df.fillna(value=0, inplace=True)
print(df);print(dff)  #inplace参数True,df改变,没有新的dff拷贝

              apts    apts2  bonus    income
Beijing    65000.0  10000.0   2000  147000.0
Chongqing  64000.0  30000.0   2000  175000.0
Guangzhou  47000.0   7000.0   2000  106500.0
Hangzhou   64000.0      0.0   2000       0.0
Shanghai   68000.0   8000.0   2000  150000.0
Suzhou     64000.0      0.0   2000       0.0
Tianjin    64000.0  40000.0   2000  190000.0
shenzhen   76000.0   6000.0   2000  163000.0
None

ffill

dffr=df.fillna(method='ffill')   #新生成的补NaN前向拷贝,df没变
print(dffr)

              apts    apts2  bonus    income
Beijing    65000.0  10000.0   2000  147000.0
Chongqing  64000.0  30000.0   2000  175000.0
Guangzhou  47000.0   7000.0   2000  106500.0
Hangzhou   64000.0   7000.0   2000  106500.0
Shanghai   68000.0   8000.0   2000  150000.0
Suzhou     64000.0   8000.0   2000  150000.0
Tianjin    64000.0  40000.0   2000  190000.0
shenzhen   76000.0   6000.0   2000  163000.0

bfill

dfba=df.fillna(method='bfill')   #新生成的补NaN后向拷贝,df没变
print(dfba)

              apts    apts2  bonus    income
Beijing    65000.0  10000.0   2000  147000.0
Chongqing  64000.0  30000.0   2000  175000.0
Guangzhou  47000.0   7000.0   2000  106500.0
Hangzhou   64000.0   8000.0   2000  150000.0
Shanghai   68000.0   8000.0   2000  150000.0
Suzhou     64000.0  40000.0   2000  190000.0
Tianjin    64000.0  40000.0   2000  190000.0
shenzhen   76000.0   6000.0   2000  163000.0

层次化的index

import pandas as pd
import numpy as np
data=pd.Series(np.random.randn(10),index=[['a','a','a','b','b','c','c','d','d','d'],
 [1,2,3,1,2,1,2,1,2,3]])
print(data)
print(type(data))

a  1    0.346467
   2   -0.043077
   3    0.043878
b  1    0.107763
   2   -0.175726
c  1   -1.833683
   2    0.033884
d  1   -1.807021
   2    0.819740
   3    0.294679
dtype: float64

print(data.index)

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 2, 2, 3, 3, 3], [0, 1, 2, 0, 1, 0, 1, 0, 1, 2]])

print(data['b':'c'])

b  1    0.353241
   2    0.379744
c  1   -0.860706
   2   -0.795483
dtype: float64

print(data[:2])

a  1    0.763116
   2    0.058009
dtype: float64

unstack：Series转化成DataFrame

unstack=data.unstack()   #将层级数据横向拉开,不够长的补NaN
print(unstack)
print(type(unstack))

          1         2         3
a -0.637935 -0.104897 -1.536381
b  2.448302  1.679833       NaN
c -0.845155  0.829459       NaN
d  0.597535 -0.464255 -0.898994
  #对比data的类型

csv文件读写read_ csv/to_csv

import pandas as pd
cities={'Beijing':55000,'Shanghai':60000,'shenzhen':50000,'Hangzhou':20000,'Guangzhou':45000,'Suzhou':None}
apts=pd.Series(cities,name='income')
apts['shenzhen']=70000
less_than_50000=(apts<50000)
apts[less_than_50000]=40000
apts2=pd.Series({'Beijing':10000,'Shanghai':8000,'shenzhen':6000,'Tianjin':40000,'Guangzhou':7000,'Chongqing':30000})
apts=apts+apts2
apts[apts.isnull()]=apts.mean()
df=pd.DataFrame({'apts':apts,'apts2':apts2})
df['bonus']=2000  
df['income']=df['apts']*2+df['apts2']*1.5+df['bonus']
#print(df)
df.to_csv('df.csv')
df.to_csv('df2.csv',index=False) #去掉第一列,行索引列

import os
df2_site = r"D:\PYTHON35\idle\df2.csv"
pwd = os.getcwd()  #获取当前工作目录
os.chdir(os.path.dirname(df2_site))
tmp_df = pd.read_csv(os.path.basename(df2_site))   ###
print(tmp_df)

      apts    apts2  bonus    income
0  65000.0  10000.0   2000  147000.0
1  64000.0  30000.0   2000  175000.0
2  47000.0   7000.0   2000  106500.0
3  64000.0      NaN   2000       NaN
4  68000.0   8000.0   2000  150000.0
5  64000.0      NaN   2000       NaN
6  64000.0  40000.0   2000  190000.0
7  76000.0   6000.0   2000  163000.0

tmp_df_index = pd.Index(['Beijing','Shanghai',"Suzhou",'Hangzhou','Tianjin','Chongqing','Nanjing','Shenzhen'])
tmp_df.index=tmp_df_index   #修改索引
print(tmp_df)

              apts    apts2  bonus    income
Beijing    65000.0  10000.0   2000  147000.0
Shanghai   64000.0  30000.0   2000  175000.0
Suzhou     47000.0   7000.0   2000  106500.0
Hangzhou   64000.0      NaN   2000       NaN
Tianjin    68000.0   8000.0   2000  150000.0
Chongqing  64000.0      NaN   2000       NaN
Nanjing    64000.0  40000.0   2000  190000.0
Shenzhen   76000.0   6000.0   2000  163000.0

df.to_csv('df3.csv',sep='\t')

python学习路线（从菜鸟到起飞）突突突然不会编了 python 学习开发语言
以下是基于2025年最新技术趋势的Python学习路线，综合多个权威资源整理而成，涵盖从零基础到进阶应用的全流程，适合不同学习目标（如Web开发、数据分析、人工智能等）的学习者。路线分为基础、进阶、实战、高级、方向拓展五个阶段，并附学习资源推荐：一、基础阶段（1-2个月）目标：掌握Python核心语法与编程思维，熟悉开发环境。环境搭建安装Python3.10+，配置PyCharm或VSCode开发
小白带你部署LNMP分布式部署刘俊涛liu 分布式
目录前言一、概述二、LNMP环境部署三、配置nginx1、yum安装2、编译安装四、安装1、编译安装nginx2、网络源3、稍作优化4、修改配置文件vim/usr/local/nginx/conf/nginx.conf5、书写测试页面五、部署应用前言LNMP平台指的是将Linux、Nginx、MySQL和PHP（或者其他的编程语言，如Python、Perl等）集成在一起的一种Web服务器环境。它是
如何构建FunASR的本地语音识别服务
FunASR简介FunASR是阿里巴巴达摩院开源的高性能语音识别工具包，支持离线识别和实时流式识别两种模式。其核心特点包括：支持多种语音任务：ASR（自动语音识别）、VAD（语音活动检测）、标点恢复、关键词检测等。提供预训练模型：覆盖中文、英文等多语言，支持不同场景（通用、会议、直播等）。支持多种部署方式：本地Python、Docker容器、ONNX推理优化等。开源地址：GitHub-FunASR
Python 进阶学习之全栈开发学习路线 Microi风闲【胶水语言】Python python 学习开发语言
文章目录前言一、Python全栈开发技术栈1.前端技术选型2.后端框架选择3.数据库访问二、开发环境配置1.工具链推荐2.VSCode终极配置3.项目依赖管理三、现代Python工程实践1.项目结构规范2.自动化测试策略3.CI/CD流水线四、部署策略大全1.传统服务器部署2.容器化部署3.无服务器部署五、性能优化技巧1.数据库优化2.异步处理3.静态资源优化结语前言Python作为当今最流行的编
Pycharm下载链接 Aderic 杂陈
人生苦短，我用python3.4https://download.jetbrains.8686c.com/python/pycharm-community-2018.1.1.tar.gz后续更新可能就是后面版本号码稍微差异，mark！
python基础语法复习08——模块化编程洛华363 python python 开发语言
python基础语法目录python基础语法01——基本类型python基础语法02——复合类型python基础语法03——语句构成python基础语法04——函数python基础语法05——递归及装饰器python基础语法06——类与对象python基础语法07——迭代器与生成器文章目录python基础语法目录前言一、模块（Module）1.1什么是模块？1.2模块使用1.3模块分类1.3.1系
python基础语法复习02——复合类型洛华363 python python 开发语言
python基础语法目录python基础语法基础类型文章目录python基础语法目录前言一、初识列表list1.列表基本操作1.1创建列表1.2列表运算1.3列表访问1.4列表增删2常用函数二、初识元组tuple1.元组基本操作1.1创建元组1.2元组访问1.3元组运算2.常用函数三、初识字典dict1.字典基本操作1.1创建字典1.2增删改查2常用函数四、初识集合set1.集合基本操作1.1创建
⚡C++ 有必要学吗？⚡我的家长有话说司空妲命 c++开发语言
在编程教育愈发普及的当下，除了备受关注的Python，C++也进入了许多家长和孩子的视野。作为一门经典且强大的编程语言，C++在系统开发、游戏制作、嵌入式领域等有着广泛应用。然而，对于是否让孩子学习C++，家长们看法不一。有人认为它是通往高端技术领域的钥匙，也有人担忧其较高的学习难度会让孩子望而却步。今天，就让我们深入探讨C++学习的必要性。一、家长眼中的C++：潜力与顾虑交织有人疑惑：“C++现
python3异步爬虫：asyncio + aiohttp + aiofiles（python经典编程案例）数据知道 python3案例和总结 python
更多内容请见：python3案例和总结-专栏介绍和目录文章目录1.安装依赖库2.异步爬虫的基本流程3.实现异步爬虫3.1代码实现3.2代码说明4.运行效果5.扩展功能5.1设置请求头5.2处理异常5.3限制并发数5.4爬取图片6.总结使用Python的异步编程技术（asyncio+aiohttp+aiofiles）可以实现高效的异步爬虫。以下是详细的使用指南和代码示例。1.安装依赖库首先安装所需的
Python爬虫实战：借助代理IP破解反爬机制，批量下载哔哩哔哩高清视频程序员威哥最新爬虫实战项目 python 爬虫 tcp/ip
一、前言随着视频平台的蓬勃发展，视频数据成为互联网的一个重要组成部分。特别是哔哩哔哩（B站）作为一个年轻化、内容丰富的综合性视频平台，吸引了大量用户观看、上传和分享各种形式的创作内容。在这个信息高度开放的时代，如何高效、合法地获取这些视频数据成为了一个有挑战的技术问题。哔哩哔哩的视频下载不仅受到版权保护，同时平台也使用了强大的反爬虫机制来保护用户数据和平台内容。本文将通过Python爬虫实战，利用
Python爬虫高阶：Selenium+Scrapy+Playwright融合架构，攻克动态页面与高反爬场景程序员威哥 python 爬虫 selenium
随着互联网应用的不断发展，越来越多的网站采用JavaScript动态渲染页面，常见的静态页面数据抓取方式逐渐失效。此外，高反爬技术也使得传统爬虫架构面临着更大的挑战，许多网站通过复杂的反爬机制如验证码、IP屏蔽、请求频率限制等来防止数据抓取。为了应对这些挑战，我们需要采用更为先进和灵活的爬虫架构。在此背景下，结合Selenium、Scrapy和Playwright这三种技术，能够帮助我们突破动态页
基于ArcPy将HDF格式栅格文件批量转为TIFF格式疯狂学习GIS
本文介绍基于Python中ArcPy模块，实现大量HDF格式栅格图像文件批量转换为TIFF格式的方法。首先，来看看我们想要实现的需求。在一个名为HDF的文件夹下，有五个子文件夹；每一个子文件夹中，都存储了大量的.hdf格式的栅格遥感影像数据。我们在其中任选一个子文件夹，来看看其中所含的文件。我们要做的，就是将HDF文件夹下的全部子文件夹中的全部.hdf格式图像文件，一次性转换为
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
python排序算法之桶排序华强笔记 python数据结构和算法 python 算法
桶排序主要适用于全是数字的列表排序代码如下：defbuckrt_sort(li,n=100,max_num=10000):bucket=[[]for_inrange(n)]
【无标题】
PyQt5相关论文方向扩充及技术特性解析PyQt5的核心优势PyQt5作为基于Qt框架的Python绑定库，在科研与工程应用中具备显著优势。其跨平台兼容性极强，可在Windows、macOS、Linux等主流操作系统上稳定运行，且能保持界面风格的一致性，这对开发多场景应用系统至关重要。在界面设计方面，PyQt5提供了丰富的UI组件库，从基础的按钮、文本框到高级的图表、3D控件应有尽有，同时支持Qt
Python数据读写与组织全解析（查缺补漏篇） Monkey的自我迭代 python学习的查缺补漏机器学习人工智能 python
1高维数据由键值对类型的数据构成，可以多层嵌套。高维数据相比一维和二维数据能表达更加灵活和复杂的数据关系，可以用字典类型表示。一维数据不用字典类型来表示。2read、readline、redlines和for循环输出读取的区别直接read，读取的结果就是一个字符串，和文件中一模一样f_2=open('cpi.csv','r')print(f_2.read())指标,2015,2016,2017,居
Python文件路径操作全面指南：从基础到高级应用 Monkey的自我迭代 python 开发语言
文件路径操作是Python编程中不可或缺的核心技能，无论是数据科学、Web开发还是自动化办公，都离不开对文件路径的有效管理。本文将系统性地介绍Python中文件路径操作的各类方法，帮助您掌握这一关键技术。一、文件路径基础概念1.1路径类型解析文件路径主要分为两种类型，理解它们的区别是路径操作的基础：绝对路径：从文件系统根目录开始的完整路径，如Windows系统中的C:\Users\Username
python排序算法之基数排序华强笔记 python数据结构和算法 python 算法
#代码如下：'''基数排序：1.把数据分为10个桶，以为数字有0-9这10个2.依次把数据的个位，十位，百位等等各个位数的数据进行分桶排序，放在这10个桶中3.最大的数有k位，则循环k次4.时间复杂度O(kn),空间复杂度O(k+n),其中k=log10(n)+1'''defradixs_sort(li):max_num=max(li)it=0while10**it<=max_num:bucket
python折半查找算法_python二分查找代码试用递归法编写python程序实现折半查找算法...
python二分查找算法函数bi_search(),该函数实现检回忆，很美却很伤；回忆只是回不到过去的记忆。输入格式:第一行为正整数n接下来若干行为待查找的数字，每行输入一个总是女人为了天长地久而烦恼，男人却可以洒脱地出乎意料。defprime(n):ifnend:return-1mid=(start+end)//2ifprimelist[mid]==prime:returnmidelifprim
PyCharm高效入门指南：从零开始掌握Python开发利器软考和人工智能学堂 Python开发经验强化学习 PyCharm
引言PyCharm是JetBrains公司推出的一款强大的Python集成开发环境(IDE)，被全球数百万Python开发者所青睐。无论你是Python初学者还是经验丰富的开发者，掌握PyCharm都能显著提升你的开发效率。本文将带你从零开始，全面了解PyCharm的核心功能和使用技巧。1.PyCharm的安装与配置1.1下载与安装首先访问JetBrains官网下载PyCharm。PyCharm有
python作业陈小铃子 python 开发语言
基础练习练习目标函数01.计算车费题目描述小红打车，起步价8元(3公里),每公里收费2元，她打车行驶了n公里，通过函数封装并计算车费输入描述输入一个公里数输出描述输出应付车费示例输入：5输出：12defcalculate_fare(distance):base_price=8#起步价per_km_cost=2#每公里费用min_distance=3#最小计费距离ifdistance0:sum_nu
【Python】(三）面试题和Py基础题戏精亿点点菜面试职场和发展 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程（Process）：进程是操作系统中资源分配的基本单位，是正在运行的程序的实例。每个进程都有自己的内存空间、文件描述符和执行上下文。管理：①查看进程：使用ps、top、htop等命令查看当前运行的进程。②启动进程：通过命令行或脚本启动新进程。③终止进程：使用kill命令发送信号终止进程，例如kill-9PI
python小工具：测内网服务器网速和延迟秃了也弱了。 python大家庭服务器 python java
文章目录一、使用1、代码2、使用3、注意事项一、使用1、代码importargparseimportsocketimporttimeimportsubprocessimportreimportsysdefmeasure_latency(host):#使用ping命令测量延迟try:#根据操作系统选择ping参数ifsys.platform.startswith('win'):output=subp
Python面试题-6 编织幻境的妖 python 服务器开发语言
1.请解释Python中的动态类型。Python中的动态类型Python是一种动态类型语言，这意味着你不需要在编程时声明变量的类型，而是在运行时自动推断类型。在Python中，变量的类型是在程序运行时决定的，这意味着同一个变量可以在不改变其类型的情形下被赋予不同类型的值。动态类型的优点在于它提高了编程的灵活性，因为你不需要预先确定数据的类型，可以更容易地写出简洁的代码。然而，这也可能导致运行时错误
火爆全网的条形竞赛图，Python轻松实现统计学家
image这个动图叫条形竞赛图，非常适合制作随时间变动的数据。我已经用streamlit+bar_chart_race实现了，然后白嫖了heroku的服务器，大家通过下面的网址上传csv格式的表格就可以轻松制作条形竞赛图，生成的视频可以保存本地。https://bar-chart-race-app.herokuapp.com/本文我将实现过程介绍一下，白嫖服务器+部署留在下期再讲。纯matplot
【无标题】Python---day9 模块化编程概念（模块、包、导入）及常见系统模块总结和第三方模块管理 AnAn__kang python java 服务器
系列文章目录前言跟着博主学Python，今天我们来到了第九天的学习，模块化编程的概念。Python作为一门编程语言，本身就是用于对模块以及各种包的使用来达到我们自己想到创作的目的。所以今天博主就给大家盘点一下有关于各种常见的包以及如何进行导入的。一.模块Module，模块1.1基本概念定义：模块是一个Python文件，每个.py.py.py文件就是一个模块。作用：用于组织代码，避免代码重复，提高复
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
【无标题】Python --- Day5 函数的位置传参、关键词传参及其可变性和解包操作 AnAn__kang python 前端人工智能
系列文章目录前言今天小伙伴们跟我进入第五天的Python课程学习，主要是关于函数的位置传参，关键传参和可变性和解包传参这其中的具体定义以及它们的使用场景`一、调用传参函数调用时传递参数的方式有多种，包括位置传参、关键词传参、多个参数解包、参数默认值等。1.1位置传参最常见的传参方式，参数按定义的顺序依次传入函数。示例：defgreet(name,age):print(f"Hello,{name}.
时序数据库在数据库领域的行业应用数据库管理艺术数据库时序数据库 ai
时序数据库在数据库领域的行业应用关键词：时序数据库、数据库领域、行业应用、时间序列数据、实时分析摘要：本文深入探讨了时序数据库在数据库领域的行业应用。首先介绍了时序数据库的背景知识，包括其目的、适用读者、文档结构和相关术语。接着阐述了时序数据库的核心概念、架构和工作原理，通过Python代码详细讲解了核心算法。还介绍了相关的数学模型和公式，并举例说明。在项目实战部分，给出了开发环境搭建、源代码实现
Python --- Day3 推导式及常见语句和内置函数的学习！！！
系列文章目录前言相信各位伙伴们在前俩次的文章和Python的基础学习中大有收获，这次我们将进入推导式，常见语句和内置函数的学习！跟着博主一起成为一名Ai的算法工程师！一、推导式用更简洁的方式创建列表、字典和集合。是Python特有的一种表达式形式。1.1列表推导式a=[1,2,3,4]result=[x*2forxina]#创建一个新列表，元素是原列表每个元素的两倍1.2字典推导式a=['a','
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象

Python3pandas库DataFrame用法(基础整理)

pandas库DataFrame用法

创建一个DataFrame:

1）用字典dict，字典值value是列表list

2）用Series构建DataFrame

3）用一个字典构成的列表list of dicts来构建DataFrame

广播特性

定位DataFrame里的元素

1）利用表达式boolean定位

2）利用loc，iloc，ix函数定位

loc：通过“行标签”索引行数据

iloc：通过“行号”索引行数据

ix：通过行标签或者行号索引行数据（基于loc和iloc 的混合）

可以定位数字,就可以赋值

info()、describe()、head()、tail()

条件判断与条件组合

缺省值填充fillna,ffill,bfill

fillna

inplace

ffill

bfill

层次化的index

unstack：Series转化成DataFrame

csv文件读写read_ csv/to_csv

你可能感兴趣的:(Python,数据处理与分析)