不加班的佟大帅

学python如何不加班杀手框架Pandas

Pandas是一个基于python中Numpy模块的一个模块

Python在数据处理和准备⽅⾯⼀直做得很好，但在数据分析和建模⽅⾯就差⼀些。pandas帮助填补了这⼀空⽩，使您能够在Python中执⾏整个数据分析⼯作流程，⽽不必切换到更特定于领域的语⾔，如R。与出⾊的 jupyter⼯具包和其他库相结合，Python中⽤于进⾏数据分析的环境在性能、⽣产率和协作能⼒⽅⾯都是卓越的。

pandas是 Python 的核⼼数据分析⽀持库，提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据。pandas是Python进⾏数据分析的必备⾼级⼯具。

pandas的主要数据结构是 Series(⼀维数据)与 DataFrame (⼆维数据)，这两种数据结构⾜以处理⾦融、统计、社会科学、⼯程等领域⾥的⼤多数案例处理数据⼀般分为⼏个阶段：数据整理与清洗、数据分析与建模、数据可视化与制表，Pandas 是处理数据的理想⼯具。

环境介绍

代码工具：jupyternotebook

python版本：python3.8.6

系统版本：win10

一、Pands安装

　　打开终端指令输入pip install -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com pandas

第⼆部分数据结构

　　第⼀节 Series

　　　　⽤列表⽣成 Series时，Pandas 默认⾃动⽣成整数索引，也可以指定索引

正在上传…重新上传取消

l = [0,1,7,9,np.NAN,None,1024,512]
# ⽆论是numpy中的NAN还是Python中的None在pandas中都以缺失数据NaN对待
s1 = pd.Series(data = l) # pandas⾃动添加索引
s2 = pd.Series(data = l,index = list('abcdefhi'),dtype='float32') # 指定⾏索引
# 传⼊字典创建，key⾏索引
s3 = pd.Series(data = {'a':99,'b':137,'c':149},name = 'Python_score')
display(s1,s2,s3)

正在上传…重新上传取消

　　第二节 Dataframe　　　　

　　　　DataFrame是由多种类型的列构成的⼆维标签数据结构，类似于 Excel 、SQL 表，或 Series 对象构成的字典。

正在上传…重新上传取消

import numpy as np
import pandas as pd
# index 作为⾏索引，字典中的key作为列索引，创建了3*3的DataFrame表格⼆维数组
df1 = pd.DataFrame(data = {'Python':[99,107,122],'Math':[111,137,88],'En': [68,108,43]},# key作为列索引
index = ['张三','李四','Michael']) # ⾏索引
df2 = pd.DataFrame(data = np.random.randint(0,151,size = (5,3)),
index = ['Danial','Brandon','softpo','Ella','Cindy'],# ⾏索引
columns=['Python','Math','En'])# 列索引
display(df1,df2)

正在上传…重新上传取消

第三部分数据查看

　　查看DataFrame的常⽤属性和DataFrame的概览和统计信息

正在上传…重新上传取消

import numpy as np
import pandas as pd
df = pd.DataFrame(data = np.random.randint(0,151,size=(150,3)),
index = None， # 行索引默认
columns=['A','B','C'])#列索引
df.head(10)#显示前十行  ！！默认是五行！！
df.tail(10)#显示后十行
df.shape#查看行数和列数
df.dtypes#查看数据类型
df.index#查看行索引
df.value# 对象值,二维数组
df.describe()#查看数据值列的汇总统计，计数，平均值，标准差，最小值，四分位数，最大值
df.info()#查看列索引，数据类型，非空计数和内存信息

正在上传…重新上传取消

第四部分数据的输入输出

　　第一节csv

正在上传…重新上传取消

df = DataFrame(data = np.random.randint(0,50,size = [50,5]), # 薪资情况
 columns=['IT','化⼯','⽣物','教师','⼠兵'])
#保存到相对路劲下文件命名为
df.to_csv('./salary.csv',
sep = ';',#分割符
header = True,#是否保存列索引
index = True)#是否保存行索引、
#加载
pd.read_csv('./salary.csv',
 sep = ';',# 默认是逗号
 header = [0],#指定列索引
 index_col=0) # 指定⾏索引
#加载
pd.read_table('./salary.csv', # 和read_csv类似，读取限定分隔符的⽂本⽂件 sep = ';', header = [0],#指定列索引 index_col=1) # 指定⾏索引,IT作为⾏索引

正在上传…重新上传取消

　　　第⼆节 Excel

　　　　　pip install xlrd -i https://pypi.tuna.tsinghua.edu.cn/simple

　　　　　pip install xlwt -i https://pypi.tuna.tsinghua.edu.cn/simple

正在上传…重新上传取消

import numpy as np
import pandas as pd
df1 = pd.DataFrame(data = np.random.randint(0,50,size = [50,5]), # 薪资情况
 columns=['IT','化⼯','⽣物','教师','⼠兵'])
df2 = pd.DataFrame(data = np.random.randint(0,50,size = [150,3]),# 计算机科⽬的考试成绩
 columns=['Python','Tensorflow','Keras'])
# 保存到当前路径下，⽂件命名是：salary.xls
df1.to_excel('./salary.xls',
 sheet_name = 'salary',# Excel中⼯作表的名字
 header = True,# 是否保存列索引
 index = False) # 是否保存⾏索引，保存⾏索引
pd.read_excel('./salary.xls',
 sheet_name=0,# 读取哪⼀个Excel中⼯作表，默认第⼀个
 header = 0,# 使⽤第⼀⾏数据作为列索引
 names = list('ABCDE'),# 替换⾏索引
 index_col=1)# 指定⾏索引，B作为⾏索引
# ⼀个Excel⽂件中保存多个⼯作表
with pd.ExcelWriter('./data.xlsx') as writer:
 df1.to_excel(writer,sheet_name='salary',index = False)
 df2.to_excel(writer,sheet_name='score',index = False)
pd.read_excel('./data.xlsx',
 sheet_name='salary') # 读取Excel中指定名字的⼯作表

正在上传…重新上传取消

　　第三节 SQL

　　　　pip install sqlalchemy -i https://pypi.tuna.tsinghua.edu.cn/simple

　　　　pip install pymysql -i https://pypi.tuna.tsinghua.edu.cn/simple

正在上传…重新上传取消

import pandas as pd
# SQLAlchemy是Python编程语⾔下的⼀款开源软件。提供了SQL⼯具包及对象关系映射（ORM）⼯具
from sqlalchemy import create_engine
df = pd.DataFrame(data = np.random.randint(0,50,size = [150,3]),# 计算机科⽬的考试
成绩
 columns=['Python','Tensorflow','Keras'])
# 数据库连接
conn = create_engine('mysql+pymysql://root:12345678@localhost/pandas?
charset=UTF8MB4')
# 保存到数据库
df.to_sql('score',#数据库中表名
 conn,# 数据库连接
　if_exists='append')#如果表名存在，追加数据
# 从数据库中加载
pd.read_sql('select * from score limit 10', # sql查询语句
 conn, # 数据库连接
 index_col='Python') # 指定⾏索引名

正在上传…重新上传取消

---------------------------------------------！！！！！！！！！第一次更新！！！！！！！！！！！----------------------------------------------------------

第五部分数据的选取

　　第一节数据获取

！！！---先导入个数据---！！！
df = pd.DataFrame(data = np.random.randint(0,150,size = [10,3]),# 计算机科⽬的考试成绩
index = list('ABCDEFGHIJ'),# ⾏标签
columns=['Python','Tensorflow','Keras'])

df.Python# 查看所在列数据
df['Python']# 查看所在列数据
df[['Python','Keras']]#获取多列数据
df[1:3]#行切片操作 !!!--此处切片操作与数据的切片操作如出一辙--!!!

　　使用 loc[] 进行数据获取 loc通过行列标签进行索引取数操作

正在上传…重新上传取消

df.loc[['A','B']]#选取行标签
df.loc[['A','B'],['Python','Keras']]#根据行列标签选取对饮数据
df.loc[:,['Python','Keras']]#保留所有行
df.loc[::2,['Python','Keras']]#每隔2行取出一行数据
df.loc['A',['Python','Keras']]#根据行标签选取出对应数据
#此处就不截图展示了

正在上传…重新上传取消

　　使用 iloc[] 进行数据获取 iloc通过行列整数标签进行索引取数操作

df.iloc[2:4]#利用整数行切片操作与Numpy相似 !!!--此处切片操作与数据的切片操作如出一辙--!!!
df.iloc[1:3,1:2]#利用整数对行和列进行切片
df.iloc[1:3:]#行切片
df.iloc[:,0:1]#列切片

　　Boolean索引

正在上传…重新上传取消

cond1 = df.Python > 100 # 判断Python分数是否⼤于100，返回值是boolean类型的Series
df[cond1] # 返回Python分数⼤于100分的⽤户所有考试科⽬数据
cond2 = (df.Python > 50) & (df['Keras'] > 50) # &与运算
df[cond2] # 返回Python和Keras同时⼤于50分的⽤户的所有考试科⽬数据
df[df > 50]# 选择DataFrame中满⾜条件的值，如果满⾜返回值，不然返回空数据NaN
df[df.index.isin(['A','C','F'])] # isin判断是否在数组中，返回也是boolean类型值

正在上传…重新上传取消

第六部分数据集成

　　第⼀节 concat数据串联

正在上传…重新上传取消

#再建立两个数据矩阵
df1 = pd.DataFrame(np.random.randint(1,151,size=10),
                   index = list('ABCDEFGHIJ'),
                   columns=['Science'])
df2 = pd.DataFrame(data = np.random.randint(0,150,size = [10,3]),
index = list('KLMNOPQRST'),
columns=['Python','Tensorflow','Keras'])

正在上传…重新上传取消

pd.concat([df,df2],axis=0)#df2串联拼接到df1下方
pd.concat([df,df1],axis=1)#df1串联拼接到df的左侧
df.append(df1) # 在df1后⾯追加df2

　　第二节插入

　　　　 insert（）插入一列

　　　　注意：如果使用insert()插入一列时，那么插入的这一列的长度必须和被插入的行数长度相等

正在上传…重新上传取消

#插入一列c++
df.insert(loc=1,
          column='C++',
          value=np.random.randint(0,151,size=(10)))

df.insert(loc = 1,column='Python3.8,value=2048)

正在上传…重新上传取消

　　第三节数据的链接（join SQL风格）

　　　　数据集的合并（merge）或连接（join）运算是通过⼀个或者多个键将数据链接起来的。这些运算是关系型数据库的核⼼操作。pandas的merge函数是数据集进⾏join运算的主要切⼊点。

#先建立两组数据
df1 = pd.DataFrame(data = {'sex':np.random.randint(0,2,size=6),'name':['九州','九周','Nineweek','Mrs佟','小A','小C']})
df2 = pd.DataFrame(data = {'score':np.random.randint(90,151,size=6),'name':['九州','九周','Nineweek','Mrs佟','小A','小Ming']})

pd.merge(df1,df2)
#（内连接） 在使用merge()合并中merge自动去除了空数据
pd.merge(df1,df2,how='left')#左链接
pd.merge(df1,df2,how='right')#右链接

---------------------------------------------！！！！！！！！！第二次更新！！！！！！！！！！！----------------------------------------------------------

第七部分数据清洗

　　第⼀节 duplicated筛选重复数据

　　　　duplicated是以自上向下的顺序进行筛选如果行值相同就返回TRUE。

#创建一个分值数据
df2 = pd.DataFrame(data={'Name':['九州','Mrs佟','Nineweek',None,np.NAN,'Mrs佟'],'Sex':[0,1,0,1,0,1],'Score':[89,100,67,90,98,100]})

正在上传…重新上传取消

df2.duplicated()#检查重复值 以Boolean形式进行输出展示
df2.duplicated().sum()#打印有多少重复值
df2[df2.duplicated()]#打印重复值
df2[df2.duplicated()==False]#打印非重复值
df2.drop_duplicates()#删除重复值(此操作并不是在数据源本身进行删除操作)
df2.drop_duplicates(inplace=True)#删除重复值(此操作是在数据源本身进行删除操作)

正在上传…重新上传取消

　　第二节过滤空数据

df2.isnull()#检查是否存在空值(可以查到NAN值和None值)
df2.dropna(how = 'any') # 删除空数据(此操作并不是在数据源本身进行删除操作) 
df2.dropna(how = 'any',inplace=True)# 删除空数据(此操作是在数据源本身进行删除操作) 
df2.fillna(value='小A')#填充空数据(此操作并不是在数据源本身进行删除操作) 
df2.fillna(value='小A',inplace=True)#填充空数据(此操作是在数据源本身进行删除操作)

　　第三节 过滤指定行或列

del df2['Sex'] # 直接删除某列
df2.drop(labels = ['price'],axis = 1)# 删除指定列
df2.drop(labels = [0,1,5],axis = 0) # 删除指定⾏

　　filter函数：选取保留的数据过滤其他数据

df2.filter(items=['Name', 'Score'])#保留‘Name’,‘Score’两列
df2.filter(like='S',axis = 1)# 保留列标签包含‘S’的列（axis=1表示列，axis=0表示行）
df.filter(regex='S$', axis=1)#正则方式进行筛选

第八部分数据转换

　　第一节 rename和replace的转换标签个元素

正在上传…重新上传取消

#改变行列索引
df2.rename(index = {0:10,1:11},columns={'Name':'StName'})#将行索引0换为10，1换为11；列索引Name换为StName
#替换元素值
df2.replace(100,102)#将所有的100替换为102
df2.replace([89,67],78)#将所有的89和67替换为78
df2.replace({'九州':'JZ',None:'九州'})#根据字典的键值对进行替换
df2.replace({'Sex':1},1024)#将Sex列的1全部替换为1024

正在上传…重新上传取消

　　第二节 apply和Transform

　　　　相同点：都能针对Dataframe的特征的计算，常与groupby()分组聚合方式下节更新方法连用

　　　　不同点：aplly参数可以是自定义函数，包括简单的求和函数以及复制的特征间的差值函数等。apply不能直接使用python的内置函数，比如sum、max、min。

　　　　　　　　Transform参数不能是自定义的特征交互函数，因为transform是针对每一元素(即每一列特征操作)进行计算。

#先建立数组
df = pd.DataFrame(data = np.random.randint(0,150,size = [10,3]),index = list('ABCDEFGHIJ'),columns=['Python','En','Math'])

df['Python'].apply(lambda x:True if x >50 else False)#选取python学科中的大于50的数据

df.apply(lambda x : x.median(),axis = 0) # 列的中位数

#自定义函数算法
def avg(x):
    return (x.mean(),x.max(),x.min(),x.var().round(1))
df.apply(avg,axis=0)#输出列的平均值，最大值，最小值，方差保留一位小数

# ⼀列执⾏多项计算
df['Python'].transform([np.sqrt,np.log10]) # 对单列数据处理做开平方和对数运算

正在上传…重新上传取消

#自定义函数算法
def convert(x):
    if x > 140:
        x -= 12
    else:
        x += 12
    return x

df.transform({'Python':np.sqrt,'En':np.log10,'Math':convert}).round(1)# 对多列数据处理做开不同运算

正在上传…重新上传取消

---------------------------------------------！！！！！！！！！第三次更新！！！！！！！！！！！----------------------------------------------------------

第九部分数据重塑

df = pd.DataFrame(data = np.random.randint(0,150,size = [20,3]),
 index = pd.MultiIndex.from_product([list('ABCDEFHIJK'),['一期','二期']]),# 多层索引
 columns=['Python','En','Math'])

df.unstack(level=1)#行作列
df.stack()#列作行
df.mean(level=1)#各学科每期平均分
df.mean(level=0)#各学员平均分
df.mean()#各科平均分

第十部分统计方法函数

　　pandas拥有多种常⽤的数学统计⽅法。可以满足大多半的数据处理，对Series和DataFrame行计算并返回Series形式的数组

正在上传…重新上传取消

#创建数据
df = pd.DataFrame(data = np.random.randint(0,150,size = [10,3]),
 index = list('ABCDEFGHIJ'),
 columns=['Python','En','Math'])

df.count() # ⾮NA值的数量
df.max(axis = 0) #轴0最⼤值，即每⼀列最⼤值
df.min() #默认计算轴0最⼩值
df.median() # 中位数
df.sum() # 求和
df.mean(axis = 1) #计算每⼀⾏的平均值
df.quantile(q = [0.2,0.5,0.9]) # 分位数
df.describe() # 查看数值型列的汇总统计,计数、平均值、标准差、最⼩值、四分位数、最⼤值
df['Python'].value_counts() # 统计元素出现次数
df['Math'].unique() # 去重
df.cumsum() # 累加
df.cumprod() # 累乘
df.std() # 标准差
df.var() # ⽅差
df.cummin() # 累计最⼩值
df.cummax() # 累计最⼤值
df.diff() # 计算差分
df.pct_change() # 计算百分⽐变化
df.cov() # 属性的协⽅差
df['Python'].cov(df['Math']) # Python和Math的协⽅差
df.corr() # 所有属性相关性系数
df.corrwith(df['En']) # 单⼀属性相关性系数

正在上传…重新上传取消

#标签索引计算方式
df['Python'].argmin() # 计算Python列的最⼩值位置
df['Math'].argmax() # 计算Math列的最⼤值位置
df.idxmax() # 最⼤值索引标签
df.idxmin() # 最⼩值索引标签

第十一部分排序

正在上传…重新上传取消

#创建数据
df = pd.DataFrame(data = np.random.randint(0,150,size = [10,3]),
 index = list('ABCDEFGHIJ'),
 columns=['Python','En','Math'])
ran = np.random.permutation(10)
df = df.take(ran)#随机排列行索引

正在上传…重新上传取消

df.sort_index(axis=0,ascending=True)#按照行索引降序排序
df.sort_index(axis=1,ascending=True)#按照列索引降序排序

df.sort_values(by='Python')#根据Python列的值降序排序
df.sort_values(by=['Python','Math'])#先按找Python排序在按照Math排序

lage = df.nlargest(3,columns='Math') # 根据属性Math排序,返回最⼤3个数据
samll = df.nsmallest(3,columns='Python') # 根据属性Python排序，返回最⼩3个数据
display(lage,samll)

第十二部分 cut与qcut的分箱处理

　　cut函数对数据进行分箱处理的操作，也就是把一段连续的值切分成若干段，每一段的值看成一个分类。这个把连续值转换成离散值的过程，我们叫做分箱处理cut会按照数据值由大到小的顺序将数据分割为若干分,并且使每组范围大致相等

　　qcut是按变量的数量来对变量进行分割，并且尽量保证每个分组里变量的个数相同。

正在上传…重新上传取消

df['py_cut'] = pd.cut(df.Python,bins=4)#按照数据范围分箱
df['en_cut'] = pd.cut(df.En,bins=4)#按照数据个数分箱
df['q_评级'] = pd.qcut(df.Python,q = 4,# 4等分
 labels=['差','中','良','优']) # 分箱后分类
df['c_评级'] = pd.cut(df.En,#分箱数据
 bins = [0,60,90,120,150],#分箱断点
 right = False,# 左闭右开原则
 labels=['差','中','良','优'])# 分箱后分类

正在上传…重新上传取消

---------------------------------------------！！！！！！！！！第四次更新！！！！！！！！！！！----------------------------------------------------------

第十三部分分组聚合

　　分组Group（）函数，分组过程与sql的group by 函数的方式大致相同，主要处理多种类别的数据，例如一个的企业的员工数据可以按照性别，年龄，薪水，部门等纬度进行分组。

　　实在是找不到好的数据来进行演示索性使用之前爬取的*车之*的一段数据进行演示吧

df= pd.read_excel('C:/Users/admin/Desktop/home_car_allclean.xlsx')#导入数据

　　第一节分组

正在上传…重新上传取消

# 1、分组->可迭代对象
# 1.1 先分组再获取数据
g = df.groupby(by='汽车等级')[['汽车类型','汽车排量']]#单分组
for name,data in g:
    print(name)
    print(data)

正在上传…重新上传取消

g = df.groupby(by = ['汽车类型','汽车等级'])[['汽车排量']] # 多分组
for name,data in g:
    print(name)
    print(data)

#1.2 对⼀列值进⾏分组
df['汽车等级'].groupby(df['汽车类型']) # 单分组df['汽车名称'].groupby([df['汽车类型'],df['汽车排量']]) # 多分组

#键值对分组
m ={'汽车名称':'Name','汽车平均价格':'attribute','汽车类型':'attribute','汽车排量':'attribute','汽车等级':'attribute'}
for name,data in df.groupby(m,axis = 1):
    print('组名',name)
    print('数据',data)

　　第二节分组聚合

此句代码足以慰人心，不得不感叹Pandas的人性化

df.groupby(by='汽车类型').mean().round(1)#按照汽车类型分组再计算其余列的平均值

df.groupby(by=['汽车类型','汽车等级'])['汽车平均价格'].max()#按照汽车类型和汽车等级分组再计算汽车平均价格的最大值

　　第三节分组聚合apply、transform

# 3、分组后调⽤apply，transform封装单⼀函数计算
# 返回分组结果
df.groupby(by = ['汽车类型','汽车等级'])[['汽车平均价格','汽车排量']].apply(np.mean).round(1)
def normalization(x):
    return (x - x.min())/(x.max() - x.min()) # 最⼤值最⼩值归⼀化
# 返回全数据，返回DataFrame.shape和原DataFrame.shape⼀样。
df.groupby(by = ['汽车等级','汽车等级'])[['汽车平均价格','汽车排量']].transform(normalization).round(1)

　　第四节分组聚合agg

正在上传…重新上传取消

# 4、agg 多中统计汇总操作
# 分组后调⽤agg应⽤多种统计汇总
df.groupby(by=['汽车类型','汽车等级'])[['汽车平均价格','汽车排量']].agg([np.mean,np.max]).round(1)
# 分组后不同属性应⽤多种不同统计汇总
df.groupby(by=['汽车类型','汽车等级'])[['汽车平均价格','汽车排量']].agg({'汽车平均价格':[('最高价',np.max),('最低价',np.min)],
                                                       '汽车排量':[('最高排量',np.max),('最低排量',np.min)]})

正在上传…重新上传取消

你可能感兴趣的:(python,数据分析,数据挖掘,开发语言)

PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！ AI云极【AI智能系列】pycharm 人工智能 ide deepseek
在AI赋能编程的时代，如何让AI辅助写代码，提升开发效率？DeepSeek作为一款开源、强大、免费的AI编程助手，结合PyCharm，能够大幅提升Python编程体验。今天，我们就来详细讲解如何在PyCharm中接入DeepSeek，无论你想使用本地部署的DeepSeek，还是官方API版本，都能轻松实现！为什么选择DeepSeek+PyCharm？DeepSeekR1采用6710亿参数的MoE（
Python3.5源码分析-sys模块及site模块导入小屋子大侠 python Python分析 python源码
Python3源码分析本文环境python3.5.2。参考书籍>python官网Python3的sys模块初始化根据分析完成builtins初始化后，继续分析sys模块的初始化，继续分析_Py_InitializeEx_Private函数的执行，void_Py_InitializeEx_Private(intinstall_sigs,intinstall_importlib){...sysmod=
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
TCP 握手数据包分析 inquisiter tcp/ip 网络 linux
一、客户端数据分析：spu@spu:~/code/pcap$tcpdump-rclient_all.pcap-Xreadingfromfileclient_all.pcap,link-typeEN10MB(Ethernet)17:58:56.346748IP192.168.1.178.55814>192.168.1.117.socks:Flags[S],seq2615205588,win64240
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
【Python系列】Python 解释器的站点配置 Kwan的解忧杂货铺@新空间代码工作室 s1 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
2025年2月9日（数据分析_2） Mason Lin Python学习数据分析数据挖掘
散点图frommatplotlibimportpyplotaspltfrommatplotlibimportfont_manager#字体相关#字体font_path=r"C:\Windows\Fonts\msyh.ttc"my_font=font_manager.FontProperties(fname=font_path)x=list(range(31))x2=list(range(31,62
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
python做一个注册界面_python如何做一个登录注册界面 weixin_39824033 python做一个注册界面
python做一个登录注册界面的方法：首先初始化一个window界面，并使用画布实现欢迎的logo；然后用代码实现登录和注册按钮；接着并进行登录判断代码；最后完成注册界面即可。【相关学习推荐：python视频教程】python做一个登录注册界面的方法：一、登录界面1、首先初始化一个window界面window=tk.Tk()window.title('WelcometoMofanPython')w
python读取zip包内文件_Python模块学习：zipfile zip文件操作 weixin_40001634 python读取zip包内文件
最近在写一个网络客户端下载程序，用于下载服务器上的数据。有些数据(如文本，office文档)如果直接传输的话，将会增加通信的数据量，使下载时间变长。服务器在传输这些数据之前先对其进行压缩，客户端接收到数据之后进行解压，这样可以减小网通传输数据的通信量，缩短下载的时间，从而增加客户体验。以前用C#做类似应用程序的时候，我会用SharpZipLib这个开源组件，现在用Python做类似的工作，只要使用
python制作登陆窗口_python登陆界面 weixin_39758494 python制作登陆窗口
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！print(账号密码错误！请重试。)returnfalsebutton(master,text=登陆,width=10,command=test).grid(row=3,column=0,sticky=w,padx=10,pady=5)button(master,text=退出,wid
如何使用零配置的Sphinx生成Python文档？潮易 sphinx 全文检索搜索引擎
如何使用零配置的Sphinx生成Python文档？在Python编程中，编写文档是非常重要的。一个好的文档可以帮助其他开发者理解和使用你的代码。Sphinx是一个用于生成Python项目的文档的静态网页生成器，它支持多种文档格式，包括ReStructuredText和Markdown。以下是使用零配置的方式来使用Sphinx生成Python文档的详细步骤：1.首先，确保你已经安装了Sphinx。打
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？潮易 python 开发语言
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？这个问题涉及到Python编程中的MQTT（MessageQueuingTelemetryTransport）库的使用，该库允许我们创建客户端订阅和发布消息到MQTT服务器。以下是一个简单的步骤：1.安装MQTT库：可以使用pip安装`paho-mqtt`库。```pythonpipinstallpaho-mqtt```2.创建一个MQTT客
Spring框架在Java企业级应用中的应用分析向哆哆 Java入门到精通 java spring 后端
Java在移动应用开发中的优势与挑战Java作为一门历史悠久且功能强大的编程语言，在移动应用开发中一直占据着重要地位，尤其是在安卓平台的应用开发上，Java是主要的开发语言。随着技术的发展，尤其是Kotlin的崛起，Java在移动应用中的角色发生了一些变化，但它依旧具有许多独特的优势，尤其是在企业级应用和维护现有项目中。本文将从多个角度探讨Java在移动应用开发中的优势与挑战，并提供相关的代码示例
Python-tkinter自制登录界面（含注册） GCHEK python 开发语言
简单的用户登录、注册界面importtkinterastkimporttimeimportsubprocessimportsysimportosimporttkinter.messageboxwindow=tk.Tk()window.title('GCHEK')window.geometry('400x300')#设置储存用户信息的容器，这里用的txt。ifnotos.path.exists('U
Python爬虫requests(详细) dme. Python爬虫零基础入门爬虫 python
本文来学爬虫使用requests模块的常见操作。1.URL参数无论是在发送GET/POST请求时，网址URL都可能会携带参数，例如：http://www.5xclass.cn?age=19&name=dengres=requests.get(url="https://www.5xclass.cn?age=19&name=deng")res=requests.get(url="https://www
毕业论文如何降低AIGC率？ kexiaoya2013 AIGC 论文笔记论文阅读
在Deepseek爆火的当下，AI生成内容已经渗透到各个领域，包括论文写作。如果你的论文使用了AI工具辅助写作，那么，如何降低AIGC率呢？一、控制使用比例将AI工具用于辅助性任务，如文献检索、语法检查、词汇替换等，而非核心内容的生成。论文的研究方法、数据分析、结论等核心部分应尽量手动完成。完全依赖AI生成论文会导致AI率过高，而将AI用于辅助性任务则能有效降低AI率。二、采用不同模型不同AI模型
BP 神经网络在考古数据分析中的应用 fanxbl957 人工智能理论与实践神经网络数据分析人工智能
BP神经网络在考古数据分析中的应用摘要：本文深入探讨了BP神经网络在考古数据分析领域的应用。首先阐述了考古数据分析的重要性以及传统分析方法的局限性。随后详细介绍了BP神经网络的结构、原理与训练算法。通过丰富的代码示例展示了如何运用BP神经网络进行考古文物的分类鉴定、年代预测以及遗址空间分布分析等任务，涵盖数据预处理、网络构建、模型训练与评估等关键环节。分析了该应用的优势与局限性，并对其在考古数据分
市场波动中的数据分析与策略优化 QQ3990385023 数据分析区块链人工智能
市场波动中的数据分析与策略优化在市场交易中，价格的波动往往受到多种因素影响，包括资金流向、经济数据、政策调整等。如何利用数据分析优化交易策略，提升市场适应能力，是投资者需要重点关注的问题。借助科学的分析方法，结合技术指标，可以更精准地识别趋势，提高交易稳定性。一、市场数据分析的核心要素1.价格趋势分析市场价格的变动通常会形成一定的趋势，例如上涨趋势、震荡趋势或下跌趋势。通过均线（MA）等技术指标，
2024亚马逊数据分析！ KJYHS 数据分析数据挖掘
整体财务数据23净销售额：全年净销售额达6380亿美元，同比增长11%。净利润：全年净利润为592亿美元，较上年同期的304亿美元增长95%。经营活动现金流：经营活动现金流达1159亿美元，同比增加了36%。各业务板块数据AWS业务1第四季度营收：2024年第四季度，AWS业务实现营收288亿美元，同比增长19%；经营利润达106亿美元，同比增长34亿美元。广告业务5全年营收：2024年广告业务总
使用python计算等比数列求和的方法 HAMYHF windows
在python中，计算Sum=m+mm+mmm+mmmm+.....+mmmmm.....,输入两个数m,n。m的位数累加到n的值，列出算式并计算出结果：#为了打印出算式，并计算出结果，将m,mm这些放入到列表中#定义列表中的m初始值为0,用Ele来代表m,mm....Ele=0#定义总和为0Sum=0#定义一个空列表List=[]#输入两个值n=int(input("inputadigit：")
Python+Playwright常用元素定位方法 HAMYHF python 功能测试
CSSselector选择器在CSS中，定位元素主要通过选择器完成，以下是几种常见的CSS选择器定位方法：标签选择器(element):直接使用HTML元素名称来定位，例如p会选择所有段落元素。属性选择器(attribute):选择所有具有指定属性的元素，无论该属性的值是什么。例如，[title]会选择所有包含title属性的元素。选择具有指定属性，并且该属性值完全等于给定值的元素。例如，[typ
Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
Python数据分析与可视化程序媛小果 python python 数据分析开发语言
Python数据分析与可视化在数据驱动的商业世界中，数据分析和可视化成为了理解复杂数据集、做出明智决策的关键工具。Python，作为一种功能强大且易于学习的编程语言，提供了丰富的库和框架，使得数据分析和可视化变得简单高效。本文将探讨Python在数据分析和可视化中的应用，包括数据预处理、分析、以及如何通过可视化工具将数据洞察转化为可操作的策略。1.数据分析的重要性数据分析是提取数据中有用信息的过程
【数据分析】通过个体和遗址层面的遗传相关性网络分析生信学习者1 数据分析数据分析数据挖掘 r语言数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍原理应用场景加载R包数据下载函数个体层面的遗传相关性网络分析导入数据数据预处理构建遗传相关性的个体网络对个体网络Nij进行可视化评估和选择最佳模型评估和选择最佳模型最佳模型进行总结拟合优度检验遗址层面的遗传相关性网络分析导入数据数据预处理构建遗址之间的遗传相关性网络可视化图条件边预测与模型评估总结系统信息介绍个
【Python 学习 / 7】模块与文件操作卜及中 Python基础 python 学习数据库
文章目录前言一、导入模块1.导入整个模块2.导入模块中的特定函数3.给模块或函数起别名二、常用模块1.`math`模块2.`random`模块3.`os`模块4.`sys`模块三、文件处理1.打开文件2.读取文件3.写入文件4.关闭文件5.使用`with`语句管理文件四、日期时间1.`datetime`模块获取当前日期和时间创建日期和时间对象格式化日期和时间解析字符串为日期对象2.`time`模块
探索天气预警API：精准预测，守护安全 api
引言在当今这个快速变化的世界中，天气的波动直接影响着人们的日常生活、农业生产、交通出行乃至公共安全。为了有效应对各种极端天气事件，天气预警API应运而生，成为连接气象数据与公众服务的重要桥梁。本文将深入探讨天气预警API的工作原理、应用场景以及其对社会的积极影响。天气预警API的工作原理天气预警API基于先进的气象监测技术和大数据分析，通过收集全球范围内的气象卫星、雷达、地面观测站等数据源，进行实
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

学python如何不加班 杀手框架Pandas

你可能感兴趣的:(python,数据分析,数据挖掘,开发语言)

学python如何不加班杀手框架Pandas