Python Pandas数据处理高频操作详解

引入依赖

# 导入模块
import pymysql
import pandas as pd
import numpy as np
import time

# 数据库
from sqlalchemy import create_engine

# 可视化
import matplotlib.pyplot as plt
# 如果你的设备是配备Retina屏幕的mac，可以在jupyter notebook中，使用下面一行代码有效提高图像画质
%config InlineBackend.figure_format = 'retina'
# 解决 plt 中文显示的问题 mymac
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
# 设置显示中文 需要先安装字体 aistudio
plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
import seaborn as sns
# notebook渲染图片
%matplotlib inline
import pyecharts

# 忽略版本问题
import warnings
warnings.filterwarnings("ignore")

# 下载中文字体
!wget https://mydueros.cdn.bcebos.com/font/simhei.ttf 
# 将字体文件复制到 matplotlib'字体路径
!cp simhei.ttf /opt/conda/envs/python35-paddle120-env/Lib/python3,7/site-packages/matplotib/mpl-data/fonts.

# 一般只需要将字体文件复制到系统字体田录下即可,但是在 studio上该路径没有写权限,所以此方法不能用 
# !cp simhei. ttf /usr/share/fonts/

# 创建系统字体文件路径
!mkdir .fonts
# 复制文件到该路径
!cp simhei.ttf .fonts/
!rm -rf .cache/matplotlib

算法相关依赖

# 数据归一化
from sklearn.preprocessing import MinMaxScaler

# kmeans聚类
from sklearn.cluster import KMeans
# DBSCAN聚类
from sklearn.cluster import DBSCAN
# 线性回归算法
from sklearn.linear_model import LinearRegression
# 逻辑回归算法
from sklearn.linear_model import LogisticRegression
# 高斯贝叶斯
from sklearn.naive_bayes import GaussianNB
# 划分训练/测试集
from sklearn.model_selection import train_test_split
# 准确度报告
from sklearn import metrics
# 矩阵报告和均方误差
from sklearn.metrics import classification_report, mean_squared_error

获取数据

from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:[email protected]:3306/ry?charset=utf8')

# 查询插入后相关表名及行数
result_query_sql = "use information_schema;"
engine.execute(result_query_sql)
result_query_sql = "SELECT table_name,table_rows FROM tables WHERE TABLE_NAME LIKE 'log%%' order by table_rows desc;"
df_result = pd.read_sql(result_query_sql, engine)

生成df

# list转df
df_result = pd.DataFrame(pred,columns=['pred'])
df_result['actual'] = test_target
df_result

# df取子df
df_new = df_old[['col1','col2']]

# dict生成df
df_test = pd.DataFrame({'A':[0.587221, 0.135673, 0.135673, 0.135673, 0.135673], 
                        'B':['a', 'b', 'c', 'd', 'e'],
                        'C':[1, 2, 3, 4, 5]})

# 指定列名
data = pd.DataFrame(dataset.data, columns=dataset.feature_names)

# 使用numpy生成20个指定分布(如标准正态分布)的数
tem = np.random.normal(0, 1, 20)
df3 = pd.DataFrame(tem)

# 生成一个和df长度相同的随机数dataframe
df1 = pd.DataFrame(pd.Series(np.random.randint(1, 10, 135)))

重命名列

# 重命名列
data_scaled = data_scaled.rename(columns={'本体油位': 'OILLV'})

增加列

# df2df
df_jj2yyb['r_time'] = pd.to_datetime(df_jj2yyb['cTime'])

# 新增一列根据salary将数据分为3组
bins = [0,5000, 20000, 50000]
group_names = ['低', '中', '高']
df['categories'] = pd.cut(df['salary'], bins, labels=group_names)

缺失值处理

# 检查数据中是否含有任何缺失值
df.isnull().values.any()

# 查看每列数据缺失值情况
df.isnull().sum()

# 提取某列含有空值的行
df[df['日期'].isnull()]

# 输出每列缺失值具体行数
for i in df.columns:
    if df[i].count() != len(df):
        row = df[i][df[i].isnull().values].index.tolist()
        print('列名："{}", 第{}行位置有缺失值'.format(i,row))

# 众数填充
heart_df['Thal'].fillna(heart_df['Thal'].mode(dropna=True)[0], inplace=True)

# 连续值列的空值用平均值填充
dfcolumns = heart_df_encoded.columns.values.tolist()
for item in dfcolumns:
    if heart_df_encoded[item].dtype == 'float':
       heart_df_encoded[item].fillna(heart_df_encoded[item].median(), inplace=True)

独热编码

df_encoded = pd.get_dummies(df_data)

替换值

# 按列值替换
num_encode = {
    'AHD': {'No':0, "Yes":1},
}
heart_df.replace(num_encode,inplace=True)

删除列

df_jj2.drop(['coll_time', 'polar', 'conn_type', 'phase', 'id', 'Unnamed: 0'],axis=1,inplace=True)

数据筛选

# 取第33行数据
df.iloc[32]

# 某列以xxx字符串开头
df_jj2 = df_512.loc[df_512["transformer"].str.startswith('JJ2')]

df_jj2yya = df_jj2.loc[df_jj2["变压器编号"]=='JJ2YYA']

# 提取第一列中不在第二列出现的数字
df['col1'][~df['col1'].isin(df['col2'])]

# 查找两列值相等的行号
np.where(df.secondType == df.thirdType)

# 包含字符串
results = df['grammer'].str.contains("Python")

# 提取列名
df.columns

# 查看某列唯一值（种类）
df['education'].nunique()

# 删除重复数据
df.drop_duplicates(inplace=True)

# 某列等于某值
df[df.col_name==0.587221]
# df.col_name==0.587221 各行判断结果返回值(True/False)

# 查看某列唯一值及计数
df_jj2["变压器编号"].value_counts()

# 时间段筛选
df_jj2yyb_0501_0701 = df_jj2yyb[(df_jj2yyb['r_time'] >=pd.to_datetime('20200501')) & (df_jj2yyb['r_time'] <= pd.to_datetime('20200701'))]

# 数值筛选
df[(df['popularity'] > 3) & (df['popularity'] < 7)]

# 某列字符串截取
df['Time'].str[0:8]

# 随机取num行
ins_1 = df.sample(n=num)

# 数据去重
df.drop_duplicates(['grammer'])

# 按某列排序(降序)
df.sort_values("popularity",inplace=True, ascending=False)

# 取某列最大值所在行
df[df['popularity'] == df['popularity'].max()]

# 取某列最大num行
df.nlargest(num,'col_name')
# 最大num列画横向柱形图
df.nlargest(10).plot(kind='barh')

差值计算

# axis=0或index表示上下移动， periods表示移动的次数，为正时向下移，为负时向上移动。
print(df.diff( periods=1, axis=‘index‘))
print(df.diff( periods=-1, axis=0))
# axis=1或columns表示左右移动，periods表示移动的次数，为正时向右移，为负时向左移动。
print(df.diff( periods=1, axis=‘columns‘))
print(df.diff( periods=-1, axis=1))

# 变化率计算
data['收盘价(元)'].pct_change()

# 以5个数据作为一个数据滑动窗口，在这个5个数据上取均值
df['收盘价(元)'].rolling(5).mean()

数据修改

# 删除最后一行
df = df.drop(labels=df.shape[0]-1)

# 添加一行数据['Perl',6.6]
row = {'grammer':'Perl','popularity':6.6}
df = df.append(row,ignore_index=True)

# 某列小数转百分数
df.style.format({'data': '{0:.2%}'.format})

# 反转行
df.iloc[::-1, :]

# 以两列制作数据透视
pd.pivot_table(df,values=["salary","score"],index="positionId")

# 同时对两列进行计算
df[["salary","score"]].agg([np.sum,np.mean,np.min])

# 对不同列执行不同的计算
df.agg({"salary":np.sum,"score":np.mean})

时间格式转换

# 时间戳转时间字符串
df_jj2['cTime'] =df_jj2['coll_time'].apply(lambda x: time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(x)))

# 时间字符串转时间格式
df_jj2yyb['r_time'] = pd.to_datetime(df_jj2yyb['cTime'])

# 时间格式转时间戳
dtime = pd.to_datetime(df_jj2yyb['r_time'])
v = (dtime.values - np.datetime64('1970-01-01T08:00:00Z')) / np.timedelta64(1, 'ms')
df_jj2yyb['timestamp'] = v

设置索引列

df_jj2yyb_small_noise = df_jj2yyb_small_noise.set_index('timestamp')

折线图

fig, ax = plt.subplots()
df.plot(legend=True, ax=ax)
plt.legend(loc=1)
plt.show()

plt.figure(figsize=(20, 6))
plt.plot(max_iter_list, accuracy, color='red', marker='o',
         markersize=10)
plt.title('Accuracy Vs max_iter Value')
plt.xlabel('max_iter Value')
plt.ylabel('Accuracy')

散点图

plt.scatter(df[:, 0], df[:, 1], c="red", marker='o', label='lable0')   
plt.xlabel('x')  
plt.ylabel('y')  
plt.legend(loc=2)  
plt.show()

柱状图

df = pd.Series(tree.feature_importances_, index=data.columns)
# 取某列最大Num行画横向柱形图
df.nlargest(10).plot(kind='barh')

热力图

df_corr = combine.corr()
plt.figure(figsize=(20,20))
g=sns.heatmap(df_corr,annot=True,cmap="RdYlGn")

66个最常用的pandas数据分析函数

df #任何pandas DataFrame对象 
s #任何pandas series对象

从各种不同的来源和格式导入数据

pd.read_csv(filename) # 从CSV文件 
pd.read_table(filename) # 从分隔的文本文件（例如CSV）中 
pd.read_excel(filename) # 从Excel文件 
pd.read_sql(query, connection_object) # 从SQL表/数据库中读取 
pd.read_json(json_string) # 从JSON格式的字符串，URL或文件中读取。
pd.read_html(url) # 解析html URL，字符串或文件，并将表提取到数据帧列表 
pd.read_clipboard() # 获取剪贴板的内容并将其传递给 read_table() 
pd.DataFrame(dict) # 从字典中，列名称的键，列表中的数据的值

导出数据

df.to_csv(filename) # 写入CSV文件 
df.to_excel(filename) # 写入Excel文件 
df.to_sql(table_name, connection_object) # 写入SQL表 
df.to_json(filename) # 以JSON格式写入文件

创建测试对象

pd.DataFrame(np.random.rand(20,5))               # 5列20行随机浮点数 pd.Series(my_list)                               # 从一个可迭代的序列创建一个序列 my_list 
df.index = pd.date_range('1900/1/30', periods=df.shape[0]) # 添加日期索引

查看、检查数据

df.head(n)                       # DataFrame的前n行 
df.tail(n)                       # DataFrame的最后n行 
df.shape                         # 行数和列数 
df.info()                        # 索引，数据类型和内存信息 
df.describe()                    # 数值列的摘要统计信息 
s.value_counts(dropna=False)     # 查看唯一值和计数 
df.apply(pd.Series.value_counts) # 所有列的唯一值和计数

数据选取

使用这些命令选择数据的特定子集。
df[col]               # 返回带有标签col的列 
df[[col1, col2]]      # 返回列作为新的DataFrame 
s.iloc[0]             # 按位置选择 
s.loc['index_one']    # 按索引选择 
df.iloc[0,:]          # 第一行 
df.iloc[0,0]          # 第一栏的第一元素

数据清理

df.columns = ['a','b','c']                  # 重命名列 
pd.isnull()                                 # 空值检查，返回Boolean Arrray 
pd.notnull()                                # 与pd.isnull() 相反 
df.dropna()                                 # 删除所有包含空值的行 
df.dropna(axis=1)                           # 删除所有包含空值的列 
df.dropna(axis=1,thresh=n)                  # 删除所有具有少于n个非null值的行 
df.fillna(x)                                # 将所有空值替换为x 
s.fillna(s.mean())                          # 用均值替换所有空值（均值可以用统计模块中的几乎所有函数替换 ） 
s.astype(float)                             # 将系列的数据类型转换为float 
s.replace(1,'one')                          # 1 用 'one' 
s.replace([1,3],['one','three'])            # 替换所有等于的值 替换为所有1 'one' ，并 3 用 'three' df.rename(columns=lambda x: x + 1)          # 列的重命名 
df.rename(columns={'old_name': 'new_ name'})# 选择性重命名 
df.set_index('column_one')                  # 更改索引 
df.rename(index=lambda x: x + 1)            # 大规模重命名索引

筛选，排序和分组依据

df[df[col] > 0.5]                      # 列 col 大于 0.5 df[(df[col] > 0.5) & (df[col] < 0.7)]  # 小于 0.7 大于0.5的行 
df.sort_values(col1)                   # 按col1升序对值进行排序 
df.sort_values(col2,ascending=False)   # 按col2 降序对值进行 排序 
df.sort_values([col1,col2],ascending=[True,False]) #按 col1 升序排序，然后 col2 按降序排序 
df.groupby(col)                        #从一个栏返回GROUPBY对象 
df.groupby([col1,col2]) # 返回来自多个列的groupby对象 
df.groupby(col1)[col2]                 # 返回中的值的平均值 col2，按中的值分组 col1 （平均值可以用统计模块中的几乎所有函数替换 ） 
df.pivot_table(index=col1,values=[col2,col3],aggfunc=mean) # 创建一个数据透视表组通过 col1 ，并计算平均值的 col2 和 col3 
df.groupby(col1).agg(np.mean)          # 在所有列中找到每个唯一col1 组的平均值 
df.apply(np.mean)                      #np.mean() 在每列上应用该函数 
df.apply(np.max,axis=1)                # np.max() 在每行上应用功能

数据合并

df1.append(df2)                   # 将df2添加 df1的末尾 （各列应相同） 
pd.concat([df1, df2],axis=1)      # 将 df1的列添加到df2的末尾 （行应相同） 
df1.join(df2,on=col1,how='inner') # SQL样式将列 df1 与 df2 行所在的列col 具有相同值的列连接起来。'how'可以是一个 'left'， 'right'， 'outer'， 'inner'

数据统计

df.describe()    # 数值列的摘要统计信息 
df.mean()        # 返回均值的所有列 
df.corr()        # 返回DataFrame中各列之间的相关性 
df.count()       # 返回非空值的每个数据帧列中的数字 
df.max()         # 返回每列中的最高值 
df.min()         # 返回每一列中的最小值 
df.median()      # 返回每列的中位数 
df.std()         # 返回每列的标准偏差

16个函数，用于数据清洗

# 导入数据集
import pandas as pd

df ={'姓名':[' 黄同学','黄至尊','黄老邪 ','陈大美','孙尚香'],
     '英文名':['Huang tong_xue','huang zhi_zun','Huang Lao_xie','Chen Da_mei','sun shang_xiang'],
     '性别':['男','women','men','女','男'],
     '身份证':['463895200003128433','429475199912122345','420934199110102311','431085200005230122','420953199509082345'],
     '身高':['mid:175_good','low:165_bad','low:159_bad','high:180_verygood','low:172_bad'],
     '家庭住址':['湖北广水','河南信阳','广西桂林','湖北孝感','广东广州'],
     '电话号码':['13434813546','19748672895','16728613064','14561586431','19384683910'],
     '收入':['1.1万','8.5千','0.9万','6.5千','2.0万']}
df = pd.DataFrame(df)
df

1.cat函数

用于字符串的拼接

df["姓名"].str.cat(df["家庭住址"],sep='-'*3)

2.contains

判断某个字符串是否包含给定字符

df["家庭住址"].str.contains("广")

3.startswith/endswith

判断某个字符串是否以…开头/结尾

# 第一个行的“ 黄伟”是以空格开头的
df["姓名"].str.startswith("黄") 
df["英文名"].str.endswith("e")

4.count

计算给定字符在字符串中出现的次数

df["电话号码"].str.count("3")

5.get

获取指定位置的字符串

df["姓名"].str.get(-1)
df["身高"].str.split(":")
df["身高"].str.split(":").str.get(0)

6.len

计算字符串长度

df["性别"].str.len()

7.upper/lower

英文大小写转换

df["英文名"].str.upper()
df["英文名"].str.lower()

8.pad+side参数/center

在字符串的左边、右边或左右两边添加给定字符

df["家庭住址"].str.pad(10,fillchar="*")      # 相当于ljust()
df["家庭住址"].str.pad(10,side="right",fillchar="*")    # 相当于rjust()
df["家庭住址"].str.center(10,fillchar="*")

9.repeat

重复字符串几次

df["性别"].str.repeat(3)

10.slice_replace

使用给定的字符串，替换指定的位置的字符

df["电话号码"].str.slice_replace(4,8,"*"*4)

11.replace

将指定位置的字符，替换为给定的字符串

df["身高"].str.replace(":","-")

12.replace

将指定位置的字符，替换为给定的字符串(接受正则表达式)

replace中传入正则表达式，才叫好用；- 先不要管下面这个案例有没有用，你只需要知道，使用正则做数据清洗多好用；

df["收入"].str.replace("\d+\.\d+","正则")

13.split方法+expand参数

搭配join方法功能很强大

# 普通用法
df["身高"].str.split(":")
# split方法，搭配expand参数
df[["身高描述","final身高"]] = df["身高"].str.split(":",expand=True)
df
# split方法搭配join方法
df["身高"].str.split(":").str.join("?"*5)

14.strip/rstrip/lstrip

去除空白符、换行符

df["姓名"].str.len()
df["姓名"] = df["姓名"].str.strip()
df["姓名"].str.len()

15.findall

利用正则表达式，去字符串中匹配，返回查找结果的列表

findall使用正则表达式，做数据清洗，真的很香！

df["身高"]
df["身高"].str.findall("[a-zA-Z]+")

16.extract/extractall

接受正则表达式，抽取匹配的字符串(一定要加上括号)

df["身高"].str.extract("([a-zA-Z]+)")
# extractall提取得到复合索引
df["身高"].str.extractall("([a-zA-Z]+)")
# extract搭配expand参数
df["身高"].str.extract("([a-zA-Z]+).*?([a-zA-Z]+)",expand=True

以上就是Python Pandas数据处理高频操作详解的详细内容，更多关于Python Pandas数据处理的资料请关注脚本之家其它相关文章！

__init__.py 是个啥，为什么深受大厂程序员偏爱？程序员CC_ Python入门学python Python零基础 python 人工智能开发语言
朋友们，今天我们来聊聊Python里一个低调却至关重要的文件——__init__.py。说实话，这玩意儿刚开始学Python时，很多人（包括当年的我）都是一脸懵：“这啥？删了会咋样？”有些人可能听说过它是“包的标志”，也有人觉得它“没啥大用，可以忽略”，更有甚者以为它“只是个装样子的文件”。今天，我们就来彻底搞清楚__init__.py到底是干啥的，以及它如何影响Python项目的结构和运行。️先
鸿蒙HarmonyOS EventHub模块 yj235532 鸿蒙harmonyos 鸿蒙开发移动开发 harmonyos 鸿蒙鸿蒙开发 UI 组件化
一、引言EventHub模块在HarmonyOS应用开发中扮演着重要角色，它提供了事件中心的功能，包括事件订阅、取消订阅以及触发事件等操作，为应用内的模块间通信提供了有效的机制。二、模块基本信息接口支持版本：首批接口从APIversion9开始支持，后续版本的新增接口采用上角标单独标记起始版本。适用模型：本模块接口仅可在Stage模型下使用。三、导入模块在使用EventHub功能前，需导入相关模块
Github 2025-06-24Python开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-06-24统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目10Swift项目1C++项目1yt-dlp:一个增强版的youtube-dl分支创建周期：1184天开发语言：Python协议类型：TheUnlicenseStar数量：64607个Fork数量：5309次关注人数：64607人贡献
鸿蒙HarmonyOS ArkTS相对布局开发详解计算机毕设源码站鸿蒙 harmonyos 华为
什么是相对布局在鸿蒙HarmonyOS的ArkTS开发框架中，相对布局（RelativeContainer）是一种灵活的布局容器，允许子组件相对于容器本身或其他子组件进行定位。这种布局方式提供了强大的定位能力，使开发者能够创建复杂而精确的界面布局，特别适用于需要精确控制组件位置关系的场景。相对布局的核心理念是通过建立组件之间的相对位置关系来实现布局。每个子组件都可以相对于父容器的边界或其他兄弟组件
中间件复习（java向，示例代码为java），所有问题都会有链接单独解析搞不懂语言的程序员重拾java 中间件中间件 java 开发语言
根据近些年情况整理的Java服务常用中间件及面试复习指南（每个中间件10个以上问题+实战模拟）一、核心中间件清单（2020-2023高频使用）中间件分类典型中间件核心应用场景RPC框架Dubbo3.x、gRPC、SpringCloudOpenFeign微服务通信、跨语言调用消息队列Kafka、RocketMQ、RabbitMQ异步解耦、削峰填谷、顺序消息缓存Redis（集群/Redisson）、C
Python接口测试之接口关键字封装测试老哥 python 软件测试自动化测试职场和发展测试用例接口测试测试工具
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快我们使用RF做UI自动化测试的时候，使用的是关键字驱动。同样，Python做接口自动化测试的时候，也可以使用关键字驱动。但是这里并不是叫关键字驱动，而是叫数据驱动。而接口测试的关键字是什么呢？我们数据驱动的载体是Excel，那么excel里存放的数据是接口测试用例数据，一个接口数据里有常量和变量。变量就是一些参数对应的值，而常量就是接口的
展开说说Android之Retrofit详解_使用篇老梁学Android&HarmonyOS 网络编程 android retrofit 网络
Retrofit是由Square公司开发的类型安全HTTP客户端框架，借助动态代理在运行时生成接口实现类，将注解转化为OkHttp请求配置；节省成本通过转换器(Gson/Moshi)自动序列化JSON/XML，内部处理网络请求在主线程返回报文。Retrofit直译是封装、翻版。他就是对okhttp做了进一步封装，方便使用，它底层的所有请求默认走的都是Okhttp。所以使用Retrofit必须依赖o
假如你从现在开始学习软件测试，需要多久才能学会呢？ AIZHINAN 学习
首先，不要去网上找那些零零碎碎的教程，很难学懂！你可以根据这个学习大纲定计划只要3-6个月就可以掌握软件测试，升职涨薪不在话下：1.基础阶段：先搞懂测试理论、用例设计，会用Jira写Bug；2.中级阶段：学SQL查数据、Linux看日志，Postman测接口，再用Selenium玩自动化；3.进阶阶段：搭Pytest框架、用JMeter压测，安全测试搞BurpSuite；4.扩展技能：Python
GitHub Actions 实现 AWS ECS 服务的多集群安全重启方案 ivwdcwso 运维与云原生 github aws 安全 DevOps CI/CD github actions
引言在现代云原生架构中，容器化服务已成为主流。AmazonECS（ElasticContainerService）作为AWS的核心容器服务，管理着大量生产环境中的关键应用。服务重启是日常运维中的常见操作，无论是部署更新、修复问题还是刷新状态，都需要一种安全高效的机制。本文将介绍如何利用GitHubActions和AWSOIDC实现一个安全、灵活的多集群ECS服务重启方案。这个方案不仅简化了运维流程
JMeter中变量如何使用？测试者家园智能化测试性能测试 JMeter jmeter 智能化测试性能测试软件测试质量效能软件开发和测试持续测试
在性能测试的世界中，ApacheJMeter是一把利器，凭借其强大的可扩展性与图形化操作界面，在工业界和开源社区中广受青睐。而“变量的使用”作为JMeter中提高测试灵活性、可维护性和复用性的关键技术点，却常常被初学者忽略或误用。本文将从变量的定义方式、作用域、典型应用场景到高级技巧全面展开剖析，并结合实际案例为读者提供具有启发性的思维视角。一、什么是变量？为什么JMeter离不开它？JMeter
红黑树与2-3树：插入、删除操作的时间复杂度与实现机制比较一键难忘红黑树数据结构
本文收录于专栏：算法之翼红黑树与2-3树：插入、删除操作的时间复杂度与实现机制比较红黑树（Red-BlackTree）和2-3树（2-3Tree）是两种广泛用于平衡二叉查找树的自平衡树结构。它们在插入、删除和查找操作中的性能都表现良好，并且可以确保树的高度是对数级别，从而保证了高效的操作时间。本文将对红黑树和2-3树进行深入的比较，并结合代码实例说明它们的实现和应用。1.数据结构简介1.1红黑树简
学习三维动画心得 2501_92205961 开发语言青少年编程
在大二学年的三维动画设计学习进程中，我围绕3dsMax和Blender两大核心软件展开深入钻研，并在此基础上探索技术应用与创新。不仅熟练掌握了基础操作，还深入到代码编写与复杂技术问题解决领域，逐步构建起系统的三维动画设计知识与技能体系，以下是详细的学习总结。一、3dsMax的深度学习与技术实践（一）高级建模与脚本优化在3dsMax的学习中，基础建模掌握后，我开始挑战高级建模技术。利用NURBS建模
Python网安-zip文件暴力破解（仅供学习） Whoisshutiao python网安 python 开发语言网络安全
目录源码在这里需要的模块准备一个密码本和需要破解的ZIP文件一行一行地从密码文件中读取每个密码。核心部分注意，需要修改上段代码注释里的这段具有编码问题的代码：源码在这里https://github.com/Wist-fully/Attack/tree/cracker需要的模块fromtqdmimporttqdmimportzipfileimportpyzipper准备一个密码本和需要破解的ZIP文
【力扣hot100】python刷题笔记之哈希 Animato. 哈希算法 leetcode 笔记
1.两数之和（简单）题目描述：给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以按任意顺序返回答案。示例：解法一：暴力解法：双层循环（这里就不给代码了）解法二：哈希表（时间复杂度O(n)）算法思路：（1）先创建一个空字典当做哈希表来存储已经遍历过的
左神算法之矩阵旋转90度岳轩子左神算法算法矩阵线性代数
目录旋转矩阵90度（原地操作）1.题目2.解释3.思路4.代码5.总结6.其他旋转矩阵90度（原地操作）1.题目旋转矩阵90度，且只能用有限的几个变量。比如下面的矩阵：12345678910111213141516转换结果为：139511410621511731612842.解释旋转矩阵90度是指将矩阵顺时针旋转90度。观察旋转前后的变化可以发现：原矩阵的第一行变为旋转后矩阵的最后一列原矩阵的第二
进程和线程的区别，如何实现线程通信? EchoYa! java linux 服务器
进程和线程是操作系统中的两个重要概念，它们都是用来实现并发执行的方式，但有一些关键的区别：1.进程（Process）是程序的一次执行过程，是操作系统进行资源分配和调度的基本单位。每个进程都有独立的内存空间，包括代码、数据、堆栈等，进程之间相互独立，需要通过进程间通信来实现数据共享。2.线程（Thread）是进程中的一个执行单元，一个进程可以包含多个线程，线程共享进程的内存空间和资源，每个线程有自己
程序和进程和线程的区别是什么？小白之歌 Java
程序和进程和线程的区别是什么？进程是操作系统资源分配的基本单位，线程是任务调度执行基本单位（CPU的基本调度单位）,程序是静态的指令集合，而进程是运行中的指令集合。进程：程序的一次执行，答法1：进程间切换代价大，线程间切换代价小进程拥有资源多，线程拥有资源少多个线程共享进程的资源进程是分配资源的基本单位，而线程是独立运行和调度的基本单位。任意时刻，一个CPU只能运行一个进程，进程获得资源后进行分配
python 爬虫 selenium作用_详解python爬虫利器Selenium使用方法 weixin_39585974 python 爬虫 selenium作用
简介：用pyhon爬取动态页面时普通的urllib2无法实现，例如下面的京东首页，随着滚动条的下拉会加载新的内容，而urllib2就无法抓取这些内容，此时就需要今天的主角selenium。Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE、MozillaFirefox、MozillaSuite等。使用它爬取页面
矩阵（二维数组）局部极大/小值-python实现银河系渐入佳境编程指南算法 python 算法矩阵
题目来源：某为面试/算法第四版：Algs4-1.4.19矩阵的局部最小元素参考思路：传送CODE：importnumpyasnp'''deffindMin():arr=np.random.rand(10,10)index_arr=np.zeros((10,10))foriinrange(arr.shape[0]):forjinrange(arr.shape[1]):ifi>0andi0andj
webdriver常用方法+鼠标键盘事件+浏览器高级操作要站在顶端 UI自动化 selenium
文章目录webdriver操作元素、获取元素常用方法浏览器控制浏览器cookies鼠标事件键盘事件**常用方法**上传文件内嵌网页iframe切换浏览器标签页切换页面滚动截图警告框处理下拉框处理webdriver操作元素、获取元素常用方法常用方法clear()：清除文本。send_keys(value)：模拟按键输入(被操作元素需要是个文本输入框)。click()：单击元素。其他方法#size：返
deepseek：2025年Java面试必刷高频LeetCode题目 Alexon Xu java 面试 leetcode
以下是2025年Java面试中高频LeetCode题目分类及对应链接，结合大厂实际考察频率整理：一、链表类反转链表（Easy）迭代法与递归实现双解，掌握三指针操作环形链表检测（Easy）快慢指针经典应用，延伸考察环入口点计算合并K个排序链表（Hard）优先队列解法时间复杂度O(NlogK)相交链表（Easy）双指针数学技巧：a+c+b=b+c+a删除链表的倒数第N个节点（Medium）快慢指针+虚
Python网安-ftp服务暴力破解（仅供学习） Whoisshutiao python 网络安全开发语言
目录源码在这里需要导入的模块连接ftp，并设置密码本和线程核心代码设置线程源码在这里https://github.com/Wist-fully/Attack/tree/cracker需要导入的模块importftplibfromthreadingimportThreadimportqueue连接ftp，并设置密码本和线程host="192.168.6.6"user="student"port=21
Python爬虫网安-request+示例 Whoisshutiao python爬虫网安 python 爬虫开发语言网络安全
目录get&post自定义请求头文件上传添加cookie获取网页使用cookiejarsessionssl证书校验超时身份认证（httpbasicAuth）代理配置get&post#！/usr/bin/envpythonimportrequests#get#r=requests.get('http://httpbin.org/get')#print(r.text)#添加参数的get请求data={
Charles中文版抓包工具：如何加速API调试与网络优化 2501_91592143 http udp https websocket 网络安全网络协议 tcp/ip
在软件开发的过程中，网络请求和API接口的调试与优化是最常见的挑战之一。无论是Web开发、移动应用调试，还是后端API性能优化，开发者都需要一个高效的工具来帮助诊断和解决网络流量中的潜在问题。Charles抓包工具作为一款行业领先的网络调试软件，凭借其强大的功能和简便的操作，帮助开发者提升开发效率、优化网络请求。本文将探讨如何通过Charles中文版抓包工具加速API调试与网络优化，确保开发过程中
多个 Job 并发运行时共享配置文件导致上下文污染，固化 Jenkins Job 上下文要站在顶端 Jenkins jenkins servlet 运维
基于context.py固化JenkinsJob上下文的完整方案，适用于你当前的工作流（Python+JenkinsPipeline），解决：多个Job并发运行时共享配置文件导致上下文污染；读取环境变量或JSON文件时被其他Job修改的问题；后续阶段（如发送通知）读取错误上下文的问题；✅目标在每个JenkinsJob开始时，将关键变量一次性固化到内存中，并在整个Job生命周期内始终使用这些值。整体
数据标注工具详解 Sally璐璐 ai 大数据
数据标注工具是构建高质量AI训练数据集的核心基础设施，其功能覆盖图像、文本、视频、音频、3D点云等多模态数据的标注与管理。以下从工具类型、核心功能、行业应用及技术趋势等方面进行系统介绍：一、主流数据标注工具分类与特性1.通用型标注平台LabelStudio由Heartex开发的开源工具，支持文本、图像、视频、音频及时间序列数据标注，可通过YAML自定义标注界面19。其内置质量控制机制（如标注审核、
MyBatis 简介 hweiyu00 技术栈杂谈 mybatis
MyBatis简介MyBatis是一款优秀的持久层框架，它支持定制化SQL、存储过程以及高级映射，能够帮助开发者将Java对象与数据库表进行灵活映射，简化数据持久化操作。以下从多个维度详细介绍MyBatis：一、核心定位与优势轻量级框架：相比Hibernate等全自动ORM框架，MyBatis更“轻”，开发者需手动编写SQL语句，灵活性更高，便于优化性能。ORM映射功能：通过XML或注解方式，将J
Go 语言高效连接 SQL Server（MSSQL）数据库实战指南程序员爱钓鱼数据库 golang sqlserver
在Go语言的开发过程中，与MicrosoftSQLServer(MSSQL)数据库的交互是常见需求之一。本文将详细介绍如何使用Go语言高效、安全地连接SQLServer，并进行基本的CRUD（增删改查）操作。1.安装MSSQL驱动Go语言使用github.com/denisenkom/go-mssqldb作为SQLServer驱动，首先需要安装它：goget-ugithub.com/denisen
使用 Xinference 命令行工具（xinference launch）部署 Nanonets-OCR-s 没刮胡子 Linux服务器技术人工智能AI 软件开发技术实战专栏 ocr
使用Xinference命令行工具（xinferencelaunch）部署Nanonets-OCR-s一、核心优势与适用场景通过xinferencelaunch命令可直接在命令行完成模型部署，无需编写Python代码，适合快速验证或生产环境批量部署。二、部署步骤：从命令行启动模型1.确认环境与依赖已安装Xinference：pipinstall"xinference[all]"GPU显存≥9GB（
【Docker基础】Docker容器管理：docker stats及其参数详解 IT成长日记容器技术深度解析与实践 docker 容器运维 docker stats
目录1Docker监控概述2dockerstats基本用法2.1基本命令格式2.2常用操作示例3dockerstats参数详解3.1常用参数说明3.2输出字段解析3.3格式化输出示例4dockerstats工作原理4.1监控数据采集流程4.2数据源解析5常见问题解答5.1为什么CPU使用率会超过100%？5.2内存统计中的cache/buffer包含在哪里？5.3如何监控已停止的容器？6总结1Do
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他