Larissa857

Python数据分析之Pandas入门（中）

前言
四、数据载入及存储
- 1.文本格式数据的读写
- - ①分块读入文本文件
  - ②将数据写入文本格式
  - ③使用分隔格式
  - ④JSON数据
  - ⑤XML和HTML
- 2.二进制格式
- - ①使用HDF5格式
  - ②读取Microsoft Excel文件
  - ③与Web API交互
五、数据清洗
- 1.清洗空值
- 2.删除指定列有空值的行
- 3.替换空字段
- 4.清洗格式错误的数据
- - ①格式化日期
  - ②替换或移除错误数据
  - ③重复数据

前言

本系列共有三篇文章，依次按照pandas数据类型及其结构、内置模块对数据处理功能、可视化工具以及形如房价预测的案例分析内容展开介绍。参考自书籍《Python for Data Analysis(Second Edition)》，本篇文章的代码均已测试通过，数据集下载详见【资源】。
注意：代码文件应和解压后的数据及文件夹在同一目录下才能相对路径引用到，当然也可使用绝对路径。

四、数据载入及存储

1.文本格式数据的读写

将表格型数据读取为DataFrame对象是pandas的重要特性。

部分功能函数如下所示：

函数	描述
read_csv	从文件、URL或文件型对象读取分隔好的数据，逗号是默认分隔符
read_table	从文件、URL或文件型对象读取分隔好的数据，制表符（`'\t'`）是默认分隔符
read_fwf	从特定宽度格式的文件中读取数据（无分隔符）
read_clippboard	read_table的剪贴板版本，在将表格从Web页面上转换成数据时有用
read_excel	从Excel的XLS或XLSX文件中读取表格数据
read_hdf	读取用pandas存储的HDF5文件
read_html	从Html文件中读取所有表格型数据
read_json	从JSON字符串中读取数据
read_msgpack	读取MessagePack二进制格式的pandas数据
read_pickle	读取以Python pickle格式存储的任意对象
read_sas	读取存储在SAS系统中定制存储格式的SAS数据集
read_sql	将SQL查询的结果（使用SQLAlchemy）读取为pandas的DataFrame
read_stata	读取Stata格式的数据集
read_feather	读取Feather二进制格式

这些函数的可选参数如下所示：

可选参数	说明
索引	可以将一或多个列作为返回的DataFrame，从文件或用户名处获得列名，或没有列名
类型推断和数据转换	包括用户自定义的值转换和自定义的缺失值符号列表
日期时间解析	包括组合功能，也包括将分散在多个列上的日期和时间信息组合成结果中的单个列
迭代	支持对大型文件的分块迭代
未清洗的数据问题	跳过行、页脚、注释以及其他次要数据，比如使用逗号分隔千位的数字

表1 read_csv/read_table函数参数

参数	描述
path	表明文件系统位置的字符串、URl或文件型对象
sep或delimiter	用于分隔每行字段的字符序列或正则表达式
header	用作列名的行号，默认是0（第一行），如果没有列名的话，应该为None
index_col	用作结果中行索引的列号或列名，可以是一个单一的名称/数字，也可以是一个分层索引
names	结果的列名列表，和names=None一起用
skiprows	从文件开头起，需要跳过的行数或行号列表
na_values	需要用NA替换的值序列
comment	在行结尾处分隔注释的字符
parse_dates	尝试将数据解析为datetime，默认为False。如果为True，将尝试解析所有的列；也可以指定列号或列名列表。如果列表的元素是元组或列表，将会把多个列组合在一起进行解析
keep_date_col	如果连接列到解析日期上，保留被连接的列，默认是False
converters	包含列名映射到函数的字典（例如{‘foo’: f}会把函数f应用到’foo’列）
dayfirst	解析非明确日期时，按照国际格式处理
date_parser	用于解析日期的函数
nrows	从文件开头处读入的行数
iterator	返回一个TextParser对象，用于零散地读入文件
chunksize	用于迭代的块大小
skip_footer	忽略文件尾部的行数
verbose	打印各种解析器输出的信息，比如位于非数值列的缺失值数量
encoding	Unicode文本编码（例如’utf-8’）
squeeze	如果解析数据只包含一列，返回一个Series
thousands	千位分隔符（例如’,‘或’.'）

打印文件内容的终端命令：

Windows：!type examples/ex1.csv
Unix shell：!cat examples/ex1.csv

读取CSV文件：

df = pd.read_csv('examples/ex1.csv')
print(df)
pd.read_table('examples/ex1.csv', sep=',')  # 指定分隔符——逗号

"""输出为：
   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo
"""

# pandas自动分配默认列名
pd.read_csv('examples/ex2.csv', header=None)       
pd.read_csv('examples/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])  # 指定列名

# 将message列成为返回DataFrame的索引，可以指定位置'4'的列为索引，或传递参数给index_col
names = ['a', 'b', 'c', 'd', 'message']
pd.read_csv('examples/ex2.csv', names=names, index_col='message')

"""输出为：
		a	b	c	d
message				
hello	1	2	3	4
world	5	6	7	8
foo	9	10	11	12
"""

# 当你想要从多个列中形成一个分层索引，需要传入一个包含列序号或列名的列表
!cat examples/csv_mindex.csv
parsed = pd.read_csv('examples/csv_mindex.csv',
                     index_col=['key1', 'key2'])
print('\n', parsed)

"""输出为：
            value1  value2
key1 key2                
one  a          1       2
     b          3       4
     c          5       6
     d          7       8
two  a          9      10
     b         11      12
     c         13      14
     d         15      16
"""

解决文本不对齐问题：

# 使用正则表达式'\s+'或手动校准因不同数量的空格造成的不对齐
result = pd.read_table('examples/ex3.txt', sep='\s+')
result

处理缺失值：

!cat examples/ex4.csv

# skiprows接收参数以跳过出现异常的行——第一行、第三行、第四行
skiprows = pd.read_csv('examples/ex4.csv', skiprows=[0, 2, 3])
print('\n', skiprows, '\n')

!cat examples/ex5.csv
# na_values可以传入一个列表或一组字符串处理缺失值
result = pd.read_csv('examples/ex5.csv', na_values=['NULL'])
# 每列都可指定不同的缺失值标识
sentinels = {'message': ['foo', 'NA'], 'something': ['two']}
pd.read_csv('examples/ex5.csv', na_values=sentinels)

"""输出为：

something	a	b	c	d	message
0	one	1	2	3.0	4	NaN
1	NaN	5	6	NaN	8	world
2	three	9	10	11.0	12	NaN
"""

①分块读入文本文件

pd.options.display.max_rows = 10        # pandas读取数据只显示前十行
print(pd.read_csv('examples/ex6.csv', nrows=5), '\n')   # pandas读取前五行数据

# 对读入文件的截取（只读其中的小片段或小块遍历文件）
chunker = pd.read_csv('examples/ex6.csv', chunksize=100)
print(chunker, '\n')
# 对截取出的文件遍历一遍，并对'key'列聚合获得计数值
tot = pd.Series([], dtype='float64')       # 官方文档提示：对于任何空序列的Series类的dtype将会默认是'float64'或'int64'，需要指定其dtype否则会报警告
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(), fill_value=0)

tot = tot.sort_values(ascending=False)
print(tot[:10])

②将数据写入文本格式

import sys

data = pd.read_csv('examples/ex5.csv')
data.to_csv('examples/out.csv')     # DataFrame的to_csv方法将数据导出为逗号分隔的文件
data.to_csv(sys.stdout, sep='|')    # 使用其它分隔符
print('\n')
data.to_csv(sys.stdout, na_rep='NULL')  # 用空字符串的形式表示缺失值
print('\n')
# 不读出列标签，并按顺序读出行标签
data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'])

dates = pd.date_range('1/1/2000', periods=7)    
ts = pd.Series(np.arange(7), index=dates)
ts.to_csv('examples/tseries.csv')   # Series的to_csv方法将数据导出为逗号分隔的文件

!cat examples/tseries.csv

③使用分隔格式

考虑使用read_table从硬盘中读取的数据仍存在一行或多行错误的情况

# 对于任何带有单字符分隔符的文件都可使用内建的csv模块
import csv
# 首先，将任一打开的文件或文件型对象作为参数传入csv.reader()函数
f = open('examples/ex7.csv')
reader = csv.reader(f)

for line in reader:
    print(line)

# 然后，对文件进行处理
with open('examples/ex7.csv') as f:
    lines = list(csv.reader(f))
# 将数据拆分成列名行和数据行
header, values = lines[0], lines[1:]
# 用字典推导式和zip(*values)生成一个包含数据列的字典，字典中行转置成列
data_dict = {h: v for h, v in zip(header, zip(*values))}
print('\n', data_dict)

【对文件的处理模块还可参考import zipfile】

import sys

f = open('examples/ex7.csv')
# csv文件有多种不同风格，如需根据不同的分隔符、字符串引用约定或行终止符定义一种新格式时，可以使用csv.Dialect定义一个简单的子类
class my_dialect(csv.Dialect):      # dialect——方言参数
    lineterminator = '\n'
    delimiter = ';'
    quotechar = '"'
    quoting = csv.QUOTE_MINIMAL

reader = csv.reader(f, dialect=my_dialect)
# 也可以不定义子类，直接将方言参数（dialect）传入csv.reader的关键字参数
reader = csv.reader(f, delimiter='|')

CSV方言选项

参数	描述
delimiter	接收一个用于分割字段的字符作为参数的关键字，默认是`','`
lineterminator	行终止符，默认是`'\r\n'`，读取器会忽略行终止符并识别跨平台行终止符
quotecher	用在含有特殊字符字段中的引号，默认是`"`
quoting	引用惯例。选项包括`csv.QUOTE_ALL`（引用所有字段），`csv.QUOTE_MINMAL`（只使用特殊字符）,`csv.QUOTE_NONNUMERIC`和`csv.QUOTE_NONE`（不引用）
skipinitialspace	忽略每个分隔符后的空白，默认为False
doublequote	如何处理字段内的引号。如果为True，则是双引号
escapechar	当引用设置为`csv.QUOTE_NONE`时用于转义分隔符的字符串，默认是禁用的

④JSON数据

JSON(JavaScript Object Notation，JavaScript 对象表示法)出了空值(NULL)和一些其他的细微差别外（如不允许列表末尾的逗号），基本类型是obj（字典）、数组（列表）、字符串、数字、布尔值和空值。对象中的所有键都必须是字符串。

import json

obj = """
{"name": "Larissa",
 "places_lived": ["China", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38,
               "pets": ["Sixes", "Stache", "Cisco"]}]
}
"""
result = json.loads(obj)
# 将Python对象转换回JSON
asjson = json.dumps(result)
print(result, '\n')

siblings = pd.DataFrame(result['siblings'], columns=['name', 'age'])
siblings

# read_json()默认选项是假设JSON数组中的每个对象是表里的一行
data = pd.read_json('examples/example.json')
print(data.to_json())
print(data.to_json(orient='records'))

⑤XML和HTML

Python中有很多可以对HTML和XML(eXtensible Markup Language)格式进行读取、写入的库，例如：lxml、Beatiful Soup和html5lib

# 安装read_html所使用的附加库——ltml
tables = pd.read_html('examples/fdic_failed_bank_list.html')
print('The len of tables: ', len(tables), '\n')

failures = tables[0]
print(failures.head(), '\n')

# 可以进行的数据处理——计算已倒闭的银行数量
close_timestamps = pd.to_datetime(failures['Closing Date'])
close_timestamps.dt.year.value_counts()

# 使用ltml解析较为简单的XML格式的数据
from lxml import objectify

path = 'datasets/mta_perf/Performance_MNR.xml'
parsed = objectify.parse(open(path))        # ltml.objectify()
root = parsed.getroot()         \

# 填充数据值
data = []
# 标签名序列
skip_fields = ['PARENT_SEQ', 'INDICATOR_SEQ',
               'DESIRED_CHANGE', 'DECIMAL_PLACES']
# root.INDICATOR 返回一个生成器
for elt in root.INDICATOR:
    el_data = {}
    for child in elt.getchildren():
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.pyval
    data.append(el_data)    # 在标签名序列下对应填充数据值

# 将包含字典的列表转换成DataFrame
perf = pd.DataFrame(data)
perf.head()

# 使用ltml解析更复杂的XML格式的元数据
from io import StringIO

tag = 'Google'
root = objectify.parse(StringIO(tag)).getroot()

# 可以访问标签或链接文本中的任何字段
print(root, '\n')
root        # 文本中的元素在内存中的位置
root.get('href')    # 文本元素的来源——即链接
root.text

2.二进制格式

pickle仅被推荐作为短期的存储格式，问题在于pickle很难确保格式的长期有效性。pandas内建支持其他两个二进制格式：HDF5和MessagePack。

pandas或NumPy其他的存储格式包括：

bcolz
Feather

# 将数据以pickle形式写入硬盘
frame = pd.read_csv('examples/ex1.csv')
print(frame)
frame.to_pickle('examples/frame_pickle') # 或：pd.read_pickle('examples/frame_pickle)

①使用HDF5格式

HDF5用于存储大量的科学数组数据，支持多种压缩模式的即时压缩，使得重复模式的数据可以更高效地存储。它以C库的形式提供，并且具有许多其他语言接口，包括Java、Julia、MATLAB和Python。I/O密集型困难的数据分析类问题使用HDF5会大大加速其应用
如果是在本地处理数据，建议使用 PyTables 和 h5py

# pd.HDFStore类

frame = pd.DataFrame({'a': np.random.randn(100)})
store = pd.HDFStore('mydata.h5')        # 有个可选的独立参数，需要conda install，否则会报错
store['obj1'] = frame                   # 或： store.put('obj1', frame, format='table')
store['obj1_col'] = frame['a']
print(store)
# 可以进行字典式索引
print(store['obj1'])
# 显示指定行数范围内的内容：
print('\nstore中第10行至第15行中的内容是：\n', store.select('obj2', where=['index >= 10 and index <= 15']))
store.close()

# HDFStore支持两种存储方式——'fixed'和'table'，后者更慢
frame.to_hdf('mydata.h5', 'obj3', format='table')
# 注意：以下语句不加< mode='r+' > 会报错The file 'mydata.h5' is already opened, but not in read-only mode (as requested).
pd.read_hdf('mydata.h5', 'obj3', where=['index < 5'], mode='r+')

②读取Microsoft Excel文件

pandas支持通过ExcelFile类或pandas.read_excel函数来读取Excel 2003或更高版本文件中的表格型数据，这些工具内部是使用附加包xlrd和openyxl来分别读取XLS和XLS文件的。

import pandas as pd

xlsx = pd.ExcelFile('examples/ex1.xlsx')
pd.read_excel(xlsx, 'Sheet1')       # 读取为DataFrame的表格型数据

frame = pd.read_excel('examples/ex1.xlsx', 'Sheet1')

# 将pandas数据写入到Excel格式中
writer = pd.ExcelWriter('examples/ex2.xlsx')
frame.to_excel(writer, 'Sheet1')        # 或：frame.to_excel('examples/ex2.xlsx')
writer.save()

frame

③与Web API交互

使用requests包

import requests

# 向网站发送一个HTTP GET请求
url = 'https://api.github.com/repos/pandas-dev/pandas/issues'
resp = requests.get(url)        
print(resp)

# Response对象的json方法将返回一个包含解析为本地Python对象的JSON的字典
data = resp.json()
print(data[0]['title'])

# data中的每个元素都是一个包含Github问题页面上的所有数据的字典（注释除外）
issues = pd.DataFrame(data, columns=['number', 'title',
                                     'labels', 'state'])
issues

# 生成一个SQLite数据库
import sqlite3

query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
 c REAL,        d INTEGER
);"""
con = sqlite3.connect('mydata.sqlite')      # 链接生成存储相关数据的文件
con.execute(query)                          # 文件定位，注意：第一次运行生成文件并保存后再运行，会报错该表格型文件已存在
# con.commit()                                # 保存

# 插入数据
data = [('Atlanta', 'Georgia', 1.25, 6),
        ('Tallahassee', 'Florida', 2.6, 3),
        ('Sacramento', 'California', 1.7, 5)]
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"
con.executemany(stmt, data)
con.commit()

# 当从数据库的表中选择数据时，大部分Python的SQL驱动（PyODBC、psycopg2、MySQLdb、psymssql等）返回的是元组的列表
cursor = con.execute('select * from test')
rows = cursor.fetchall()
print(rows)

# 将元组的列表传给DataFrame构造函数
print(cursor.description)
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])

# SQLAlchemy项目是一个流行的Python SQL工具包，抽象去除了SQL数据库之间的许多常见差异
import sqlalchemy as sqla

db = sqla.create_engine('sqlite:///mydata.sqlite')
pd.read_sql('select * from test', db)

五、数据清洗

其他补充详见系列文章——Pandas数据清洗

1.清洗空值

如果我们要删除包含空字段的行，可以使用 dropna() 方法，并通过 isnull() 判断各个单元格是否为空。

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

参数说明：

axis：默认为 0，表示逢空值剔除整行，如果设置参数 axis＝1 表示逢空值去掉整列

how：默认为 ‘any’ 如果一行（或一列）里任何一个数据有出现 NA 就去掉整行，如果设置 how=‘all’ 一行（或列）都是 NA 才去掉这整行。

thresh：设置需要多少非空值的数据才可以保留下来的

subset：设置想要检查的列。如果是多个列，可以使用列名的 list 作为参数

inplace：如果设置 True，将计算得到的值直接覆盖之前的值并返回 None，修改的是源数据。

示例见代码如下：

import pandas as pd

#  Pandas 把 n/a 和 NA 当作空数据，na 不是空数据，不符合我们要求，我们可以指定空数据类型：
missing_values = ["n/a", "na", "--"]
df = pd.read_csv('property-data.csv', na_values = missing_values)

print (df['NUM_BEDROOMS'])
print (df['NUM_BEDROOMS'].isnull())

2.删除指定列有空值的行

import pandas as pd

df = pd.read_csv('property-data.csv')
df.dropna(subset=['ST_NUM'], inplace = True)
print(df.to_string())import pandas as pd

df = pd.read_csv('property-data.csv')
df.dropna(subset=['ST_NUM'], inplace = True)
print(df.to_string())

3.替换空字段

fillna() 方法来替换一些空字段。Pandas使用 mean()、median() 和 mode() 方法计算列的均值（所有值加起来的平均值）、中位数值（排序后排在中间的数）和众数（出现频率最高的数）

import pandas as pd

df = pd.read_csv('property-data.csv')

x = df["ST_NUM"].mean()
df['PID'].fillna(12345, inplace = True)
df.fillna(12345, inplace = True)
print(df.to_string())

print("{:-^80}".format('分割线'))

df["ST_NUM"].fillna(x, inplace = True)
print(df.to_string())

4.清洗格式错误的数据

①格式化日期

import pandas as pd

# 第三个日期格式错误
data = {
  "Date": ['2020/12/01', '2020/12/02' , '20201226'],
  "duration": [50, 40, 45]
}

df = pd.DataFrame(data, index = ["day1", "day2", "day3"])
df['Date'] = pd.to_datetime(df['Date'])
print(df.to_string())

②替换或移除错误数据

import pandas as pd

person = {
  "name": ['Google', 'Baidu' , 'Wiki'],
  "age": [50, 40, 12345]    # 12345 年龄数据是错误的
}

df = pd.DataFrame(person)
df.loc[2, 'age'] = 30 # 修改数据
print(df.to_string())

③重复数据

要清洗重复数据，可以使用 duplicated() 和 drop_duplicates() 方法
对应的数据是重复的，duplicated() 会返回 True，否则返回 False
删除重复数据，可以直接使用drop_duplicates() 方法

import pandas as pd

person = {
  "name": ['Google', 'Baidu' , 'Wiki' , 'Wiki'],
  "age": [50, 40, 40, 23]  
}
df = pd.DataFrame(person)
print(df.duplicated())
df.drop_duplicates(inplace = True)
print(df)

你可能感兴趣的:(#,Python数据分析,python,数据分析,pandas,改行学it)

SpringBoot多数据源动态切换方案：AbstractRoutingDataSource详解 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot多数据源动态切换
stack_queue扩展学习 --- 反向迭代器茉莉玫瑰花茶 C++反向迭代器 C/C++
反向迭代器的实现思路源码及框架分析迭代器是用来遍历容器的，是一种封装，它不需要去关注容器的底层实现（底层是数组，链表，还是树等等这些结构），我们都是用统一的方式去对容器进行访问，访问行为是类似指针的。我们之前学习了普通迭代器和const迭代器：普通迭代器：能读能写；const迭代器：只能读，只能遍历数据，得到数据，不能修改数据，是不能写的。我们之前学的普通迭代器是正向迭代器，如果我想逆方向遍历呢？
「源力觉醒创作者计划」_以FastDeploy为例部署ERNIE-4.5-21B大模型全流程实践 cooldream2009 大模型基础 AI技术文心大模型 FastDeploy
目录前言1环境准备与依赖安装1.1硬件要求1.2Python环境与pip升级2下载ERNIE-4.5模型权重2.1安装HuggingFaceCLI工具2.2设置国内镜像加速（可选）2.3下载模型文件3安装FastDeploy与Paddle推理引擎3.1安装PaddlePaddle-GPU版本3.2安装FastDeploy-GPU4启动ERNIE-4.5本地服务4.1启动OpenAI兼容API服务4
Python打卡：Day46 剑桥折刀s python打卡 python
importtorchimporttorch.nnasnnimporttorch.optimasoptimimporttorchvisionfromtorchvisionimportdatasets,transformsfromtorch.utils.dataimportDataLoaderfromtorch.utils.tensorboardimportSummaryWriterimportnu
为什么在 macOS 中运行 Python 项目必须使用虚拟环境？ coding随想 Python macos python 开发语言
为什么在macOS中运行Python项目必须使用虚拟环境？在macOS上开发Python项目时，虚拟环境（VirtualEnvironment）是一个不可或缺的工具。无论你是初学者还是资深开发者，理解虚拟环境的意义和使用方法，都是提升开发效率和项目稳定性的关键。本文将从macOS的特殊性出发，深入浅出地解释为什么在macOS中运行Python项目必须使用虚拟环境。一、macOS系统Python的局
扣子智能体5：使用Python异步执行工作流并获取执行结果呆萌的代Ma 大模型 python 扣子
使用python异步执行工作流的步骤有3步：异步执行工作流，获取工作流的execute_id，之后就能根据这个id查询工作流的执行情况如果execute_id=“Success”，就表示工作流执行完毕执行完毕后，打印output，就是大模型最后的全部示例代码fromloguruimportloggerimportrequestsimportjsondefrun_coze_ai(coze_api_t
MCP客户端请求MCP服务器资源的Python SDK实现 AI天才研究院计算 AI人工智能与大数据 Python实战 python 开发语言 ai 服务器
我将为您提供一个详细的指南，说明如何使用PythonSDK让MCP客户端请求MCP服务器的资源。MCP客户端请求MCP服务器资源的PythonSDK实现核心概念ModelContextProtocol(MCP)是一个标准化协议，允许应用程序以标准化的方式为大语言模型(LLM)提供上下文，将提供上下文的关注点与实际的LLM交互分离。MCP中的资源(Resources)是一种核心原语，允许服务器暴露数
python中提示‘pyinstaller‘ 不是内部或外部命令，也不是可运行的程序或批处理文件。
一、出现这个问题的原因：来自于首先安装这个pyinstaller的时候，没有将D:\01_SoftWare\python3.9.13\Scripts或者D:\01_SoftWare\python3.9.13或者是D:\01_SoftWare\python3.9.13\Lib添加到环境变量中，那需要做的第一步就是添加下系统的环境变量。这样就可以了。到这里，可能一部分人，再次安装就好了，但是这边尝试看
第十篇：Python 进阶-内存管理程序员勇哥 Python全套教程 python jvm 开发语言
第十篇：Python进阶-内存管理1.垃圾回收机制引用计数原理引用计数是Python垃圾回收机制中最基本的一种方式。其核心思想是：每个对象都维护一个引用计数，记录当前指向该对象的引用（变量）的数量。当对象的引用计数变为0时，意味着没有任何变量指向该对象，Python解释器会立即回收该对象所占用的内存空间。例如，考虑以下代码：a=[1,2,3]#创建一个列表对象，并将其引用赋值给变量a，此时列表对象
Python 三方库 python-dotenv wohu007 #标准库和三方库 python python-dotenv
1.简介在一些项目中，处于安全性的要求，一般不将密码，key等放入到配置文件中。然而这些代码又是上传在git等平台上。为了方便管理。一般采用系统变量的方式来实现。从而实现配置和代码分开。2.安装pipinstallpython-dotenv3.使用目录结构及代码.├──.env└──demo.py.env内容REDIS_HOST="127.0.0.1"PWD="/home/wohu"你可以使用单词
Python自动化测试基础知识心一 Python自动化测试 python 开发语言
Python自动化测试基础知识一、自动化测试基础概念1.什么是自动化测试使用脚本和工具代替人工执行测试用例的过程通过编写代码来模拟用户操作，验证系统功能核心目标是提高测试效率，减少重复劳动2.自动化测试的优势高效率：可快速执行大量测试用例可重复：相同测试可反复执行，结果一致准确性：避免人为错误覆盖率：可执行难以手动测试的复杂场景持续集成：易于与CI/CD流程集成3.自动化测试的适用场景回归测试性能
python进阶之数据结构与算法--入门-二叉树小白piao 数据结构与算法python篇数据结构算法二叉树 python
二叉树概念：之前已经提及了关于树的概念，要想知道之前讲了什么请关注，前边文章里都有提及。这里不做赘述。二叉树是具有以下属性的有序树：1、每个节点最多有两个孩子节点2、每个孩子节点被命名为左子节点和右子节点3、对于每个节点的孩子节点，在顺序上，左子节点优先于右子节点4、若子树的根为内部节点v的左子节点或者右子节点，则该子树相应地被称为节点v的左子树或者右子树5、若每个节点都有零个或者两个节点，则这样
Python进阶 - 关键字 Global 和 Return 孤寒者 Python全栈系列教程 python global return
目录：每篇前言：一、`return`的角色与机制二、`global`关键字与命名空间三、函数多值返回的高级模式四、`global`vs`nonlocal`vs返回值五、最佳实践与反模式总结每篇前言：作者介绍：【孤寒者】—CSDN全栈领域优质创作者、HDZ核心组成员、华为云享专家Python全栈领域博主、CSDN原力计划作者本文已收录于Python全栈系列教程专栏：《Python全栈系列教程》热门专
Python Set() 完全指南：从入门到精通 2501_91537435 python python 开发语言
PythonSet()完全指南：从入门到精通Set（集合）是Python中一种非常有用的内置数据类型，它提供了高效的成员检测和消除重复元素的功能。本文将带你全面了解Python中的set()，从基础概念到高级用法。一、什么是Set？Set是Python中的一种无序、可变、不重复元素的集合数据类型。它类似于数学中的集合概念，支持并集、交集、差集等操作。#创建一个setfruits={'apple',
一文读懂Python+Pytest+Allure+Jenkins+Gitee自动化测试框架，手把手教你搭建
Python+Pytest+Allure+Jenkins+Gitee自动化测试框架一、框架整体架构1.技术栈分工Python：测试脚本开发语言Pytest：测试用例管理和执行引擎Allure：测试报告生成与展示Jenkins：持续集成和任务调度Gitee：代码版本管理和触发机制2.数据流向Gitee代码提交→Jenkins触发构建→Pytest执行用例→生成Allure结果→Jenkins收集报告
【vue】用conda配置nodejs，一键开通模版使用权温择之 conda
特此鸣谢我的好同学@重中之重的特级教学，非常之好用一、conda环境下载安装二、创建包含nodejs的conda环境创建一个新环境：condacreate-n【自定义环境名字】python=3.9condacreate-nmy_nodejs_envpython=3.9激活新环境：condaactivate【环境名字】condaactivatemy_nodejs_env下载安装nodejs：cond
大模型API密钥的环境变量配置（大模型API KEY管理）（将密钥存储在环境变量）（python-dotenv）（密钥管理）环境变量设置环境变量 Dontla 大模型LLM python 开发语言
文章目录大模型API密钥的环境变量配置：安全与最佳实践引言安全风险代码泄露风险版本控制暴露环境变量的优势安全隔离跨环境一致性环境变量配置方法Linux/macOS配置Windows配置开发框架集成Node.js使用dotenvPython使用python-dotenv最佳实践.env文件管理环境变量模板容器环境配置安全增强措施密钥轮换机制秘密管理服务集成总结大模型API密钥的环境变量配置：安全与最
Java研学-MongoDB(三) 泰勒疯狂展开 #Java研学 java mongodb 开发语言
三文档相关7文档统计查询 ①语法：//精确统计文档数慢准dahuang>db.xiaohuang.countDocuments({条件})4//粗略统计文档数快大致准dahuang>db.xiaohuang.estimatedDocumentCount({条件})4 ②例子：//精确统计文档数name为奔波儿灞dahuang>db.xiaohuang.countDocuments({name:
零基础上手鸿蒙开发：用ArkTS打造你的第一个HarmonyOS应用 harmonyos
摘要随着HarmonyOS的不断发展，越来越多开发者开始关注这套以分布式能力为核心的国产操作系统。不同于传统Android开发，HarmonyOS引入了更现代的Stage模型以及更高效的声明式UI语言——ArkTS，让应用开发更灵活、更统一。本文将带你从零开始构建一个完整的鸿蒙应用，从环境配置、页面开发到交互实现，逐步掌握入门技能。引言：鸿蒙开发为啥值得学？从2019年首次发布到现在，Harmon
操作系统领域的新宠儿：鸿蒙应用深度剖析操作系统内核探秘操作系统内核揭秘 harmonyos 华为 ai
操作系统领域的新宠儿：鸿蒙应用深度剖析关键词：鸿蒙操作系统、微内核架构、分布式软总线、ArkUI框架、DevEcoStudio、跨设备开发、全场景生态摘要：本文深度剖析华为鸿蒙操作系统的核心技术架构与应用开发体系，从微内核设计、分布式协同技术、UI框架创新到全场景开发工具链展开分析。通过数学模型解析分布式一致性算法，结合Python代码演示核心调度逻辑，并以实战案例演示跨设备应用开发流程。探讨鸿蒙
NumPy-随机数生成详解 GG不是gg numpy numpy
NumPy-随机数生成详解一、随机数生成的基础：伪随机数与种子1.伪随机数的本质2.种子的设置：确保结果可复现二、常用随机数生成函数1.均匀分布随机数2.正态分布随机数3.整数随机数4.其他常用分布三、随机数生成的进阶操作1.随机排列与洗牌2.控制随机数的维度与形状四、随机数生成的应用场景1.数据增强2.蒙特卡洛模拟3.随机初始化参数五、注意事项NumPy作为Python数值计算的核心库，提供了功
python namedtuple转为dict 链池 python 开发语言
python相关学习资料：搭建私人助理大模型需要什么环境？006_指法标准_键盘正位_你好世界_hello_world_单引号_双引号一张图生成指定动作的动态视频,MagicAnimate本地部署Pythonnamedtuple转为dict的方法作为一名经验丰富的开发者，我很高兴能够帮助刚入行的小白们解决编程问题。今天，我们将一起学习如何将Python中的namedtuple转换为dict。这个过
Docker容器技术核心知识点精要 18你磊哥 docker基础面试学习 docker 容器运维
学海无涯，志当存远。燃心砺志，奋进不辍。愿诸君得此鸡汤，如沐春风，事业有成。若觉此言甚善，烦请赐赞一枚，共励学途，同铸辉煌！1.什么是Docker容器？Docker容器是轻量级、可移植的软件单元，基于Docker镜像创建。它在隔离的进程空间中运行应用程序，包含代码、运行时环境、系统工具和依赖库。容器共享主机操作系统内核，启动快、资源占用低。2.Docker的应用场景✅微服务部署：独立部署/扩展单个
Python namedtuple 详解：作用与使用方法
文章目录一、什么是namedtuple主要特点：二、namedtuple的作用1.替代普通元组，提高代码可读性2.替代简单类，减少样板代码3.作为轻量级数据结构三、基本使用方法1.创建namedtuple类型2.创建实例3.访问字段4.不可变性测试四、高级特性与方法1._asdict()-转换为有序字典2._replace()-创建新实例并替换字段3._fields-查看字段名4._make()-
探秘`nanomsg-python`: Python中的高效通信库
探秘nanomsg-python:Python中的高效通信库nanomsg-pythonnanomsgwrapperforpythonwithmultiplebackends(CPythonandctypes)shouldsupport2/3andPypy项目地址:https://gitcode.com/gh_mirrors/na/nanomsg-python在Python的世界里，找到一个既能满
Springboot和Python之间通过RabbitMQ进行双向异步消息交互demo示例同心圆码农后端 java-rabbitmq spring boot python
SpringBoot后端和Python算法之间解耦设计，采用通过消息总线RabbitMQ进行双向异步交互，以下是一个demo样例，罗列出了实现该功能需要做的工作，包括软件安装、RabbitMQ基本介绍、Springboot后端demo代码、Pythondemo代码、运行流程以及调试遇到问题软件安装Win10本地需要安装RabbitMQ，作为Springboot后端和Python模块通讯的消息中间件
Python词法分析器：从概念到实践凡狗蛋
本文还有配套的精品资源，点击获取简介：Python词法分析器是编程语言处理的关键环节，负责将源代码解析为有意义的标记或符号序列。本简介详细介绍了词法分析、正则表达式、分词、词法规则、词法分析器生成器以及编译原理等核心概念，并展示了如何使用Python内置的re模块和第三方库ply实现词法分析器，为进一步理解编程语言的工作原理和构建自定义编程语言打下基础。1.词法分析器的作用与目的词法分析器是编译器
Python打卡：Day27 剑桥折刀s python打卡 python
deflogger(func):defwrapper(*args,**kwargs):#打印函数开始执行的日志print(f"开始执行函数:{func.__name__}")print(f"参数:args={args},kwargs={kwargs}")#执行原函数并获取返回值result=func(*args,**kwargs)#打印函数执行结束的日志print(f"函数{func.__name
【Python进阶篇面向对象程序设计(5) 异常处理】 nananaij python pycharm 开发语言
文章目录1、基础异常类（所有异常的父类）2、异常类型总结3、异常处理（1）try......except语句：捕获和处理异常（2）try......except......else语句（3）try......except......finally语句（4）raise语句（5）assert语句：调试断言1、基础异常类（所有异常的父类）BaseException：所有内置异常的基类（不建议直接捕获）。
【Python入门与进阶】Python面向对象编程练习小龙 python 面向对象编程练习
练习题1：定义一个Person类定义一个Person类，它有以下属性和方法：属性：name（字符串）：表示人的名字。age（整数）：表示人的年龄。方法：__init__(self,name,age)：构造方法，用于初始化name和age。greet(self)：打印Hello,mynameis[name]andIam[age]yearsold.classPerson:def__init__(sel
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round