banlei1559

第六篇数据加载、存储与⽂件格式

输⼊输出通常可以划分为⼏个⼤类：读取⽂本⽂件和其他更⾼效的磁盘存储格式，加载数据库中的数据，利⽤Web API操作⽹络资源。

一、读写文本格式的数据

pandas提供了⼀些⽤于将表格型数据读取为DataFrame对象的函数。
表6-1对它们进⾏了总结，其中read_csv和read_table可能会是今后⽤得最多的。
表6-1 pandas中的解析函数

这些函数的选项可以划分为以下⼏个⼤类：
索引：将⼀个或多个列当做返回的DataFrame处理，以及是否从⽂件、⽤户获取列名。
类型推断和数据转换：包括⽤户定义值的转换、和自定义的缺失值标记列表等。
⽇期解析：包括组合功能，⽐如将分散在多个列中的⽇期时间信息组合成结果中的单个列。
迭代：⽀持对⼤⽂件进⾏逐块迭代。
不规整数据问题：跳过⼀些⾏、⻚脚、注释或其他⼀些不重要的东⻄（⽐如由成千上万个逗号隔开的数值数据）。

因⼯作中实际碰到的数据可能⼗分混乱，⼀些数据加载函数（尤其是read_csv）的选项逐渐变得复杂起来。⾯对不同的参数，感到头痛很正常（read_csv有超过50个参数）。pandas⽂档有这些参数的例⼦，如果阅读某个⽂件很难，可以通过相似的⾜够多的例⼦找到正确的参数。

其中⼀些函数，⽐如pandas.read_csv，有类型推断功能，因为列数据的类型不属于数据类型。也就是说，你不需要指定列的类型到底是数值、整数、布尔值，还是字符串。其它的数据格式，如HDF5、Feather和msgpack，会在格式中存储数据类型。

⽇期和其他⾃定义类型的处理需要多花点⼯夫才⾏。⾸先来看⼀个以逗号分隔的（CSV）⽂本⽂件：
!type ex1.csv 　　# 输出如下：（Unix or Linux命令是：!cat ex1.csv）
a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo
该⽂件以逗号分隔，可以使⽤read_csv将其读⼊⼀个DataFrame：
df = pd.read_csv('examples/ex1.csv')
df 　　　　 # 输出如下：
a b c d 　message
0 1 2 3 4 　　 hello
1 5 6 7 8 　　 world
2 9 10 11 12 　　 foo

还可以使⽤read_table，并指定分隔符：
pd.read_table('examples/ex1.csv', sep=',') 　　# 输出如下：
a b c d 　message
0 1 2 3 4 　　 hello
1 5 6 7 8 　　 world
2 9 10 11 12 　　 foo

并不是所有⽂件都有标题⾏。看看下⾯这个⽂件：
!type examples\\ex2.csv 　　# 输出如下：
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo
读⼊该⽂件的办法有两个。你可以让pandas为其分配默认的列名，也可以⾃⼰定义列名：
pd.read_csv('examples/ex2.csv', header=None) 　　# 默认列名
0 1 2 3 4
0 1 2 3 4 hello
1 5 6 7 8 world
2 9 10 11 12 foo
pd.read_csv('examples/ex2.csv', names=['a', 'b', 'c', 'd', 'message']) 　　　　# 指定列名
a b c d 　message
0 1 2 3 4 　　 hello
1 5 6 7 8 　　 world
2 9 10 11 12 　　 foo

将message列做成DataFrame的索引。明确表示要将该列放到索引4的位置上，也可以通过index_col参数指定"message"：
names = ['a', 'b', 'c', 'd', 'message']
pd.read_csv('examples/ex2.csv', names=names, index_col='message')
　　　　 a b c d
message
hello 　　 1 2 3 4
world 　　 5 6 7 8
foo 　　　 9 10 11 12

如果希望将多个列做成⼀个层次化索引，只需传⼊由列编号或列名组成的列表即可：
!type examples\\csv_mindex.csv 　　# 原文件内容如下：
key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16
parsed = pd.read_csv('examples/csv_mindex.csv', index_col=['key1', 'key2']) 　　 # 打开时指定key1,key2为索引
parsed 　　　　 # 输出如下：
　　　　　　value1 value2
key1 key2
one 　　a 　　 1 　　 2
　　　　b 　　 3　　 4
　　　　c 　　 5 　　 6
　　　　d 　　 7 　　 8
two 　　 a 　　 9 　　 10
　　　　b 　　 11 　　 12
　　　　c 　　 13 　　 14
　　　　d 　　 15 　　 16

有些表格可能不是⽤固定的分隔符去分隔字段的（⽐如空⽩符或其他模式来分隔字段）。看看下⾯这个⽂本⽂件：
list(open('examples/ex3.txt'))　　　　# 输出如下：
['　　　　 A　　　　B 　　　　 C\n',
'aaa -0.264438 -1.026059 -0.619500\n',
'bbb 0.927272 0.302904 -0.032399\n',
'ccc -0.264273 -0.386314 -0.217601\n',
'ddd -0.871858 -0.348382 1.100491\n']
虽然可以⼿动对数据进⾏规整，这⾥的字段是被数量不同的空⽩字符间隔开的。这种情况下，传递⼀个正则表达式作为read_table的分隔符。可以⽤正则表达式为\s+，于是有：
result = pd.read_table('examples/ex3.txt', sep='\s+')
result　　　　# 输出如下：
　　　　　 A 　　　 B 　　　 C
aaa -0.264438 -1.026059 -0.619500
bbb 0.927272 0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382 1.100491
这⾥，由于列名⽐数据⾏的数量少，所以read_table推断第⼀列应该是DataFrame的索引。这些解析器函数还有许多参数可以帮助你处理各种各样的异形⽂件格式（表6-2列出了⼀些）。⽐如说，你可以⽤skiprows跳过⽂件的第⼀⾏、第三⾏和第四⾏：
!type examples\\ex4.csv 　　　　# 文件内容原文如下：
# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who reads CSV files with computers, anyway?
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo
pd.read_csv('examples/ex4.csv', skiprows=[0, 2, 3]) 　　# 跳过第1、3、4行
a b c d message
0 1 2 3 4 hello
1 5 6 7 8 world
2 9 10 11 12 foo

缺失值处理是⽂件解析任务中的⼀个重要组成部分。缺失数据经常是要么没有（空字符串），要么⽤某个标记值表示。默认情况下，pandas会⽤⼀组经常出现的标记值进⾏识别，⽐如NA及NULL：
!type examples\\ex5.csv 　　　　# 原文件内容如下：
something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo
result = pd.read_csv('examples/ex5.csv')
result 　　　　 # 输出如下：
　　 something 　　 a b c d message
0 　　　　 one 　　 1 2 3.0 4 　　 NaN
1 　　　　 two　　 5 6 NaN 8 　　 world
2 　　 three 　　 9 10 11.0 12 　　    foo
pd.isnull(result) 　　 # 输出如下：
　　something 　   a 　   b 　   c 　   d message
0 　　　 False False False False False 　　True
1 　　　 False False False True False 　　 False
2 　　　 False False False False False 　　 False
na_values可以⽤⼀个列表或集合的字符串表示缺失值：
result = pd.read_csv('examples/ex5.csv', na_values=['NULL'])
result　　　　# 输出如下：
　　 something 　　 a b c d message
0 　　　　 one 　　 1 2 3.0 4 　　  NaN
1 　　　　 two　　 5 6 NaN 8 　　 world
2 　　 three 　　 9 10 11.0 12 　　    foo

字典的各列可以使⽤不同的NA标记值：
sentinels = {'message': ['foo', 'NA'], 'something': ['two']} 　　 # 设置了标记值的，都会被改为NaN
pd.read_csv('examples/ex5.csv', na_values=sentinels)　　# 输出如下：
　　 something 　　 a b c d message
0 　　　　 one 　　 1 2 3.0 4 　　 NaN
1 　　　 NaN　　 5 6 NaN 8 　　 world
2 　　 three 　　 9 10 11.0 12 　　 NaN

表6-2列出了pandas.read_csv和pandas.read_table常⽤的选项

1、逐块读取文本文件
在处理很⼤的⽂件时，或找出⼤⽂件中的参数集以便于后续处理时，你可能只想读取⽂件的⼀⼩部分或逐块对⽂件进⾏迭代。
在看⼤⽂件之前，我们先设置pandas显示的最大行数：
pd.options.display.max_rows = 10
然后打开文件：
result = pd.read_csv('examples/ex6.csv')
result 　　　　 # 输出如下：
　　　 one　　　 two 　　 three 　　   four 　 key
0 0.467976 -0.038649 -0.295344 -1.824726 　　 L
1 -0.358893 1.404453 0.704965 -0.200638 　　 B
2 -0.501840 0.659254 -0.421691 -0.057688 　　 G
3 0.204886 1.074134 1.388361 -0.982404 　　 R
4 　 0.354628 -0.133116 0.283763 -0.837063 　　 Q
... 　　　　 ...　　　　 ... 　　　　 ...　　 ... 　　 ..
9995 2.311896 -0.417070 -1.409599 -0.515821 　 L
9996 -0.479893 -0.650419 0.745152 -0.646038 　 E
9997 0.523331 0.787112 0.486066 1.093156 　　 K
9998 -0.362559 0.598894 -1.843201 0.887292 　 G
9999 -0.096376 -1.012999 -0.657431 -0.573315    0
[10000 rows x 5 columns]
如果只想读取⼏⾏（避免读取整个⽂件），通过nrows进⾏指定即可：
pd.read_csv('examples/ex6.csv', nrows=5)
  　　 one　　　 two 　　 three 　　   four 　 key
0 0.467976 -0.038649 -0.295344 -1.824726 　　 L
1 -0.358893 1.404453 0.704965 -0.200638 　　 B
2 -0.501840 0.659254 -0.421691 -0.057688 　　 G
3 0.204886 1.074134 1.388361 -0.982404 　　 R
4  　  0.354628 -0.133116 0.283763 -0.837063 　　 Q

要逐块读取⽂件，可以指定chunksize（⾏数）：
chunker = pd.read_csv('examples/ex6.csv', chunksize=1000)　　# 一次读取1000行
chunker 　　 # 输出：
read_csv所返回的这个TextParser对象使你可以根据chunksize对⽂件进⾏逐块迭代。⽐如说，我们可以迭代处理ex6.csv，将值计数聚合到"key"列中，如下所示：
chunker = pd.read_csv('examples/ex6.csv', chunksize=1000) 　　# chunksize=1000，指定一次读取1000行
tot = pd.Series([])
for piece in chunker:
　　tot = tot.add(piece['key'].value_counts(), fill_value=0)
tot = tot.sort_values(ascending=False)
tot[:10] 　　 # 前10行输出如下：
E 　　 368.0
X 　　 364.0
L 　　 346.0
O 　　 343.0
Q 　　 340.0
M 　　 338.0
J 　　 337.0
F 　　 335.0
K 　　 334.0
H 　　 330.0
dtype: float64
TextParser还有⼀个get_chunk⽅法，它使你可以读取任意⼤⼩的块。

2、将数据写出到⽂本格式
数据也可以被输出为分隔符格式的⽂本。再来看看之前读过的⼀个CSV⽂件：
data = pd.read_csv('examples/ex5.csv')
data 　　 # 输出如下
　　something 　　 a b c d message
0 　　　　 one 　　 1 2 3.0 4 　　 NaN
1 　　　　 two　　 5 6 NaN 8 　　 world
2 　　 three 　　 9 10 11.0 12 　　 foo
利⽤DataFrame的to_csv⽅法，我们可以将数据写到⼀个以逗号分隔的⽂件中：
data.to_csv('examples/my_out.csv')
!type examples\\my_out.csv 　　 # 查看结果
,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo

还可以使⽤其他分隔符（由于这⾥直接写出到sys.stdout，打印出⽂本结果）：
import sys
data.to_csv(sys.stdout, sep=':') 　　 # 输出结果如下：
:something:a:b:c:d:message
0:one:1:2:3.0:4:
1:two:5:6::8:world
2:three:9:10:11.0:12:foo

缺失值在输出结果中会被表示为空字符串。你可能希望将其表示为别的标记值：
data.to_csv(sys.stdout, na_rep='NULL') 　　# 设置缺省值的输出结果
,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo

如果没有设置其他选项，则会写出⾏和列的标签。当然，它们也都可以被禁⽤：
data.to_csv(sys.stdout, index=False, header=False) 　　# 禁用行和列标签
one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo
此外，你还可以只写出⼀部分的列，并以你指定的顺序排列：
data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c']) 　　# 输出指定的列，并按指定的顺序排列
a,b,c
1,2,3.0
5,6,
9,10,11.0

Series也有⼀个to_csv⽅法：
dates = pd.date_range('1/1/2000', periods=7)
ts = pd.Series(np.arange(7), index=dates)
ts.to_csv('examples/my_tseries.csv')
!type examples\\my_tseries.csv 　　 # 结果输出如下：
2000-01-01,0
2000-01-02,1
2000-01-03,2
2000-01-04,3
2000-01-05,4
2000-01-06,5
2000-01-07,6

3、处理分隔符格式

pandas.read_table可加载大部分表格型数据，然⽽，有时还是需要做⼀些⼿⼯处理。由于接收到含有畸形⾏的⽂件⽽使read_table出⽑病的情况并不少⻅。为了说明这些基本⼯具，看看下⾯这个简单的CSV⽂件：
!type examples\\ex7.csv 　　# 原文件内容如下：
"a","b","c"
"1","2","3"
"1","2","3"
对于任何单字符分隔符⽂件，可以直接使⽤Python内置的csv模块。将任意已打开的⽂件或⽂件型的对象传给csv.reader：
import csv
f = open('examples/ex7.csv')
reader = csv.reader(f)
对这个reader进⾏迭代将会为每⾏产⽣⼀个元组（并移除了所有的引号）：
for line in reader:
　　print(line)　　# 输出如下：
['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3']

为了使数据格式合乎要求，你需要对其做⼀些整理⼯作。我们⼀步⼀步来做。
⾸先，读取⽂件到⼀个多⾏的列表中：
with open('examples/ex7.csv') as f:
　　lines = list(csv.reader(f)) 　　# 将reader对象转换为列表
然后，我们将这些⾏分为标题⾏和数据⾏：
header, values = lines[0], lines[1:]
然后，我们可以⽤字典构造式和zip(*values)，后者将⾏转置为列，创建数据列的字典：
data_dict = {h:v for h,v in zip(header, zip(*values))}
data_dict 　　 # 输出：{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

CSV⽂件的形式有很多。只需定义csv.Dialect的⼀个⼦类即可定义出新格式（如专⻔的分隔符、字符串引⽤约定、⾏结束符等）：
class my_dialect(csv.Dialect):
　　lineterminator = '\n'
　　delimiter = ';'
　　quotechar = '"'
　　quoting = csv.QUOTE_MINIMAL
reader = csv.reader(f, dialect=my_dialect)
各个CSV语⽀的参数也可以关键字的形式提供给csv.reader，⽽⽆需定义⼦类：
reader = csv.reader(f, delimiter='|')
可⽤的选项（csv.Dialect的属性）及其功能如表6-3所示（CSV语支选项）

使⽤复杂分隔符或多字符分隔符的⽂件，csv模块就⽆能为⼒了。这种情况下，就只能使⽤字符串的split⽅法或正则表达式⽅法re.split进⾏⾏拆分和其他整理⼯作。

要⼿⼯输出分隔符⽂件，可使⽤csv.writer。它接受⼀个已打开且可写的⽂件对象以及跟csv.reader相同的那些语⽀和格式化选项：
with open('examples/mydata.csv', 'w') as f: 　　　　# 写入到文件mydata.csv
　　writer = csv.writer(f, dialect=my_dialect)　　 # 创建csv文件的写入对象，用对象去调用写入方法
　　writer.writerow(('one', 'two', 'three'))
　　writer.writerow(('1', '2', '3'))
　　writer.writerow(('4', '5', '6'))
　　writer.writerow(('7', '8', '9'))

4、JSON数据
JSON（JavaScript Object Notation的简称）已经成为通过HTTP请求在Web浏览器和其他应⽤程序之间发送数据的标准格式之⼀。它是⼀种⽐表格型⽂本格式（如CSV）灵活得多的数据格式。下⾯是⼀个例⼦：
obj = """
{"name": "Wes",
"places_lived": ["United States", "Spain", "Germany"],
"pet": null,
"siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
　　　　 {"name": "Katie", "age": 38, "pets": ["Sixes", "Stache", "Cisco"]}]
}"""
除其空值null和一些其他的细微差别（如列表末尾不允许存在多余的逗号）之外，JSON非常接近于有效的Python代码。基本类型有对象（字典）、数组（列表）、字符串、数值、布尔值以及null。对象中所有的键都必须是字符串。许多Python库都可以读写JSON数据。我将使用json，因为它是构建于Python标准库中的。通过json.loads即可将JSON字符串转换成Python形式：

import json
result = json.loads(obj)　　# JSON字符串转换成Python形式
result 　　 # 输出如下：
{'name': 'Wes',
'places_lived': ['United States', 'Spain', 'Germany'],
'pet': None,
'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']},
{'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}
json.dumps则将Python对象转换成JSON格式：
asjson = json.dumps(result)

如何将（⼀个或⼀组）JSON对象转换为DataFrame或其他便于分析的数据结构就由需求来定。最简单⽅便的⽅式是：向DataFrame构造器传⼊⼀个字典的列表（就是原先的JSON对象），并选取数据字段的⼦集：
siblings = pd.DataFrame(result['siblings'], columns=['name', 'age']) 　　# 根据需要提取数据
siblings 　　　　 # 输出如下：
　　 name 　 age
0 　　 Scott 　　 30
1 　　 Katie 　　 38
pandas.read_json可以⾃动将特别格式的JSON数据集转换为Series或DataFrame。例如：
!type examples\\example.json 　　　　# 原文件内容如下
[{"a": 1, "b": 2, "c": 3},
{"a": 4, "b": 5, "c": 6},
{"a": 7, "b": 8, "c": 9}]
pandas.read_json的默认选项假设JSON数组中的每个对象是表格中的⼀⾏：
data = pd.read_json('examples/example.json')
data 　　　　 # 输出如下：
　　 a 　　 b 　　 c
0 　　 1 　　 2 　　 3
1 　　 4 　　 5 　　 6
2 　　 7 　　 8 　　 9
要将数据从pandas输出到JSON，可以使⽤to_json⽅法：
print(data.to_json()) 　　# 输出如下：（以字典方式写入）
{"a":{"0":1,"1":4,"2":7},"b":{"0":2,"1":5,"2":8},"c":{"0":3,"1":6,"2":9}}
print(data.to_json(orient='records')) 　　# 输出如下：（以字典列表方式写入）
[{"a":1,"b":2,"c":3},{"a":4,"b":5,"c":6},{"a":7,"b":8,"c":9}]

5、XML和HTML：Web信息收集
Python有许多可以读写常⻅的HTML和XML格式数据的库，包括lxml、Beautiful Soup和html5lib。lxml的速度⽐较快，但其它的库处理有误的HTML或XML⽂件更好。

pandas有⼀个内置的功能，read_html，它可以使⽤lxml和Beautiful Soup⾃动将HTML⽂件中的表格解析为DataFrame对象。为进一步实验，先安装read_html要用到的库：
conda install lxml
pip install beautifulsoup4 html5lib
不用conda，可以使⽤pip install lxml

pandas.read_html有⼀些选项，默认条件下，它会搜索、尝试解析

标签内的的表格数据。结果是⼀个列表的DataFrame对象：
tables = pd.read_html('examples/fdic_failed_bank_list.html')
len(tables) 　　 # 输出：1
failures = tables[0]
failures.head()　　　　# 输出如下：
　　　　　　　　　　　　　　  Bank Name 　　　　 City 　　　 ST 　　 CERT 　　 \
0 　　　　　　　　　　　　　   Allied Bank 　　 Mulberry 　　 AR 　　 91
1 　　　　The Woodbury Banking Company 　　 Woodbury 　　 GA 　　 11297
2 　　　　　　　　 First CornerStone Bank 　　 King of Prussia   PA 　　 35312
3 　　　　　　　　　  Trust Company Bank 　　   Memphis 　　 TN 　　 9956
4 　　　　　　 North Milwaukee State Bank 　　 Milwaukee 　　 WI 　　 20364

　　　　　　　　　　 Acquiring Institution 　　 Closing Date 　　　　　  Updated Date
0 　　　　　　　　　　　　   Today's Bank 　　 September 23, 2016 　　 November 17, 2016
1 　　　　　　　　　　　　　 United Bank 　　 August 19, 2016 　　　　 November 17, 2016
2 　　 First-Citizens Bank & Trust Company 　　 May 6, 2016 　　　　　　 September 6, 2016
3 　　　　　　 The Bank of Fayette County 　　 April 29, 2016 　　　　　  September 6, 2016
4 　　 First-Citizens Bank & Trust Company 　　 March 11, 2016 　　　　   June 16, 2016
因为failures有许多列，pandas插⼊了⼀个换⾏符 \ 。
这⾥，我们可以做⼀些数据清洗和分析，⽐如计算按年份计算倒闭的银⾏数：
close_timestamps = pd.to_datetime(failures['Closing Date'])
close_timestamps.dt.year.value_counts() 　　# 输出如下：
2010 　　 157
2009 　　 140
2011 　　 92
2012 　　 51
2008　　 25
　　...
2004 　　 4
2001 　　 4
2007 　　 3
2003 　　 3
2000　　 2
Name: Closing Date, Length: 15, dtype: int64

6、利⽤lxml.objectify解析XML

XML（Extensible Markup Language）是另⼀种常⻅的⽀持分层、嵌套数据以及元数据的结构化数据格式。
XML和HTML的结构很相似，但XML更为通⽤。这⾥，⽤⼀个例⼦演示如何利⽤lxml从XML格式解析数据。
现有一个xml文件Performance_MNR.xml，内容如下所示：

373889

Metro-North Railroad
Escalator Availability
Percent of the time that escalators are operational
systemwide. The availability rate is based on physical observations performed
the morning of regular business days only. This is a new indicator the agency
began reporting in 2009.
2011
12
Service Indicators
M
U
%
1
97.00

97.00

我们先⽤lxml.objectify解析该⽂件，然后通过getroot得到该XML⽂件的根节点的引⽤：
from lxml import objectify
path = 'examples/mta_perf/Performance_MNR.xml'
parsed = objectify.parse(open(path))
root = parsed.getroot()
root.INDICATOR返回⼀个⽤于产⽣各个XML元素的⽣成器。对于每条记录，我们可以⽤标记名（如YTD_ACTUAL）和数据值填充⼀个字典（排除⼏个标记）：
data = []
skip_fields = ['PARENT_SEQ', 'INDICATOR_SEQ', 'DESIRED_CHANGE', 'DECIMAL_PLACES']
for elt in root: 　　# 原代码：for elt in root.INDICATOR:
　　el_data = {}
　　for child in elt.getchildren():
　　　　if child.tag in skip_fields:
　　　　　　continue
　　　　el_data[child.tag] = child.pyval
　　data.append(el_data)
最后，将这组字典转换为⼀个DataFrame：
perf = pd.DataFrame(data)
perf.head() 　　　　# 输出如下：
　　　　 AGENCY_NAME 　　　　 CATEGORY 　　 \
0 　　 Metro-North Railroad 　　 Service Indicators
　　　　　　　　　　　　DESCRIPTION FREQUENCY 　　 \
0　　 Percent of the time that escalators are operat... 　　　　 M
　　　　INDICATOR_NAME 　　 ...　　 MONTHLY_TARGET PERIOD_MONTH 　　 \
0 　　 Escalator Availability 　　 ...　　97.0 　　 12
　　 PERIOD_YEAR YTD_ACTUAL YTD_TARGET
0 　　　　 2011　　　　　　 97.0
[1 rows x 12 columns]

XML数据可以复杂得多。每个标记都可以有元数据。看看这个HTML的链接标签（它也算是⼀段有效的XML）：
from io import StringIO
tag = 'Google'
root = objectify.parse(StringIO(tag)).getroot()
现在就可以访问标签或链接⽂本中的任何字段了（如href）：
root 　　　　　　 # 输出：
root.get('href')　　 # 输出：'http://www.google.com'
root.text 　　　　 # 输出：'Google'

二、⼆进制数据格式

1、pandas.read_pickle,pandas.to_pickle
实现数据的⾼效⼆进制格式存储最简单的办法之⼀是使⽤Python内置的pickle序列化。
pandas对象有⼀个⽤于将数据以pickle格式保存到磁盘上的to_pickle⽅法：
frame = pd.read_csv('examples/ex1.csv')
frame 　　 # 输出如下：
　　 a 　　 b 　　 c 　　 d 　message
0 　　 1 　　 2 　　 3　　 4　　 hello
1 　　 5 　　 6 　　 7 　　8 　　world
2 　　 9 　   10 　  11 　  12 　　foo
frame.to_pickle('examples/frame_pickle')
你可以通过pickle直接读取被pickle化的数据，或是使⽤更为⽅便的pandas.read_pickle：
pd.read_pickle('examples/my_frame_pickle') 　　# 输出如下：
  　　a 　　 b 　　 c 　　 d 　message
0 　　 1 　　 2 　　 3　　 4　　 hello
1 　　 5 　　 6 　　 7 　　8 　　world
2 　　 9 　   10 　  11 　  12 　　foo
注意：pickle仅建议用于短期存储格式。因为该格式不是永远是稳定的；今天pickle的对象可能无法被后续版本的库unpickle出来。在pandas中，在今后的某个时候说不定还是得“打破”该pickle格式。
pandas内置⽀持两个⼆进制数据格式：HDF5和MessagePack。
pandas或NumPy数据的其它存储格式有：
　　bcolz：⼀种可压缩的列存储⼆进制格式，基于Blosc压缩库。
　　Feather：作者与R语⾔社区的Hadley Wickham设计的⼀种跨语⾔的列存储⽂件格式。Feather使⽤了Apache Arrow的列式内存格式。

2、使⽤HDF5格式
HDF5是⼀种存储⼤规模科学数组数据的⾮常好的⽂件格式。它可以被作为C库，带有许多语⾔的接⼝，如Java、Python和MATLAB等。HDF5中的HDF指的是层次型数据格式（hierarchical data format）。每个HDF5⽂件都含有⼀个⽂件系统式的节点结构，它使你能够存储多个数据集并⽀持元数据。与其他简单格式相⽐，HDF5⽀持多种压缩器的即时压缩，还能更⾼效地存储重复模式数据。对于那些⾮常⼤的⽆法直接放⼊内存的数据集，HDF5就是不错的选择，因为它可以⾼效地分块读写。

⽤PyTables或h5py库可直接访问HDF5⽂件，pandas提供了更为⾼级的接⼝，可以简化存储Series和DataFrame对象。HDFStore类可以像字典⼀样，处理低级的细节：
frame = pd.DataFrame({'a': np.random.randn(100)})
store = pd.HDFStore('mydata.h5') 　　# 在当前工作目录下会生成文件mydata.h5
store['obj1'] = frame 　　 # 数据存入文件，列名是'a'
store['obj1_col'] = frame['a'] 　　# 数据存入文件，无列名
store 　　# 输出如下：

File path: mydata.h5

HDF5⽂件中的对象可以通过与字典⼀样的API进⾏获取：
store['obj1'] 　　# 输出如下：
　　　　　　 a
0 　　 -0.887456
1 　　 0.986413
2 　　 0.840563
3 　　 -0.017308
4　　 0.286415
..　　　　 ...
95 　　 0.544270
96 　　 0.331259
97 　　 0.585923
98 　　 1.170877
99 　　 0.791187
[100 rows x 1 columns]
HDFStore⽀持两种存储模式，'fixed'和'table'。后者会更慢，但⽀持使⽤特殊语法进⾏查询操作：
store.put('obj2', frame, format='table') 　　# 将frame中的数据以obj2为列名以table形式存入store所指向的文件中（mydata.h5）
store.select('obj2', where=['index >= 10 and index <=15']) 　　# 读取指定的行，输出如下：
　　　　　　 a
10 　　-0.238414
11 　　-0.755672
12 　　-0.309194
13 　　 0.612262
14 　　 0.187334
15 　　 1.103517
store.close()　　# 关闭文件
put是store['obj2'] = frame⽅法的显示版本，允许我们设置其它的选项，⽐如格式。
pandas.read_hdf函数可以快捷使⽤这些⼯具：
frame.to_hdf('mydata.h5', 'obj3', format='table')　　 # 将frame中的数据以obj3为列名以table形式存入未打开的mydata.h5文件中
pd.read_hdf('mydata.h5', 'obj3', where=['index < 5']) 　　# 如果文件未关闭，读取会失败
注意：如果你要处理的数据位于远程服务器，⽐如AmazonS3或HDFS，使⽤专⻔为分布式存储（⽐如ApacheParquet）的⼆进制格式也许更加合适。

如果需要本地处理海量数据，建议先研究⼀下PyTables和h5py，看看能满⾜哪些需求。由于许多数据分析问题都是IO密集型（⽽不是CPU密集型），利⽤HDF5这样的⼯具能显著提升应⽤程序的效率。
注意：HDF5不是数据库。它最适合⽤作“⼀次写多次读”的数据集。虽然数据可以在任何时候被添加到⽂件中，但如果同时发⽣多个写操作，⽂件就可能会被破坏。

3、读取Microsoft Excel⽂件
pandas的ExcelFile类或pandas.read_excel函数⽀持读取存储在Excel 2003（或更⾼版本）中的表格型数据。这两个⼯具分别使⽤扩展包xlrd和openpyxl读取XLS和XLSX⽂件。可以⽤pip或conda安装它们。
要使⽤ExcelFile，通过传递xls或xlsx路径创建⼀个实例：
xlsx = pd.ExcelFile('examples/ex1.xlsx') 　　# 创建一个ExcelFile类实例
存储在表单中的数据可以read_excel读取到DataFrame
pd.read_excel(xlsx, 'Sheet1') 　　# 输出如下：
　　 a 　　 b 　　 c 　　 d 　　message
0 　　 1 　　 2 　　 3 　　 4 　　 hello
1 　　 5　　 6 　　 7 　　 8 　　 world
2　　 9 　 10 　 11 　 12 　　 foo

要读取⼀个⽂件中的多个表单，创建ExcelFile会更快，也可以将⽂件名传递到pandas.read_excel：
frame = pd.read_excel('examples/ex1.xlsx', 'Sheet1') 　　# 不创建实例，直接读取
frame 　　 # 输出如下：
　　a 　　 b 　　 c 　　 d 　　message
0 　　 1 　　 2 　　 3 　　 4 　　 hello
1 　　 5　　 6 　　 7 　　 8 　　 world
2　　 9 　 10 　 11 　 12 　　 foo

如果要将pandas数据写⼊为Excel格式，你必须⾸先创建⼀个ExcelWriter，然后使⽤pandas对象的to_excel⽅法将数据写⼊到其中：
writer = pd.ExcelWriter('examples/ex2.xlsx') 　　# 创建文件句柄
frame.to_excel(writer, 'Sheet1') 　　 # 将frame写入writer文件
writer.save() 　　 # 保存

你还可以不使⽤ExcelWriter，⽽是传递⽂件的路径到to_excel：
frame.to_excel('examples/ex2.xlsx')

三、Web APIs交互

许多⽹站都有⼀些通过JSON或其他格式提供数据的公共API。通过Python访问这些API的办法有不少。⼀个简单易⽤的办法是requests包。
为了搜索最新的30个GitHub上的pandas主题，我们可以发⼀个HTTP GET请求，使⽤requests扩展库：
import requests
url = 'https://api.github.com/repos/pandas-dev/pandas/issues'
resp = requests.get(url)
resp 　　# 输出：，输出200表示请求成功
响应对象的json⽅法会返回⼀个包含被解析过的JSON字典，加载到⼀个Python对象中：
data = resp.json()
data[0]['title'] 　　# 输出：'DOC: Use a standard header for all rst files'
data中的每个元素都是⼀个包含所有GitHub主题⻚数据（不包含评论）的字典。我们可以直接传递数据到DataFrame，并提取感兴趣的字段：
issues = pd.DataFrame(data, columns=['number', 'title', 'labels', 'state'])
issues 　　 # 输出如下：
　　　 number 　　　　　　　　　　　　　　　　　　　　 title 　　 \
0 　　 24086 　　 DOC: Use a standard header for all rst files
1 　　 24085 　　 DataFrames don't handle input arrays of dtype ...
2 　　 24084　　 PERF: consolidate imports inside parse_time_st...
3 　　 24082 　　 Handle utc and box parameters for to_datetime
4 　　 24079 　　 DataFrame.fillna() fails with categorical colu...
..　　　　 ... 　　　　　　　　　　 ...
25 　　 24047 　　 Add test for rdivmod on EA array (GH23287)
26 　　 24046 　　 API: capabilities of df.set_index
27 　　 24043 　　 ENH: Support datetime.time objects with tzinfo...
28 　　 24036 　　 Clarify how to cite pandas in scientific papers
29　　 24034 　　 ENH: Add columns argument to read_feather() (#...

　　　　　　　　　　　　　　　　　　　　　　　　labels state
0 　　　　　　　　　　　　　　　　　　　　　　　　 [] open
1 　　　　　　　　　　　　　　　　　　　　　　　　 [] open
2 [{'id': 8935311, 'node_id': 'MDU6TGFiZWw4OTM1M... 　 open
3 　　　　　　　　　　　　　　　　　　　　　　　　 [] open
4 　　　　　　　　　　　　　　　　　　　　　　　　 [] open
.. ... ...
25 [{'id': 849023693, 'node_id': 'MDU6TGFiZWw4NDk... open
26 [{'id': 35818298, 'node_id': 'MDU6TGFiZWwzNTgx... open
27 [{'id': 76812, 'node_id': 'MDU6TGFiZWw3NjgxMg=... open
28 [{'id': 134699, 'node_id': 'MDU6TGFiZWwxMzQ2OT... open
29 [{'id': 2301354, 'node_id': 'MDU6TGFiZWwyMzAxM... open
[30 rows x 4 columns]
通过一些操作，你就可以创建⼀些更⾼级的常⻅的Web API的接⼝，返回DataFrame对象，⽅便进⾏分析。

四、数据库交互

在商业场景下，⼤多数数据可能不是存储在⽂本或Excel⽂件中。基于SQL的关系型数据库（如SQL Server、PostgreSQL和MySQL等）使⽤⾮常⼴泛，其它⼀些数据库也很流⾏。数据库的选择通常取决于性能、数据完整性以及应⽤程序的伸缩性需求。

将数据从SQL加载到DataFrame的过程很简单，此外pandas还有⼀些能够简化该过程的函数。
例如，使⽤SQLite数据库（通过Python内置的sqlite3驱动器）：
import sqlite3
query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
c REAL, d INTEGER);"""
con = sqlite3.connect('mydata.sqlite') 　　# 创建数据库，会在当前工作目录生成mydata.sqlite文件
con.execute(query) 　　 # 输出：，执行命令query
con.commit()　　　　 # 提交命令并执行，在数据库中创建表格
然后插⼊⼏⾏数据：
data = [('Atlanta', 'Georgia', 1.25, 6),
　　　 ('Tallahassee', 'Florida', 2.6, 3),
　　 ('Sacramento', 'California', 1.7, 5)]
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)" 　　# 创建数据库test的插入命令
con.executemany(stmt, data) 　　　　　　　　　 # 输出：
con.commit() 　　　　 # 提交命令并执行
从表中选取数据时，⼤部分Python SQL驱动器（PyODBC、psycopg2、MySQLdb、pymssql等）都会返回⼀个元组列表：
cursor = con.execute('select * from test') 　　# 执行查询命令并将结果返回给cursor变量
rows = cursor.fetchall() 　　　　　　　　　 # 接收返回结果集
rows 　　 # 输出如下：
[('Atlanta', 'Georgia', 1.25, 6),
('Tallahassee', 'Florida', 2.6, 3),
('Sacramento', 'California', 1.7, 5)]
你可以将这个元组列表传给DataFrame构造器，但还需要列名（位于游标(cursor)的description属性中）：
cursor.description 　　 # 输出如下：（查看游标的列名）
(('a', None, None, None, None, None, None),
('b', None, None, None, None, None, None),
('c', None, None, None, None, None, None),
('d', None, None, None, None, None, None))
pd.DataFrame(rows, columns = [x[0] for x in cursor.description]) 　　# 输出如下：
　　　　　　　　a 　　　　　　 b 　　 c 　　 d
0 　　 Atlanta 　　　 Georgia 　　1.25 　　 6
1 　　 Tallahassee 　　 Florida 　　 2.60 　　 3
2 　　 Sacramento 　　 California 1.70　　 5

这种数据规整操作相当多，每查询一次就重写一次很麻烦。SQLAlchemy项⽬是⼀个流⾏的Python SQL⼯具，它抽象出了SQL数据库中的许多常⻅差异。pandas有⼀个read_sql函数，可以让你轻松的从SQLAlchemy连接读取数据。这⾥，我们⽤SQLAlchemy连接SQLite数据库，并从之前创建的表读取数据：
import sqlalchemy as sqla 　　　　　　　　　　# 使用sqlalchemy
db = sqla.create_engine('sqlite:///mydata.sqlite') # 创建引擎，指向数据库
pd.read_sql('select * from test', db) 　　　　　 # 根据命令从指定数据库中获取数据
　　　　　　　　a 　　　　　　 b 　　 c 　　 d
0 　　 Atlanta 　　　 Georgia 　　1.25 　　 6
1 　　 Tallahassee 　　 Florida 　　 2.60 　　 3
2 　　 Sacramento 　　 California 1.70　　 5

转载于:https://www.cnblogs.com/Micro0623/p/10113848.html

你可能感兴趣的:(第六篇数据加载、存储与⽂件格式)

Android深入浅出之Binder机制 Fifi_0617 系统服务 android binder机制
Binder于底层实现，是用的共享内存。实现了一个叫binder驱动的东西，这个binder驱动维护了一映射机制，其实就是一个hash表，用来将各个binder与相对应的进程和相关的线程信息维护起来。简单的来说，就是通过一个handle找到对应的binder，从而建立对应的进程间的联系。handle在这里就是类似ip的一个东西，用来找到通讯的对象的。其实从上层的角度来看，我们不需要去关注binde
Postgres与MySQL对比救救孩子把 mysql 数据库
AntonP的[基准测试]MySQL与PostgreSQL性能基准（延迟-吞吐量-饱和）我们每天与成千上万的开发人员合作管理他们的数据，我亲眼目睹了PostgreSQL和MySQL如何成为最受欢迎（也是最强大）的两个数据库。在本文中，我将比较两者—涵盖它们的优点、缺点和细微差别—以便您可以决定哪一个最适合您的需求。几十年来，关系数据库为无数应用程序提供支持，它们仍然是许多现代系统的支柱。当谈到生产
MySql8.4.x解压缩版之Windows中快速安装小猿搬码数据库 MySQL8 windows mysql 数据库
MySql8.4.x解压缩版之Windows中快速安装文章目录MySql8.4.x解压缩版之Windows中快速安装1.下载与安装2.首次登录及修改root密码1.首次登录2.修改root密码3.设置客户端可连接远程MySQL服务器4.常见问题1.ERROR2003(HY000)1.问题描述2.原因分析3.处理方法2.ERROR1524(HY000)1.问题描述2.原因分析3.处理方法1.修改用户
高性能、并发安全的 Go 嵌入式缓存库如何使用？ Ai 编码 Golang教程 golang 缓存开发语言
文章精选推荐1JetBrainsAiassistant编程工具让你的工作效率翻倍2ExtraIcons：JetBrainsIDE的图标增强神器3IDEA插件推荐-SequenceDiagram，自动生成时序图4BashSupportPro这个ides插件主要是用来干嘛的？5IDEA必装的插件：SpringBootHelper的使用与功能特点6Aiassistant,又是一个写代码神器7Cursor
架构学习第四周--高可用与NoSQL数据库 Mr.王835 nosql linux
目录一、HAProxy介绍二、HAProxy基本使用2.1，HAProxy调度算法2.2，HAProxy高级用法三、高可用Keepalived介绍3.1，Keepalived介绍3.2，Keepalived单主架构实现3.3，脑裂四、Keepalived实例--实现单主架构的LVS-DR模型五、实例--通过Keepalived实现HAProxy高可用六、NoSQL数据库Redis6.1，Redis
CANopen学习笔记卡钦斯基通信协议网络
1.CANopen的预定义报文ID分类CANopen在设计时，对其定义为小网络、控制信号的实时通讯：报文传输采用CAN标准帧格式。即11bit的ID域，以尽量减小传输时间。网络控制报均采用数据最小字节数。比如心跳报文，只有1个字节数据。实时更新的过程数据无需接收方报文应答。即采用生产消费模型，降低总线负载。需要接收方确认的配置参数一般都时采用快速单字传输。即1个报文最多传达1个32bit的参数变量
Windchill开发-移除工作区模型这城有海 Windchill二开 java
移除工作区模型一、应用场景二、相关代码2.1查询模型2.1.1方法一2.1.2方法二2.1.3区别2.2查询模型所在工作区2.3移除工作区的模型一、应用场景Windchill系统中，系统的模型数据和工作区中的模型数据并非是同一个数据，工作区在线时会自动把系统的数据与工作区做同步，也可以通过工作区的更新按钮，保持工作区数据与系统数据的一致性。但是在实际业务中，工作区缓存、数据存在于多工作区等情况都会
桂云网络：桂花流程引擎(Osmanthus)与Camunda、Zeebe、Flowable、Activiti流程引擎选择对比桂云网络OSG 桂花流程引擎流程图经验分享 java 后端中间件
在当今企业数字化转型的过程中，流程引擎作为实现业务自动化、提升工作效率和增强决策能力的重要技术工具，已成为企业流程管理不可或缺的一部分。市场上有多种流程引擎解决方案，每种方案具有不同的功能特点、技术架构和使用场景。在选择合适的流程引擎时，企业需要根据业务需求、技术栈、开发能力以及未来扩展性等多个方面进行全面考量。本文将对桂云网络公司的"桂花流程引擎(Osmanthus)"与几款主流的流程引擎技术进
Go 项目实战：如何优雅的处理日志 vespeng Golang golang gin
在Go项目开发中，日志处理是一项至关重要的任务。它不仅有助于我们在开发过程中调试代码，还能在生产环境中帮助我们快速定位问题。本文将详细介绍如何在Go项目中优雅地处理日志，包括日志的级别、格式、输出以及如何使用第三方日志库等方面。一、日志级别的重要性日志级别是控制日志输出的重要手段。通过设置不同的日志级别，我们可以灵活地控制日志的详细程度。在Go语言中，常见的日志级别有DEBUG、INFO、WARN
TRELLIS文本或图像生3d模型一键整合包win版本，省去繁琐安装、效果超Wonder3D，对硬件要求更低速度更快16g N卡可流畅运行 struggle2025 计算机视觉人工智能深度学习图像处理集成学习 AI作画
一、介绍:TRELLIS文生、图生3d模型软件介绍，目前只开放了图生3D（文末提供整合包下载）TRELLIS是一个大型3D资产生成模型。它接受文本或图像提示，并生成各种格式的高质量3D资产，如辐射场、3D高斯和网格。TRELLIS的基石是一种统一的结构化LATent（SLAT）表示法，允许解码到不同的输出格式，以及为SLAT定制的校正流变换器作为强大的后端。我们提供大规模预训练模型，参数高达20亿
【Jmeter】安装配置：Jmeter 下载 MySQL JDBC 驱动顾三殇 JMeter 从入门到软件测试实战 jmeter Jmeter 安装部署 mysql
目录一、MySQLJDBC驱动版本选择二、MySQLJDBC驱动下载（1）新建Jmeter插件备份文件夹（2）驱动压缩包下载并保存三、MySQLJDBC驱动保存（1）驱动压缩包解压（2）复制JBCD驱动解压包中的jar文件（3）黏贴jar文件保存至Jmeter解压目录下的lib/ext文件夹下四、Jmeter使用MySQLJDBC驱动一、MySQLJDBC驱动版本选择MySQLJDBC驱动版本与M
SD卡受损怎么修复蓝天星空转载
进入dos，找到开始菜单，在运行框中输入cmd后回车。执行chkdskI:/F(I是SD卡盘符，F是修复参数）。等待修复完成，DOS窗口会自动关闭。把TF卡插入读卡器，接到电脑USB后，电脑提示格式化，点击取消。然后查看一下属性，直接使用属性中的“工具-开始检查”。如果遇到无法格式化的情况，右击“计算机”-“管理”。找到存储下的“磁盘管理”，右侧能看到SD卡盘符，点击它，选择“格式化”就可以了。h
小程序数据绑定：从基础到实践阿贾克斯的黎明前端小程序
目录小程序数据绑定：从基础到实践一、数据绑定的基本原理二、数据绑定的常见应用场景（一）文本内容绑定（二）属性绑定（三）事件绑定与数据更新三、数据绑定的注意事项（一）数据的单向流动与双向绑定（二）数据绑定的性能优化在小程序开发中，数据绑定是一个极为关键的概念，它能够实现数据与视图的高效交互，让我们的小程序更加动态和灵活。接下来，我们将深入探讨小程序数据绑定的各个方面。一、数据绑定的基本原理数据绑定的
Gradle 全方位使用指南：从基础操作到 IDE 配置阿贾克斯的黎明 java java
目录Gradle全方位使用指南：从基础操作到IDE配置一、引言二、Gradle基础概念（一）构建脚本（二）任务（Task）（三）插件（Plugin）三、Gradle安装与环境配置（一）下载（二）解压与配置环境变量（三）验证安装四、Gradle项目构建基础（一）创建项目（二）构建脚本详解（三）任务执行五、Gradle高级特性（一）多项目构建（二）自定义任务（三）属性与配置文件（四）缓存与性能优化六、
Android 逆向之 Uni Debug 全面解析阿贾克斯的黎明逆向
目录Android逆向之UniDebug全面解析一、UniDebug概述（一）Unicorn框架（二）UniDebug简介二、UniDebug的使用场景、优缺点（一）使用场景（二）优点（三）缺点三、UniDebug的使用步骤（一）配置资源文件（二）文件结构解析（三）案例分析与代码示例四、UniDebug的API介绍（一）Emulator常用API（二）内存常用API（三）VN常用API五、UniD
Android openGL渲染图片纹理 toblyn 工作学习 android
使用openGL渲染图片纹理，需要特别注意纹理坐标问题：openGL纹理坐标原点在左下角，Android中坐标系原点在左上角，即openGL纹理坐标与Android坐标系在Y轴恰好相反。因此在纹理采样时，按照openGL纹理坐标采样，则Android窗体中显示时会出现上下翻转的问题，未解决此问题，可以在采样阶段将openGL纹理坐标上下翻转，最终采样结束在窗体可以正常显示。(个人理解)顶点着色器a
完整版 Cortex-M3与Cortex-M4权威指南管彩嫒Zachary
完整版Cortex-M3与Cortex-M4权威指南【下载地址】完整版Cortex-M3与Cortex-M4权威指南本资源文件提供了关于ARMCortex-M3与Cortex-M4处理器的完整指南，内容涵盖了从基础知识到高级应用的各个方面。无论你是嵌入式系统开发的新手，还是有经验的工程师，这份指南都能为你提供宝贵的参考和指导项目地址:https://gitcode.com/open-source-
ARM Cortex-M3与Cortex-M4权威指南胡妃意
ARMCortex-M3与Cortex-M4权威指南【下载地址】ARMCortex-M3与Cortex-M4权威指南ARMCortex-M3与Cortex-M4权威指南欢迎阅读《ARMCortex-M3与Cortex-M4权威指南（第3版）》，这是一本针对嵌入式系统开发者量身打造的深度学习手册项目地址:https://gitcode.com/Open-source-documentation-tu
用Python生成新春烟花效果：实现与解析一休哥助手 pygame python 开发语言
引言新春佳节到来之际，烟花的璀璨绽放象征着喜庆和热闹。如果能通过代码在屏幕上生成烟花效果，既能增加节日的趣味，也能加深对编程的理解。本篇博客将详细介绍如何使用Python生成新春烟花效果，包括实现原理、代码解析以及常见问题的解决方案，帮助读者在实践中体验编程的乐趣。一、烟花效果的基本原理烟花效果的实现需要模拟以下几个关键过程：烟花发射：模拟烟花从底部发射到空中的过程。爆炸中心：烟花到达顶点后形成爆
python 访问openai接口哦里哦里哦里给 Python AI 实战深度学习 python ai oneapi
目录一、openai接口文档1.访问OpenAIAPI文档2.注册和获取API密钥3.快速开始：示例代码4.请求结构和响应格式二、步骤1、安装openai库2、示例代码实现一个命令行循环对话机器人加入gradio界面demo一、openai接口文档使用OpenAIAPI文档可以帮助你更好地理解和操作API，尤其是在开发复杂项目时。以下是使用OpenAIAPI文档的指南：1.访问OpenAIAPI文
P1089 [NOIP2004 提高组] 津津的储蓄计划沉睡的雄虱算法 c++
目录题目描述输入格式输出格式输入输出样例思路分析：代码实现：总结题目描述P1089[NOIP2004提高组]津津的储蓄计划-洛谷|计算机科学教育新生态津津的零花钱一直都是自己管理。每个月的月初妈妈给津津300300元钱，津津会预算这个月的花销，并且总能做到实际花销和预算的相同。为了让津津学习如何储蓄，妈妈提出，津津可以随时把整百的钱存在她那里，到了年末她会加上20%20%还给津津。因此津津制定了一
C++：将字符数组rkpryyrag，每个字母转换为其前面第13个字母后输出，如果超过a则从z再继续接着数。例如：b前面第1个字母是a。a前面第3个字母是x。程序员东min c++开发语言算法
代码如下：#include#includeusingnamespacestd;intmain(){stringstr="rkpryyrag";for(inti=0;i='a'&&str[i]='a'&&str[i]<='z')：检查当前字符是否是小写字母，因为小写字母的ASCII值范围是'a'到'z'。if(str[i]-'a'<13)：对于小写字母，计算该字母与'a'的差值，如果差值小于13，那
数据库的三级模式结构与两级映像凭君语未可数据库数据库 oracle
三级模式结构与两级映像什么是数据库的三级模式结构？1.模式（ConceptualSchema，概念模式）定义特点作用示例2.外模式（ExternalSchema，外部模式）定义特点作用举例3.内模式（InternalSchema，内部模式）定义特点作用举例三级模式结构的关系和映射1.外模式与模式的映射外模式与模式的关系映射机制举例电商系统中的用户视图与模式权限控制：映射的意义2.模式与内模式的映射
kaggle入门级竞赛Spaceship Titanic LIghtgbm+Optuna调参机器学习司猫白机器学习实战机器学习 python 集成学习 scikit-learn
kaggle入门级竞赛SpaceshipTitanic简介数据介绍数据集描述数据字段描述train.csv-约三分之二（~8700）乘客的个人记录，用作培训数据。test.csv-剩余三分之一（~4300）乘客的个人记录，用作测试数据。您的任务是预测Transported该集合中乘客的价值。Sample_submission.csv-格式正确的提交文件。代码分类变量optuna算法简介简介欢迎来到
Python 语法进阶：`with open` 语句与编码格式、获取目录操作详解 Selina .a python教程 python 开发语言
在Python编程中，文件处理是一项基础且重要的任务。为了更高效、安全地处理文件，Python提供了withopen语句，以及丰富的编码格式支持。此外，获取目录操作也是文件处理中不可或缺的一环，它允许我们遍历、创建和删除文件夹。本文将详细讲解withopen语句的使用、编码格式的选择，以及获取目录操作的相关知识。一、withopen语句详解withopen语句是Python中处理文件的推荐方式，因
Android系统开发（六）：从Linux到Android：模块化开发，GKI内核的硬核科普刘争Stanley C++魔法学院 Framework框架大师 Android开发巅峰之路 android linux 运维 GKI KMI 内核镜像
引言：今天我们聊聊Android生态中最“硬核”的话题：通用内核镜像（GKI）与内核模块接口（KMI）。这是内核碎片化终结者的秘密武器，解决了内核和供应商模块之间无尽的兼容性问题。为什么重要？试想一下，如果每个厂商都要为不同内核版本手动适配驱动代码，那Android硬件的开发效率岂不是要“哭晕在厕所”？而GKI通过统一接口（KMI），让模块复用成为可能，为Android开发者铺平了道路！本文将带你
网站HTTP改成HTTPS Gworg http https 网络协议
您不仅需要知道如何将HTTP转换为HTTPS，还必须在不妨碍您的网站自成立以来建立的任何搜索排名权限的情况下进行切换。为什么应该从HTTP转换为HTTPS？与非安全HTTP于不同，安全域使用SSL（安全套接字层）服务器上的加密代码来加密从用户计算机发送到他们正在访问的网站的信息。因此，外部来源无法解密此语言。安全URL可让您的客户的个人和付款信息保持安全，免受黑客窃取其身份的侵害。因此，安全域已成
【Rust自学】13.10. 性能对比：循环 vs. 迭代器 SomeB1oody Rust自学 rust 开发语言后端机器学习算法
13.10.0.写在正文之前Rust语言在设计过程中收到了很多语言的启发，而函数式编程对Rust产生了非常显著的影响。函数式编程通常包括通过将函数作为值传递给参数、从其他函数返回它们、将它们分配给变量以供以后执行等等。在本章中，我们会讨论Rust的一些特性，这些特性与许多语言中通常称为函数式的特性相似：闭包迭代器使用闭包和迭代器改进I/O项目闭包和迭代器的性能（本文）喜欢的话别忘了点赞、收藏加关注
GPT-4对话模型在客服中的应用与前景：开启智能客服新时代 Echo_Wish 前沿技术人工智能 python 人工智能 gpt
GPT-4对话模型在客服中的应用与前景：开启智能客服新时代随着人工智能技术的迅猛发展，基于深度学习的对话模型在各个领域中得到了广泛应用。其中，GPT-4对话模型在客服系统中的应用尤为引人注目。本文将探讨GPT-4在客服中的应用与未来发展前景，并结合具体代码示例进行说明。一、GPT-4对话模型概述GPT-4（GenerativePre-trainedTransformer4）是OpenAI开发的一种
用GANs生成艺术作品的创新探索：人工智能与艺术的奇妙碰撞 Echo_Wish 前沿技术人工智能人工智能 gan python
用GANs生成艺术作品的创新探索：人工智能与艺术的奇妙碰撞随着人工智能技术的飞速发展，生成对抗网络（GenerativeAdversarialNetworks，GANs）在图像生成、视频生成、音频合成等领域展现出了惊人的创造力。特别是在艺术创作方面，GANs以其独特的生成能力，为艺术家和创作者提供了新的灵感和工具。本文将探讨GANs在艺术作品生成中的应用与创新，并通过具体代码示例展示其实现过程。一
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

第六篇 数据加载、存储与⽂件格式

你可能感兴趣的:(第六篇 数据加载、存储与⽂件格式)

第六篇数据加载、存储与⽂件格式

你可能感兴趣的:(第六篇数据加载、存储与⽂件格式)