python 处理xml pandas_Python:将XML数据存储到Pandas DataFrame中

python 处理xml pandas_Python:将XML数据存储到Pandas DataFrame中_第1张图片

可扩展标记语言(XML)是一种标记语言,它以人类和机器可读的格式对数据进行编码。XML在各种程序中用于构造、存储和传输数据。在这篇文章中,我们将讨论如何使用python xml库中的 “ElementTree”模块来解析xml数据并将数据存储在panda DataFrame中。

首先,让导入Python库:

现在,让我们看一下'books.xml'文件中的标签:

efa0bd4dc81f2c03dc1d4be104ed2012.png

我们可以通过将文件名传递给'parse()'方法来定义'XML'文档对象:

如果我们打印对象,我们将看到在指定的内存地址处有一个“ ElementTree”对象:

python 处理xml pandas_Python:将XML数据存储到Pandas DataFrame中_第2张图片

内置的dir()方法可用于该对象的方法和属性:

609cde9f02c9979bdfaf7426283dd5b8.png

让我们使用方法“ iterfind()”返回一个生成器,我们可以在“ for循环”中对其进行迭代。我们需要在“ iterfind()”方法中指定一个路径参数。让我们选择“书”路径:

我们可以使用方法iterfind()来返回一个生成器,我们需要在“iterfind()”方法中指定一个路径参数。假设我们选择“book”路径:

python 处理xml pandas_Python:将XML数据存储到Pandas DataFrame中_第3张图片

我们看到我们有几个存储在不同内存地址的“Element book”对象。我们可以使用“ findtext()”方法从这些对象中提取信息。让我们提取“author”标签的信息:

12d8f12c5395ae7dd9adbed65778e39e.png

我们还可以提取title:

e735ea7bc95c91cc3222417c5d74b074.png

python 处理xml pandas_Python:将XML数据存储到Pandas DataFrame中_第4张图片

接下来,我们可以初始化列表来存储这些值:

然后,我们可以将这些列表存储在DataFrame中。接下来,让我们定义一个DataFrame:

接下来,让我们打印结果DataFrame:

python 处理xml pandas_Python:将XML数据存储到Pandas DataFrame中_第5张图片

将' price '字符串转换为' float ',并计算' price '列的平均值:

python 处理xml pandas_Python:将XML数据存储到Pandas DataFrame中_第6张图片

让我们还将'publish_date'转换为'datetime'对象并提取年,月和日值:

python 处理xml pandas_Python:将XML数据存储到Pandas DataFrame中_第7张图片

我们也可以使用collections模块中的' Counter() '方法来查看authors和genres的分布情况:

python 处理xml pandas_Python:将XML数据存储到Pandas DataFrame中_第8张图片

总之,在这篇文章中,我们讨论了如何使用python中的“XML”库来解析XML数据。我们展示了如何使用“iterfind()”方法来定义一个生成器对象,我们可以在“for循环”中对其进行迭代。我们还展示了如何使用' findtext() '方法访问元素标记信息。然后,我们将XML信息存储在用于定义Pandas DataFrame的列表中。

你可能感兴趣的:(python,处理xml,pandas)