让我们了解如何使用 Python pandas 更新行和列。 在现实世界中,大多数时候我们没有准备好分析数据集。 可能存在许多不一致、无效值、不正确的标签等等。 话虽如此,更新这些值以实现数据的一致性是非常有必要的。 在本篇文章中,我们将重点介绍如何使用 pandas 更新 Python 中的行和列。 不用花太多时间在介绍上,让我们开始行动吧!
在整篇文章中,我们将使用我们现在要创建的数据框。 这将使大家了解更新数据操作。 在此之后,大家可以将这些方法应用于自己的数据。
为了创建数据框,pandas 提供了函数名称 pd.DataFrame,它可以帮助您从一些数据中创建数据框。 让我们看看它是如何工作的。
#创建一个字典
import pandas as pd
fruit_data = {"Fruit": ['Apple','Avacado','Banana','Strawberry','Grape'],"Color": ['Red','Green','Yellow','Pink','Green'],
"Price": [45, 90, 60, 37, 49]
}
fruit_data
在这里,我们创建了一个 Python 字典,其中包含一些数据值。 现在,我们被要求将这本字典变成Pandas数据集。
#Dataframe
data = pd.DataFrame(fruit_data)
data
那很完美!使用 pandas 的 pd.DataFrame
函数,我们可以轻松地将字典转换为 pandas 数据集。 我们的数据集现在已准备好执行未来的操作。
有时,要素的列或名称会不一致。 它可以是字母表的大小写等等。 拥有统一的设计有助于我们有效地使用这些功能。
因此,作为第一步,我们将了解如何更新/更改数据中的列或特征名称。
#update the column name
data.rename(columns = {'Fruit':'Fruit Name'})
如上图所示简单。 大家甚至可以一次更新多个列名。 为此,我们必须在大括号下添加以逗号分隔的其他列名。
#multile column update
data.rename(columns = {'Fruit':'Fruit Name','Colour':'Color','Price':'Cost'})
就像这样,我们可以同时更新所有列。
在处理具有许多列的数据集时,我们可能会遇到列名不一致的情况。
在我们的数据中,大家可以观察到所有列名的首字母大写。 始终建议为所有列名使用通用大小写。
好吧,我们可以将它们转换为大写或小写。
#lower case
data.columns.str.lower()
data
现在,我们所有的列名都是小写的。
和更新列一样,更新行也很简单。 我们必须先找到行值,然后才能使用新值更新该行。
我们可以使用 pandas loc
函数来定位行。
#updating rows
data.loc[3]
Fruit Strawberry
Color Pink
Price 37
Name: 3, dtype: object
我们找到了第 3 行,其中包含水果草莓的详细信息。 现在,我们必须用一个名为 Pineapple 的新水果及其详细信息来更新这一行。
#update
data.loc[3] = ['PineApple','Yellow','48']
data
我希望大家也发现更新数据中行的值很容易。 现在,假设我们只需要更新行中的一些细节,而不是整个细节。 那么,您对此有何看法?
#更新特定值
data.loc[3, ['Price']]
Price 48
Name: 3, dtype: object
我们只需要更新位于第 3 行的水果的价格。 我们知道该水果的当前价格是 48。但是,我们必须将其更新为 65。让我们这样做。
#updating
data.loc[3, ['Price']] = [65]
data
我们只用一行 python 代码将水果菠萝的价格更新为 65。 这就是它的工作原理。 简单的。
是的,我们现在将根据特定条件更新行值。 最后,我们想要一些有意义的值,这些值应该有助于我们的分析。
让我们定义我们的条件。
#Condition
updated = data['Price'] > 60
updated
我们在这里要做的是,将价格高于 60 的水果的价格更新为昂贵。
0 False
1 True
2 False
3 True
4 False
Name: Price, dtype: bool
根据输出,我们有 2 个价格超过 60 的水果。让我们在数据中将这些水果列为昂贵的。
#Updating
data.loc[updated, 'Price'] = 'Expensive'
data
你以惊人的方式和完美地做到了。 在整篇文章中,我使用的代码从未超过 2 行。 我能给出的最好建议是,尽可能多地学习 pandas。 它是一个如此强大的库,它提供了许多单行函数,但能够出色地完成工作。
更新数据中的行和列是我们在进行任何分析之前应该关注的一件主要事情。 通过简单的函数和代码,我们可以让数据变得更有意义,在这个过程中,我们肯定会对数据质量和任何进一步的要求有所了解。 如果我们的数据正确无误,相信我,我们可以发现许多珍贵的前所未闻的事情。