xc555

转载：使用Pandas&NumPy进行数据清洗的6大常用方法

使用Pandas&NumPy进行数据清洗的6大常用方法

转载：http://bigdata.51cto.com/art/201804/569690.htm

数据科学家花了大量的时间清洗数据集，并将这些数据转换为他们可以处理的格式。事实上，很多数据科学家声称开始获取和清洗数据的工作量要占整个工作的80%。

作者：Python数据科学来源：知乎|2018-04-03 12:07

因此，如果你正巧也在这个领域中，或者计划进入这个领域，那么处理这些杂乱不规则数据是非常重要的，这些杂乱数据包括一些缺失值，不连续格式，错误记录，或者是没有意义的异常值。

在这个教程中，我们将利用Python的 Pandas 和 Numpy 包来进行数据清洗。

主要内容如下：

删除 DataFrame 中的不必要 columns
改变 DataFrame 的 index
使用 .str() 方法来清洗 columns
使用 DataFrame.applymap() 函数按元素的清洗整个数据集
重命名 columns 为一组更易识别的标签
滤除 CSV文件中不必要的 rows

下面是要用到的数据集：

BL-Flickr-Images-Book.csv - 一份来自英国图书馆包含关于书籍信息的CSV文档
university_towns.txt - 一份包含美国各大洲大学城名称的text文档
olympics.csv - 一份总结了各国家参加夏季与冬季奥林匹克运动会情况的CSV文档

你可以从 Real Python 的 GitHub repository 下载数据集来进行下面的例子。

注意：建议使用Jupter Notebooks来学习下面的知识。

学习之前假设你已经有了对Pandas和Numpy库的基本认识，包括Pandas的工作基础 Series 和 DataFrame 对象，应用到这些对象上的常用方法，以及熟悉了NumPy的 NaN 值。

让我们导入这些模块开始我们的学习。

>>> import pandas as pd
>>> import numpy as np

删除DataFrame的列

经常的，你会发现数据集中不是所有的字段类型都是有用的。例如，你可能有一个关于学生信息的数据集，包含姓名，分数，标准，父母姓名，住址等具体信息，但是你只想分析学生的分数。

这个情况下，住址或者父母姓名信息对你来说就不是很重要。这些没有用的信息会占用不必要的空间，并会使运行时间减慢。

Pandas提供了一个非常便捷的方法 drop() 函数来移除一个DataFrame中不想要的行或列。让我们看一个简单的例子如何从DataFrame中移除列。

首先，我们引入 BL-Flickr-Images-Book.csv 文件，并创建一个此文件的DataFrame。在下面这个例子中，我们设置了一个 pd.read_csv 的相对路径，意味着所有的数据集都在 Datasets 文件夹下的当前工作目录中：

>>> df = pd.read_csv('Datasets/BL-Flickr-Images-Book.csv')
>>> df.head()
Identifier Edition Statement Place of Publication \
0 206 NaN London
1 216 NaN London; Virtue & Yorston
2 218 NaN London
3 472 NaN London
4 480 A new edition, revised, etc. London
Date of Publication Publisher \
0 1879 [1878] S. Tinsley & Co.
1 1868 Virtue & Co.
2 1869 Bradbury, Evans & Co.
3 1851 James Darling
4 1857 Wertheim & Macintosh
Title Author \
0 Walter Forbes. [A novel.] By A. A A. A.
1 All for Greed. [A novel. The dedication signed... A., A. A.
2 Love the Avenger. By the author of “All for Gr... A., A. A.
3 Welsh Sketches, chiefly ecclesiastical, to the... A., E. S.
4 [The World in which I live, and my place in it... A., E. S.
Contributors Corporate Author \
0 FORBES, Walter. NaN
1 BLAZE DE BURY, Marie Pauline Rose - Baroness NaN
2 BLAZE DE BURY, Marie Pauline Rose - Baroness NaN
3 Appleyard, Ernest Silvanus. NaN
4 BROOME, John Henry. NaN
Corporate Contributors Former owner Engraver Issuance type \
0 NaN NaN NaN monographic
1 NaN NaN NaN monographic
2 NaN NaN NaN monographic
3 NaN NaN NaN monographic
4 NaN NaN NaN monographic
Flickr URL \
0 http://www.flickr.com/photos/britishlibrary/ta...
1 http://www.flickr.com/photos/britishlibrary/ta...
2 http://www.flickr.com/photos/britishlibrary/ta...
3 http://www.flickr.com/photos/britishlibrary/ta...
4 http://www.flickr.com/photos/britishlibrary/ta...
Shelfmarks
0 British Library HMNTS 12641.b.30.
1 British Library HMNTS 12626.cc.2.
2 British Library HMNTS 12625.dd.1.
3 British Library HMNTS 10369.bbb.15.
4 British Library HMNTS 9007.d.28.

我们使用了 head() 方法得到了前五个行信息，这些列提供了对图书馆有帮助的辅助信息，但是并不能很好的描述这些书籍： Edition Statement , Corporate Author , Corporate Contributors , Former owner , Engraver , Issuance type and Shelfmarks 。

因此，我们可以用下面的方法移除这些列：

>>> to_drop = ['Edition Statement',
... 'Corporate Author',
... 'Corporate Contributors',
... 'Former owner',
... 'Engraver',
... 'Contributors',
... 'Issuance type',
... 'Shelfmarks']
>>> df.drop(to_drop, inplace=True, axis=1)

在上面，我们定义了一个包含我们不要的列的名称列表。接着，我们在对象上调用 drop() 函数，其中 inplace 参数是 True ， axis 参数是 1 。这告诉了Pandas我们想要直接在我们的对象上发生改变，并且它应该可以寻找对象中被移除列的信息。

我们再次看一下DataFrame，我们会看到不要想的信息已经被移除了。

>>> df.head()
Identifier Place of Publication Date of Publication \
0 206 London 1879 [1878]
1 216 London; Virtue & Yorston 1868
2 218 London 1869
3 472 London 1851
4 480 London 1857
Publisher Title \
0 S. Tinsley & Co. Walter Forbes. [A novel.] By A. A
1 Virtue & Co. All for Greed. [A novel. The dedication signed...
2 Bradbury, Evans & Co. Love the Avenger. By the author of “All for Gr...
3 James Darling Welsh Sketches, chiefly ecclesiastical, to the...
4 Wertheim & Macintosh [The World in which I live, and my place in it...
Author Flickr URL
0 A. A. http://www.flickr.com/photos/britishlibrary/ta...
1 A., A. A. http://www.flickr.com/photos/britishlibrary/ta...
2 A., A. A. http://www.flickr.com/photos/britishlibrary/ta...
3 A., E. S. http://www.flickr.com/photos/britishlibrary/ta...
4 A., E. S. http://www.flickr.com/photos/britishlibrary/ta...

同样的，我们也可以通过给 columns 参数赋值直接移除列，而就不用分别定义to_drop列表和axis了。

>>> df.drop(columns=to_drop, inplace=True)

这种语法更直观更可读。我们这里将要做什么就很明显了。

改变DataFrame的索引

Pandas索引 index 扩展了Numpy数组的功能，以允许更多多样化的切分和标记。在很多情况下，使用唯一的值作为索引值识别数据字段是非常有帮助的。

例如，仍然使用上一节的数据集，可以想象当一个图书管理员寻找一个记录，他们也许会输入一个唯一标识来定位一本书。

>>> df['Identifier'].is_unique
True

让我们用 set_index 把已经存在的索引改为这个列。

>>> df = df.set_index('Identifier')
>>> df.head()
Place of Publication Date of Publication \
206 London 1879 [1878]
216 London; Virtue & Yorston 1868
218 London 1869
472 London 1851
480 London 1857
Publisher \
206 S. Tinsley & Co.
216 Virtue & Co.
218 Bradbury, Evans & Co.
472 James Darling
480 Wertheim & Macintosh
Title Author \
206 Walter Forbes. [A novel.] By A. A A. A.
216 All for Greed. [A novel. The dedication signed... A., A. A.
218 Love the Avenger. By the author of “All for Gr... A., A. A.
472 Welsh Sketches, chiefly ecclesiastical, to the... A., E. S.
480 [The World in which I live, and my place in it... A., E. S.
Flickr URL
206 http://www.flickr.com/photos/britishlibrary/ta...
216 http://www.flickr.com/photos/britishlibrary/ta...
218 http://www.flickr.com/photos/britishlibrary/ta...
472 http://www.flickr.com/photos/britishlibrary/ta...
480 http://www.flickr.com/photos/britishlibrary/ta...

技术细节：不像在SQL中的主键一样，pandas的索引不保证唯一性，尽管许多索引和合并操作将会使运行时间变长如果是这样。

我们可以用一个直接的方法 loc[] 来获取每一条记录。尽管 loc[] 这个词可能看上去没有那么直观，但它允许我们使用基于标签的索引，这个索引是行的标签或者不考虑位置的记录。

>>> df.loc[206]
Place of Publication London
Date of Publication 1879 [1878]
Publisher S. Tinsley & Co.
Title Walter Forbes. [A novel.] By A. A
Author A. A.
Flickr URL http://www.flickr.com/photos/britishlibrary/ta...
Name: 206, dtype: object

换句话说，206是索引的第一个标签。如果想通过位置获取它，我们可以使用 df.iloc[0] ，是一个基于位置的索引。

之前，我们的索引是一个范围索引：从0开始的整数，类似Python的内建 range 。通过给 set_index 一个列名，我们就把索引变成了 Identifier 中的值。

你也许注意到了我们通过 df = df.set_index(...) 的返回变量重新给对象赋了值。这是因为，默认的情况下，这个方法返回一个被改变对象的拷贝，并且它不会直接对原对象做任何改变。我们可以通过设置参数 inplace 来避免这个问题。

df.set_index('Identifier', inplace=True)

清洗数据字段

到现在为止，我们移除了不必要的列并改变了我们的索引变得更有意义。这个部分，我们将清洗特殊的列，并使它们变成统一的格式，这样可以更好的理解数据集和加强连续性。特别的，我们将清洗 Date of Publication 和 Place of Publication 。

根据上面观察，所有的数据类型都是现在的 object dtype类型，差不多类似于Python中的str。

它包含了一些不能被适用于数值或是分类的数据。这也正常，因为我们正在处理这些初始值就是杂乱无章字符串的数据。

>>> df.get_dtype_counts()
object 6

一个需要被改变为数值的的字段是 the date of publication 所以我们做如下操作：

>>> df.loc[1905:, 'Date of Publication'].head(10)
Identifier
1905 1888
1929 1839, 38-54
2836 [1897?]
2854 1865
2956 1860-63
2957 1873
3017 1866
3131 1899
4598 1814
4884 1820
Name: Date of Publication, dtype: object

一本书只能有一个出版日期 data of publication 。因此，我们需要做以下的一些事情：

移除在方括号内的额外日期，任何存在的：1879[1878]。
将日期范围转化为它们的起始日期，任何存在的：1860-63;1839,38-54。
完全移除我们不关心的日期，并用Numpy的 NaN 替换：[1879?]。
将字符串 nan 转化为Numpy的 NaN 值。

考虑这些模式，我们可以用一个简单的正则表达式来提取出版日期：

regex = r'^(\d{4})'

上面正则表达式的意思在字符串开头寻找任何四位数字，符合我们的情况。

\d 代表任何数字， {4} 重复这个规则四次。 ^ 符号匹配一个字符串最开始的部分，圆括号表示一个分组，提示pandas我们想要提取正则表达式的部分。

让我们看看运行这个正则在数据集上之后会发生什么。

>>> extr = df['Date of Publication'].str.extract(r'^(\d{4})', expand=False)
>>> extr.head()
Identifier
206 1879
216 1868
218 1869
472 1851
480 1857
Name: Date of Publication, dtype: object

其实这个列仍然是一个 object 类型，但是我们可以使用 pd.to_numeric 轻松的得到数字的版本：

>>> df['Date of Publication'] = pd.to_numeric(extr)
>>> df['Date of Publication'].dtype
dtype('float64')

这个结果中，10个值里大约有1个值缺失，这让我们付出了很小的代价来对剩余有效的值做计算。

>>> df['Date of Publication'].isnull().sum() / len(df)
0.11717147339205986

结合str方法与Numpy清洗列

上面，你可以观察到 df['Date of Publication'].str. 的使用。这个属性是pandas里的一种提升字符串操作速度的方法，并有大量的Python字符串或编译的正则表达式上的小操作，例如 .split() , .replace() ,和 .capitalize() 。

为了清洗 Place of Publication 字段，我们可以结合pandas的 str 方法和numpy的 np.where 函数配合完成。

它的语法如下：

>>> np.where(condition, then, else)

这里， condition 可以使一个类数组的对象，也可以是一个布尔表达。如果 condition 值为真，那么 then 将被使用，否则使用 else 。

它也可以组网使用，允许我们基于多个条件进行计算。

>>> np.where(condition1, x1,
np.where(condition2, x2,
np.where(condition3, x3, ...)))

我们将使用这两个方程来清洗 Place of Publication 由于这列有字符串对象。以下是这个列的内容：

>>> df['Place of Publication'].head(10)
Identifier
206 London
216 London; Virtue & Yorston
218 London
472 London
480 London
481 London
519 London
667 pp. 40. G. Bryan & Co: Oxford, 1898
874 London]
1143 London
Name: Place of Publication, dtype: object

我们看到，对于一些行， place of publication 还被一些其它没有用的信息围绕着。如果我们看更多的值，我们发现这种情况中有些行

让我们看看两个特殊的：

>>> df.loc[4157862]
Place of Publication Newcastle-upon-Tyne
Date of Publication 1867
Publisher T. Fordyce
Title Local Records; or, Historical Register of rema...
Author T. Fordyce
Flickr URL http://www.flickr.com/photos/britishlibrary/ta...
Name: 4157862, dtype: object
>>> df.loc[4159587]
Place of Publication Newcastle upon Tyne
Date of Publication 1834
Publisher Mackenzie & Dent
Title An historical, topographical and descriptive v...
Author E. (Eneas) Mackenzie
Flickr URL http://www.flickr.com/photos/britishlibrary/ta...
Name: 4159587, dtype: object

这两本书在同一个地方出版，但是一个有连字符，另一个没有。

为了一次性清洗这个列，我们使用 str.contains() 来获取一个布尔值。

我们清洗的列如下：

>>> pub = df['Place of Publication']
>>> london = pub.str.contains('London')
>>> london[:5]
Identifier
206 True
216 True
218 True
472 True
480 True
Name: Place of Publication, dtype: bool
>>> oxford = pub.str.contains('Oxford')

我们将它与 np.where 结合。

df['Place of Publication'] = np.where(london, 'London',
np.where(oxford, 'Oxford',
pub.str.replace('-', ' ')))
>>> df['Place of Publication'].head()
Identifier
206 London
216 London
218 London
472 London
480 London
Name: Place of Publication, dtype: object

这里， np.where 方程在一个嵌套的结构中被调用， condition 是一个通过 st.contains() 得到的布尔的 Series 。 contains() 方法与Python内建的 in 关键字一样，用于发现一个个体是否发生在一个迭代器中。

使用的替代物是一个代表我们期望的出版社地址字符串。我们也使用 str.replace() 将连字符替换为空格，然后给DataFrame中的列重新赋值。

尽管数据集中还有更多的不干净数据，但是我们现在仅讨论这两列。

让我们看看前五行，现在看起来比我们刚开始的时候好点了。

>>> df.head()
Place of Publication Date of Publication Publisher \
206 London 1879 S. Tinsley & Co.
216 London 1868 Virtue & Co.
218 London 1869 Bradbury, Evans & Co.
472 London 1851 James Darling
480 London 1857 Wertheim & Macintosh
Title Author \
206 Walter Forbes. [A novel.] By A. A AA
216 All for Greed. [A novel. The dedication signed... A. A A.
218 Love the Avenger. By the author of “All for Gr... A. A A.
472 Welsh Sketches, chiefly ecclesiastical, to the... E. S A.
480 [The World in which I live, and my place in it... E. S A.
Flickr URL
206 http://www.flickr.com/photos/britishlibrary/ta...
216 http://www.flickr.com/photos/britishlibrary/ta...
218 http://www.flickr.com/photos/britishlibrary/ta...
472 http://www.flickr.com/photos/britishlibrary/ta...
480 http://www.flickr.com/photos/britishlibrary/ta...

在这一点上， Place of Publication 就是一个很好的需要被转换成分类数据的类型，因为我们可以用整数将这相当小的唯一城市集编码。(分类数据的使用内存与分类的数量以及数据的长度成正比)

使用 applymap 方法清洗整个数据集

在一定的情况下，你将看到并不是仅仅有一条列不干净，而是更多的。

在一些实例中，使用一个定制的函数到DataFrame的每一个元素将会是很有帮助的。 pandas 的 applyma() 方法与内建的 map() 函数相似，并且简单的应用到一个 DataFrame 中的所有元素上。

让我们看一个例子。我们将基于"university_towns.txt"文件创建一个 DataFrame 。

$ head Datasets/univerisity_towns.txt
Alabama[edit]
Auburn (Auburn University)[1]
Florence (University of North Alabama)
Jacksonville (Jacksonville State University)[2]
Livingston (University of West Alabama)[2]
Montevallo (University of Montevallo)[2]
Troy (Troy University)[2]
Tuscaloosa (University of Alabama, Stillman College, Shelton State)[3][4]
Tuskegee (Tuskegee University)[5]
Alaska[edit]

我们可以看到每个state后边都有一些在那个state的大学城： StateA TownA1 TownA2 StateB TownB1 TownB2... 。如果我们仔细观察state名字的写法，我们会发现它们都有"[edit]"的自字符串。

我们可以利用这个特征创建一个含有 (state,city) 元组的列表，并将这个列表嵌入到 DdataFrame 中。

>>> university_towns = []
>>> with open('Datasets/university_towns.txt') as file:
... for line in file:
... if '[edit]' in line:
... # Remember this `state` until the next is found
... state = line
... else:
... # Otherwise, we have a city; keep `state` as last-seen
... university_towns.append((state, line))
>>> university_towns[:5]
[('Alabama[edit]\n', 'Auburn (Auburn University)[1]\n'),
('Alabama[edit]\n', 'Florence (University of North Alabama)\n'),
('Alabama[edit]\n', 'Jacksonville (Jacksonville State University)[2]\n'),
('Alabama[edit]\n', 'Livingston (University of West Alabama)[2]\n'),
('Alabama[edit]\n', 'Montevallo (University of Montevallo)[2]\n')]

我们可以在DataFrame中包装这个列表，并设列名为"State"和"RegionName"。pandas将会使用列表中的每个元素，然后设置 State 到左边的列， RegionName 到右边的列。

最终的DataFrame是这样的：

>>> towns_df = pd.DataFrame(university_towns,
... columns=['State', 'RegionName'])
>>> towns_df.head()
State RegionName
0 Alabama[edit]\n Auburn (Auburn University)[1]\n
1 Alabama[edit]\n Florence (University of North Alabama)\n
2 Alabama[edit]\n Jacksonville (Jacksonville State University)[2]\n
3 Alabama[edit]\n Livingston (University of West Alabama)[2]\n
4 Alabama[edit]\n Montevallo (University of Montevallo)[2]\n

我们可以像上面使用for loop来进行清洗，但是pandas提供了更简单的办法。我们只需要state name和town name，然后就可以移除所以其他的了。这里我们可以再次使用pandas的 .str() 方法，同时我们也可以使用 applymap() 将一个python callable映射到DataFrame中的每个元素上。

我们一直在使用"元素"这个摄于，但是我们到底是什么意思呢?看看下面这个"toy"的DataFrame：

0 1
0 Mock Dataset
1 Python Pandas
2 Real Python
3 NumPy Clean

在这个例子中，每个单元 (‘Mock’, ‘Dataset’, ‘Python’, ‘Pandas’, etc.) 都是一个元素。因此， applymap() 将分别应用一个函数到这些元素上。让我们定义这个函数。

>>> def get_citystate(item):
... if ' (' in item:
... return item[:item.find(' (')]
... elif '[' in item:
... return item[:item.find('[')]
... else:
... return item

pandas的 applymap() 只用一个参数，就是要应用到每个元素上的函数(callable)。

>>> towns_df = towns_df.applymap(get_citystate)

首先，我们定义一个函数，它将从DataFrame中获取每一个元素作为自己的参数。在这个函数中，检验元素中是否有一个 ( 或者 [ 。

基于上面的检查，函数返回相应的值。最后， applymap() 函数被用在我们的对象上。现在DataFrame就看起来更干静了。

>>> towns_df.head()
State RegionName
0 Alabama Auburn
1 Alabama Florence
2 Alabama Jacksonville
3 Alabama Livingston
4 Alabama Montevallo

applymap() 方法从DataFrame中提取每个元素，传递到函数中，然后覆盖原来的值。就是这么简单!

技术细节：虽然 .applymap 是一个方便和灵活的方法，但是对于大的数据集它将会花费很长时间运行，因为它需要将python callable应用到每个元素上。一些情况中，使用Cython或者NumPY的向量化的操作会更高效。

重命名列和移除行

经常的，你处理的数据集会有让你不太容易理解的列名，或者在头几行或最后几行有一些不重要的信息，例如术语定义，或是附注。

这种情况下，我们想重新命名列和移除一定的行以让我们只留下正确和有意义的信息。

为了证明我们如何处理它，我们先看一下"olympics.csv"数据集的头5行：

$ head -n 5 Datasets/olympics.csv
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
,? Summer,01 !,02 !,03 !,Total,? Winter,01 !,02 !,03 !,Total,? Games,01 !,02 !,03 !,Combined total
Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70

现在我们将它读入pandas的DataFrame。

>>> olympics_df = pd.read_csv('Datasets/olympics.csv')
>>> olympics_df.head()
0 1 2 3 4 5 6 7 8 \
0 NaN ? Summer 01 ! 02 ! 03 ! Total ? Winter 01 ! 02 !
1 Afghanistan (AFG) 13 0 0 2 2 0 0 0
2 Algeria (ALG) 12 5 2 8 15 3 0 0
3 Argentina (ARG) 23 18 24 28 70 18 0 0
4 Armenia (ARM) 5 1 2 9 12 6 0 0
9 10 11 12 13 14 15
0 03 ! Total ? Games 01 ! 02 ! 03 ! Combined total
1 0 0 13 0 0 2 2
2 0 0 15 5 2 8 15
3 0 0 41 18 24 28 70
4 0 0 11 1 2 9 12

这的确有点乱!列名是以整数的字符串形式索引的，以0开始。本应该是列名的行却处在 olympics_df.iloc[0] 。发生这个是因为CSV文件以0, 1, 2, …, 15起始的。

同样，如果我们去数据集的源文件观察，上面的 NaN 真的应该是像"Country"这样的， ? Summer 应该代表"Summer Games", 而 01 ! 应该是"Gold"之类的。

因此，我们需要做两件事：

移除第一行并设置header为第一行
重新命名列

当我们读CSV文件的时候，可以通过传递一些参数到 read_csv 函数来移除行和设置列名称。

这个函数有很多可选桉树，但是这里我们只需要 header

来移除第0行：

>>> olympics_df = pd.read_csv('Datasets/olympics.csv', header=1)
>>> olympics_df.head()
Unnamed: 0 ? Summer 01 ! 02 ! 03 ! Total ? Winter \
0 Afghanistan (AFG) 13 0 0 2 2 0
1 Algeria (ALG) 12 5 2 8 15 3
2 Argentina (ARG) 23 18 24 28 70 18
3 Armenia (ARM) 5 1 2 9 12 6
4 Australasia (ANZ) [ANZ] 2 3 4 5 12 0
01 !.1 02 !.1 03 !.1 Total.1 ? Games 01 !.2 02 !.2 03 !.2 \
0 0 0 0 0 13 0 0 2
1 0 0 0 0 15 5 2 8
2 0 0 0 0 41 18 24 28
3 0 0 0 0 11 1 2 9
4 0 0 0 0 2 3 4 5
Combined total
0 2
1 15
2 70
3 12
4 12

我们现在有了设置为header的正确行，并且所有没用的行都被移除了。记录一下pandas是如何将包含国家的列名 NaN 改变为 Unnamed:0 的。

为了重命名列，我们将使用DataFrame的 rename() 方法，允许你以一个映射(这里是一个字典)重新标记一个轴。

让我们开始定义一个字典来将现在的列名称(键)映射到更多的可用列名称(字典的值)。

>>> new_names = {'Unnamed: 0': 'Country',
... '? Summer': 'Summer Olympics',
... '01 !': 'Gold',
... '02 !': 'Silver',
... '03 !': 'Bronze',
... '? Winter': 'Winter Olympics',
... '01 !.1': 'Gold.1',
... '02 !.1': 'Silver.1',
... '03 !.1': 'Bronze.1',
... '? Games': '# Games',
... '01 !.2': 'Gold.2',
... '02 !.2': 'Silver.2',
... '03 !.2': 'Bronze.2'}

我们在对象上调用 rename() 函数：

>>> olympics_df.rename(columns=new_names, inplace=True)

设置 inplace 为 True 可以让我们的改变直接反映在对象上。让我们看看是否正确：

>>> olympics_df.head()
Country Summer Olympics Gold Silver Bronze Total \
0 Afghanistan (AFG) 13 0 0 2 2
1 Algeria (ALG) 12 5 2 8 15
2 Argentina (ARG) 23 18 24 28 70
3 Armenia (ARM) 5 1 2 9 12
4 Australasia (ANZ) [ANZ] 2 3 4 5 12
Winter Olympics Gold.1 Silver.1 Bronze.1 Total.1 # Games Gold.2 \
0 0 0 0 0 0 13 0
1 3 0 0 0 0 15 5
2 18 0 0 0 0 41 18
3 6 0 0 0 0 11 1
4 0 0 0 0 0 2 3
Silver.2 Bronze.2 Combined total
0 0 2 2
1 2 8 15
2 24 28 70
3 2 9 12
4 4 5 12

Python数据清洗：回顾

这个教程中，你学会了从数据集中如何使用 drop() 函数去除不必要的信息，也学会了如何为数据集设置索引，以让items可以被容易的找到。

更多的，你学会了如何使用 .str() 清洗对象字段，以及如何使用 applymap 对整个数据集清洗。最后，我们探索了如何移除CSV文件的行，并且使用 rename() 方法重命名列。

掌握数据清洗非常重要，因为它是数据科学的一个大的部分。你现在应该有了一个如何使用pandas和numpy进行数据清洗的基本理解了。

你可能感兴趣的:(转载：使用Pandas&NumPy进行数据清洗的6大常用方法)

Label标签的属性 Cc_zhH GUI开发 python
Label标签的属性以下是TkinterLabel组件的一些常用属性，以及它们的详细说明：属性名说明text标签上显示的文本。font标签文本的字体，格式为(font_name,size)或(font_name,size,style)，其中style可以是"bold"、"italic"等。fg文本的前景色（即文本颜色）。bg标签的背景色。width标签的宽度，以文本单位（一个空格的宽度）为单位。h
有一个4*5的矩阵如下，要求编写程序计算总和与平均值，并找出其中值最大的那个元素输出，以及其所在的行号和列号。小白—人工智能 Python——题库百战矩阵算法 python 数据结构
一、题目二、代码解析max_value被初始化为矩阵的第一个元素matrix[0][0]。max_row和max_col分别被初始化为0，表示最大值所在的行和列。s被初始化为0，用于累加矩阵中的所有元素。外层循环forkinrange(len(matrix))遍历矩阵的每一行。内层循环forpinrange(len(matrix[0]))遍历矩阵的每一列。s+=matrix[k][p]将当前元素m
字符串的大小比较小白—人工智能 python 算法
一、题目两个字符串a、b可以比较大小，比较规则是按各个对应字符的Unicode(Unicode)编码，编码大的一个为大。比较a[0]与b[0]，如果a[0]>b[0]则a>b，如果a[0]b[1]则a>b，如果a[1]len(b)则a>b:如果len(a)b返回1，如果ank=n#先比较值的大小foriinrange(k):#判断数组值，实际0到k-1，但是数组从0开始，所以包括全部；k=5，i=
头歌实训作业算法设计与分析-贪心算法(第2关：最优装载问题) Milk夜雨头歌实训作业贪心算法算法
任务描述有一批集装箱要装上一艘载重量为C的轮船，共有n个集装箱，其中集装箱i的重量为Wi。最优装载问题要求确定在装载体积不受限制的情况下，将尽可能多的集装箱装上轮船。测试说明输入和输出说明：第1行为集装箱数目n和载重限制C第2行~第n+1行为n个集装箱的重量输出最优装载方案的集装箱数目，若没有装入任何集装箱，则输出0输入示例1：51052643输出示例1:3说明：其中一个最优装载方案为装入重量为2
创建 Python 虚拟环境venv bdawn python python 开发语言虚拟环境 venv pip activate 3.3
创建Python虚拟环境是一个很好的实践，可以帮助我们管理项目的依赖项，避免不同项目之间的冲突。以下是使用venv模块创建Python虚拟环境的详细步骤：使用venv模块创建虚拟环境venv是Python自带的模块，从Python3.3开始可用。以下是具体步骤：1.创建虚拟环境假设你要在当前目录下创建一个名为myenv的虚拟环境，可以使用以下命令：python-mvenvmyenvpython：确
mvc学习笔记 JDS_DIJ 笔记 mvc
mvc设计框架的形成最早是servlet==>缺点:生成html页面太麻烦,所以引入了jsp,jsp本质就是servletjsp==>缺点:阅读起来困难,难维护,于是引入javabean,用来专门和数据打交道;形成jsp的设计框架model1jsp+javabean==>缺点:jsp即要接受请求,又要展示数据,所以又加入servlet;专门用来接受请求;形成jsp的设计框架model2jsp+ja
细嗦Transformer（三）：准备训练，讲解及代码实现优化器、学习率调整策略、正则化和KL散度损失 Ace_bb 算法 LLM transformer
文章目录关注我：细嗦大模型批处理对象/BatchesandMasking训练循环主函数/TrainingLoop优化器/Optimizer学习率调整策略/Learningrateadjustmentstrategy样例测试正则化/RegularizationLabelsmoothing标签平滑KL散度损失样例测试Github完整代码----求求了给个star和关注吧参考资料求求了，给个star和关
五款图片变清晰工具帮助你，轻松实现一键修复模糊图片 Ai工具分享人工智能
在日常生活中，我们难免会遇到图片模糊的情况，无论是年代久远的老照片因分辨率不足而显得模糊，还是在拍摄瞬间因轻微手抖导致的画面不清晰，这些问题都大大影响了图片的观赏价值。那么，面对这些模糊的图片，我们该如何让它们重焕新生，变得清晰明朗呢？接下来，我们就来介绍五款出色的软件，它们具备强大的图像处理能力，能够帮助你轻松实现一键修复模糊图片，让你的珍贵记忆恢复原有的清晰与生动。一、牛学长图片修复工具牛学长
P1035 [NOIP2002 普及组] 级数求和沉睡的雄虱算法 c++
本文主要是分享解决题目的思路题目描述[NOIP2002普及组]级数求和-洛谷已知：Sn=1+12+13+…+1nSn=1+21+31+…+n1。显然对于任意一个整数kk，当nn足够大的时候，Sn>kSn>k。现给出一个整数kk，要求计算出一个最小的nn，使得Sn>kSn>k。输入格式一个正整数kk。输出格式一个正整数nn。输入输出样例输入#1复制1输出#1复制2说明/提示【数据范围】对于100%1
Transformer架构原理详解：编码器（Encoder）和解码器（Decoder） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,编码器,解码器,自注意力机制,多头注意力,位置编码,序列到序列,自然语言处理1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展，其中Transformer架构扮演着至关重要的角色。自2017年谷歌发布了基于Transformer的机器翻译模型BERT以来，Transformer及其变体在各种NLP任务上取得了突破性的成果，例如文本分类、问答系统、文本摘要
使用缓存保存验证码进行登录校验记得开心一点嘛 JavaWeb后端开发技术栈高并发处理缓存后端 redis springboot
在SpringBoot项目中使用Redis进行登录校验，一般的做法是将用户的登录状态（例如，JWT令牌或者用户信息）存储在Redis中，并在后续请求中进行校验。我们需要建立两个拦截器：RefreshTokenInterceptor+LoginInterceptor，它们分别拦截全部路径和拦截需要登录的路径：首先我们需要将这个token从前端进行获取，随后在Redis缓存中查询是否有该用户的toke
python网络爬虫selenium(1) 2401_84009529 程序员 python 爬虫 selenium
pipinstallselenium以Chrom浏览器为例，安装相应版本的chromdriver驱动程序，并添加为环境变量安装链接：安装chromdriver2.常用属性和方法===============================================================================fromseleniumimportwebdriverimport
数据结构-堆及堆排序海棠蚀omo 数据结构算法
1.堆的定义堆（Heap）是一种数据结构，通常是一个完全二叉树。在堆中，每个节点都有一个与其相关的值，并且满足堆的性质。堆分为两种类型：大堆和小堆。大堆：在大堆中，对于每个非叶子节点，其值都大于或等于它的子节点的值。也就是说，根节点的值是整个堆中的最大值。小堆：与大堆相反，在小堆中，对于每个非叶子节点，其值都小于或等于它的子节点的值。根节点的值是整个堆中的最小值。左边的这幅图就是大堆，大堆中所有的
用Python爬虫获取微博热搜词：数据抓取、分析与可视化全流程 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 selenium
引言微博作为中国最受欢迎的社交平台之一，每时每刻都在更新着海量的内容。其中，微博热搜词反映了用户关注的热点话题、社会事件及潮流趋势。对于数据分析、情感分析以及趋势预测等领域，获取微博热搜数据是一个非常有价值的任务。在本篇博客中，我们将详细介绍如何使用Python爬虫技术获取微博的热搜词，并进行数据分析和可视化。通过全流程的讲解，帮助你了解如何通过爬虫技术抓取并分析微博热搜词数据。一、爬虫技术概述与
【vim】vim怎样直接跳转到某行？音频金钟小赵 #Linux相关 vim 编辑器 linux
vim怎样直接跳转到某行？一、使用行号跳转二、使用相对行号跳转三、使用标记跳转在Vim中直接跳转到某行可以使用以下几种方法：一、使用行号跳转在命令模式下，输入冒号:，然后输入你想要跳转的行号，最后按回车键。例如，如果你想跳转到第50行，操作如下：:50这将使光标直接定位到第50行。二、使用相对行号跳转2.1.首先，你需要开启相对行号显示，可以在命令模式下输入：:setrelativenumber这
VIM 的 YCM 插件哎呦，帅小伙哦开发工具 vim 编辑器 linux
1、背景VIM是一个非常强大的文本编辑器，因其高效的操作方式和丰富的插件生态系统而备受开发者喜爱。对于开发人员来说，代码补全和智能提示是提升编程效率的重要工具，而YouCompleteMe（YCM）插件就是其中一款功能强大且广泛使用的补全插件。YouCompleteMe（简称YCM）是一个为VIM编辑器设计的代码补全插件。它能够提供智能代码补全、错误检查、实时提示等功能，支持多种编程语言，如C/C
体育实时数据是怎么获取的 sanx18 python
体育实时数据的获取通常依赖于技术、数据提供商以及基础设施的综合应用。以下是主要的获取方式和技术手段：1.官方渠道数据接口体育联赛与赛事方的API：一些官方机构（如FIFA、NBA、MLB等）提供实时数据接口，这些接口向媒体和第三方开发者开放，可以获取实时的比赛分数、统计数据和赛程安排。合作授权：数据提供者通过签订授权协议与体育组织合作，实时获取数据。2.第三方数据提供商专业的数据服务商：通过自建团
Kafka消息轨迹方案设计与实现小马不敲代码大数据 kafka
在处理过的几个千万级TPS的Kafka集群中，消息追踪始终是一个既重要又棘手的问题。一条消息从Producer发出后，经过复杂的处理流程，最终被Consumer消费，中间可能会经历重试、重平衡、多副本复制等多个环节。如果没有完善的追踪机制，一旦出现问题将很难定位。本文将详细介绍Kafka消息轨迹的实现方案。1、Kafka消息处理模型在设计追踪方案前，我们需要先理解Kafka的消息处理模型。一条消息
MVC 架构学习笔记 disgare 架构 mvc 架构学习
MVC架构学习笔记Service与DAO层方法命名规约业务错误是用返回值来处理还是抛异常来处理Service与DAO层方法命名规约CRUD是指在做计算处理时的增加(Create)、读取查询(Retrieve)、更新(Update)和删除(Delete)几个单词的首字母简写。主要被用在描述软件系统中DataBase或者持久层的基本操作功能。对应这里的crud方法的命名，每个人有不同的实践。以下是阿里
【Python】深入探讨Python中的单例模式：元类与装饰器实现方式分析与代码示例蒙娜丽宁 Python杂谈 python 单例模式开发语言
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界单例模式（SingletonPattern）是一种常见的设计模式，它确保一个类只有一个实例，并提供一个全局访问点。在Python中，实现单例模式的方式多种多样，包括基于装饰器、元类和模块级别的单例实现。本文将详细探讨这些实现方式，并通过大量代码示例进行演
UniApp + UniCloud 实现微信小程序静默登录九情丶 uni-app 微信小程序 notepad++
UniApp+UniCloud实现微信小程序静默登录目录1.项目准备2.UniCloud配置3.前端实现4.云函数实现5.完整示例1.项目准备1.1环境要求HBuilderX3.0+微信开发者工具UniCloud已开通微信小程序已注册1.2项目配置在manifest.json中配置微信小程序AppID：{"mp-weixin":{"appid":"你的小程序AppID","setting":{"u
【云原生布道系列】第三篇：“软”饭“硬”吃的计算江中散人云原生-IaaS专栏云原生云计算
1虚拟化技术定义首先援引一段《虚拟化技术发展编年史》中针对虚拟化技术的定义：在计算机科学中，虚拟化技术（Virtualization）是一种资源管理（优化）技术，将计算机的各种物理资源（例如CPU、内存、磁盘空间，以及网络适配器等I/O设备）予以抽象、转换，然后呈现出一个可供分割并任意组合为一个或多个（虚拟）计算机的配置环境。虚拟化技术打破了计算机内部硬件实体结构不可分割的物理实体障碍，使用户能够
微信 PC 版 4.0：新架构，新升级创意锦囊微信架构
探索微信PC版4.0：新架构带来的革命性升级微信在2023年底推出了PC客户端4.0测试版，引入了全新的QT+C++原生跨平台架构。这次架构重构标志着微信在桌面端从传统的WebView技术迈向更现代化、高性能的原生技术基础，带来了显著的功能升级和用户体验优化。从旧到新：架构大变革旧架构：WebView+JavaScript微信旧版PC客户端主要依赖WebView技术，通过HTML、CSS和Java
Python的Tkinter模块 Cc_zhH GUI开发 python
大纲Tkinte组件在Python的Tkinter模块中，有许多组件可用于构建图形用户界面。下面是一些常用的Tkinter组件，并将它们以表格形式展示，同时提供简要的说明。组件名称描述用途Tk主窗口类，用于创建应用程序的主窗口。创建应用程序的主界面。Frame容器组件，用于组织其他组件。组织界面布局，将相关组件组合在一起。Button按钮组件，用于触发事件。创建用户交互的按钮。Label标签组件，
Python编程练习题及解析（49题） Selina .a python教程 python 开发语言算法
1.打印Hello,World!题目：打印字符串"Hello,World!"。解析：print("Hello,World!")2.计算两个数的和题目：计算两个数a和b的和。解析：a=5b=3print(a+b)3.判断奇偶性题目：判断一个数是否为偶数。解析：num=4ifnum%2==0:print(f"{num}是偶数")else:print(f"{num}是奇数")4.列表反转题目：反转一个列
深入探究 Java 异常处理潜意识Java Java知识 java python 开发语言
目录一、异常是什么，为啥要处理它二、Java异常体系概述三、Java异常处理方式1.try-catch-finally块2.throws关键字3.throw关键字四、自定义异常五、异常处理的最佳实践六、总结在Java编程的旅程中，异常处理就像是一位默默守护的卫士，时刻保障着程序的稳健运行。当程序运行过程中出现错误或异常情况时，合理的异常处理机制能够避免程序崩溃，让程序以一种可控的方式继续执行或优雅
azkaban的概况北京小峻大数据 azkaban mysql 数据库
Azkaban的性质azkaban是一个任务调度,管理系统,可以帮用户管理,调度各种运算任务的一个web服务器可以调度任何任务,只要你的任务能用脚本启动azkaban的类似的产品还有很多,例如hadoop生态中原生的:oozie,areflow局限性目前azkaban只支持mysql作为元数据管理系统,必须安装mysql服务器角色executorserver有好几个是真正执行的程序,调度用户的任务
lxml.etree模式使用(一) 卫生纸不够用 python爬虫 python 前端 javascript
fromlxmlimportetreefromcopyimportdeepcopydefprettyprint(element,**kwargs):print("/")xml=etree.tostring(element,pretty_print=True,**kwargs)print(xml.decode(),end='')#1.创建元素root=etree.Element("root")#2.
Maxwell软件使用问题——旧版本打开新版本（The partner project name of the link cannot be empty）加点油。。。。 Maxwell建模 maxwell 电机建模仿真 ansys
问题：使用AnsysElectronics2019R1打开2022R1运行maxwell模型是出现了下面问题解决方法：参考链接：(https://bbs.simol.cn/thread-200781-1-1.html)将setup中Advanced的对勾去掉。
小结：直连路由配置检验 flying robot HCIE 网络
直连路由是指通过直接连接到路由器的接口形成的路由。直连路由不需要手动配置，路由器会根据接口的IP地址自动生成直连路由。直连路由的特点直连路由由路由器根据接口配置自动添加到路由表中。直连路由的优先级通常比静态路由和动态路由更高（优先级为0）。直连路由通过接口的物理状态（up/down）来动态更新。直连路由的配置步骤1.配置接口的IP地址直连路由的基础是接口的IP地址配置。以下是配置两个接口的示例：内
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc