韩绘锦

第7章文本数据

import pandas as pd
import numpy as np

一、string类型的性质

1. string与object的区别

string类型和object不同之处有三：

① 字符存取方法（string accessor methods，如str.count）会返回相应数据的Nullable类型，而object会随缺失值的存在而改变返回类型

② 某些Series方法不能在string上使用，例如： Series.str.decode()，因为存储的是字符串而不是字节

③ string类型在缺失值存储或运算时，类型会广播为pd.NA，而不是浮点型np.nan

其余全部内容在当前版本下完全一致，但迎合Pandas的发展模式，我们仍然全部用string来操作字符串

2. string类型的转换

如果将一个其他类型的容器直接转换string类型可能会出错：

#pd.Series([1,'1.']).astype('string') #报错
#pd.Series([1,2]).astype('string') #报错
#pd.Series([True,False]).astype('string') #报错

当下正确的方法是分两部转换，先转为str型object，在转为string类型：

pd.Series([1,'1.']).astype('str').astype('string')

0     1
1    1.
dtype: string

pd.Series([1,2]).astype('str').astype('string')

0    1
1    2
dtype: string

pd.Series([True,False]).astype('str').astype('string')

0     True
1    False
dtype: string

二、拆分与拼接

1. str.split方法

（a）分割符与str的位置元素选取

s = pd.Series(['a_b_c', 'c_d_e', np.nan, 'f_g_h'], dtype="string")
s

0    a_b_c
1    c_d_e
2     
3    f_g_h
dtype: string

根据某一个元素分割，默认为空格

s.str.split('_')

0    [a, b, c]
1    [c, d, e]
2         
3    [f, g, h]
dtype: object

这里需要注意split后的类型是object，因为现在Series中的元素已经不是string，而包含了list，且string类型只能含有字符串

对于str方法可以进行元素的选择，如果该单元格元素是列表，那么str[i]表示取出第i个元素，如果是单个元素，则先把元素转为列表在取出

s.str.split('_').str[1]

0       b
1       d
2    
3       g
dtype: object

pd.Series(['a_b_c', ['a','b','c']], dtype="object").str[1]
#第一个元素先转为['a','_','b','_','c']

0    _
1    b
dtype: object

（b）其他参数

expand参数控制了是否将列拆开，n参数代表最多分割多少次

s.str.split('_',expand=True)

	0	1	2
0	a	b	c
1	c	d	e
2
3	f	g	h

s.str.split('_',n=1)

0    [a, b_c]
1    [c, d_e]
2        
3    [f, g_h]
dtype: object

s.str.split('_',expand=True,n=1)

	0	1
0	a	b_c
1	c	d_e
2
3	f	g_h

2. str.cat方法

（a）不同对象的拼接模式

cat方法对于不同对象的作用结果并不相同，其中的对象包括：单列、双列、多列

① 对于单个Series而言，就是指所有的元素进行字符合并为一个字符串

s = pd.Series(['ab',None,'d'],dtype='string')
s

0      ab
1    
2       d
dtype: string

s.str.cat()

'abd'

其中可选sep分隔符参数，和缺失值替代字符na_rep参数

s.str.cat(sep=',')

'ab,d'

s.str.cat(sep=',',na_rep='*')

'ab,*,d'

② 对于两个Series合并而言，是对应索引的元素进行合并

s2 = pd.Series(['24',None,None],dtype='string')
s2

0      24
1    
2    
dtype: string

s.str.cat(s2)

0    ab24
1    
2    
dtype: string

同样也有相应参数，需要注意的是两个缺失值会被同时替换

s.str.cat(s2,sep=',',na_rep='*')

0    ab,24
1      *,*
2      d,*
dtype: string

③ 多列拼接可以分为表的拼接和多Series拼接

表的拼接

s.str.cat(pd.DataFrame({0:['1','3','5'],1:['5','b',None]},dtype='string'),na_rep='*')

0    ab15
1     *3b
2     d5*
dtype: string

多个Series拼接

s.str.cat([s+'0',s*2])

0    abab0abab
1         
2        dd0dd
dtype: string

（b）cat中的索引对齐

当前版本中，如果两边合并的索引不相同且未指定join参数，默认为左连接，设置join=‘left’

s2 = pd.Series(list('abc'),index=[1,2,3],dtype='string')
s2

1    a
2    b
3    c
dtype: string

s.str.cat(s2,na_rep='*')

0    ab*
1     *a
2     db
dtype: string

三、替换

广义上的替换，就是指str.replace函数的应用，fillna是针对缺失值的替换，上一章已经提及

提到替换，就不可避免地接触到正则表达式，这里默认读者已掌握常见正则表达式知识点，若对其还不了解的，可以通过这份资料来熟悉

1. str.replace的常见用法

s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca','', np.nan, 'CABA', 'dog', 'cat'],dtype="string")
s

0       A
1       B
2       C
3    Aaba
4    Baca
5        
6    
7    CABA
8     dog
9     cat
dtype: string

第一个值写r开头的正则表达式，后一个写替换的字符串

s.str.replace(r'^[AB]','***')

0       ***
1       ***
2         C
3    ***aba
4    ***aca
5          
6      
7      CABA
8       dog
9       cat
dtype: string

2. 子组与函数替换

通过正整数调用子组（0返回字符本身，从1开始才是子组）

https://blog.csdn.net/yg_2012/article/details/75426842

group的意思是你的正则表达式是由好多组组成的，然后用字符串去匹配这个表达式，group(1)指的是匹配到了正则表达式第一组的子串是什么，group(2)是指匹配到了正则表达式第二组的子串是什么， groups()就是由所有子串组成的集合。

PS:下面看下正则表达式 \w \s \d \b

. 匹配除换行符以外的任意字符

\w 匹配字母或数字或下划线或汉字等价于 ‘[^A-Za-z0-9_]’。

\s 匹配任意的空白符

\d 匹配数字

\b 匹配单词的开始或结束

^ 匹配字符串的开始

$ 匹配字符串的结束

\w能不能匹配汉字要视你的操作系统和你的应用环境而定

s.str.replace(r'([ABC])(\w+)',lambda x:x.group(2)[1:]+'*')

0       A
1       B
2       C
3     ba*
4     ca*
5        
6    
7     BA*
8     dog
9     cat
dtype: string

s.str.replace(r'([ABC])(\w+)',lambda x:print(x,'               ',x.group(2) ))#

<_sre.SRE_Match object; span=(0, 4), match='Aaba'>                 aba
<_sre.SRE_Match object; span=(0, 4), match='Baca'>                 aca
<_sre.SRE_Match object; span=(0, 4), match='CABA'>                 ABA





0       A
1       B
2       C
3        
4        
5        
6    
7        
8     dog
9     cat
dtype: string

利用?P<…>表达式可以对子组命名调用

s.str.replace(r'(?P[ABC])(?P\w+)',lambda x:x.group('two')[1:]+'*')

0       A
1       B
2       C
3     ba*
4     ca*
5        
6    
7     BA*
8     dog
9     cat
dtype: string

3. 关于str.replace的注意事项

首先，要明确str.replace和replace并不是一个东西：

str.replace针对的是object类型或string类型，默认是以正则表达式为操作，目前暂时不支持DataFrame上使用

replace针对的是任意类型的序列或数据框，如果要以正则表达式替换，需要设置regex=True，该方法通过字典可支持多列替换

但现在由于string类型的初步引入，用法上出现了一些问题，这些issue有望在以后的版本中修复

（a）str.replace赋值参数不得为pd.NA

这听上去非常不合理，例如对满足某些正则条件的字符串替换为缺失值，直接更改为缺失值在当下版本就会报错

# pd.Series(['A','B'],dtype='string').str.replace(r'[A]',pd.NA) #报错
# pd.Series(['A','B'],dtype='O').str.replace(r'[A]',pd.NA) #报错

此时，可以先转为object类型再转换回来，曲线救国：

pd.Series(['A','B'],dtype='string').astype('O').replace(r'[A]',pd.NA,regex=True).astype('string')

0    
1       B
dtype: string

至于为什么不用replace函数的regex替换（但string类型replace的非正则替换是可以的），原因在下面一条

（b）对于string类型Series，在使用replace函数时不能使用正则表达式替换

该bug现在还未修复

pd.Series(['A','B'],dtype='string').replace(r'[A]','C',regex=True)

0    A
1    B
dtype: string

pd.Series(['A','B'],dtype='O').replace(r'[A]','C',regex=True)

0    C
1    B
dtype: object

（c）string类型序列如果存在缺失值，不能使用replace替换

#pd.Series(['A',np.nan],dtype='string').replace('A','B') #报错

pd.Series(['A',np.nan],dtype='string').str.replace('A','B')

0       B
1    
dtype: string

综上，概况的说，除非需要赋值元素为缺失值（转为object再转回来），否则请使用str.replace方法

四、子串匹配与提取

1. str.extract方法

（a）常见用法

pd.Series(['10-87', '10-88', '10-89'],dtype="string").str.extract(r'([\d]{2})-([\d]{2})')

	0	1
0	10	87
1	10	88
2	10	89

使用子组名作为列名

pd.Series(['10-87', '10-88', '-89'],dtype="string").str.extract(r'(?P[\d]{2})-(?P[\d]{2})')

	name_1	name_2
0	10	87
1	10	88
2

利用?正则标记选择部分提取

pd.Series(['10-87', '10-88', '-89'],dtype="string").str.extract(r'(?P[\d]{2})?-(?P[\d]{2})')

	name_1	name_2
0	10	87
1	10	88
2		89

pd.Series(['10-87', '10-88', '10-'],dtype="string").str.extract(r'(?P[\d]{2})-(?P[\d]{2})?')

	name_1	name_2
0	10	87
1	10	88
2	10

（b）expand参数（默认为True）

对于一个子组的Series，如果expand设置为False，则返回Series，若大于一个子组，则expand参数无效，全部返回DataFrame

对于一个子组的Index，如果expand设置为False，则返回提取后的Index，若大于一个子组且expand为False，报错

s = pd.Series(["a1", "b2", "c3"], ["A11", "B22", "C33"], dtype="string")
s.index

Index(['A11', 'B22', 'C33'], dtype='object')

s.str.extract(r'([\w])')

	0
A11	a
B22	b
C33	c

s.str.extract(r'([\w])',expand=False)

A11    a
B22    b
C33    c
dtype: string

s.index.str.extract(r'([\w])')

	0
0	A
1	B
2	C

s.index.str.extract(r'([\w])',expand=False)

Index(['A', 'B', 'C'], dtype='object')

s.index.str.extract(r'([\w])([\d])')

	0	1
0	A	1
1	B	2
2	C	3

#s.index.str.extract(r'([\w])([\d])',expand=False) #报错

2. str.extractall方法

与extract只匹配第一个符合条件的表达式不同，extractall会找出所有符合条件的字符串，并建立多级索引（即使只找到一个）

s = pd.Series(["a1a2", "b1", "c1"], index=["A", "B", "C"],dtype="string")
two_groups = '(?P[a-z])(?P[0-9])'
s.str.extract(two_groups, expand=True)

	letter	digit
A	a	1
B	b	1
C	c	1

s.str.extractall(two_groups)

		letter	digit
	match
A	0	a	1
A	1	a	2
B	0	b	1
C	0	c	1

s['A']='a1'
s.str.extractall(two_groups)

		letter	digit
	match
A	0	a	1
B	0	b	1
C	0	c	1

如果想查看第i层匹配，可使用xs方法

s = pd.Series(["a1a2", "b1b2", "c1c2"], index=["A", "B", "C"],dtype="string")
s.str.extractall(two_groups).xs(1,level='match')

	letter	digit
A	a	2
B	b	2
C	c	2

3. str.contains和str.match

前者的作用为检测是否包含某种正则模式

pd.Series(['1', None, '3a', '3b', '03c'], dtype="string").str.contains(r'[0-9][a-z]')

0    False
1     
2     True
3     True
4     True
dtype: boolean

可选参数为na

pd.Series(['1', None, '3a', '3b', '03c'], dtype="string").str.contains('a', na=False)

0    False
1    False
2     True
3    False
4    False
dtype: boolean

str.match与其区别在于，match依赖于python的re.match，检测内容为是否从头开始包含该正则模式

pd.Series(['1', None, '3a_', '3b', '03c'], dtype="string").str.match(r'[0-9][a-z]',na=False)

0    False
1    False
2     True
3     True
4    False
dtype: boolean

pd.Series(['1', None, '_3a', '3b', '03c'], dtype="string").str.match(r'[0-9][a-z]',na=False)

0    False
1    False
2    False
3     True
4    False
dtype: boolean

五、常用字符串方法

1. 过滤型方法

（a）str.strip

常用于过滤空格

pd.Series(list('abc'),index=[' space1  ','space2  ','  space3'],dtype="string").index.str.strip()

Index(['space1', 'space2', 'space3'], dtype='object')

（b）str.lower和str.upper

pd.Series('A',dtype="string").str.lower()

0    a
dtype: string

pd.Series('a',dtype="string").str.upper()

0    A
dtype: string

（c）str.swapcase和str.capitalize

分别表示交换字母大小写和大写首字母

pd.Series('abCD',dtype="string").str.swapcase()

0    ABcd
dtype: string

pd.Series('abCD',dtype="string").str.capitalize()

0    Abcd
dtype: string

2. isnumeric方法

检查每一位是否都是数字，请问如何判断是否是数值？（问题二）

pd.Series(['1.2','1','-0.3','a',np.nan],dtype="string").str.isnumeric()

0    False
1     True
2    False
3    False
4     
dtype: boolean

pd.Series(['1.2','1','-0.3','a',np.nan,1]).apply(lambda x:True if type(x)in [float,int] and x==x else False)
# type(pd.Series(['1.2','1','-0.3','a',np.nan,1])[2])
# pd.Series(['1.2','1','-0.3','a',np.nan,1]).apply(lambda x:print(str(type(x))))

0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool

六、问题与练习

1. 问题

【问题一】 str对象方法和df/Series对象方法有什么区别？

Pandas 为 Series 提供了 str 属性，通过它可以方便的对每个元素进行操作。

在对 Series 中每个元素处理时，我们可以使用 map 或 apply 方法。
比如，我想要将每个城市都转为小写，可以使用如下的方式。
user_info.city.map(lambda x: x.lower())#报错
错误原因是因为 float 类型的对象没有 lower 属性。这是因为缺失值（np.nan）属于float 类型。
这时候我们的 str 属性操作来了
user_info.city.str.lower()
可以看到，通过 str 属性来访问之后用到的方法名与 Python 内置的字符串的方法名一样。并且能够自动排除缺失值。

from https://zhuanlan.zhihu.com/p/38603837

个人理解str对象方法更多的是对于Series中的每个小的元素进行处理的时候，把每个小元素当成字符串进行处理，并且方法名也跟python内置的字符串的方法名一样。

【问题二】给出一列string类型，如何判断单元格是否是数值型数据？

pd.Series(['1.2','1','-0.3','a',np.nan,1]).apply(lambda x:True if type(x)in [float,int] and x==x else False)

0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool

【问题三】 rsplit方法的作用是什么？它在什么场合下适用？

split（）正序分割列；rsplit（）逆序分割列

s=pd.Series(['   11    111  111 第一大类','    12 第一大类','    21 第二大类','    22 第二大类'])
s.str.rsplit(expand=True,n=1)

	0	1
0	11 111 111	第一大类
1	12	第一大类
2	21	第二大类
3	22	第二大类

rsplit()是逆序分割，当我们最后面有几列需要单独分割出来，而且由于列数比较多从正着数不知道第几列或者是每一行列数都不一样而我们只需要最后一列，再这种情况下感觉是需要用到rsplit()的。

【问题四】在本章的第二到第四节分别介绍了字符串类型的5类操作，请思考它们各自应用于什么场景？

拆分.str.split()

可能应用于将单独的一列分成好几列，比如讲日期中的年份一列单独拿出来方便后面做分析

拼接.str.cat()

将几列拼接起来生成新的一列，有的时候可能根据几列的信息整理出来一个新的重要的信息单独成一列

替换.str.replace()

在每个元素中查找对应的元素，然后进行替换，可能在对于数据整体进行更新的时候可能会用到替换

匹配.str.contains() .str.match()

查找每个元素中包不包含某种的特定的正则表达式

提取.str.extract() .str.extractall()

查找每个元素中特定的正则表达式的格式的内容并提取出来

2. 练习

【练习一】现有一份关于字符串的数据集，请解决以下问题：

（a）现对字符串编码存储人员信息（在编号后添加ID列），使用如下格式：“×××（名字）：×国人，性别×，生于×年×月×日”

pd.read_csv('data/String_data_one.csv',index_col='人员编号').head()

	姓名	国籍	性别	出生年	出生月	出生日
人员编号
1	aesfd	2	男	1942	8	10
2	fasefa	5	女	1985	10	4
3	aeagd	4	女	1946	10	15
4	aef	4	男	1999	5	13
5	eaf	1	女	2010	6	24

# a['国籍'].astype(str).astype('string')

a=pd.read_csv('data/String_data_one.csv',index_col='人员编号')#.convert_dtypes()
a['ID']=a['姓名']
a['ID']=a['ID'].str.cat(["(名字)"+':'+a['国籍'].astype(str).astype('string')+'国人，性别'+a['性别']+',生于'+a['出生年'].astype(str).astype('string')+'年'+a['出生月'].astype(str).astype('string')+'月'+a['出生日'].astype(str).astype('string')+'日'])
a.head()

	姓名	国籍	性别	出生年	出生月	出生日	ID
人员编号
1	aesfd	2	男	1942	8	10	aesfd(名字):2国人，性别男,生于1942年8月10日
2	fasefa	5	女	1985	10	4	fasefa(名字):5国人，性别女,生于1985年10月4日
3	aeagd	4	女	1946	10	15	aeagd(名字):4国人，性别女,生于1946年10月15日
4	aef	4	男	1999	5	13	aef(名字):4国人，性别男,生于1999年5月13日
5	eaf	1	女	2010	6	24	eaf(名字):1国人，性别女,生于2010年6月24日

参考答案

df = pd.read_csv('data/String_data_one.csv',index_col='人员编号').astype('str')
(df['姓名']+':'+df['国籍']+'国人，性别'
          +df['性别']+'，生于'
          +df['出生年']+'年'
          +df['出生月']+'月'+df['出生日']+'日').to_frame().rename(columns={0:'ID'}).head()

	ID
人员编号
1	aesfd:2国人，性别男，生于1942年8月10日
2	fasefa:5国人，性别女，生于1985年10月4日
3	aeagd:4国人，性别女，生于1946年10月15日
4	aef:4国人，性别男，生于1999年5月13日
5	eaf:1国人，性别女，生于2010年6月24日

（b）将（a）中的人员生日信息部分修改为用中文表示（如一九七四年十月二十三日），其余返回格式不变。

def f(s):
    map={'0':'零','1':'一','2':'二','3':'三','4':'四','5':'五','6':'六','7':'七','8':'八','9':'九','10':'十','11':'十一','12':'十二'}
    re=''
    for i in s:
        re+=map[i]
    return re
def f2(s):
    map={'0':'零','1':'一','2':'二','3':'三','4':'四','5':'五','6':'六','7':'七','8':'八','9':'九','10':'十','11':'十一','12':'十二'}
    return map[s]
def f3(s):
    map={'0':'零','1':'一','2':'二','3':'三','4':'四','5':'五','6':'六','7':'七','8':'八','9':'九','10':'十','11':'十一','12':'十二'}
    if len(s)==1:
        return map[s]
    elif s[1]=='0':
        return map[s[0]]+'十'
    else:
        return map[s[0]]+'十'+map[s[1]]
a=pd.read_csv('data/String_data_one.csv',index_col='人员编号')#.convert_dtypes()
a['ID']=a['姓名']
a['ID']=a['ID'].str.cat([':'+a['国籍'].astype(str).astype('string')+'国人，性别'+a['性别']+',生于'+a['出生年'].astype(str).astype('string').apply(lambda x: f(x))+'年'+a['出生月'].astype(str).astype('string').apply(lambda x:f2(x))+'月'+a['出生日'].astype(str).astype('string').apply(lambda x:f3(x))+'日'])
a.head()#"(名字)"+

	姓名	国籍	性别	出生年	出生月	出生日	ID
人员编号
1	aesfd	2	男	1942	8	10	aesfd:2国人，性别男,生于一九四二年八月一十日
2	fasefa	5	女	1985	10	4	fasefa:5国人，性别女,生于一九八五年十月四日
3	aeagd	4	女	1946	10	15	aeagd:4国人，性别女,生于一九四六年十月一十五日
4	aef	4	男	1999	5	13	aef:4国人，性别男,生于一九九九年五月一十三日
5	eaf	1	女	2010	6	24	eaf:1国人，性别女,生于二零一零年六月二十四日

# a['ID'].str.extract(r'(?P<姓名>[a-zA-Z]+):(?P<国籍>[\d])国人，性别(?P<性别>[\w]),生于(?P<出生年>[\w]{4})年(?P<出生月>[\w]+)月(?P<出生日>[\w]+)日')#，生于

参考答案

L_year = list('零一二三四五六七八九')
L_one = [s.strip() for s in list('  二三四五六七八九')]
L_two = [s.strip() for s in list(' 一二三四五六七八九')]
df_new = (df['姓名']+':'+df['国籍']+'国人，性别'+df['性别']+'，生于'
          +df['出生年'].str.replace(r'\d',lambda x:L_year[int(x.group(0))])+'年'
          +df['出生月'].apply(lambda x:x if len(x)==2 else '0'+x)\
                      .str.replace(r'(?P[\d])(?P\d?)',lambda x:L_one[int(x.group('one'))]
                      +bool(int(x.group('one')))*'十'+L_two[int(x.group('two'))])+'月'
          +df['出生日'].apply(lambda x:x if len(x)==2 else '0'+x)\
                      .str.replace(r'(?P[\d])(?P\d?)',lambda x:L_one[int(x.group('one'))]
                      +bool(int(x.group('one')))*'十'+L_two[int(x.group('two'))])+'日')\
          .to_frame().rename(columns={0:'ID'})
df_new.head()

	ID
人员编号
1	aesfd:2国人，性别男，生于一九四二年八月十日
2	fasefa:5国人，性别女，生于一九八五年十月四日
3	aeagd:4国人，性别女，生于一九四六年十月十五日
4	aef:4国人，性别男，生于一九九九年五月十三日
5	eaf:1国人，性别女，生于二零一零年六月二十四日

（c）将（b）中的ID列结果拆分为原列表相应的5列，并使用equals检验是否一致。

re=a['ID'].str.extract(r'(?P<姓名>[a-zA-Z]{1,}):(?P<国籍>[\d])国人，性别(?P<性别>[\w]),生于(?P<出生年>[\w]{4})年(?P<出生月>[\w]+)月(?P<出生日>[\w]+)日')
def f11(s):
    map={'零':'0','一':'1','二':'2','三':'3','四':'4','五':'5','六':'6','七':'7','八':'8','九':'9','十':'10'}
    re=''
    for i in s:
        re+=map[i]
    return re
def f22(s):
    map={'零':'0','一':'1','二':'2','三':'3','四':'4','五':'5','六':'6','七':'7','八':'8','九':'9','十':'10','十一':'11','十二':'12'}
    return map[s]
def f33(s):
    re=''
    if len(s)>=2 and  s[-2]=='十':
        map={'零':'0','一':'1','二':'2','三':'3','四':'4','五':'5','六':'6','七':'7','八':'8','九':'9','十':''}
        for i in s:
            re+=map[i]
        return re
    elif s[-1]=='十':
        map={'零':'0','一':'1','二':'2','三':'3','四':'4','五':'5','六':'6','七':'7','八':'8','九':'9','十':'0'}
        for i in s:
            re+=map[i]
        return re
    else:
        map={'零':'0','一':'1','二':'2','三':'3','四':'4','五':'5','六':'6','七':'7','八':'8','九':'9','十':'10'}
        re=''
        for i in s:
            re+=map[i]
        return re

re['出生年']=re['出生年'].apply(lambda x:f11(x))
re['出生月']=re['出生月'].apply(lambda x:f22(x))
re['出生日']=re['出生日'].apply(lambda x:f33(x))
re.head()

	姓名	国籍	性别	出生年	出生月	出生日
人员编号
1	aesfd	2	男	1942	8	10
2	fasefa	5	女	1985	10	4
3	aeagd	4	女	1946	10	15
4	aef	4	男	1999	5	13
5	eaf	1	女	2010	6	24

test=pd.read_csv('data/String_data_one.csv',index_col='人员编号').astype(str)#.convert_dtypes()
re.equals(test)

True

test.info()


Int64Index: 2000 entries, 1 to 2000
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   姓名      2000 non-null   object
 1   国籍      2000 non-null   object
 2   性别      2000 non-null   object
 3   出生年     2000 non-null   object
 4   出生月     2000 non-null   object
 5   出生日     2000 non-null   object
dtypes: object(6)
memory usage: 109.4+ KB

re.info()


Int64Index: 2000 entries, 1 to 2000
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   姓名      2000 non-null   object
 1   国籍      2000 non-null   object
 2   性别      2000 non-null   object
 3   出生年     2000 non-null   object
 4   出生月     2000 non-null   object
 5   出生日     2000 non-null   object
dtypes: object(6)
memory usage: 109.4+ KB

参考答案

dic_year = {i[0]:i[1] for i in zip(list('零一二三四五六七八九'),list('0123456789'))}
dic_two = {i[0]:i[1] for i in zip(list('十一二三四五六七八九'),list('0123456789'))}
dic_one = {'十':'1','二十':'2','三十':'3',None:''}
df_res = df_new['ID'].str.extract(r'(?P<姓名>[a-zA-Z]+):(?P<国籍>[\d])国人，性别(?P<性别>[\w])，生于(?P<出生年>[\w]{4})年(?P<出生月>[\w]+)月(?P<出生日>[\w]+)日')
df_res['出生年'] = df_res['出生年'].str.replace(r'(\w)+',lambda x:''.join([dic_year[x.group(0)[i]] for i in range(4)]))
df_res['出生月'] = df_res['出生月'].str.replace(r'(?P\w?十)?(?P[\w])',lambda x:dic_one[x.group('one')]+dic_two[x.group('two')]).str.replace(r'0','10')
df_res['出生日'] = df_res['出生日'].str.replace(r'(?P\w?十)?(?P[\w])',lambda x:dic_one[x.group('one')]+dic_two[x.group('two')]).str.replace(r'^0','10')
df_res.head()

	姓名	国籍	性别	出生年	出生月	出生日
人员编号
1	aesfd	2	男	1942	8	10
2	fasefa	5	女	1985	10	4
3	aeagd	4	女	1946	10	15
4	aef	4	男	1999	5	13
5	eaf	1	女	2010	6	24

【练习二】现有一份半虚拟的数据集，第一列包含了新型冠状病毒的一些新闻标题，请解决以下问题：

（a）选出所有关于北京市和上海市新闻标题的所在行。

pd.read_csv('data/String_data_two.csv').head()

	col1	col2	col3
0	鄂尔多斯市第2例确诊患者治愈出院	19	363.6923
1	云南新增2例，累计124例	-67	-152.281
2	武汉协和医院14名感染医护出院	-86	325.6221
3	山东新增9例，累计307例	-74	-204.9313
4	上海开学日期延至3月	-95	4.05

a=pd.read_csv('data/String_data_two.csv').convert_dtypes()
a[a['col1'].str.contains(r'上海') |a['col1'].str.contains(r'北京')].head()#

	col1	col2	col3
4	上海开学日期延至3月	-95	4.05
5	北京新增25例确诊病例，累计确诊253例	-4	-289.1719
6	上海新增10例，累计243例	2	-73.7105
36	上海新增14例累计233例	-55	-83
40	上海新增14例累计233例	-88	-99

参考答案

df = pd.read_csv('data/String_data_two.csv')
df.head()
df[df['col1'].str.contains(r'[北京]{2}|[上海]{2}')].head()

	col1	col2	col3
4	上海开学日期延至3月	-95	4.05
5	北京新增25例确诊病例，累计确诊253例	-4	-289.1719
6	上海新增10例，累计243例	2	-73.7105
36	上海新增14例累计233例	-55	-83
40	上海新增14例累计233例	-88	-99

（b）求col2的均值。

b=pd.read_csv('data/String_data_two.csv').convert_dtypes()

b['col2'][~ b['col2'].str.contains(r'^-?\d+$')]

309    0-
396    9`
485    /7
Name: col2, dtype: string

# #.astype('float')
# a['col2'].apply(lambda x:float(x))
b['col2'][~ b['col2'].str.contains(r'^-?\d+$')]=['0','9','7']

b['col2'].apply(lambda x: int(x)).mean()

-0.984

参考答案

df['col2'][~(df['col2'].str.replace(r'-?\d+','True')=='True')] #这三行有问题

309    0-
396    9`
485    /7
Name: col2, dtype: object

或者

def is_number(x):
    try:
        float(x)
        return True
    except:
        return False
df[~df.col2.map(is_number)]

df.loc[[309,396,485],'col2'] = [0,9,7]
df['col2'].astype('int').mean()

-0.984

（c）求col3的均值。

c=pd.read_csv('data/String_data_two.csv').convert_dtypes()

c.columns

Index(['col1', 'col2', 'col3  '], dtype='object')

c.info()


RangeIndex: 500 entries, 0 to 499
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   col1    500 non-null    string
 1   col2    500 non-null    string
 2   col3    500 non-null    string
dtypes: string(3)
memory usage: 11.8 KB

c['col3  '][~ c['col3  '].str.contains(r'^-?\d+(.)?(\d+)?$')]=['355.3567','9056.2253','3534.6554']
c['col3  '].astype('float').mean()

F:\dev\anaconda\envs\python35\lib\site-packages\pandas\core\strings.py:1954: UserWarning: This pattern has match groups. To actually get the groups, use str.extract.
  return func(self, *args, **kwargs)





24.707484999999988

参考答案

df.columns = df.columns.str.strip()
df.columns

Index(['col1', 'col2', 'col3'], dtype='object')

df['col3'][~(df['col3'].str.replace(r'-?\d+\.?\d+','True')=='True')]

28      355`.3567
37             -5
73              1
122    9056.\2253
332    3534.6554{
370             7
Name: col3, dtype: object

或者

def is_number(x):
    try:
        float(x)
        return True
    except:
        return False
df[~df.col3.map(is_number)]

df.loc[[28,122,332],'col3'] = [355.3567,9056.2253, 3534.6554]
df['col3'].astype('float').mean()

24.707484999999988

你可能感兴趣的:(pandas)

Python中三种表示NA的方式风语者666 python
Python中三种表示NA的方式#-*-coding:utf-8-*-importnumpyasnpimportpandasaspd#data_frame=np.load('a.npy',allow_pickle=True)#print(data_frame.columns)df=pd.DataFrame({'one':[1,2,3,pd.NA]})df=pd.DataFrame({'one':[
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
python/R 连接 clickhouse weixin_41283198 python clickhouse r语言 python 大数据 r语言
1、python-clickhouseimportnumpyasnpfromclickhouse_driverimportClientimportpandasaspdsql=open('/opt/check_detect_local.sql','r',encoding='utf8')sqltxt=sql.readlines()print(len(sqltxt))sqls=[]foriinnp.ar
Python Pandas带多组参数和标签的Snowflake数据库批量数据导出程序 weixin_30777913 pandas python 云计算数据仓库
设计一个基于多个带标签的SnowflakeSQL模板作为配置文件和多组参数的PythonPandas代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库中的数据导出为CSV文件到指定目录上，然后逐个文件压缩为zip文件，标签和多个参数（以“_”分割）为组成导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能
Python Pandas实现dataframe导出为Excel 2007格式的文件并设置合适的列宽度 weixin_30777913 pandas python 开发语言 excel
PythonPandas实现dataframe导出为Excel2007格式的文件，并且针对每一列的数据调整到合适宽度，并封装为函数。此函数能够有效处理大多数情况下的列宽调整需求，确保Excel文件内容清晰易读。将PandasDataFrame导出为Excel2007+格式（.xlsx）并自动调整列宽，可以使用以下函数。该函数会处理索引列和数据列，确保每列宽度适合内容。importpandasasp
Python中Pandas常用函数及案例详解程序员爱技术 python pandas 开发语言数据分析大数据
Pandas是一个强大的Python数据分析工具库，它为Python提供了快速、灵活且表达能力强的数据结构，旨在使“关系”或“标签”数据的操作既简单又直观。Pandas的核心数据结构是DataFrame，它是一个二维标签化数据结构，可以看作是一个表格，其中可以存储不同类型的数据。下面是Pandas中一些关于导入、导出、查看、检查、选取、清理、合并、统计等常用函数的详解以及案例说明：第一、导入函数P
解决pandas的to_excel方法写入数据被覆盖的问题 hobbies. pandas excel python
1.先用openpyxl读取到了excel文件的数据，载入excel文件的内容到ExcelWriter中，使用ExcelWriter写入保存importpandasaspdfromopenpyxlimportload_workbookdf=pd.DataFrame([66])withpd.ExcelWriter(r'C:\Users\Administrator\Desktop\1.xlsx')as
Pandas：to_excel 在原Excel表追加写入数据条件漫步 python python
@创建于：20211118文章目录1、直接写入2、直接写入3、参考链接1、直接写入如果只是想把一个DataFrame保存为单独的一个Excel文件，那么直接写：df_data.to_excel('xxx.excel','sheet1',index=False)保存为单个Excel文件和这个文件中的单个表。如果先前存在有同名的Excel文件，这样做会把之前的Excel文件覆盖掉。2、直接写入ifno
4种方法用Python批量实现多Excel多Sheet合并_excel表格自动合成python 2401_84010702 程序员 python excel 开发语言
importpandasaspd #读取Excel文件 file_list=['file1.xlsx','file2.xlsx'] dfs=[pd.read_excel(file)forfileinfile_list] #合并多个工作表 result=pd.concat(dfs,ignore_index=True) #保存到新的Excel文件 result.to_excel('merg
pandas常用数据格式IO性能对比 lining808 Python pandas python 数据分析
前言本文对pandas支持的一些数据格式进行IO（读写）的性能测试，大数据时代以数据为基础，经常会遇到操作大量数据的情景，数据的IO性能尤为重要，本文对常见的数据格式csv、feather、hdf5、jay、parquet、pickle性能进行对比。csvCSV（Comma-SeparatedValues）是一种用于存储表格数据的简单文件格式。在CSV文件中，每一行通常代表一条记录，字段（列）由逗
Python数据分析NumPy和pandas（十七、pandas 二进制格式文件处理） FreedomLeo1 Python数据分析 python 数据分析 pandas HDF5 PyTables h5py Excel
以二进制格式存储（或序列化）数据的一种简单方法是使用Python的内置pickle模块。同时，pandas构造的对象都有一个to_pickle方法，该方法以pickle格式将数据写入磁盘。我们先把之前示例用到的ex1.csv文件加载到pandas对象中，然后将数据以二进制pickle格式写入examples/frame_pickle文件中：importpandasaspdframe=pd.read
Pandas真实案例进阶：从数据清洗到高性能分析的完整指南 Eqwaak00 Pandas python 开发语言科技 pandas
案例背景：电商用户行为分析假设某电商平台提供以下数据集（模拟数据包含100万条记录），需完成用户行为分析：user_logs.csv：用户浏览、加购、下单日志user_profiles.csv：用户地域、设备信息product_info.csv：商品类目、价格数据一、数据加载与内存优化1.1智能数据类型转换#列类型预设字典dtype_dict={'user_id':'category','even
大气视热源Q1与视水汽汇Q2的计算利用python以ERA5再分析资料为例 shift0516 python 开发语言
python代码：importosimportnetCDF4asncimportnumpyasnpimportxarrayasxrimportpandasaspdimportmetpy.constantsasconstantsfrommetpy.unitsimportunitsfrommetpy.calcimportmixing_ratio_from_specific_humidity,first
Pandas数据清洗手册（参数解析与实战）步入烟尘 Python超入门指南全册 pandas 数据清洗开发语言 python
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
Pandas数据清洗：处理缺失值小龙在山东 python Pandas数据分析 pandas python 开发语言
在Pandas中，可以使用dropa方法条件过滤缺失值，用isnull标记哪些是缺失值，用notnull方法标记哪些不是缺失值，用fillna方法填充缺失值。importpandasaspdframe=pd.DataFrame([[1,2,3,None]
python小白精华快速上手知识笔记（简短版）小白探索中笔记 python
PYTHON基本语法目录一、变量和数据类型1.变量2.数据类型二、基本函数输出函数-print()输入函数-input()类型转换函数长度函数-len()数学运算函数（在math模块中）定义函数调用函数三、数据结构列表（list）字典（dict）元组（tuple）四、基本库NumPy（用于数值计算）Pandas（用于数据处理和分析）Matplotlib（用于数据可视化）Scikit-learn（用
Pandas使用教程 - Pandas 与 SQL 数据库交互闲人编程 Pandas使用教程数据库 pandas sql 数据分析存储加载数据
目录进阶篇40.Pandas与SQL数据库交互1.引言2.数据读取：从SQL加载数据2.1使用pd.read_sql()示例：使用SQLAlchemy连接SQLite数据库2.2使用pd.read_sql_table()3.数据写入：将DataFrame写入SQL数据库3.1使用DataFrame.to_sql()示例：写入数据到SQLite数据库4.数据库连接与SQLAlchemy4.1使用SQ
python链家数据分析_利用Python分析北京链家二手房数据熊仔仔仔仔 python链家数据分析
这是一篇非常简单易懂的分析方法，你只需要了解Python的3个包(numpy，pandas，matplotlib)和Python基本的语法结构就可以看懂了。当然，跟着这篇文章亲手试一次更能加深你的理解~有任何不懂的问题都可以私信我哈~欢迎私撩一、明确分析目的和思路1、分析北京二手房成交价格分布情况2、分析成交量超过一亿的经纪人相关因素二、数据准备1、数据概况(1)爬虫爬取的链家经纪人的成交数据(2
数据清洗级可视化中，Pandas&numyp的主要作用 Test-Sunny pandas 信息可视化
Pandas:Pandas提供了强大的数据结构和数据分析工具，特别是其DataFrame数据结构，非常适合用于数据清洗和整理例如，可以使用Pandas的dropna()函数删除包含缺失值的行或列，这是数据清洗的重要步骤。此外，Pandas还支持数据类型转换、异常值处理等数据清洗任务，以及时间序列图、柱状图和折线图等基本数据可视化方法NumPy专注于数值计算，提供了高效的数组操作功能，适用于大规模数
Python:Matplotlib 愚戏师 python基础与机器学习 python matplotlib 开发语言
Matplotlib相关的核心内容1.Matplotlib概述Matplotlib是Python的2D绘图库，能够生成高质量的静态、交互式和动画可视化效果。其核心特点是：层次结构：基于Figure（画布）和Axes（坐标系）的层级对象模型。灵活性：支持从简单折线图到复杂3D图形的多种图表类型。兼容性：与NumPy、Pandas无缝集成，支持输出多种格式（PNG、PDF、SVG等）。Matplotl
保姆级别&使用Python实现“机器学习“案例 dami_king 随笔 python 机器学习开发语言
从安装到运行手把手教学，保证不迷路～零基础友好版教程第一步：安装必备工具包别慌！这里有两种安装方式，选你顺手的方式1：用代码自动安装（推荐新手）直接在你的Python代码最前面加这几行，运行时会自动安装：#把这坨代码贴在文件最前面！importsysimportsubprocess#需要装的包列表packages=['numpy','pandas','matplotlib','scikit-lea
Python爬虫实战010：反爬取机制学习若北辰 Python爬虫教程 python 爬虫开发语言
#-*-coding:utf-8-*-"""@ModuleName:demo_001@Function:@Author:@Time:2020/12/28上午11:21"""fromlxmlimportetreeimportpandasaspdimportreimportrandomimporturllibimportrequestsimporttimeimportosimportjson
【Pandas】pandas Series repeat liuweidong0802 Pandas Series pandas
Pandas2.2SeriesComputationsdescriptivestats方法描述Series.argsort([axis,kind,order,stable])用于返回Series中元素排序后的索引位置的方法Series.argmin([axis,skipna])用于返回Series中最小值索引位置的方法Series.argmax([axis,skipna])用于返回Series中最
python可應用在金融分析的那一個方面，如何部署在linux server上面。蠟筆小新工程師金融
Python在金融分析中應用廣泛，以下是幾個主要方面：###1.**數據處理與分析**-使用**Pandas**和**NumPy**等庫來處理和分析大規模數據集，進行清理、轉換和統計運算。-舉例：處理歷史市場數據，分析價格趨勢、交易量等。###2.**機器學習與預測**-使用**scikit-learn**、**TensorFlow**或**PyTorch**建立模型進行股票價格預測、信用風險評估
pyscript的用法新时代_打工人 python python 开发语言前端框架
PyScript核心特性Pythoninthebrowser：启用drop-incontent、外部文件托管（基于Pyodide项目），以及不依赖服务器端配置的应用程序托管。Python生态：提供流行的Python和科学计算软件包（例如numpy,pandas,scikit-learn等）。PythonwithJavaScript：在Python和JavaScript对象和命名空间之间进行双向通信
Python 自动化探索性数据分析（EDA）工具东方佑量子变法 python 自动化数据分析
1.PandasProfiling功能特点：自动生成详细的统计报告，包含数据概览、单变量分析、相关性矩阵、缺失值分析等。支持交互式HTML报告，可导出为PDF或其他格式。适合快速生成数据集的全面摘要。使用示例：importpandasaspdfrompandas_profilingimportProfileReportdf=pd.read_csv("data.csv")profile=Profil
DataFrame中添加和删处‘行’ 手机忘记时间 pandas
添加：在Pandas中，df.loc[len(df)]=new_values这行代码用于在DataFramedf的末尾添加一行新数据。这里的len(df)返回的是DataFrame当前的行数，因此df.loc[len(df)]指向的是一个新的行索引，这个索引在当前DataFrame中还不存在。以下是这行代码的详细解释：df：代表你的DataFrame对象。loc：是Pandas提供的基于标签的索引
2025自动化采集豆瓣选电影20年代以来的推荐数据并进行结构化分析及数据缺失值处理方案 BigWiggins python 开发语言单元测试
今天在豆瓣数据中采集20年代以来的电影时遇到了取得电影标题/评分/年份等大量缺失值核心功能动态分页采集：通过API参数迭代获取全量数据反爬策略：请求头模拟、Cookies自动化、随机延迟数据清洗：缺失值填充、嵌套JSON解析持久化存储：JSON结构化存储与PandasDataFrame转换技术栈请求处理：requests库实现API调用数据解析：json模块处理结构化响应异常管理：try-exce
python量化数据15：计算同花顺涨停次日涨跌幅表现 ETF股债基指标 linux 运维服务器
一、环境安装pipinstallpandaspipinstallrequestspipinstallmootdx二、代码frommootdx.quotesimportQuotesimportpandasaspdimportrequestsimporttimeimportjsonclient=Quotes.factory(market='std')defget_open_limit_pool(dat
笔试题1：电商销售数据处理与分析 clownAdam 大数据笔试题大数据面试
笔试题1电商销售数据处理与分析：某电商平台提供了一份销售数据文件sales_data.csv，包含以下字段：order_id（订单ID）、customer_id（客户ID）、product_name（产品名称）、quantity（购买数量）、price（产品单价）、order_date（订单日期，格式为YYYY-MM-DD）。请使用Python的Pandas库完成以下任务：读取sales_data
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

第7章 文本数据

第7章 文本数据

一、string类型的性质

1. string与object的区别

string类型和object不同之处有三：

① 字符存取方法（string accessor methods，如str.count）会返回相应数据的Nullable类型，而object会随缺失值的存在而改变返回类型

② 某些Series方法不能在string上使用，例如： Series.str.decode()，因为存储的是字符串而不是字节

③ string类型在缺失值存储或运算时，类型会广播为pd.NA，而不是浮点型np.nan

其余全部内容在当前版本下完全一致，但迎合Pandas的发展模式，我们仍然全部用string来操作字符串

2. string类型的转换

如果将一个其他类型的容器直接转换string类型可能会出错：

当下正确的方法是分两部转换，先转为str型object，在转为string类型：

二、拆分与拼接

1. str.split方法

（a）分割符与str的位置元素选取

根据某一个元素分割，默认为空格

这里需要注意split后的类型是object，因为现在Series中的元素已经不是string，而包含了list，且string类型只能含有字符串

对于str方法可以进行元素的选择，如果该单元格元素是列表，那么str[i]表示取出第i个元素，如果是单个元素，则先把元素转为列表在取出

（b）其他参数

expand参数控制了是否将列拆开，n参数代表最多分割多少次

2. str.cat方法

（a）不同对象的拼接模式

cat方法对于不同对象的作用结果并不相同，其中的对象包括：单列、双列、多列

① 对于单个Series而言，就是指所有的元素进行字符合并为一个字符串

其中可选sep分隔符参数，和缺失值替代字符na_rep参数

② 对于两个Series合并而言，是对应索引的元素进行合并

同样也有相应参数，需要注意的是两个缺失值会被同时替换

③ 多列拼接可以分为表的拼接和多Series拼接

表的拼接

多个Series拼接

（b）cat中的索引对齐

当前版本中，如果两边合并的索引不相同且未指定join参数，默认为左连接，设置join=‘left’

三、替换

广义上的替换，就是指str.replace函数的应用，fillna是针对缺失值的替换，上一章已经提及

提到替换，就不可避免地接触到正则表达式，这里默认读者已掌握常见正则表达式知识点，若对其还不了解的，可以通过这份资料来熟悉

1. str.replace的常见用法

第一个值写r开头的正则表达式，后一个写替换的字符串

2. 子组与函数替换

通过正整数调用子组（0返回字符本身，从1开始才是子组）

利用?P<…>表达式可以对子组命名调用

3. 关于str.replace的注意事项

首先，要明确str.replace和replace并不是一个东西：

str.replace针对的是object类型或string类型，默认是以正则表达式为操作，目前暂时不支持DataFrame上使用

replace针对的是任意类型的序列或数据框，如果要以正则表达式替换，需要设置regex=True，该方法通过字典可支持多列替换

但现在由于string类型的初步引入，用法上出现了一些问题，这些issue有望在以后的版本中修复

（a）str.replace赋值参数不得为pd.NA

这听上去非常不合理，例如对满足某些正则条件的字符串替换为缺失值，直接更改为缺失值在当下版本就会报错

此时，可以先转为object类型再转换回来，曲线救国：

至于为什么不用replace函数的regex替换（但string类型replace的非正则替换是可以的），原因在下面一条

（b）对于string类型Series，在使用replace函数时不能使用正则表达式替换

该bug现在还未修复

（c）string类型序列如果存在缺失值，不能使用replace替换

综上，概况的说，除非需要赋值元素为缺失值（转为object再转回来），否则请使用str.replace方法

四、子串匹配与提取

1. str.extract方法

（a）常见用法

使用子组名作为列名

利用?正则标记选择部分提取

（b）expand参数（默认为True）

对于一个子组的Series，如果expand设置为False，则返回Series，若大于一个子组，则expand参数无效，全部返回DataFrame

对于一个子组的Index，如果expand设置为False，则返回提取后的Index，若大于一个子组且expand为False，报错

2. str.extractall方法

与extract只匹配第一个符合条件的表达式不同，extractall会找出所有符合条件的字符串，并建立多级索引（即使只找到一个）

如果想查看第i层匹配，可使用xs方法

3. str.contains和str.match

前者的作用为检测是否包含某种正则模式

可选参数为na

str.match与其区别在于，match依赖于python的re.match，检测内容为是否从头开始包含该正则模式

五、常用字符串方法

1. 过滤型方法

（a）str.strip

常用于过滤空格

（b）str.lower和str.upper

（c）str.swapcase和str.capitalize

分别表示交换字母大小写和大写首字母

2. isnumeric方法

检查每一位是否都是数字，请问如何判断是否是数值？（问题二）

六、问题与练习

1. 问题

【问题一】 str对象方法和df/Series对象方法有什么区别？

第7章文本数据

第7章文本数据

【问题二】给出一列string类型，如何判断单元格是否是数值型数据？

【问题四】在本章的第二到第四节分别介绍了字符串类型的5类操作，请思考它们各自应用于什么场景？

【练习一】现有一份关于字符串的数据集，请解决以下问题：

【练习二】现有一份半虚拟的数据集，第一列包含了新型冠状病毒的一些新闻标题，请解决以下问题：