Alex好好干饭

pandas-task08-文本数据.md

文章目录

一、str对象
- 1. str对象的设计意图
- 2. []索引器
- 3. string类型
二、正则表达式基础
- 1. 一般字符的匹配
- 2. 元字符基础
- 3. 简写字符集
三、文本处理的五类操作
- 1. 拆分
- 2. 合并
- 3. 匹配
- 4. 替换
- 5. 提取
四、常用字符串函数
- 1. 字母型函数
- 2. 数值型函数
- 3. 统计型函数
- 4. 格式型函数
五、练习
- Ex1：房屋信息数据集
- Ex2：《权力的游戏》剧本数据集

一、str对象

1. str对象的设计意图

str 对象是定义在 Index 或 Series 上的属性，专门用于逐元素处理文本内容。在 pandas 的50个 str 对象方法中，有31个是和标准库中的 str 模块方法同名且功能一致，这为批量处理序列提供了有力的工具。

var = 'abcd'
str.upper(var) # 'ABCD'

s = pd.Series(['abcd', 'efg', 'hi'])
s.str.upper()

	0
0	ABCD
1	EFG
2	HI

2. []索引器

对于 str 对象而言，可理解为其对字符串进行了序列化的操作，例如在一般的字符串中，通过 [] 可以取出某个位置的元素：

var[0]
#  'a'

同时也能通过切片得到子串：

var[-1:0:-2]
#  'db'

通过对 str 对象使用 [] 索引器，可以完成完全一致的功能，并且如果超出范围则返回缺失值(这我没想到)：

s.str[0]
# 0    a
# 1    e
# 2    h
# dtype: object

s.str[-1: 0: -2]
# 0    db
# 1     g
# 2     i
# dtype: object

s.str[2]
# 0      c
# 1      g
# 2    NaN
# dtype: object

3. string类型

在上一章提到，从 pandas 的 1.0.0 版本开始，引入了 string 类型，其引入的动机在于：原来所有的字符串类型都会以 object 类型的 Series 进行存储，但 object 类型只应当存储混合类型，例如同时存储浮点、字符串、字典、列表、自定义类型等，因此字符串有必要同数值型或 category 一样，具有自己的数据存放类型，从而引入了 string 类型。

总体上说，绝大多数对于 object 和 string 类型的序列使用 str 对象方法产生的结果是一致，但是在下面提到的两点上有较大差异：

首先，应当尽量保证每一个序列中的值都是字符串的情况下才使用 str 属性，但这并不是必须的，其必要条件是序列中至少有一个可迭代（Iterable）对象，包括但不限于字符串、字典、列表。对于一个可迭代对象， string 类型的 str 对象和 object 类型的 str 对象返回结果可能是不同的。

s = pd.Series([{
     1: 'temp_1', 2: 'temp_2'}, 
			['a', 'b'], 0.5, 'my_string'])
s.str[1]
# 0    temp_1
# 1         b
# 2       NaN
# 3         y
# dtype: object

s.astype(np.str).str[1]
# 0    1
# 1    '
# 2    .
# 3    y
# dtype: object

这里我原来使用s.astype(‘string’)会报错，按理说升级了pandas到1.1.0应该就可以，原因未知。身边小伙伴有的正常有的和我一样，类型修改成np.str可以正常使用。

除了最后一个字符串元素，前几个元素返回的值都不同，其原因在于当序列类型为 object 时，是对于每一个元素进行 [] 索引，因此对于字典而言，返回temp_1字符串，对于列表则返回第二个值，而不可迭代对象，返回缺失值，最后一个是对字符串进行 [] 索引。而 string 类型的 str 对象先把整个元素转为字面意义的字符串，例如对于列表而言，第一个元素即 “{“，而对于最后一个字符串元素而言，恰好转化前后的表示方法一致，因此结果和 object 类型一致。

除了对于某些对象的 str 序列化方法不同之外，两者另外的一个差别在于， string 类型是 Nullable 类型，但 object 不是。这意味着 string 类型的序列，如果调用的 str 方法返回值为整数 Series 和布尔 Series 时，其分别对应的 dtype 是 Int 和 boolean 的 Nullable 类型，而 object 类型则会分别返回 int/float 和 bool/object ，取决于缺失值的存在与否。同时，字符串的比较操作，也具有相似的特性， string 返回 Nullable 类型，但 object 不会。

s = pd.Series(['a'])

s.str.len()
# 0    1
# dtype: int64

s.astype('string').str.len() 
# 0    1
# dtype: Int64

s == 'a' 
# 0    True
# dtype: bool

s.astype('string') == 'a' 
# 0    True
# dtype: boolean

s = pd.Series(['a', np.nan]) # 带有缺失值
s.str.len()
# 0    1.0
# 1    NaN
# dtype: float64

s.astype('string').str.len()
# 0       1
# 1    
# dtype: Int64

s == 'a'
# 0     True
# 1    False
# dtype: bool

s.astype('string') == 'a'
# 0    True
# 1    
# dtype: boolean

最后需要注意的是，对于全体元素为数值类型的序列，即使其类型为 object 或者 category 也不允许直接使用 str 属性。如果需要把数字当成 string 类型处理，可以使用 astype 强制转换为 string 类型的 Series ：

s = pd.Series([12, 345, 6789])

s.astype('string').str[1]
# 0    2
# 1    4
# 2    7
# dtype: string

二、正则表达式基础

1. 一般字符的匹配

正则表达式是一种按照某种正则模式，从左到右匹配字符串中内容的一种工具。对于一般的字符而言，它可以找到其所在的位置，这里为了演示便利，使用了 python 中 re 模块的 findall 函数来匹配所有出现过但不重叠的模式，第一个参数是正则表达式，第二个参数是待匹配的字符串。例如，在下面的字符串中找出 apple ：

import re
re.findall('apple','one apple a day,
			keep doctor away!Apple,apple!')
# ['apple', 'apple']

这里对大小写敏感，找到所有一致的字符串。

2. 元字符基础

代码练习

re.findall(r'.', 'abc')# 匹配任意字符
# [a,b,c]

re.findall(r'[ac]', 'abc')# 匹配a、c字符
#['a', 'c']

re.findall(r'[^b]{2}', 'aaaabbbbacccccccba')
# 匹配除b以外的其他字符 该示例中即a、c，要求匹配长度为2，即可能的组合为aa、ac、ca、cc,从左往右依次匹配，匹配到的就不再看了 所以依次匹配到aa aa ac cc cc cc
# ['aa', 'aa', 'ac', 'cc', 'cc', 'cc'] 

re.findall(r'[^b]{2,3}', 'aaaabbbbacccccccba')
# 类似上面 但是匹配长度区间为[2,3] 组合种类更多
# ['aaa', 'acc', 'ccc', 'cc']

re.findall(r'aaa|bbb','aaaabbbb')# 匹配aaa 或者 bbb
# ['aaa', 'bbb']

re.findall(r'a\\?|a\*', 'aa?a*a')
#\表示转义，\\即代表真正的“\”符号 
# ?表示0次或1次，故\\?表示0次或1次“\”
# 结合起来 |左边即代表 a或者 a\
# 所以整个表达式含义为 从左往右依次匹配字符串中 a 或 a\ 或a*
# 每次匹配到a 就继续往后匹配 所以没有机会匹配到其他符号
# ['a', 'a', 'a', 'a'] 

re.findall(r'a?.', 'abaacadaae')
# 匹配 0个a或1个a  和其他任意一个字符
# ['ab', 'aa', 'c', 'ad', 'aa', 'e']

3. 简写字符集

此外，正则表达式中还有一类简写字符集，其等价于一组字符的集合：

re.findall(r'.s', 'Apple! This Is an Apple!')
# ['is', 'Is']

re.findall(r'\w{2}', '09 8? 7w c_ 9q p@')
# 匹配长度为2的字母、数字、下划线
# ['09', '7w', 'c_', '9q']

re.findall(r'\w\W\B','09 8? 7w c_ 9q p@')
# ['8?', 'p@']

re.findall(r'.\s.','Constant dropping wears the stone.')
# 匹配中间空格 长度为3的字符
# Out[40]: ['t d', 'g w', 's t', 'e s']

re.findall(r'上海市(.{2}区)(.{2,3}路)(\d+号)','上海市黄浦区方浜中路249号 上海市宝山区密山路5号')
#  [('黄浦区', '方浜中路', '249号'), ('宝山区', '密山路', '5号')]

三、文本处理的五类操作

1. 拆分

str.split 能够把字符串的列进行拆分，其中第一个参数为正则表达式，可选参数包括从左到右的最大拆分次数 n ，是否展开为多个列 expand 。和python几乎一致。

s = pd.Series(['上海市黄浦区方浜中路249号',
                '上海市宝山区密山路5号'])
s.str.split('[市区路]')
# 0    [上海, 黄浦, 方浜中, 249号]
# 1       [上海, 宝山, 密山, 5号]
# dtype: object

s.str.split(r'(.{2}区)(.{2,3}路)(\d+号)')
# 0    [上海市, 黄浦区, 方浜中路, 249号, ]
# 1       [上海市, 宝山区, 密山路, 5号, ]
# dtype: object

s.str.split('[市区路]',n=2, expand=True)
# 不设置expend时
# 0    [上海, 黄浦, 方浜中, 249号]
# 1       [上海, 宝山, 密山, 5号]
# dtype: object

设置了expend后，展开为多个列

	0	1	2
0	上海	黄浦	方浜中路249号
1	上海	宝山	密山路5号

最大拆分次数为n,拆一次会分裂成两部分，所以拆分后为n+1部分。
试下n=3

s.str.split('[市区路]',n=3, expand=True)

	0	1	2	3
0	上海	黄浦	方浜中	249号
1	上海	宝山	密山	5号

2. 合并

join 和 cat
区别在于join是内部的，比如将一个Series中字符串列表通过‘-’符号连接起来，而cat是外部的，如两个Series相连接。

s = pd.Series([['a','b'], [1, 'a'], [['a', 'b'], 'c']])

s.str.join('-')
# 0    a-b
# 1    NaN
# 2    NaN
# dtype: object

对于非字符型连接会变成NaN,试一下连接前将类型转成string。

s = pd.Series([['a','b'], [1, 'a'], [['a', 'b'], 'c']])
s.astype(np.str).str.join('-')
# 0                  [-'-a-'-,- -'-b-'-]
# 1                      [-1-,- -'-a-'-]
# 2    [-[-'-a-'-,- -'-b-'-]-,- -'-c-'-]
# dtype: object

str.cat 用于合并两个序列，主要参数为连接符 sep 、连接形式 join 以及缺失值替代符号 na_rep ，其中连接形式默认为以索引为键的左连接。

s1 = pd.Series(['a','b'])
s2 = pd.Series(['cat','dog'])
s2.index = [1, 2]
s1.str.cat(s2,sep='-',na_rep='?',join='outer')
# 0      a-?
# 1    b-cat
# 2    ?-dog
# dtype: object

3. 匹配

str.contains 返回了每个字符串是否包含正则模式的布尔序列：

s = pd.Series(['my cat', 'he is fat', 'railway station'])

s.str.contains('\s\wat')# 是否包含空格+字母/数字/下划线+at的字符
# 0     True
# 1     True
# 2    False
# dtype: bool

str.startswith 和 str.endswith 返回了每个字符串以给定模式为开始和结束的布尔序列，它们都不支持正则表达式：

s = pd.Series(['my cat', 'he is fat', 'railway station'])
s.str.startswith('my')
# 0     True
# 1    False
# 2    False
# dtype: bool

如果需要用正则表达式来检测开始或结束字符串的模式，可以使用 str.match ，其返回了每个字符串起始处是否符合给定正则模式的布尔序列：

s.str[::-1].str.match('tac')
# 反转后匹配是否有tac开始的字符串
# 反转后
# 0             tac ym
# 1          taf si eh
# 2    noitats yawliar
# dtype: object

# 匹配结果
# 0     True
# 1    False
# 2    False
# dtype: bool

当然，这些也能通过在 str.contains 的正则中使用 ^ 和 $ 来实现：

s.str.contains(r'[f|c]at$')
# 匹配结尾是否有fat或cat

# 0     True
# 1     True
# 2    False
# dtype: bool

除了上述返回值为布尔的匹配之外，还有一种返回索引的匹配函数，即 str.find 与 str.rfind ，其分别返回从左到右和从右到左第一次匹配的位置的索引，未找到则返回-1。需要注意的是这两个函数不支持正则匹配，只能用于字符子串的匹配：

s.str[::-1].str.find('ym')
# 0    4
# 1   -1
# 2   -1
# dtype: int64

4. 替换

str.replace 和 replace 并不是一个函数，在使用字符串替换时应当使用前者。

s = pd.Series(['a_1_b','c_?'])#将数字或？替换成"new"

s.str.replace('\d|\?', 'new', regex=True)
# 0    a_new_b
# 1      c_new
# dtype: object

当需要对不同部分进行有差别的替换时，可以利用子组的方法，并且此时可以通过传入自定义的替换函数来分别进行处理，注意 group(k) 代表匹配到的第 k 个子组（圆括号之间的内容）：

s = pd.Series(['上海市黄浦区方浜中路249号',
                   '上海市宝山区密山路5号',
                   '北京市昌平区北农路2号'])
pat = '(\w+市)(\w+区)(\w+路)(\d+号)'
s.str.findall(r'(\w+市)(\w+区)(\w+路)(\d+号)')

先看下按照正则表达式匹配到的结果：

	0
0	[(‘上海市’, ‘黄浦区’, ‘方浜中路’, ‘249号’)]
1	[(‘上海市’, ‘宝山区’, ‘密山路’, ‘5号’)]
2	[(‘北京市’, ‘昌平区’, ‘北农路’, ‘2号’)]

s = pd.Series(['上海市黄浦区方浜中路249号',
                   '上海市宝山区密山路5号',
                   '北京市昌平区北农路2号'])
pat = '(\w+市)(\w+区)(\w+路)(\d+号)'

city = {
     '上海市': 'Shanghai', '北京市': 'Beijing'}

district = {
     '昌平区': 'CP District',
                '黄浦区': 'HP District',
                '宝山区': 'BS District'}

road = {
     '方浜中路': 'Mid Fangbin Road',
            '密山路': 'Mishan Road',
            '北农路': 'Beinong Road'}

def my_func(m):
        str_city = city[m.group(1)]
        str_district = district[m.group(2)]
        str_road = road[m.group(3)]
        str_no = 'No. ' + m.group(4)[:-1]
        return ' '.join([str_city,
                        str_district,
                        str_road,
                        str_no])
s.str.replace(pat, my_func, regex=True)
# 0    Shanghai HP District Mid Fangbin Road No. 249
# 1           Shanghai BS District Mishan Road No. 5
# 2           Beijing CP District Beinong Road No. 2
# dtype: object

这里的数字标识并不直观，可以使用命名子组更加清晰地写出子组代表的含义：

pat = '(?P<市名>\w+市)(?P<区名>\w+区)(?P<路名>\w+路)(?P<编号>\d+号)'

def my_func(m):
        str_city = city[m.group('市名')]
        str_district = district[m.group('区名')]
        str_road = road[m.group('路名')]
        str_no = 'No. ' + m.group('编号')[:-1]
        return ' '.join([str_city,
                        str_district,
                        str_road,
                        str_no])

s.str.replace(pat, my_func, regex=True)

?P的意思就是命名一个名字为value的组，匹配规则符合后面的规则。

5. 提取

提取既可以认为是一种返回具体元素（而不是布尔值或元素对应的索引位置）的匹配操作，也可以认为是一种特殊的拆分操作。前面提到的 str.split 例子中会把分隔符去除，这并不是用户想要的效果，这时候就可以用 str.extract 进行提取：

In [76]: pat = '(\w+市)(\w+区)(\w+路)(\d+号)'

In [77]: s.str.extract(pat)
Out[77]: 
     0    1     2     3
0  上海市  黄浦区  方浜中路  249号
1  上海市  宝山区   密山路    5号
2  北京市  昌平区   北农路    2号

通过子组的命名，可以直接对新生成 DataFrame 的列命名：

In [78]: pat = '(?P<市名>\w+市)(?P<区名>\w+区)(?P<路名>\w+路)(?P<编号>\d+号)'

In [79]: s.str.extract(pat)
Out[79]: 
    市名   区名    路名    编号
0  上海市  黄浦区  方浜中路  249号
1  上海市  宝山区   密山路    5号
2  北京市  昌平区   北农路    2号

str.extractall 不同于 str.extract 只匹配一次，它会把所有符合条件的模式全部匹配出来，如果存在多个结果，则以多级索引的方式存储：

In [80]: s = pd.Series(['A135T15,A26S5','B674S2,B25T6'], index = ['my_A','my_B'])

In [81]: pat = '[A|B](\d+)[T|S](\d+)'

In [82]: s.str.extractall(pat)
Out[82]: 
              0   1
     match         
my_A 0      135  15
     1       26   5
my_B 0      674   2
     1       25   6

In [83]: pat_with_name = '[A|B](?P\d+)[T|S](?P\d+)'

In [84]: s.str.extractall(pat_with_name)
Out[84]: 
           name1 name2
     match            
my_A 0       135    15
     1        26     5
my_B 0       674     2
     1        25     6

str.findall 的功能类似于 str.extractall ，区别在于前者把结果存入列表中，而后者处理为多级索引，每个行只对应一组匹配，而不是把所有匹配组合构成列表。

In [85]: s.str.findall(pat)
Out[85]: 
my_A    [(135, 15), (26, 5)]
my_B     [(674, 2), (25, 6)]
dtype: object

四、常用字符串函数

除了上述介绍的五类字符串操作有关的函数之外， str 对象上还定义了一些实用的其他方法，在此进行介绍：

1. 字母型函数

upper, lower, title, capitalize, swapcase 这五个函数主要用于字母的大小写转化，从下面的例子中就容易领会其功能：

In [86]: s = pd.Series(['lower', 'CAPITALS', 'this is a sentence', 'SwApCaSe'])

In [87]: s.str.upper()# 大写
Out[87]: 
0                 LOWER
1              CAPITALS
2    THIS IS A SENTENCE
3              SWAPCASE
dtype: object

In [88]: s.str.lower()# 小写
Out[88]: 
0                 lower
1              capitals
2    this is a sentence
3              swapcase
dtype: object

In [89]: s.str.title()# 每个单词首字母大写
Out[89]: 
0                 Lower
1              Capitals
2    This Is A Sentence
3              Swapcase
dtype: object

In [90]: s.str.capitalize()#整句只有首个单词大写
Out[90]: 
0                 Lower
1              Capitals
2    This is a sentence
3              Swapcase
dtype: object

In [91]: s.str.swapcase()#转换大小写
Out[91]: 
0                 LOWER
1              capitals
2    THIS IS A SENTENCE
3              sWaPcAsE
dtype: object

2. 数值型函数

这里着重需要介绍的是 pd.to_numeric 方法，它虽然不是 str 对象上的方法，但是能够对字符格式的数值进行快速转换和筛选。其主要参数包括 errors 和 downcast 分别代表了非数值的处理模式和转换类型。其中，对于不能转换为数值的有三种 errors 选项， raise, coerce, ignore 分别表示直接报错、设为缺失以及保持原来的字符串。

In [92]: s = pd.Series(['1', '2.2', '2e', '??', '-2.1', '0'])

In [93]: pd.to_numeric(s, errors='ignore')
Out[93]: 
0       1
1     2.2
2      2e
3      ??
4    -2.1
5       0
dtype: object

In [94]: pd.to_numeric(s, errors='coerce')
Out[94]: 
0    1.0
1    2.2
2    NaN
3    NaN
4   -2.1
5    0.0
dtype: float64

在数据清洗时，可以利用 coerce 的设定，快速查看非数值型的行：

In [95]: s[pd.to_numeric(s, errors='coerce').isna()]
Out[95]: 
2    2e
3    ??
dtype: object

3. 统计型函数

count 和 len 的作用分别是返回出现正则模式的次数和字符串的长度.

In [96]: s = pd.Series(['cat rat fat at', 'get feed sheet heat'])

In [97]: s.str.count('[r|f]at|ee')
Out[97]: 
0    2
1    2
dtype: int64

In [98]: s.str.len()
Out[98]: 
0    14
1    19
dtype: int64

4. 格式型函数

格式型函数主要分为两类，第一种是除空型，第二种时填充型。其中，第一类函数一共有三种，它们分别是 strip, rstrip, lstrip ，分别代表去除两侧空格、右侧空格和左侧空格。这些函数在数据清洗时是有用的，特别是列名含有非法空格的时候。

In [99]: my_index = pd.Index([' col1', 'col2 ', ' col3 '])

In [100]: my_index.str.strip().str.len()
Out[100]: Int64Index([4, 4, 4], dtype='int64')

In [101]: my_index.str.rstrip().str.len()
Out[101]: Int64Index([5, 4, 5], dtype='int64')

In [102]: my_index.str.lstrip().str.len()
Out[102]: Int64Index([4, 5, 5], dtype='int64')

对于填充型函数而言， pad 是最灵活的，它可以选定字符串长度、填充的方向和填充内容：

In [103]: s = pd.Series(['a','b','c'])

In [104]: s.str.pad(5,'left','*')
Out[104]: 
0    ****a
1    ****b
2    ****c
dtype: object

In [105]: s.str.pad(5,'right','*')
Out[105]: 
0    a****
1    b****
2    c****
dtype: object

In [106]: s.str.pad(5,'both','*')
Out[106]: 
0    **a**
1    **b**
2    **c**
dtype: object

上述的三种情况可以分别用 rjust, ljust, center 来等效完成，需要注意 ljust 是指右侧填充而不是左侧填充：

In [107]: s.str.rjust(5, '*')
Out[107]: 
0    ****a
1    ****b
2    ****c
dtype: object

In [108]: s.str.ljust(5, '*')
Out[108]: 
0    a****
1    b****
2    c****
dtype: object

In [109]: s.str.center(5, '*')
Out[109]: 
0    **a**
1    **b**
2    **c**
dtype: object

在读取 excel 文件时，经常会出现数字前补0的需求，例如证券代码读入的时候会把”000007”作为数值7来处理， pandas 中除了可以使用上面的左侧填充函数进行操作之外，还可用 zfill 来实现。

In [110]: s = pd.Series([7, 155, 303000]).astype('string')

In [111]: s.str.pad(6,'left','0')
Out[111]: 
0    000007
1    000155
2    303000
dtype: string

In [112]: s.str.rjust(6,'0')
Out[112]: 
0    000007
1    000155
2    303000
dtype: string

In [113]: s.str.zfill(6)
Out[113]: 
0    000007
1    000155
2    303000
dtype: string

五、练习

Ex1：房屋信息数据集

将 year 列改为整数年份存储

df['year']=df['year'].str.replace(r'年建','')
df.head()

	floor	year	area	price
0	高层（共6层）	1986	58.23㎡	155万
1	中层（共20层）	2020	88㎡	155万
2	低层（共28层）	2010	89.33㎡	365万
3	低层（共20层）	2014	82㎡	308万
4	高层（共1层）	2015	98㎡	117万

答案给的方法是使用pd.to_numeric 方法，它虽然不是 str 对象上的方法，但是能够对字符格式的数值进行快速转换，在这里使用更合理：

df.year = pd.to_numeric(df.year.str[:-2]).astype('Int64')

将 floor 列替换为 Level, Highest 两列，其中的元素分别为 string 类型的层类别（高层、中层、低层）与整数类型的最高层数。
首先利用正则表达式将floor中的等级和最高层找到，然后利用str.extract提取需要的列,使用正则表达式的时候可以直接命名组，后面就不用再对列重命名了。

pat='(?P\w层)（共(?P\d+)层）'
df['floor'].str.extract(pat).head()

	Level	Highest
0	高层	6
1	中层	20
2	低层	28
3	低层	20
4	高层	1

之后再拼接上，以及把floor列去除即可，下面是完整代码：

pat='(?P\w层)（共(?P\d+)层）'
floor_cols=df['floor'].str.extract(pat)
df=pd.concat([df,floor_cols],1).drop(columns=['floor'])
df

	year	area	price	Level	Highest
0	1986	58.23㎡	155万	高层	6
1	2020	88㎡	155万	中层	20
2	2010	89.33㎡	365万	低层	28
3	2014	82㎡	308万	低层	20
4	2015	98㎡	117万	高层	1

计算房屋每平米的均价 avg_price ，以 ***元/平米的格式存储到表中，其中 ***为整数。

s_area=pd.to_numeric(df.area.str[:-1])
s_price=pd.to_numeric(df.price.str[:-1])
df['avg_price'] = ((s_price/s_area)*10000).astype(
    'int').astype('string') + '元/平米'
df.head(3)

	year	area	price	Level	Highest	avg_price
0	1986	58.23㎡	155万	高层	6	26618元/平米
1	2020	88㎡	155万	中层	20	17613元/平米
2	2010	89.33㎡	365万	低层	28	40859元/平米

刚开始忘记把算好的价格先转成整数了，这个要注意下。

Ex2：《权力的游戏》剧本数据集

计算每一个 Episode 的台词条数。
刚开始我心想直接用个gropuby不就行了嘛，结果报列名错误。打印了下列名发现几个列前后都有空格。
[‘Release Date’, ’ Season’, 'Episode ', ‘Episode Title’, ‘Name’,
‘Sentence’]
先将列名空格空格去掉再做就ok了

df.columns = df.columns.str.strip()
df.groupby(['Season', 'Episode'])['Sentence'].count().head()

	Sentence
(‘Season 1’, ‘Episode 1’)	327
(‘Season 1’, ‘Episode 10’)	266
(‘Season 1’, ‘Episode 2’)	283
(‘Season 1’, ‘Episode 3’)	353
(‘Season 1’, ‘Episode 4’)	404

以空格为单词的分割符号，请求出单句台词平均单词量最多的前五个人。

df.set_index('Name').Sentence.str.split().str.len(
     ).groupby('Name').mean().sort_values(ascending=False).head()

Name	Sentence
male singer	109
slave owner	77
manderly	62
lollys stokeworth	62
dothraki matron	56.6667

这个单组做按空格分裂、分组求平均，求字符串长度都会，但是组合起来有点难度。

若某人的台词中含有问号，那么下一个说台词的人即为回答者。若上一人台词中含有 n 个问号，则认为回答者回答了 n 个问题，请求出回答最多问题的前五个人。

这个也是看了答案后有思路的。

s = pd.Series(df.Sentence.values, index=df.Name.shift(-1))
s.str.count('\?').groupby('Name').sum().sort_values(ascending=False).head()

Name	0
tyrion lannister	527
jon snow	374
jaime lannister	283
arya stark	265
cersei lannister	246

你可能感兴趣的:(pandas,python,正则表达式,字符串)

【人工智能】Python常用库-PyTorch常用方法教程 IT古董人工智能机器学习 Python 人工智能 python pytorch 机器学习
PyTorch是一个强大的开源深度学习框架，以其灵活性和动态计算图而广受欢迎。以下是PyTorch的详细教程，涵盖从基础到实际应用的使用方法。1.安装与导入1.1安装PyTorch访问PyTorch官方网站，根据系统、Python版本和CUDA支持选择安装命令。常用安装命令：pipinstalltorchtorchvisiontorchaudio1.2导入库importtorchimporttor
【人工智能】Python常用库-TensorFlow常用方法教程 IT古董人工智能机器学习 Python 人工智能 python tensorflow 机器学习
TensorFlow是一个广泛应用的开源深度学习框架，支持多种机器学习任务，如深度学习、神经网络、强化学习等。以下是TensorFlow的详细教程，涵盖基础使用方法和示例代码。1.安装与导入安装TensorFlow：pipinstalltensorflow导入TensorFlow：importtensorflowastfimportnumpyasnp验证安装：print(tf.__version_
【人工智能】Python常用库-Matplotlib常用方法教程 IT古董人工智能机器学习 Python 人工智能 python matplotlib
Matplotlib是一个强大的Python数据可视化库，用于绘制各种图形。以下是Matplotlib常用方法的详细说明及示例，帮助你快速上手。1.安装和导入Matplotlib安装Matplotlib：pipinstallmatplotlib导入Matplotlib：importmatplotlib.pyplotasplt2.基本绘图绘制简单折线图importmatplotlib.pyplota
python 命名实体识别_Python NLTK学习11（命名实体识别和关系抽取） weixin_39630762 python 命名实体识别
PythonNLTK学习11(命名实体识别和关系抽取)发表于:2017年7月27日阅读:18262除特别注明外，本站所有文章均为小杰Code原创本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。命名实体识别命名实体识别(NER)系统的目标是识别所有文字提及的命名实体。可以分解成两个子任务：确定NE的边界和确定其类型。命名实体识别非常适用于基于分类器类型的方法来处理的任务。NLTK有
python断点调试出现问题_python的断点调试 weixin_39689870 python断点调试出现问题
在Python中也可以像gcc/gdb那样调试程序，只要在运行Python程序时引入pdb模块（假设要调试的程序名为d.py）：1$vid.py12345678#!/usr/bin/pythondefmain():i,sum=1,0foriinxrange(100):sum=sum+iprintsumif__name__=='__main__':main()1$python-mpdbd.py运行上
python命名实体识别工具,斯坦福大学使用NLTK命名实体识别器（NER）功能宇宙探索未解之迷 python命名实体识别工具
Isthispossible:toget(similarto)StanfordNamedEntityRecognizerfunctionalityusingjustNLTK?Isthereanyexample?Inparticular,IaminterestedinextractionLOCATIONpartoftext.Forexample,fromtextThemeetingwillbehel
python做个游戏辅助_8个用于辅助项目的出色Python库 cumj63710 数据库 python java 大数据编程语言
python做个游戏辅助在Python/Django世界中我们有一句俗语：我们是为语言而来的，而是为社区而留下的。对我们大多数人来说都是如此，但是让我们留在Python世界中的另一件事是，有了一个想法并在午餐或晚上几个小时内快速地解决它是多么容易。本月，我们将深入研究我们喜欢用来快速擦除那些附带项目或午餐时间痒的Python库。即时将数据保存在数据库中：数据集当我们快速想要收集数据并将其保存到数据
用Python做一个绝地求生压枪版程序媛了了 python 开发语言
一、概述1.1效果总的来说，这种方式是通过图像识别来完成的，不侵入游戏，不读取内存，安全不被检测。1.2前置知识游戏中有各种不同的枪械，不同的枪械后坐力不一样，射速也不同。相同的枪械，装上不同的配件后，后坐力也会发生变化。枪械的y轴上移是固定的，x轴是随机的，因此我们程序只移动鼠标y轴。x轴游戏中手动操作。1.3实现原理简述通过python中的pynput模块监听键盘鼠标。监听鼠标左键按下，这个时
为AI聊天工具添加一个知识系统之76 详细设计之17 正则表达式之4 正则表达式模板一水鉴天人工智能机器学习算法
Q712、三“化”（使用三种不同的定义方法：规定定义法-线性回归/内涵定义法--一阶迭代/外延定义法--单调递归）整体形成一个双人零和的局面Method()规定式。给出问题“law是什么”的三种答案：1)符合（事实符合公式）内涵和外延的逆关系,2）遵循(逻辑符号)拓扑特征不变性，3)基于(信念坚持)时间不可逆公理根据你所描述的框架，三“化”（规定定义法-线性回归、内涵定义法-一阶迭代、外延定义法-
Python开发FastAPI从入门到精通赵梓宇 Python权威教程合集 fastapi python 前端
想用Python写API快到飞起？FastAPI就是你的“代码瑞士军刀”！这本书不讲玄学，只教真功夫——从零搭建高性能API，到微服务、分布式事务、熔断限流，连异步编程都能玩成魔法！小白也能变大神：路由、依赖注入、数据库集成手把手教学；老鸟直呼内行：服务网格、Saga模式、K8s部署实战全覆盖。附赠三个硬核项目：任务管理、在线商城、实时聊天系统，代码跑起来比老裁缝织毛衣还丝滑！别说我没提醒你：翻开
NLTK命名实体识别（NER） Mr数据杨 Python 自然语言技术 NLTK 自然语言处理 1024程序员节
命名实体识别（NamedEntityRecognition,NER）是自然语言处理（NLP）中的一项核心技术，旨在从文本中识别出具有特定意义的实体，如人名、地名、组织名等。通过对文本的自动化处理，NER能够帮助计算机理解和组织大量的非结构化数据，为信息抽取、搜索引擎优化、数据分析等领域提供强有力的技术支持。NLTK（NaturalLanguageToolkit）是一个广泛使用的Python库，提供
【算法】经典博弈论问题——威佐夫博弈 python 查理零世算法 python 开发语言
目录威佐夫博弈(WythoffGame)【模板】威佐夫博弈(WythoffGame)有两堆石子，数量任意，可以不同，游戏开始由两个人轮流取石子游戏规定，每次有两种不同的取法1)在任意的一堆中取走任意多的石子2)可以在两堆中同时取走相同数量的石子最后把石子全部取完者为胜者现在给出初始的两堆石子的数目，返回先手能不能获胜结论：小！=（大-小）*黄金分割比例，先手赢小=（大-小）*黄金分割比例，后手赢证
python 的sm2 生成密钥的方法，gmssl里没有提供密钥生成 CissSimkey python 算法机器学习
"""Author:tangleiDateTime:2024-11#importrandom#random不安全所以替换为secrets中的算法#选择素域，设置椭圆曲线参数"""importsecretsclassSM2_Key():default_ecc_table={'n':'FFFFFFFEFFFFFFFFFFFFFFFFFFFFFFFF7203DF6B21C6052B53BBF40939D
基于Python第三方模块fuzzywuzzy实现字符串匹配和相似度比较袁袁袁袁满 Python实用技巧大全 python 开发语言 fuzzywuzzy 符串匹配和相似度比较
文章目录一、引言二、安装三、核心模块与功能1.fuzz模块的主要函数2.process模块的主要函数四、应用场景五、性能与优化一、引言fuzzywuzzy是一个强大的Python库，专门用于执行模糊字符串匹配和相似度比较。由SeatGeek开发并开源，它基于Levenshtein距离（编辑距离）算法，能够处理字符串之间的拼写错误、格式差异以及部分匹配等问题。fuzzywuzzy在数据清洗、文本匹配
常见的反爬机制及应对策略极客点儿 #网络爬虫 Python 爬虫反爬
1.Headers:从用户的headers进行反爬是最常见的反爬策略,Headers是一种最常见的反爬机制Headers是一种区分浏览器行为和机器行为中最简单的方法，还有一些网站会对Referer（上级链接）进行检测从而实现爬虫。相应的解决措施：通过审查元素或者开发者工具获取相应的headers然后把相应的headers传输给python的requests，这样就能很好地绕过。2.IP限制一些网站
Python3 【函数】：见证算法的优雅与力量李智 - 重庆 Python 精讲精练 -从入门到实战算法 python 经验分享案例学习编程技巧学习方法
Python3【函数】：见证算法的优雅与力量一、问题描述使用3种不同的算法编写函数，实现如下功能：找出3个数中的最大数。二、算法实现使用if-elif-else语句实现defmax_of_three(a,b,c):ifa>=banda>=c:returnaelifb>=aandb>=c:returnbelse:returnc#示例调用print(max_of_three(10,20,15))#输出
【Python3爬虫】Scrapy入门教程 TM0831 Python3爬虫 Python3 网络爬虫
Python版本：3.5系统：Windows一、准备工作需要先安装几个库（pip，lxml，pywin32，Twisted，pyOpenSSL），这些都比较容易，如果使用的是Pycharm，就可以更方便的安装模块，在settings里可以选择版本进行下载。如果在命令行模式下输入pip-V出现'pip'不是内部或外部命令，也不是可运行的程序或批处理文件，先确保自己在环境变量中配置E:\Python3
Python 爬虫中的反爬策略及详细应对方法 winner8881 python 爬虫开发语言
在构建Python爬虫的过程中，网站为了保护自身资源和用户体验，常常会采取一系列反爬策略来限制或阻止自动化程序的访问。了解这些策略对于设计更智能、更合规的爬虫至关重要。以下是详细的反爬措施及其应对方法：1.User-Agent检测策略描述：许多网站会检查HTTP请求头中的User-Agent字段，以判断请求是否来自浏览器。如果发现是来自非标准用户代理（如Python默认的requests库），可能
1. Python Web 框架要点徐红珍 python django
PythonWeb框架要点1.Web应用程序处理流程2.Web程序框架的意义用于搭建Web应用程序免去不同Web应用相同代码部分的重复编写，只需关心Web应用核心的业务逻辑实现3.Web应用程序的本质接收并解析HTTP请求，获取具体的请求信息处理本次HTTP请求，即完成本次请求的业务逻辑处理构造并返回处理结果——HTTP响应百度ip地址：14.215.177.394.Web框架学习方法如何搭建工程
Miniforge详细安装教程（macOs和Windows）一直在学习的小白~ macos windows conda
(注：主要是解决商业应用anaconda收费问题，这是轻量级的代替，个人完全可以使用anaconda和miniconda)Miniforge是一个轻量级的包管理器，类似于Anaconda和Miniconda。它主要用于安装基于conda的Python环境，专注于兼容ARM架构的设备（如AppleM1/M2/M3芯片）和其它CPU架构。Miniforge使用conda-forge作为默认的包管理渠道
38个基于Python的Web 开发框架快乐星球没有乐 python 前端数据库
Web开发是Python应用中重要的一部分，下面总结了38个基于Python的Web开发框架！其中有的历史悠久，有的发展迅速，还有的已经停止维护，大家可以根据情况参考学习。1Django框架官网：https://github.com/django/django.gitDjango是一个开放源代码的Web应用框架，由纯Python写成，是目前Python语言中主流de三大Web框架之一(flask、
Python 简单爬虫教程 ANTennaaa Python python
就是突然想玩一下这里是一个下载网页内图片的例子环境Python3.7需首先安装pipinstalllxml-ihttps://mirrors.aliyun.com/pypi/simple#fromurllib.requestimporturlretrieve#第一种方法importrequests#第二种方法frombs4importBeautifulSoup'''Ifthetargetdirec
华为OD机试 - 字符串摘要（Python/JS/C/C++ 2023 B卷 100分）哪吒搬砖工逆袭Java架构师华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述给定一个字符串的摘要算法，请输出给定字符串的摘要值：去除字符串中
华为OD机试 - 疫情扩散时间计算 - 广度优先搜索（Python/JS/C/C++ 2024 C卷 200分）哪吒华为od 宽度优先 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述在一个地图中（地图有N*N个区域组成），有部分区域被感染病菌。感
华为OD机试 - 字符串统计（Python/JS/C/C++ 2024 C卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述给定两个字符集合，一个是全量字符集，一个是已占用字符集，已占用字
华为OD机试 - 服务器广播 - 并查集（Python/JS/C/C++ 2024 E卷 200分）哪吒华为od 服务器 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述服务器连接方式包括直接相连，间接连接。A和B直接连接，B和C直接
华为OD机试 - 单词搜索，找到它 - 回溯（Python/JS/C/C++ 2024 C卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述找到它是一个小游戏，你需要在一个矩阵中找到给定的单词。假设给定单
华为OD机试 - 乘坐保密电梯 - 回溯（Python/JS/C/C++ 2024 C卷 200分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述有一座保密大楼，你从0楼到达指定楼层m，必须这样的规则乘坐电梯：
华为OD机试 - 最长广播效应 - 广度优先搜索BFS（Python/JS/C/C++ 2024 C卷 200分）哪吒华为od 宽度优先 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述某通信网络中有N个网络结点，用1到N进行标识。网络中的结点互联互
华为OD机试 - 查找舆情热词（Python/JS/C/C++ 2024 C卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述网上新闻越来越多，希望对新闻进行热词处理并归类，方便获取信息，现
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/