Giiiyong

Pandas数据处理之文本数据处理

Pandas 文本数据处理

一、string类型的性质

string与object的区别
string类型的转换

二、拆分与拼接

str.splite方法

a）分割符与str的位置元素选取
b）expand参数控制了是否拆开成列
c）n参数代表最多分割多少次
d）expand参数与n参数组合

str.cat方法

a) 不同对象的拼接模式

1) 对于单个Series而言
2) 对于两个Series合并而言

b) cat的索引对齐

三、替换

正则表达式
str.replace的常见用法
子组与函数替换
关于str.replace的注意事项

明确str.replace和replace是不同的

a) str.replace赋值参数不得为pd.NA
b) replace针对的是任意类型的序列或数据框
c) string类型和object类型序列如果存在缺失值，都不能使用str.replace替换，只能用replace.

四、子串匹配与提取

str.extract方法

a) 常见用法

1) 使用子组名作为列名
2) 利用'?'正则标记选择部分提取

b) expand参数（默认为True）

str.extractall方法

a) 与extract只匹配第一个符合条件的表达式不同，extractall会找出所有符合条件的字符串，并建立多级索引（即使只找到一个）
b) 如果想查看第i层匹配，可使用xs方法

str.contains方法
str.match方法

五、常用字符串方法

过滤型方法

str.strip
str.lower
str.upper
str.swapcase
str.capitalize

isnumeric方法

一、string类型的性质

string与object的区别

1.字符存取方法会返回相应数据的Nullable类型(即Int，String，Float等)，这一类型数据不会随缺失值的存在而改变类型；而object会随缺失值的存在而改变返回其他类（整型列转为浮点；而字符由于无法转化为浮点，因此只能归并为object类型）
2.某些Series方法不能在string上使用，例如： Series.str.decode()，因为存储的是字符串而不是字节
3.string类型在缺失值存储或运算时，类型会广播为pd.NA，而不是浮点型np.nan

string类型的转换

如果将一个其他类型的容器直接转换string类型可能会出错：
pd.Series([1,'1.']).astype('string') #报错
pd.Series([1,2]).astype('string') #报错
pd.Series([True,False]).astype('string') #报错

当下正确的方法是分两部转换，先转为str型object，在转为string类型：

pd.Series([True,False]).astype('str').astype('string')
#output：
0    1
1    1.
dtype: string

pd.Series([1,2]).astype('str').astype('string')
#output：
0    1
1    2
dtype: string

pd.Series([True,False]).astype('str').astype('string')
#output：
0    True
1    False
dtype: string

二、拆分与拼接

str.splite方法

a）分割符与str的位置元素选取

#原数据：
0    a_b_c
1    c_d_e
2     <NA>
3    f_g_h
dtype: string

根据某一个元素分割，默认为空格

s.str.split('_')
#output：
0    [a, b, c]
1    [c, d, e]
2         <NA>
3    [f, g, h]
dtype: object

这里需要注意split后的类型是object，因为现在Series中的元素已经不是string，而包含了list，且string类型只能含有字符串。

此方法下可以进行元素的提取：
如果该单元格元素是列表，那么str[i]表示取出第i个元素；
如果是单个元素，则先把元素转为列表再取出。

s.str.split('_').str[1]
# output：
0       b
1       d
2    <NA>
3       g
dtype: object

pd.Series(['a_b_c', ['a','b','c']], dtype="object").str[1]
#第一个元素先转为['a','_','b','_','c']
0    _
1    b
dtype: object

b）expand参数控制了是否拆开成列

s.str.split('_',expand=True)
#output：
       0          1         2
0      a          b         c
1      c          d         e
2     <NA>      <NA>      <NA>
3      f          g         h

c）n参数代表最多分割多少次

s.str.split('_',n=1)
#output：
0    [a, b_c]
1    [c, d_e]
2        <NA>
3    [f, g_h]
dtype: object

d）expand参数与n参数组合

s.str.split('_',expand=True,n=1)
#output:
      0        1
0     a       b_c
1     c       d_e
2    <NA>    <NA>
3     f       g_h

str.cat方法

a) 不同对象的拼接模式

cat方法对于不同对象的作用结果并不相同，其中的对象包括：单列、双列、多列

1) 对于单个Series而言

是指所有的元素进行字符合并为一个字符串

# 生成Series：
s = pd.Series(['ab',None,'d'],dtype='string')
#output:
0      ab
1    <NA>
2       d
dtype: string

#合并：
s.str.cat()
#output:
‘abd'

sep分隔符参数

s.str.cat(sep=',')
#output:
'ab,d'

缺失值替代字符na_rep参数

s.str.cat(sep=',',na_rep='*')
#output:
'ab,*,d'

2) 对于两个Series合并而言

是对应索引的元素进行合并

# 生成第一个Series：
s = pd.Series(['ab',None,'d'],dtype='string')
#output:
0      ab
1    <NA>
2       d
dtype: string

# 生成第二个Series：
s2 = pd.Series(['24',None,None],dtype='string')
#output:
0      24
1     <NA>
2     <NA>
dtype: string

# 合并：
s.str.cat(s2)
#output:
0    ab24
1    <NA>
2    <NA>
dtype: string

注意：缺失值pd.NA与任何值合并都为pd.NA本身

相应的sep参数与na_rep参数的应用：
合并后的两个缺失值会被同时替换成参数指定的相应字符

s.str.cat(s2,sep=',',na_rep='*')
#output:
0     ab,24
1      *,*
2      d,*
dtype: string

③ 多列拼接可以分为表的拼接和多Series拼接
表的拼接

s = pd.Series(['ab',None,'d'],dtype='string')
#output:
0      ab
1    <NA>
2       d
dtype: string

df = pd.DataFrame({0:['1','3','5'],1:['5','b',None]},dtype='string')
# output:   
   0     1
0  1     5
1  3     b
2  5   <NA>

s.str.cat(df,na_rep='*'）
# output: 
0    ab15
1     *3b
2     d5*
dtype: string

多个Series拼接

s = pd.Series(['ab',None,'d'],dtype='string')
#output:
0      ab
1    <NA>
2       d
dtype: string

s+'0'
#output:
0     ab0
1    <NA>
2      d0
dtype: string

s*2
#output:
0    abab
1    <NA>
2      dd
dtype: string

# 拼接：
s.str.cat([s+'0',s*2])
#output:
0    abab0abab
1         <NA>
2        dd0dd
dtype: string

b) cat的索引对齐

如果两边合并的索引不相同且未指定join参数，默认为左连接，设置join=‘left’

s = pd.Series(['ab',None,'d'],dtype='string')
#output:
0      ab
1    <NA>
2       d
dtype: string

s2 = pd.Series(list('abc'),index=[1,2,3],dtype='string')
#output:
1    a
2    b
3    c
dtype: string

# 合并：
s.str.cat(s2,na_rep='*')
#output:
0    ab*
1     *a
2     db
dtype: string

#因为是默认左链接，所以合并后的结果的index和s的index相同，s2中‘3’被忽略。

三、替换

正则表达式

r前缀，不用考虑转义的问题：
比如我们匹配信息item\n 时，如果没有r，我们要将正则表达式写成re.compile(‘item\n’)；但是，当我们加上了r时，我们的正则表达式写成re.compile(r’item\n’)就可以了。
^表示行的开头
$表示行的结尾
小括号（）的意思是将某一部分分开成n个子组
同时可以利用?P<…>表达式对子组命名调用，尖括号里面填子组的名字。
[./-+]
在[]内均表示字符本身；
在[]外特殊字符，表示匹配特殊字符本身，必须要加反斜杠；
或者用r方法
\w表示[0-9a-zA-Z_]
[]+，‘+’号在[]外表示{1,}，即1次或多次
‘?’ 匹配前面的子表达式零次或一次。
例如，“do(es)?”可以匹配“does”中的“do”和“does”。?等价于{0,1}。
正则表达式[\w]+,\w+,[\w+] 三者的区别
[\w]+和\w+没有区别，都是匹配多个数字、字母以及下划线；
[\w+]表示匹配一个数字、字母、下划线或加号本身字符；
[ ]表示数组而非排列，即不按固定次序位置排列，在[ ]内的字符可以任意次序出现。
例如：
[ABC]+
可以匹配"AAABBBCCC,BBBAAACCC,BACCBACAACBAC,…"，不是一定按固定A…B…C…的次序排列。

str.replace的常见用法

s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca','', np.nan, 'ABBA', 'dog', 'cat'],dtype="string")
#output:
0       A
1       B
2       C
3    Aaba
4    Baca
5        
6    <NA>
7    ABBA
8     dog
9     cat
dtype: string

第一个值写r开头的正则表达式，后一个写替换的字符串

s.str.replace(r'^[AB]','***')
#output:
0       ***
1       ***
2         C
3    ***aba
4    ***aca
5          
6      <NA>
7    ***BBA
8       dog
9       cat
dtype: string

s.str.replace(r'^[AB]+','***')
#output:
0       ***
1       ***
2         C
3    ***aba
4    ***aca
5          
6      <NA>
7       ***
8       dog
9       cat
dtype: string

写以$结尾的正则表达式，后一个写替换的字符串

s.str.replace(r'[AB]$','***')
#output:
0       ***
1       ***
2         C
3      Aaba
4      Baca
5          
6      <NA>
7    ABB***
8       dog
9       cat
dtype: string

子组与函数替换

通过正整数调用子组（0返回字符本身，从1开始才是子组）

s.str.replace(r'([ABC])(\w+)',lambda x:x.group(2)[1:]+'*')
#output:
0       A
1       B
2       C
3     ba*
4     ca*
5        
6    <NA>
7     BA*
8     dog
9     cat
dtype: string

利用?P<…>表达式可以对子组命名调用

s.str.replace(r'(?P[ABC])(?P\w+)',lambda x:x.group('two')[1:]+'*')
#output:
0       A
1       B
2       C
3     ba*
4     ca*
5        
6    <NA>
7     BA*
8     dog
9     cat
dtype: string

关于str.replace的注意事项

明确str.replace和replace是不同的

str.replace针对的是object类型或string类型，默认是以正则表达式为操作，目前暂时不支持DataFrame上使用

a) str.replace赋值参数不得为pd.NA

（当前版本不支持）

pd.Series(['A','B'],dtype='string').str.replace(r'[A]',pd.NA)
#报错
pd.Series(['A','B'],dtype='O').str.replace(r'[A]',pd.NA) 
#报错

解决办法：此时，可以先转为object类型再转换回来

pd.Series(['A','B'],dtype='string').astype('O').replace(r'[A]',pd.NA,regex=True).astype('string')
#output:
0    <NA>
1       B
dtype: string

b) replace针对的是任意类型的序列或数据框

如果要以正则表达式替换，需要设置regex=True，该方法通过字典可支持多列替换

对于string类型Series，在使用replace函数时不能使用正则表达式替换

pd.Series(['A','B'],dtype='string').replace(r'[A]',pd.NA,regex=True)
#output:
0    A
1    B
dtype: string

对于object类型的Series，则可以使用replace方法，并运用regex参数，使用正则表达式进行替换,所以针对str.replace不能用pd.NA作为赋值参数的问题，可以先转为object类型处理完后在转换回string类型

pd.Series(['AA','B'],dtype='O').replace(r'[A]',pd.NA,regex=True)
#output:
0    <NA>
1       B
dtype: object

c) string类型和object类型序列如果存在缺失值，都不能使用str.replace替换，只能用replace.

pd.Series(['A',np.nan],dtype='object').str.replace(np.nan,'B') 
#报错
pd.Series(['A',pd.NA],dtype='string').str.replace(pd.NA,'B') 
#报错

pd.Series(['A',np.nan],dtype='object').replace(np.nan,'B') 
#output:
0    A
1    B
dtype: object

pd.Series(['A',pd.NA],dtype='string').replace(pd.NA,'B')
#output:
0    A
1    B
dtype: string

综上，概况的说，除非需要赋值元素为缺失值（转为object再转回来），或者被赋值元素为缺失值，否则请使用str.replace方法。

四、子串匹配与提取

str.extract方法

a) 常见用法

pd.Series(['10-87', '10-88', '10-89'],dtype="string").str.extract(r'([\d]{2})-([\d]{2})')
#output:
    0   1
0  10  87
1  10  88
2  10  89

1) 使用子组名作为列名

pd.Series(['10-87', '10-88', '-89'],dtype="string").str.extract(r'(?P[\d]{2})-(?P[\d]{2})')
#output:
   name_1     name_2
0    10         87
1    10         88
2   <NA>       <NA>

2) 利用’?'正则标记选择部分提取

pd.Series(['10-87', '10-88', '-89'],dtype="string").str.extract(r'(?P[\d]{2})?-(?P[\d]{2})')
#output:
   name_1  name_2
0     10      87
1     10      88
2   <NA>      89

pd.Series(['10-87', '10-88', '10-'],dtype="string").str.extract(r'(?P[\d]{2})-(?P[\d]{2})?')
	name_1    name_2
0      10        87
1      10        88
2      10      <NA>

b) expand参数（默认为True）

s = pd.Series(["a1", "b2", "c3"], ["A11", "B22", "C33"], dtype="string")
s.index
#output:
Index(['A11', 'B22', 'C33'], dtype='object')

对于一个子组的Series，如果expand设置为False，则返回Series，若大于一个子组，则expand参数无效，全部返回DataFrame

单一子组，expand参数为True的情况：

s.str.extract(r'([\w])')
#expand参数有效，返回DataFrame： 
       0
A11    a
B22    b
C33    c

单一子组，expand参数设置为False的情况：

s.str.extract(r'([\w])',expand=False)
#expand参数有效，返回Series：
A11    a
B22    b
C33    c
dtype: string

多子组，expand参数设置为False的情况：

s.str.extract(r'([\w])([\d])',expand=False)
#expand参数无效，返回DataFrame：         
       0  1
A11    a  1
B22    b  2
C33    c  3

对于一个子组的Index，如果expand设置为False，则返回提取后的Index，若大于一个子组且expand为False，报错

单一子组，expand参数为True的情况：

s.index.str.extract(r'([\w])')
#expand参数有效，返回DataFrame：
   0
0  A
1  B
2  C

单一子组，expand参数为False的情况：

s.index.str.extract(r'([\w])',expand=False)
#expand参数有效，返回提取后的的index：
Index(['A', 'B', 'C'], dtype='object')

多子组，expand参数为True的情况：

s.index.str.extract(r'([\w])([\d])')
#expand参数有效，返回DataFrame：
    0  1
0   A  1
1   B  2
2   C  3

多子组，expand参数为False的情况：

s.index.str.extract(r'([\w])([\d])',expand=False) 
#报错

str.extractall方法

s = pd.Series(["a1a2", "b1", "c1"], index=["A", "B", "C"],dtype="string")

two_groups = '(?P[a-z])(?P[0-9])'

s.str.extract(two_groups, expand=True)
#output:
	 letter digit
A      a       1
B      b       1
C      c       1

a) 与extract只匹配第一个符合条件的表达式不同，extractall会找出所有符合条件的字符串，并建立多级索引（即使只找到一个）

s.str.extractall(two_groups)
#output:
		  letter digit
   match             
A    0      a       1
     1      a       2
B    0      b       1
C    0      c       1

s['A']='a11'
s.str.extractall(two_groups)
#output:
			letter  digit
    match             
A     0         a      1
B     0         b      1
C     0         c      1

b) 如果想查看第i层匹配，可使用xs方法

s = pd.Series(["a1a2", "b1b2", "c1c2"], index=["A", "B", "C"],dtype="string")

s.str.extractall(two_groups).xs(1,level='match')
#output:
	letter digit
A      a     2
B      b     2
C      c     2

str.contains方法

作用为检测是否包含某种正则模式

pd.Series(['1', None, '3a', '3b', '03c'], dtype="string").str.contains(r'[0-9][a-z]')
#output:
0    False
1     <NA>
2     True
3     True
4     True
dtype: boolean

a) 可选参数为na
当na=True时，缺失值为True，当na=False时，则相反。不放入na参数，缺失值显示其本身。

pd.Series(['1', None, '3a', '3b', '03c'], dtype="string").str.contains('a',na=False)
#output:
0    False
1    False
2     True
3    False
4    False
dtype: boolean

str.match方法

检测内容为是否从头开始包含该正则模式

pd.Series(['1', None, '3a_', '3b', '03c'], dtype="string").str.match(r'[0-9][a-z]',na=False)
#output:
0    False
1    False
2     True
3     True
4    False
dtype: boolean

pd.Series(['1', None, '_3a', '3b', '03c'], dtype="string").str.match(r'[0-9][a-z]',na=False)
#output
0    False
1    False
2    False
3     True
4    False
dtype: boolean

五、常用字符串方法

过滤型方法

str.strip

常用于过滤空格

pd.Series(list('abc'),index=[' space1  ','space2  ','  space3'],dtype="string").index.str.strip()
#output:
Index(['space1', 'space2', 'space3'], dtype='object')

str.lower

pd.Series('A',dtype="string").str.lower()
#output:
0    a
dtype: string

str.upper

pd.Series('a',dtype="string").str.upper()
#output:
0    A
dtype: string

str.swapcase

表示交换字母大小写

pd.Series('abCD',dtype="string").str.swapcase()
#output:
0    ABcd
dtype: string

str.capitalize

大写首字母

pd.Series('abCD',dtype="string").str.capitalize()
#output:
0    Abcd
dtype: string

isnumeric方法

检查每一位是否都是数字

pd.Series(['1.2','1','-0.3','a',np.nan],dtype="string").str.isnumeric()
#output:
0    False
1     True
2    False
3    False
4     <NA>
dtype: boolean

扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
东南林氏之九牧林候选父系祖缘树TheYtree
渊源介绍东晋初年晋安林始祖林禄公入闽，传十世隋右丞林茂，由晋安迁居莆田北螺村。又五世而至林万宠，唐开元间任高平太守，生三子：韬、披、昌。韬公之孙攒，唐德宗立双阙以旌表其孝，时号"阙下林家"。昌公字茂吉，乃万宠公第三子，官兵部司马，配宋氏，生一子名萍。萍于唐贞元间明经及第，官沣洲司马(后追赠中宪大夫)。唐太和年间归隐后，迁居仙游游洋，世称“游洋林”；其后裔居游洋后迁移漳州漳浦路下，由路下林第四房平和
大伟说成语之唉声叹气求索大伟
＊大伟说成语＊【唉声叹气】叹气：因心里不痛快或不如意而吐出长气，发出声音。因为痛苦、憋闷或感伤而发出叹息的声音。【大伟说】情绪外露，非人类所特有，动物亦有情绪，悲哀和欢乐所表示的情绪亦是不一样的，会嗷嗷大叫也会低吟痛哭。不同的是，人类的情绪更复杂，更多样，更丰富。唉声叹气，可以说是最基础的情绪，因为无奈而举足无措，不知该如何如何化解，只有独自一人慢慢承受，长吁短叹不知如何是好，其实是无能无力的表现
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
怎么做淘客赚钱(2022最新免费淘客盈利的方法) 高省_飞智666600
很多人都不知道什么是淘宝客，今天小编为大家解答一下吧。淘宝客，现在简称淘客，是时下比较流行的一个词语，特质为淘宝店推广商品获取提成的人，这些人没有自己的产品，只是在淘宝里面选择适合自己的产品，在自己比较熟悉的领域推广，把产品卖出去之后，会从淘宝店家那里获得百分之五到百分之五十左右的佣金。淘宝客付出的是什么呢？时间。你需要花时间去选适合自己推广的产品，需要花时间去选自己的推广方法，如果你打算自己做个
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
锁之缘尘缘诗词原创作品
是谁追寻梦的足迹，是谁在偷偷的哭泣，日月隔离在黑白天地情感在心中蔓延的痕迹天与地的距离有多远流失的星晨落入哪片空间不要让泪水模糊双眼心牢中一样充满温暖谁说爱情没有永远白娘子又为何爱许仙蝴蝶墓地展翅翩翩轻歌慢舞袖卷人间传奇千古留爱万年…………月落星飞徘徊是选择不去问自已为合舍不得寂寞本就是痛苦的不在追寻梦中的痕迹才不会失去真实的自已
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
2020-12-24 我和我的天使们
阅读《老子的心事》391—403“将欲取之，必固与之”：想要得到什么，首先就要送出什么。我常常对孩子们说，你希望别人怎样对你你就怎样对待别人。想要得到别人的尊重，首先要尊重别人。我希望她们可以不迟到，因为不迟到是对别人的尊重，我就自己就先做到不迟到。哪怕是约朋友逛街，我尽量准时赴约。我严格要求孩子们，也同样严格要求自己，我跟孩子们一起把好的品格变成习惯。“是谓微明”：这就是微妙的智慧。看起来很少很
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
日常演播练习0822 开阳春天
日常演播练习0822一、绕口令练习司小四和史小世，四月十四日十四时四十上集市，司小四买了四十四斤四两西红柿，史小世买了十四斤四两细蚕丝。司小四要拿四十四斤四两西红柿换史小世十四斤四两细蚕丝。史小世十四斤四两细蚕丝不换司小四四十四斤四两西红柿。司小四说我四十四斤四两西红柿可以增加营养防近视，史小世说我十四斤四两细蚕丝可以织绸织缎又抽丝。二、文本练习狗熊是动物街有名的美食家，它吃得多所以长得胖，它能吃
学习“论语”-第59天春峰轩
12.14子张问政。子曰：“居之无倦，行之以忠。”子张问为政之道。孔子说：“在位尽职不懈怠，执行政令要忠诚。”12.15子曰：“博学于文，约之以礼，亦可以弗畔矣夫！”孔子说：“君子广泛地学习文献，并且用礼节约束自己，也就不会离经叛道了。”12.16子曰：“君子成人之美，不成人之恶。小人反是。”孔子说：“君子成全别人的好事，而不助长别人的坏处。小人则与此相反行事。”知识点:“成人之美，不成人之恶”贯
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
2021-11-15 宙火
我给宋小姐写了首诗，是我在课上因思恋宋小姐而写的。“自古多情是唐宋，从来双飞归巢燕。邻家小女相聘婷，常使春意荡漾我。不知单思可为爱，惟愿一心付之汝。”我拿给宋小姐看了，她说我写得很棒。我很开心，但又不是那么开心。宋小姐是回复我了，但也只是说我写得很棒，对我诗句中蕴藏的真切感情，不知道是真的没发现，还是装作没发现。但我不深究，只是这样，我就很开心了。我答应宋小姐，一天给她写一首诗。
《我的青葱岁月之缘来是你》第二章迎新晚会思源思缘思怨
“怎么你也来了这里？”我愉快的问到，想着这是上天给的缘分吗？我还没去找他竟然就相遇了。那个让我开心的老乡。“你好，我也是舞蹈社的新人啊！”他说，笑起来回答我，眼睛弯弯的。“这么巧，我叫吴倩，你叫啥？”“我叫韩欢，你也是B市人吧，c中毕业的？”“我不是，我是f中的，不然肯定会认识你的”“是吗？以后多多关照了”他还冲我眨了眨眼睛。内心一阵悸动，这是……回到寝室，我兴奋的告诉我的室友这个事情，我再次觉得
数据结构之哈希表 X同学的开始数据结构数据结构散列表
哈希表(散列表)出现的原因在顺序表中查找时，需要从表头开始，依次遍历比较a[i]与key的值是否相等，直到相等才返回索引i；在有序表中查找时，我们经常使用的是二分查找，通过比较key与a[i]的大小来折半查找，直到相等时才返回索引i。最终通过索引找到我们要找的元素。但是，这两种方法的效率都依赖于查找中比较的次数。我们有一种想法，能不能不经过比较，而是直接通过关键字key一次得到所要的结果呢？这时，
厦门自由行之第一天: 大苏子在广漂
厦门三人行之杂记出发前一天:12️28日下午15:00从广州粗发，来深圳集合！但是中间发生一个小插曲，验票时候发现车票不见了，或许也是一场恶作剧，对于不排队的人，忍不住说了一下，接下来就发现车票不见了，已经是拿在手上！不过还好，可以凭借购票订单查看到信息，所以有惊无险，顺利进站！晚上三个人一起去吃了柠檬鱼，说实话，那会，感觉美吃饱，啊哈哈！晚上回来，两个人又开始彻夜长谈，发现身边优秀的人，一大把，
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1