python爬虫之正则表达式笔记 part2

>>> re.search(r"love(you|me)","i loveyou")                               #    |   为“或”的意思

<_sre.SRE_Match object; span=(2, 9), match='loveyou'>

>>> re.search(r"^love","loveyou")                                                #   ^   为脱字符,即需要love在要查找的字符串中做开头
<_sre.SRE_Match object; span=(0, 4), match='love'>

>>> re.search(r"love$","I love")                                                   #   $   为结尾
<_sre.SRE_Match object; span=(2, 6), match='love'>

-------------------------------------------------------------------------------------------

所有的元字符: .  ^  $  *  +  ?  { }   [ ]  \   |  ( )    共11个

ps:正则表达式语言由两种基本字符类型组成:原义(正常)文本字符和元字符。元字符使正则表达式具有处理能力。所谓元字符就是指那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。

-------------------------------------------------------------------------

>>> re.search(r"(fish)\1","fishfish")                          # \ 后加序号1~99,引用序号所对应的子组所匹配的字符串
<_sre.SRE_Match object; span=(0, 8), match='fishfish'>

>>>   re.search(r"[.]","i love you.blabla")                                     # [ ]这样用代表寻找括号里面的内容,在这里和转义字符一样。

<_sre.SRE_Match object; span=(10, 11), match='.'>

>>> re.findall(r"[\n]","love.com\n")                                                #这种查找方法是返回的值是列表。[ ] 的使用方法和上述相同。
['\n']

 

>>> re.findall(r"[^a-z]","lOve.com")                                              #注意 ^  的作用是反。本行意为除了a-z之外的符号。
['O', '.']
>>> re.findall(r"[a-z]","lOve.com")
['l', 'v', 'e', 'c', 'o', 'm']

 

>>> re.search(r"fish{3}","fishhh")                                              # { } 代表括号左边那个符号重复三次。
<_sre.SRE_Match object; span=(0, 6), match='fishhh'>

最近在尝试着学Kali啊,真的是连安装个增强工具都弄不好,我决定还是不要跳那么快,在寒假之前还是好好的学爬虫........

然后再搞一些渗透的东西吧......

你可能感兴趣的:(爬虫)