我是如何跨专业零基础学习Python爬虫的(1 爬虫所需Python字符串处理)

要使用Python进行爬虫编程,当然我们要首先安装Python以及Python的包管理工具pip,这些在网上能找到很多详细的安装教程,请自行百度搜索,不过在这里推荐安装2.7版本的Python,主要原因是之后我们使用的高效爬虫框架Scrapy目前只支持Python 2.7。当然安装最新版本的3也没什么问题,配合BeautifulSoup和Requests等神器也能满足我们的爬虫需求。另外推荐安装Python的IDE工具Pycharm。

这篇文章对于这些工具的安装和优劣比较不做任何讨论和赘述,大家感兴趣的请自行百度。

本文以及接下来几篇文章的重点是想记录和向大家展示下Python中一些对于爬虫有用的语法和用法,作为我们的基础,在后续使用和学习过程中如果有需求时可以来查阅具体用法。

1.字符串的处理。

去空格及特殊符号

s.strip().lstrip().rstrip(',')

连接字符串

sStr1 ='strcat'

sStr2 ='append'

sStr1 += sStr2

printsStr1

查找字符

#strchr(sStr1,sStr2)

# < 0为未找到

sStr1 ='strchr'

sStr2 ='s'

nPos = sStr1.index(sStr2)

printnPos

扫描字符串是否包含指定的字符

#strspn(sStr1,sStr2)

sStr1 ='12345678'

sStr2 ='456'

#sStr1 and chars both in sStr1 and sStr2

printlen(sStr1andsStr2)

字符串长度

#strlen(sStr1)

sStr1 ='strlen'

printlen(sStr1)

查找字符串

#strstr(sStr1,sStr2)

sStr1 ='abcdefg'

sStr2 ='cde'

printsStr1.find(sStr2)

分割字符串

#strtok(sStr1,sStr2)

sStr1 ='ab,cde,fgh,ijk'

sStr2 =','

sStr1 =sStr1[sStr1.find(sStr2) + 1:]

printsStr1

#或者

s ='ab,cde,fgh,ijk'

print(s.split(','))

连接字符串

delimiter =','

mylist = ['Brazil','Russia','India','China']

printdelimiter.join(mylist)

截取字符串

str = ’0123456789′

print str[0:3] #

截取第一位到第三位的字符

print str[:] #

截取字符串的全部字符

print str[6:] #

截取第七个字符到结尾

print str[:-3] #

截取从头开始到倒数第三个字符之前

print str[2] #

截取第三个字符

print str[-1] #

截取倒数第一个字符

print str[::-1] #

创造一个与原字符串顺序相反的字符串

print str[-3:-1] #

截取倒数第三位与倒数第一位之前的字符

print str[-3:] #

截取倒数第三位到结尾

你可能感兴趣的:(我是如何跨专业零基础学习Python爬虫的(1 爬虫所需Python字符串处理))