Python爬虫爬坑记录

1. xpath //解析出问题

解析出问题
注意使用‘.’来相对于当前元素进行解析

2. xpath抓取的值有空格换行符等问题

在xpath语句中加入normalize-space()

movie.xpath('normalize-space(.//div[@class="bd"]/p/text())')

3. list与str的相互转化

list转化为str

''.join(list)

str转化为list

list = str.split(' ')  

4. requests请求乱码问题

r.encoding('utf-8')

5. (.+)与(.+?)的区别

(.+)是贪婪匹配。贪婪是先看整个字符串是否匹配, 如果不匹配,它会去掉字符串的最后一个字符, 并再次尝式, 如果还不匹配, 那么再去掉当前最后一个, 直到发现匹配或不剩任何字符.。
(.+?)是非贪婪匹配。非贪婪是从左侧第一个字符开始向右匹配, 先看第一个字符是不是一个匹配, 如果不匹配就加入下一个字符再尝式匹配, 直到发现匹配。

6. Python 中如何判断list中是否包含某个函数

list = ['a','b','c']
if 'a' in list:
    print('a in the list')

7. MongoDB 动态创建数据库 表

collection_name = name
collection = db[collection_name]

8.MongoDb ECONNREFUSED connect ECONNREFUSED 错误

在MongoDb的bin目录中启动cmd,输入

mongod.exe --dbpath D:\MongoDb\data\db

你可能感兴趣的:(Python爬虫爬坑记录)