抖音爬虫路上的填坑之路

1.selenium.common.exceptions.WebDriverException: 

解决方法:加载chromedriver的时候,必须指明路径,形如

C:/Users/Python36/Scripts/chromedriver.exe

;如果电脑中没有Chromedrive,点击下载https://germey.gitbooks.io/python3webspider/1.2.3-ChromeDriver%E7%9A%84%E5%AE%89%E8%A3%85.html

2.写路径问题

出现错误:SyntaxError:(unicode error) ‘unicodeescape’

解决办法:定位出错的路径位置,Ctrl+F, 输入 path,

1>如果看到 这样的结构信息:

path = “D:\User\hahhah”

因为  \  导致出错,在Python中 \ 是转义字符;

2种解决办法:(1)在字符串前加 r, 即 path = r“D:\User\hahhah”  

(2) 将字符串中的反斜杠换成正斜杠,即 path = “D:/User/hahhah”

2>如果看不到 这样的结构信息:那就是编码问题:无法识别中文等,自行search method 即可。

 

3.InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised

解决方法:

>>import urllib3
>>urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)  

4. python读取GB级的文本数据,MemoryError

解决方法:http://chenqx.github.io/2014/10/29/Python-fastest-way-to-read-a-large-file/

5. json.loads解码字符串时出错

解决方法:http://docs.python.org/library/json.html#module-json

6.module 'urllib' has no attribute 'urlopen'

解决方法:因为工程里面有和urllib重名的类导致import进来的事自定义的urllib,所以import的时候要导入的urllib.request,因为在python3.x中urllib中包含了urllib2等其他的类,在调用的时候也要以urllib.request.urlopen(url)的形式调用,url也要写全

7.AttributeError: module 'json' has no attribute 'read'

解决方法:

说明json的数据结构是bytes,应该先转化为str,再转化为dic才能正常解析出来:转化方法:例如

>>> type(data)

>>> sdata=data.decode()    #bytes to str
>>> type(data)

>>> type(sdata)

>>>

http://funhacks.net/2016/04/24/python_%E5%B0%86%E5%AD%97%E7%AC%A6%E4%B8%B2%E8%BD%AC%E4%B8%BA%E5%AD%97%E5%85%B8/

你可能感兴趣的:(Crawler)