写淘宝爬虫有感

今天按照慕课的代码写了一个淘宝的比价爬虫,但一直显示不出来,用lpdb来debug,发现似乎是在获取网页html时就出错了。

然后在讨论区发现了原来是要修改user-agent和cookie【headers参数添加字典】

用chorme好像比用火狐更容易找到这些信息,以后还是改用chorme好了

先登录自己的淘宝账户(不然哪来的登录cookie),之前对cookie完全不了解然后闹了乌龙,按照讨论区的方法根本找不到cookie,结果百度了方法,在浏览器地址名直接写javascript:alert(document.cookie),发现通过这种方法获得的cookie不能用,但也算学到一个新方法了。

正确的方法是在network下的doc中随便选一个文件,记得勾选hide data urls,然后右边就能找到cookie和user-agent,复制粘贴就行了。

第一次写这样完整的爬虫,总结下来就是首先确定整个爬虫应该由哪几个部分构成。一个main函数用来整合各个函数,一个获取html的函数,一个解析网页的函数(使用re正则表达式挖出想要的内容,内容的键可以通过查看网页的源代码,在源代码中搜索关键词。通过遍历循环把爬出来的几个列表整合到一个新列表里,因为之后要把它们打印到同一个列表里),一个打印列表的函数,这个函数也用遍历循环来打印列表。这里真实应用了之前学的数据的二维表示,如果想获得一个表格,首先得获得一个大列表套小列表的东东,然后遍历,format格式控制打印

我发现自己对遍历循环中的循环变量和遍历结构之间的关系理解有待加深。之前debug时好几次都是因为循环变量和遍历结构没搞清。

另外对url中信息的理解也不够,怎样从中找出关键信息呢?

不要怕麻烦,一定要用try except来防止报错

你可能感兴趣的:(写淘宝爬虫有感)