Python 3 爬虫学习笔记 5 urlretrieve，存储为csv， mysql

此学习笔记整理于 Ryan Mitchell Web Scraping with Python- Collecting Data from the Modern Web (2015) Chapter Storing data

一，urlretrieve

Python 3 爬虫学习笔记 5 urlretrieve，存储为csv， mysql_第1张图片

urlretrieve 是urllib.request里面的一个函数，知道了文件在html结构里面的位置就可以取回文件了。例子中，位置是imageLocation 那一句。urlretrieve（位置，‘另存为的文件名称’）。作者又给了一个复杂的例子，取出所有的某类文件。但是作者技术高超，用了函数。感觉不是那么容易理解。于是我照着逻辑又写了一个没有函数的，逻辑很清晰。写完了之后发现，作者的也很清晰，看来还是得自己写一写，才能理解好代码的逻辑。

Python 3 爬虫学习笔记 5 urlretrieve，存储为csv， mysql_第2张图片

大巴提供的wifi突然断了，就只好改成了大巴wifi的主页

我们从for 开始看，downloadList 是我找的所有的img tag。整个的if 一直到第25行都是为了获取图片的网址，前边的替换就是为了让他们的形式一致。因为可能有些事http://开头，有些是www.开头。24,25行是为了筛选：只筛选出网页内部链接图片。

26-30，给出存储电脑的位置。我们需要在代码最开始引进 import 一个新的库。os 这个os，是Python能够和operation system对话的一个库。

32以后其实算是创建这些电脑路径吧，如果这个文件（包括路径）不存在就创建一个。

第35句代码，忘了截上去。urlretrieve(url,path)，你知道需要缩进多少吗？（Python的语法比较简单，没有vba类似的end if, next 等，它的语法判断有一部分是根据缩进量来判断层次的）

二，存储为CSV文件

Python 3 爬虫学习笔记 5 urlretrieve，存储为csv， mysql_第3张图片

新引进了一个库，csv

注意第八行！为什么要加一个【0】，是因为，findAll返回的是一个列表，而列表不能继续向下find了。

注意第11行！为什么加一个newline和为什么加一个encoding

为什么要有一个newline=‘’，因为不写的话，会。。。下面网页打开就知道了哦。

http://codepub.cn/2015/10/08/Using-the-Python-CSV-module-to-read-and-write-CSV-file/

encoding 为了防止出现编码错误，utf-8 支持所有的编码类型。

注意16行，这样也是为了从列表取出单独的东西来分析。而不是列表类型的数据。

注意15和17行，为什么要加一个列表来作过度，要不然就是一个字母一个表格存储的。

不写的话，会隔行产生空行。

三，关于元组 tuple(), 列表list[]，集合set{}，字典{:,:}

这一个，我也分不大清楚。也没想着分多大清楚，肯定对我学习造成了一定的障碍。但我觉得，当我需要分清楚的时候再来看看用到的分别在哪里再来记住。所以我主要看下面这个网站：

http://rmingwang.com/python-tuple-list-dict-set.html

还有关于Python的基础知识，随便找个公开课看下就好了，这些东西主要看自己。所以不要沉迷在搜索，下载，再搜索，下载的loop里面无法自拔！（对，我就是一直在这个loop里面）

四， mysql来存储

Python 3 爬虫学习笔记 5 urlretrieve，存储为csv， mysql_第4张图片

作者首先简单介绍了mysql的语言，在这里我就不多说了，因为我也不精通，只是学过sas里面的sql。

还是解释上面的代码：

conn是先连接上mysql，这句代码仅适用于windows平台，passwd应该是你的mysql的密码。

cur=conn.cur 这里我们相当于在一个数据库里选择了一个服务员，我们通过Ta来进行数据的操作。

第十行，use scraping，这是一个数据库scraping。首先你得有一个数据库。关于如何建立一个数据库，请移步百度或者google。

然后是两个函数，

一个是把链接内的title和content存储到scraping这个数据库。15行，我也看不大懂，先记下了。%s 作者用的是“\%s”，这两种表示都可以，我也不清楚，可能跟formating string 有关。16行，是确认订单的意思。告诉这个服务员就这些了。不告诉ta，做的修改无法保存到数据库。

另外一个是获取用以存储的数据并返回这个link里面的其他link以备循环。

try and finally，作者说了，爬虫一般都来加一个好了。finally 是用来结束while 这个loop的时候用的。告诉服务员自己要走了，然后断开连接。

作者当然很好心地告诉了我们一些tricks。第一：primary key选择id 自动增加。二，建立索引。三，把大的数据库拆分成小的。（爬取过程中的重复数据，可以用这个方法，每一种属性来一个小数据库，然后再加一个重复次数的数据库，大大减少了重复数据的存储量。

P.S.：没能上车的小伙伴欢迎留言，如果我会我直接回答你！如果不会，我谷歌后回答你！如果要加我微信，不行。

Python 3 爬虫学习笔记 5 urlretrieve， 存储为csv， mysql

你可能感兴趣的:(Python 3 爬虫学习笔记 5 urlretrieve， 存储为csv， mysql)

Python 3 爬虫学习笔记 5 urlretrieve，存储为csv， mysql

你可能感兴趣的:(Python 3 爬虫学习笔记 5 urlretrieve，存储为csv， mysql)