Pathon 【iOS程序员如何用Pathon写爬虫】

环境准备

我个人使用的是mac,mac预装的python环境是python2.x。
查看python版本:在终端(Terminal)中输入“python”。

安装pip:

下载地址:https://pypi.python.org/pypi/pip
解压,安装:
sudo python setup.py install

安装BeautifulSoup:

pip install BeautifulSoup
Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。

编码运行

抓取该网站图片:http://www.win4000.com/meinvtag34.html
创建search.py文件并编写对应代码
代码:

#!/usr/bin/python
#-*- coding: utf-8 -*-
#encoding=utf-8

import urllib2
import urllib
import os
from BeautifulSoup import BeautifulSoup

def getAllImageLink():
    html = urllib2.urlopen('http://www.win4000.com/meinvtag34.html').read()
    soup = BeautifulSoup(html)

    liResult = soup.findAll('li',attrs={"class":"box"})
    numberIndex = 0
    for li in liResult:
        imageEntityArray = li.findAll('img')
        for image in imageEntityArray:
            link = image.get('src')
            imageName = 'image' + str(numberIndex)
            numberIndex = numberIndex + 1
            filesavepath = '/Users/YMY/Desktop/imageUrl/%s.jpg' % imageName
            urllib.urlretrieve(link,filesavepath)
            print filesavepath

if __name__ == '__main__':
    getAllImageLink()

终端运行:

python search.py

最后就会在对应的文件夹中生成爬下来的图片。

需要学习

有些网页的抓取可能没那么简单,不同的网站规则都是不一样的。这时候就需要我们学会怎么去遍历,怎么找到我们需要的元素。Beautiful Soup里还有很多对应的方法需要学习,这里放上一份Beautiful Soup 4.2.0 文档为以后学习使用。

参考

iOS程序员如何使用python写网路爬虫



文/齐滇大圣(简书作者)
原文链接:http://www.jianshu.com/p/dd048a785c12
著作权归作者所有,转载请联系作者获得授权,并标注“简书作者”。

你可能感兴趣的:(Python)