练习python爬虫快速初步入门脚本

练习python爬虫快速初步入门脚本

PS:通过以下代码可以初步练习爬取一般网址图片

    # zero.安装框架  pip install requests (可以通过pycharm的terminal终端中实现)
    import requests
    import re
    
    
    # first.确定URL(网址,统一资源定位符)  URL是自己起的名字
    url = 'http://www.doutula.com/photo/list/'
    
    # second.请求(使用这个框架(requests),里面的get(网络请求方法,去网址(URL)里面拿数据)
    text_string = requests.get(url).text
    print(text_string)
    
    # third.筛选数据(使用正则表达式)
    image_urls = re.findall('data-original="(http://ww4.sinaimg.cn/bmiddle/9150e4e5gy1g3toh4l3bmj206o06ojtf.jpg)"', text_string)  
    # data-original="(.*?)" ?为贪恋符号,语句可以筛选本URL中的全部特定内容
    # 其中只是提供一个示例URL
    
    for image_url in image_urls:
        image_name = image_url.split('/')[-1]
        print(image_name)
        # ['this.src='http:','','img.doutula.com','production','uploads','image','2019','06','07','20190607864141_oKJUcr.jpg']
        # 下载内容
        image = requests.get(image_url).content
    
    # fourth.保存数据
        with open('./Crawler_images/%s' %image_name, 'wb') as file:在这里插入代码片
            file.write(image)

等熟悉了五步走操作之后就可以去自己想爬取的平台去实战练习啦!

你可能感兴趣的:(练习python爬虫快速初步入门脚本)