Python 实战:week2 设计断点续传程序

作业代码:

#!/usr/bin/env python
# coding: utf-8

import time

from bs4 import BeautifulSoup
import requests
from pymongo import MongoClient

client = MongoClient('localhost', 27017)
bj58 = client['bj58']
info_links = bj58['links']
detailinfo = bj58['detailinfo']


def get_links_url():
    """获取列表页中所有详情页的标题和链接"""
    for num in range(1,117):
        url = "http://bj.58.com/shoujihao/pn{}/".format(num)
        web_data = requests.get(url)
        time.sleep(1)
        detail_soup = BeautifulSoup(web_data.text, 'lxml')
        if num == 1:
            boxlist = detail_soup.select("div.boxlist div.boxlist")[1]
        else:
            boxlist = detail_soup.select("div.boxlist div.boxlist")[0]
        titles = boxlist.select("strong.number")
        links = boxlist.select("a.t")

        for title,link in zip(titles,links):
            data = {"title":title.get_text(), "link":link.get("href")}
            info_links.insert_one(data)

        print "page %s 已完成"% num

# get_links_url()


def get_item_info():
    """获取详情页url,抓取详情信息"""

    # url 列表
    url_lists = [item['link'] for item in info_links.find()]
    if detailinfo.find().count() > 0:  # 判断是否中断过
        item_lists = [item['url'] for item in detailinfo.find()]
        url_lists = set(url_lists)-set(item_lists)  # 获取未爬取的 url 子集

    for url in url_lists:
        item_data = requests.get(url)
        detail_soup = BeautifulSoup(item_data.text, 'lxml')

        number = list(detail_soup.select("h1")[0].stripped_strings)[0]
        info_list = number.replace('\t','').replace(' ',"").replace('\n\n\n','\n').split("\n")
        # print 'number= ',info_list[0]
        # print 'isp= ', info_list[1]

        price = list(detail_soup.select(".price")[0].stripped_strings)[0].split(' ')[0]
        # print 'price= ', price

        seller = detail_soup.select(".vcard a.tx")[0].get_text()
        # print seller

        telephon = list(detail_soup.select(".arial")[0].stripped_strings)[0]
        # print tele

        data = {"sell_number": info_list[0],
                "isp": info_list[1],
                "price": price,
                "seller": seller,
                "telephon": telephon,
                "url": url
               }

        detailinfo.insert_one(data)
        print "%s 已完成"% str(url)

get_item_info()

作业项目地址

小结

  • thread & process

单进程单线程,一张一个人的桌子
单进程多线程,一张多个人的桌子
多进程单线程,多张一个人的桌子
多进程多线程,多张多个人的桌子

一个进程占用一个CPU核心

deciding between subprocess, multiprocessing and thread in Python?

What is the difference between multiprocessing and subprocess?

subprocess + multiprocessing - multiple commands in sequence

multiprocessing 官方文档

threading 官方文档的说明:

CPython的实现细节:在CPython中,由于全局解释器锁GIL的原因,同一时刻只有一个线程可以执行Python代码。如果想让应用程序更好地利用多核机器的硬件资源,建议使用multiprocessing。不过,如果想同时运行多个I/O密集型任务,threading仍然是一个好的模型。

  • 导入需要的库

可以帮助 Python 调用电脑 CPU 的多个内核完成任务

from multiprocessing import Pool

  • 导入自己写的模块
from channel_extract import channel_list
from page_parsing import get_links_from
  • 用函数传入页码
def get_all_links_from():

传入 channel ,指定页数,获取列表页的url

  • 创建进程池

所有 CPU 都会从进程池中领取任务

只需要将函数放入进程池,就会被分配给 cpu 执行

pool = Pool() # 创建进程池
pool.map(get_all_links_from, channel_list.split())

Pool有一个参数,precesses,明确要开多少进程。并非进程越多效率越高。如果不指定,会根据电脑CPU的内核数量自动分配。

内建函数map()

pool.map()类似内建函数map()(它只支持一个iterable参数)。调用函数后会被阻塞,直到得到结果。

  • 创建用来计数的监控程序

导入创建的 集合对象,使用.count()方法

  • iTerm 分屏

command + d

  • 作业的思考

断点续传程序,假设在抓取过程中网络问题导致程序停止,设计一个功能,保证数据库中抓取的数据不会重复

两种想法:

  • 第一种

每次抓取一个帖子或一个页面,在数据库中查询,如果有结果,跳过。

这样似乎效率很低?

  • 第二种

记录当前位置

  • 最后看了作业提示:

很棒的实现方式

# 设计思路:
# 1.分两个数据库,第一个用于只用于存放抓取下来的 url (ulr_list);第二个则储存 url 对应的物品详情信息(item_info)
# 2.在抓取过程中在第二个数据库中写入数据的同时,新增一个字段(key) 'index_url' 即该详情对应的链接
# 3.若抓取中断,在第二个存放详情页信息的数据库中的 url 字段应该是第一个数据库中 url 集合的子集
# 4.两个集合的 url 相减得出圣贤应该抓取的 url 还有哪些


db_urls = [item['url'] for item in url_list.find()]     # 用列表解析式装入所有要爬取的链接
index_urls = [item['url'] for item in item_info.find()] # 所引出详情信息数据库中所有的现存的 url 字段
x = set(db_urls)                                        # 转换成集合的数据结构
y = set(index_urls)
rest_of_urls = x-y                                      # 相减

于是,在自己的代码中:

url_lists = [item['link'] for item in info_links.find()]
if detailinfo.find().count() > 0:  # 判断是否中断过
    item_lists = [item['url'] for item in detailinfo.find()]
    url_lists = set(url_lists)-set(item_lists)  # 获取未爬取的 url 子集

你可能感兴趣的:(Python 实战:week2 设计断点续传程序)