爬取的数据同步插入和异步插入数据库

首先我们需要弄清楚同步和异步的区别:

同步是指前台用户操作的时候,后台数据库也一起操作,一般用户密码等信息属同步操作。
异步操作一般是指定时处理的一些东西,即前台操作完成之后,将进入到一个队列,
后台有队列来轮询处理,异步操作多用于操作时间比较长,或者数据量非常大的时候。

同步插入数据库:

class MysqlPipeline(object):
    #采用同步的机制写入mysql
    def __init__(self):
        self.conn = pymysql.connect('127.0.0.1', 'root', '1994', 'article_spider', charset="utf8", use_unicode=True)
        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):
        insert_sql = """
            insert into jobbole_article(title, url, create_date, fav_nums)
            VALUES (%s, %s, %s, %s)
        """
        self.cursor.execute(insert_sql, (item["title"],item["url"], item["create_date"], item["fav_nums"]))
        self.conn.commit()

采用异步的方式实现数据库的插入:

class MysqlTwistedPipeline(object): #使用twisted提供的异步APT操作
    def __init__(self,dbpool):
        self.dbpool = dbpool
    @classmethod
    def from_settings(cls,settings):

        dbparams = dict(
            host = settings["MYSQL_HOST"],
            db = settings["MYSQL_DBNAME"],
            user = settings["MYSQL_USER"],
            password = settings["MYSQL_PASSWORD"],
            charset = 'utf8',
            cursorclass = pymysql.cursors.DictCursor,
            use_unicode = True,
        )

        dbpool = adbapi.ConnectionPool("pymysql",**dbparams)
        return cls(dbpool) #实例化pipeline  所以需要init方法
    def process_item(self,item,spider):
# 使用twisted将mysql插入变成异步操作
        query = self.dbpool.runInteraction(self.do_insert,item)
        query.addErrback(self.handle_error)
    def handle_error(self,failure):
#处理异步插入的异常
        print(failure)

    def do_insert(self,cursor,item):
        insert_sql = """
                    insert into jobbole_article(title, url, create_date, fav_nums,url_object_id)
                    VALUES (%s, %s, %s, %s,%s)
                """
        cursor.execute(insert_sql, (item["title"], item["url"], item["create_date"], item["fav_nums"],item["url_object_id"]))

你可能感兴趣的:(爬取的数据同步插入和异步插入数据库)