python爬虫数据入库时注意事项

小技巧1

数据入库时,可能会有重复,如果从python上面无法解决这个问题,可以采取数据库摄者主键的方式,例如 爬取的网址为a,b,c, 那么设置主键a b d,在数据库中这样的话就会保证数据项不会重复

具体实现过程如下

    import pymysql.cursors
    import pymysql.err
    try: #处理当插入重复的url地址的时候 会报错 然后继续运行
        cursor.execute(insert_sql, item_list)
        connection.commit()

    except pymysql.err.IntegrityError:
        print('出现数据重复')
        pass
    cursor.close()
    connection.close()
小技巧2

出现一条数据为列表的方式返回的 ,使用for循环的话不太美观
那么

#注意xpath语句返回的是一个列表,这样就可以把他们连接起来 ' '.join() 
#其中strip()去处字符串中的换行符和空格使数据更加美观,节省存储内存
''.join(selector.xpath('/html/body/div[6]/div[1]/ul/li[8]/strong/a/text()')).strip()

你可能感兴趣的:(python爬虫数据入库时注意事项)