工匠若水

Python3.X 爬虫实战（缓存与持久化）

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

1 背景

不知不觉关于 Python 3.X 爬虫系列已经介绍了如下系列：

《正则表达式基础》
《Python3.X 爬虫实战（先爬起来嗨）》
《Python3.X 爬虫实战（静态下载器与解析器）》
《Python3.X 爬虫实战（并发爬取）》

可以看到，关于 Python 静态页面爬虫的相关核心基础其实已经介绍的差不多了，关于爬虫的 URL 管理器、下载器、解析器、输出器、并发爬取思想我们已经基本介绍了，但是到这里我们要学会思考一个棘手的问题——–缓存与持久化。简单说就是 Cache 或者 Persistence 了，这玩意和爬虫有啥关系呢？想象一下如果我们需要对同一个页面进行多次解析，我们前面的代码都会重新发起真实网络请求，这是不合理的，因为短期之内这个页面是不可能有更新的，我们重复拉取是没有意义的；其次我们很多时候爬虫的输出器其实就是需要把爬取的数据依据需求多元化的持久化下来，所以我们有必要先掌握常见的爬虫相关缓存及持久化。

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

2 Python3.X 缓存与持久化

这里之所以把爬虫的常见缓存与持久化放在一起讨论是因为爬虫这里的缓存与持久化相对来说是比较相似的，缓存算是持久化的一个子集，但是缓存又有自己的过期策略和缓存级别，而持久化基本无过期策略之说。缓存与持久化并不是 Python 爬虫特有的，其他语言都有涉及，所以我们下面既然说要把缓存和持久化放在一起说是建立在持久化缓存的基础上，因为多级缓存策略的内存缓存等不在我们这篇的讨论范畴，大家一定要自己明确区分，简单理解就是我们本篇倾向于持久化，只是谈到的一些持久化方式在缓存中可用而已。

2-1 常见本地磁盘文件型

Python3.X 常见本地磁盘文件型数据持久化主要包括普通文件、DBM文件、Pickle序列化对象存储、shelve键值序列化对象存储，对于我们编写爬虫程序来说缓存的设计或者持久化方式我们可以自己依据自己的需求进行合适的评估选择，下面给出常见的本地磁盘文件型持久化样例：

[本实例 demo_local_disk_file_persistence.py 源码点我获取]

import dbm
import pickle
import shelve
'''
Python3 常用本地磁盘文件型持久化演示
'''

class NormalFilePersistence(object):
    '''
    普通文件持久化或者缓存持久化
    '''
    def save(self, data):
        with open('NormalFilePersistence.txt', 'w') as open_file:
            open_file.write(data)

    def load(self):
        with open('NormalFilePersistence.txt', 'r') as open_file:
            return open_file.read()


class DBMPersistence(object):
    '''
    DBM字符串键值对持久化或者缓存持久化
    '''
    def save(self, key, value):
        try:
            dbm_file = dbm.open('DBMPersistence', 'c')
            dbm_file[key] = str(value)
        finally:
            dbm_file.close()

    def load(self, key):
        try:
            dbm_file = dbm.open('DBMPersistence', 'r')
            if key in dbm_file:
                result = dbm_file[key]
            else:
                result = None
        finally:
            dbm_file.close()
        return result


class PicklePersistence(object):
    '''
     Pickle把复杂对象序列化到文件持久化或者缓存持久化
    '''
    def save(self, obj):
        with open('PicklePersistence', 'wb') as pickle_file:
            pickle.dump(obj, pickle_file)

    def load(self):
        with open('PicklePersistence', 'rb') as pickle_file:
            return pickle.load(pickle_file)


class ShelvePersistence(object):
    '''
    Shelve为DBM和Pickle的结合，以键值对的方式把复杂对象序列化到文件持久化或者缓存持久化
    '''
    def save(self, key, obj):
        try:
            shelve_file = shelve.open('ShelvePersistence')
            shelve_file[key] = obj
        finally:
            shelve_file.close()

    def load(self, key):
        try:
            shelve_file = shelve.open('ShelvePersistence')
            if key in shelve_file:
                result = shelve_file[key]
            else:
                result = None
        finally:
            shelve_file.close()
        return result


if __name__ == '__main__':
    t_normal = NormalFilePersistence()
    t_normal.save('Test NormalFilePersistence')
    print('NormalFilePersistence load: ' + t_normal.load())

    t_dbm = DBMPersistence()
    t_dbm.save('user', 'GJRS')
    t_dbm.save('age', 27)
    print('DBMPersistence load: ' + str(t_dbm.load('user')))
    print('DBMPersistence load: ' + str(t_dbm.load('address')))

    t_pickle = PicklePersistence()
    obj = {'name': 'GJRS', 'age': 27, 'skills':['Android', 'C', 'Python', 'Web']}
    t_pickle.save(obj)
    print('PicklePersistence load: ' + str(t_pickle.load()))

    t_shelve = ShelvePersistence()
    obj1 = {'name': 'WL', 'age': 27, 'skills': ['Test', 'AutoTest']}
    obj2 = {'name': 'GJRS', 'age': 27, 'skills': ['Android', 'C', 'Python', 'Web']}
    t_shelve.save('obj1', obj1)
    t_shelve.save('obj2', obj2)
    print('ShelvePersistence load: ' + str(t_shelve.load('obj1')))
    print('ShelvePersistence load: ' + str(t_shelve.load('objn')))

关于这些方式的持久化爬虫实例我们在该系列文章的前几篇都有介绍，这里不再给出单独的爬虫实例，感兴趣可以自己摸索，没啥复杂的，主要是策略的设计，譬如 LRU 算法等，真正持久化其实是非常简单的，但也是非常重要的。

2-2 常见数据库方式

上面介绍了常见本地磁盘文件型的持久化，我们学习完一定会有疑惑，如果我的数据量巨大巨复杂怎么办，如果还是使用本地磁盘文件型的持久化那得多蛋疼啊，是的，所以我们现在来讨论关于 Python 爬虫的另一类缓存持久化方式 —— 数据库持久化。

2-2-1 Sqlite 持久化

首先我们要看的就是 Python3.X 中 SQLite3 的使用（单机型），从 Python2.5 开始的版本就默认自带了该模块，所以我们不用重新安装。下面给出 Python3.X 中 SQLite3 的使用例子：

[本实例 demo_sqlite3_persistence.py 源码点我获取]

'''
Python3 sqlite3数据库持久化演示
'''
import sqlite3

class Sqlite3Persistence(object):
    def __init__(self):
        self.db = None

    def connect(self):
        try:
            self.db = sqlite3.connect("Sqlite3Persistence.db")
            sql_create_table = """CREATE TABLE IF NOT EXISTS `DemoTable` (
                                    `id` INTEGER PRIMARY KEY AUTOINCREMENT,
                                    `name` CHAR(512) NOT NULL,
                                    `content` TEXT NOT NULL)"""
            self.db.execute(sql_create_table)
        except Exception as e:
            print("sqlite3 connect failed." + str(e))

    def close(self):
        try:
            if self.db is not None:
                self.db.close()
        except BaseException as e:
            print("sqlite3 close failed."+str(e))

    def insert_table_dict(self, dict_data=None):
        if dict_data is None:
            return False
        try:
            cols = ', '.join(dict_data.keys())
            values = '"," '.join(dict_data.values())
            sql_insert = "INSERT INTO `DemoTable`(%s) VALUES (%s)" % (cols, '"'+values+'"')
            self.db.execute(sql_insert)
            self.db.commit()
        except BaseException as e:
            self.db.rollback()
            print("sqlite3 insert error." + str(e))
        return True

    def get_dict_by_name(self, name=None):
        if name is None:
            sql_select_table = "SELECT * FROM `DemoTable`"
        else:
            sql_select_table = "SELECT * FROM `DemoTable` WHERE name==%s" % ('"'+name+'"')
        cursor = self.db.execute(sql_select_table)
        ret_list = list()
        for row in cursor:
            ret_list.append({'id': row[0], 'name': row[1], 'content': row[2]})
        return ret_list


if __name__ == '__main__':
    t_sqlite3 = Sqlite3Persistence()
    t_sqlite3.connect()
    t_sqlite3.insert_table_dict({'name': 'Test1', 'content': 'XXXXXXXXXXXXX'})
    t_sqlite3.insert_table_dict({'name': 'Test2', 'content': 'vvvvvvvvvvvv'})
    t_sqlite3.insert_table_dict({'name': 'Test3', 'content': 'qqqqqqqqqqqq'})
    t_sqlite3.insert_table_dict({'name': 'Test4', 'content': 'wwwwwwwwwwwww'})
    print('Sqlite3Persistence get Test2: ' + str(t_sqlite3.get_dict_by_name('Test2')))
    print('Sqlite3Persistence get All: ' + str(t_sqlite3.get_dict_by_name()))
    t_sqlite3.close()

当然了，至于你的爬虫中是否选择 Sqlite3 进行持久化就要看你自己的需求了，毕竟关系型数据库有其自己的优劣；如果你需要再更加多的了解 Sqlite，那可以看下以前我写的《Sqlite全面学习（一）》、《Sqlite全面学习（二）》、《Sqlite全面学习（三）》这几篇文章，你会发现，其实新学任何一门语言需要关注的是语言本身的语法和性能实现等，而无需关注公共的东西，因为公共的东西都是相同的，所以这也是为啥我们学应用型技术越学越快的原因。

2-2-2 MySQL 持久化

不扯了，介绍完单极型高效迷你关系型数据库 Sqlite 的持久化后我们再来看看大型服务器关系型数据库 MySQL，在 Python 3.X 中使用 MySQL 需要依赖 pymysql 模块，当然咯，你还得有台安装 MySQL 的数据库服务器和可视化管理工具，怎么安装就不多说了，如下给出一个使用案例（我的 MySQL用的是本地安装的）：

[本实例 demo_mysql_persistence.py 源码点我获取]

'''
Python3 MySQL数据库持久化演示
'''
import pymysql


class MySQLPersistence(object):
    def __init__(self):
        self.db = None
        self.cursor = None

    def connect(self):
        try:
            self.db = pymysql.connect("localhost", "yanbober", "TQJJtaJWNbGAMU44", "database_yan_php")
            self.db.set_charset('utf8')
            self.cursor = self.db.cursor()

            sql_create_table = """CREATE TABLE IF NOT EXISTS `StudentTable` (
                                    `id` int(11) NOT NULL AUTO_INCREMENT,
                                    `name` varchar(512) COLLATE utf8_bin NOT NULL,
                                    `content` TEXT COLLATE utf8_bin NOT NULL,
                                    PRIMARY KEY (`id`)) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin
                                    AUTO_INCREMENT=1"""
            self.cursor.execute(sql_create_table)
        except Exception as e:
            print("mysql connect failed." + str(e))

    def close(self):
        try:
            if self.db is not None:
                self.db.close()
            if self.cursor is not None:
                self.cursor.close()
        except BaseException as e:
            print("mysql close failed."+str(e))

    def insert_table_dict(self, dict_data=None):
        if self.db is None or self.cursor is None:
            print('Please ensure you have connected to mysql server!')
            return False
        if dict_data is None:
            return False
        try:
            cols = ', '.join(dict_data.keys())
            values = '"," '.join(dict_data.values())
            sql_insert = "INSERT INTO `StudentTable`(%s) VALUES (%s)" % (cols, '"'+values+'"')
            self.cursor.execute(sql_insert)
            self.db.commit()
        except BaseException as e:
            self.db.rollback()
            print("mysql insert error." + str(e))
        return True

    def get_dict_by_name(self, name=None):
        if self.db is None or self.cursor is None:
            print('Please ensure you have connected to mysql server!')
            return None
        if name is None:
            sql_select_table = "SELECT * FROM `StudentTable`"
        else:
            sql_select_table = "SELECT * FROM `StudentTable` WHERE name=%s" % ('"'+name+'"')
        self.cursor.execute(sql_select_table)
        ret_list = list()
        for item in self.cursor.fetchall():
            ret_list.append({'id': item[0], 'name': item[1], 'content': item[2]})
        return ret_list

if __name__ == '__main__':
    t_mysql = MySQLPersistence()
    t_mysql.connect()
    t_mysql.insert_table_dict({'name': 'Test1', 'content': 'XXXXXXXXXXXXX'})
    t_mysql.insert_table_dict({'name': 'Test2', 'content': 'vvvvvvvvvvvv'})
    t_mysql.insert_table_dict({'name': 'Test3', 'content': 'qqqqqqqqqqqq'})
    t_mysql.insert_table_dict({'name': 'Test4', 'content': 'wwwwwwwwwwwww'})
    print('MySQLPersistence get Test2: ' + str(t_mysql.get_dict_by_name('Test2')))
    print('MySQLPersistence get All: ' + str(t_mysql.get_dict_by_name()))
    t_mysql.close()

可以看见，MySQL 关系型数据库使用起来和 Sqlite 很相似，其实是这样的，他们本来都来自 SQL 家族，只是各自有一些细微的区别而已；通过上面代码我们就将我们的数据持久化到了 localhost 这台数据库服务器上面，使用数据时直接从这台服务器获取即可，很是方便。

2-2-3 MongoDB 持久化

上面我们主要介绍了 python3.X 中关系型数据库 mysql、sqlite 的使用，下面我们继续介绍 Python3.X 爬虫中常用的非关系型数据库，先要介绍的是 MongoDB，它是一个基于分布式文件存储的数据库，是为 WEB 应用提供可扩展的高性能数据存储而诞生的，是一个介于关系数据库和非关系数据库之间的东西，也是非关系数据库中功能最丰富、最像关系数据库的数据库。关于 MongoDB 数据库和可视化管理工具的安装配置这里就不介绍了，具体用法实例如下（我的 MongoDB 是本地的，运行下面代码前请下保证已经启动 MongoDB，譬如mongod.exe --dbpath D:\developer\MongoDB\Server\data\db）：

[本实例 demo_mongodb_persistence.py 源码点我获取]

import pymongo
'''
Python3 MongoDB数据库持久化演示
'''

class MongoDBPersistence(object):
    def __init__(self):
        self.conn = None
        self.database = None

    def connect(self, database):
        try:
            self.conn = pymongo.MongoClient('mongodb://localhost:27017/')
            self.database = self.conn[database]
        except Exception as e:
            print("MongoDB connect failed." + str(e))

    def close(self):
        try:
            if self.conn is not None:
                self.conn.close()
        except BaseException as e:
            print("MongoDB close failed."+str(e))

    def insert_table_dict(self, dict_data=None):
        if self.conn is None or self.database is None:
            print('Please ensure you have connected to MongoDB server!')
            return False
        if dict_data is None:
            return False
        try:
            collection = self.database['DemoTable']
            collection.save(dict_data)
        except BaseException as e:
            print("MongoDB insert error." + str(e))
        return True

    def get_dict_by_name(self, name=None):
        if self.conn is None or self.database is None:
            print('Please ensure you have connected to MongoDB server!')
            return None
        collection = self.database['DemoTable']
        if name is None:
            documents = collection.find()
        else:
            documents = collection.find({"name": name})
        document_list = list()
        for document in documents:
            document_list.append(document)
        return document_list


if __name__ == '__main__':
    t_mysql = MongoDBPersistence()
    t_mysql.connect("DemoDatabase")
    t_mysql.insert_table_dict({'name': 'Test1', 'content': 'XXXXXXXXXXXXX'})
    t_mysql.insert_table_dict({'name': 'Test2', 'content': 'vvvvvvvvvvvv'})
    t_mysql.insert_table_dict({'name': 'Test3', 'content': 'qqqqqqqqqqqq'})
    t_mysql.insert_table_dict({'name': 'Test4', 'content': 'wwwwwwwwwwwww'})
    print('MongoDBPersistence get Test2: ' + str(t_mysql.get_dict_by_name('Test2')))
    print('MongoDBPersistence get All: ' + str(t_mysql.get_dict_by_name()))
    t_mysql.close()

就这样咯，关于 Python 爬虫持久化的 MongoDB 存储基本套路就是这样的，其他类似 SQL 的增删查找等策略语法一样需要我们自己去积累，这里不可能全部说明，不懂的话一样类似 SQL 去先多看看用用 MongoDB，然后对于各种语言下的使用基本区别就是 Driver API 了，原理不变。

2-2-4 其他持久化

之所以叫其他，其实真的有太多的持久化方式，除过上面我们介绍的磁盘文件、常见数据库持久化以外我们其实还有其他的选择，譬如我们对于 NoSQL 的选择除过上面介绍的文档数据存储 MongoDB 以外还可以选择列数据存储（HBase）、键值对存储（Redis）、图形数据库（Neo4j）等，这就取决于我们爬虫的数据需求了；其次我们还可以选择一些 ORM 框架来进行持久化，譬如 Django 或者 SQLAlchemy，这就取决于我们自己咯。

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

3 爬虫持久化选型及总结

Tips：缓存持久化前我们可以对缓存比较大的文本数据先进行压缩等处理再存储，这样可以节约存储。

通过上面常见的 Python3.X 各种持久化方式介绍我们至少应该知道在爬虫需要缓存持久化时我们可以有很多种选择，至于如上所有持久化如何选型其实是依赖于我们自己爬虫需求来决定的，不同的需求可能需要用不同的持久化类型，不过还是有一些参考策略来指导我们进行爬虫持久化选型的，即我们需要认清上面那些持久化各自的优劣点。

对于本地文件型持久化其实优劣点是很明显的，譬如上面介绍的有些支持序列化存储，有些支持同一文件下多 key-value 对存储，但是数据规模一旦庞大，本地文件存储不仅效率低下，还容易出现数据故障，备份十分麻烦，总之只适用于轻量级本地单一数据格式存储，也就是比较适合我们自己编写的一些小爬虫程序。

对于 Sqlite 数据库存储来说基本上只能认为是本地文件型存储的一个关系型升级，有效的改善了本地磁盘文件存储关系型数据的诟病，但是因为其为单机型迷你数据库，在数据存储量级和数据故障方面也是有瓶颈限制的，至于在本地文件型存储和 Sqlite 的选型时我觉得重点要衡量爬虫有用数据的关系，日后数据间关联紧密，需要互相依赖查找的情况使用 Sqlite 似乎更胜一筹。

对于 MySQL 等关系型数据库存储和 MongoDB 等非关系型数据库存储的优劣比较其实在网上已经有很多文章谈论多年了，不过在爬虫时到底如何选择其实还是取决于我们自己的需求定位，对于关系型数据库存储其具备高结构化数据、结构化查询语言、数据和关系都存储在单独的表中，而对于非关系型数据库存储其具备高可用、高性能、高伸缩性、没有声明性查询语言、使用键值对、列、文档、图形等存储、存储数据不可预知及无结构化可言。我们很多时候的爬虫需求都是爬取某一垂直需求下的海量数据来进行建模数据分析的，对于这种情况其实更加适合使用 MongoDB 来进行爬虫数据存储；而又有些时候我们爬虫数据可能具备高度的结构化封装和关联，我们想将爬取数据用来提供给其他平台进行 API 接口访问，在这种情况下似乎使用 MySQL 是一个不错的选择。

总之，Python3.X 爬虫缓存与持久化选型是需要依据我们需求来决定的，甚至有些情况下可能会出现多种持久化组合使用的情况，我们需要做到的是掌握和知道爬虫持久化可以有哪些选择，只有这样才能不变应万变。

^-^当然咯，看到这如果发现对您有帮助的话不妨扫描二维码赏点买羽毛球的小钱（现在球也挺贵的），既是一种鼓励也是一种分享，谢谢！

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
Python3.7出现“ModuleNotFoundError: No module named ‘Tkinter‘”错误的解决方法可爱的小红猪 python
Python3.7出现“ModuleNotFoundError:Nomodulenamed‘Tkinter’”错误的解决方法在网上看到很多针对这个问题的解决方法都是重新安装或配置Tkinter库，但Tkinter是python内置的标准GUI库，安装Python时就已经内置在了库中，不需要另外下载。针对于Tkinter，你的代码很可能是这样的：importTkinter或者是这样fromTkint
Ubuntu18.04 Docker部署Kinship(Django)项目过程 Dante617
1Docker的安装https://blog.csdn.net/weixin_41735055/article/details/1003551792下载镜像dockerpullprogramize/python3.6.8-dlib下载的镜像里包含python3.6.8和dlib19.17.03启动镜像dockerrun-it--namekinship-p7777:80-p3307:3306-p55
ubuntu22.04环境中安装pylint 歪歪的酒壶 python linux 开发语言
ubuntu22.04环境中安装pylintsudoapt-getinstallpython3-pipsudoaptitudeinstallpython3-pipsudopipinstallpylintsudoapt-getinstallpython3-pip在安装pylint的时候，需要使用pip命令，在ubuntu22.04环境中命令如下：$sudoapt-getinstallpython3-
使用selenium调用firefox提示Profile Missing的问题解决歪歪的酒壶 selenium 测试工具 python
在Ubuntu22.04环境中，使用python3运行selenium提示ProfileMissing，具体信息为：YourFirefoxprofilecannotbeloaded.Itmaybemissingorinaccessible在这个问题的环境中firefox浏览器工作正常。排查中，手动在命令行执行firefox可以打开浏览器，但是出现如下提示Gtk-Message:15:32:09.9
Windows安装ciphey编码工具，附一道ciscn编码题例 im-Miclelson CTF工具网络安全
TA是什么一款智能化的编码分析解码工具，对于CTF中复杂性编码类题目可以快速攻破。编码自动分析解码的神器。如何安装Windows环境Python3.864位（最新的版本不兼容，32位的也不行）PIP直接安装pipinstallciphey-ihttps://pypi.mirrors.ustc.edu.cn/simple/安装后若是出现报错请根据错误代码行数找到对应文件，r修改成rb即可。使用标准语
Python程序打包指南：手把手教你一步步完成 Python_P叔 python 数据库开发语言
最近感兴趣想将开发的项目转成Package，研究了一下相关文章，并且自己跑通了，走了一下弯路，这里记录一下如何打包一个简单的Python项目，展示如何添加必要的文件和结构来创建包，如何构建包，以及如何将其上传到Python包索引（PyPI）。首先要确保安装最新版本：#Unix/macOSpython3-mpipinstall--upgradepip#windowspy-mpipinstall--u
python抓取网页内容401应该用哪个库_python3使用requests模块爬取页面内容入门坂田月半
python的爬虫相关模块有很多，除了requests模块，再如urllib和pycurl以及tornado等。相比而言，requests模块是相对简单易上手的。通过文本，大家可以迅速学会使用python的requests模块爬取页码内容。1.Requests唯一的一个非转基因的PythonHTTP库，人类可以安全享用。官网：http://cn.python-requests.org/zh_CN/
ODOO不同版本与平台选择 chouchengyin2080 c#操作系统运维
1.10.0vs11.0vs8.0截至2017年底，最新的ODOO发布版为ODOO11.0，但功能上有一定精简（去除财务模块，去除工作流支持），技术上变动较大（代码逐步迁移至Python3，前端框架改写得抽象）。所以如果是从生产使用的角度来讲，ODOO10.0是当前最好选择，因为其更稳定，第三方模块也更多更全面。而如果是ODOO技术爱好从业者，则逐步迁移至ODOO11.0也有必要，因为其底层技术架
华为开源镜像站体验：美好终将不期而遇 cuishuogai2817 操作系统 java python
电脑因为前段时间有问题，昨天刚刚重装好系统，之前一大堆运行环境全部要重新弄……T_T今天碰上华为开源镜像站体验，那就测试和体验一把吧！先说说测试环境：网络：广东电信20M企业光纤系统：Windows764-bit&CentOS7.6(VMWare)华为开源镜像站地址：http://t.cn/EcBQJO4测试一：python3.6.6(win)首先是windows下的python3.6.6打开说明
python工程打包成whl文件机灵巢穴_WitNest python python 开发语言
资料：PackagingPythonProjects—PythonPackagingUserGuide6.Modules—Python3.11.4documentation步骤1.安装打包工具python3-mpipinstallsetuptoolswheeltwine2.更新pip工具python3-mpipinstall--upgradepip3.创建工程结构python_test_packa
利用Python3爬取下载bookset网站的kindle电子书 nobodyyang
突然间发现这个网站，可以下载很多kindle电子书。观摩了下，和前段时间刚写的爬取头条有点类似。该网站链接首页：https://bookset.me/，这次爬取排行榜链接：https://bookset.me/?rating=douban，打开观察发现排行榜其实真正分页规则是https://bookset.me/page/num?rating=douban，其中num代表页数。具体代码如下
python离线安装一个第三方库 Lhj0616 python相关 python 第三方库
文章目录实例步骤下载`xlwt`库将文件转移到目标机器在目标机器上安装`xlwt`验证安装总结步骤可能的问题解决方法检查库的兼容性使用`pip`下载适配特定Python版本的库创建虚拟环境创建虚拟环境（Python3.6）创建虚拟环境（Python3.11）检查和验证库的安装下载多个版本的`.whl`文件总结更新：下载的第三方库有依赖库解决方案实例想离线安装一个第三方库xlwt，python版本分
win10配置python_Win 10安装Python及环境变量配置 weixin_39663933 win10配置python
一、Windows系统很多童鞋问之前的教程怎么没有介绍安装python3.5的，现予以补充更新一下。（一）安装python3.51、下载进入Python官网www.python.org，在“Downloads”下拉菜单中的右半部分直接点击python3.5.2版本即可下载，它会自动下载32位的。如果需要64位，点击左半部分“Windows”，选择第二项“LatestPython3Release-P
【Python小知识 - 3】：在cmd中切换不同版本的Python解释器街三仔 PyQt小知识 python 开发语言
文章目录在cmd中切换不同版本的Python解释器在cmd中切换不同版本的Python解释器当电脑中有多个版本的Python解释器时，通过重命名python.exe进行区分。电脑分别下载了3.6.8和3.8.8版本的Python解释器，但是在cmd中输入python命令或pip下载模块时总是使用Python3.6.8版本的解释器。若想在cmd中使用Python3.8.8的解释器，如何进行切换？方法
Python3.8 特性介绍刷漆猫咪
简介海象表达式:=仅位置参数/f-strings说明符=启动异步REPLunittest支持异步简介Python3.8已经发布了,官方文档看这里What’sNewInPython3.8.介绍一些Python3.8中的新特性.海象表达式:=新的语法:=将给变量赋值,这个变量是更大的表达式的一部分.if(n:=len(a))>10:print(f"Lististoolong({n}elements,e
虚拟环境的创建和修改，删除撩本子高手 python pip conda
电脑有关环境的配置电脑版本为window10python==3.9.0Pip安装requirement.txt里面的第三方库pip安装requirement.txt的文件里面的第三方库，格式大概为如图所示。pipinstall-rrequirement.txtpip的虚拟环境的创建（使用方法为python3.x自带的venv）创建虚拟环境python-mvenvven_test#这里的话我是运用了
centos下安装python3 i0208 centos python
Centos7默认自带了Python2.7版本,但是因为项目需要使用Python3.x你可以按照此文的三个方法进行安装.注：本文示例安装版本为Python3.5，一、Python源代码编译安装安装必要工具yum-utils，它的功能是管理repository及扩展包的工具(主要是针对repository)$sudoyuminstallyum-utils使用yum-builddep为Python3构
使用vllIm部署大语言模型添砖JAVA的小墨机器学习
使用vllm部署大语言模型一般需要以下步骤：一、准备工作1.系统要求-操作系统：常见的Linux发行版（如Ubuntu、CentOS）或Windows（通过WSL）。-GPU支持：NVIDIAGPU并安装了适当的驱动程序。-足够的内存和存储空间。2.安装依赖-Python3.8及以上版本。-CUDA工具包（根据GPU型号选择合适的版本）。二、安装vllm1.创建虚拟环境（推荐）-使用Conda：c
python--排错--AttributeError: 'str' object has no attribute 'decode'，关于python3的字符串我不是庸医 python 排错记录
AttributeError:'str'objecthasnoattribute'decode'一般是因为str的类型本身不是bytes，所以不能解码两个概念:普通str：可理解的语义字节流str（bytes）（0101010101，可视化显示）两个语法Encode:把普通字符串转为机器可识别的bytesDecode:把bytes转为字符串两个差异Python3的str默认不是bytes，所以不能
Django 安装指南 lly202406 开发语言
Django安装指南Django是一个高级的PythonWeb框架，它鼓励快速开发和干净、实用的设计。本指南将详细介绍如何在不同的操作系统上安装Django，包括Windows、macOS和Linux。在Windows上安装Django先决条件Python:Django要求Python3.8或更高版本。可以从Python官网下载适用于Windows的Python安装程序。pip:Python的包管
Cuda 程序编译报错: fatal error: cusparse.h: No such file or directory 原野寻踪实践经验 cuda
编译cuda程序时发现下列报错：/mnt/xxx/miniconda3/envs/xxx/lib/python3.8/site-packages/torch/include/ATen/cuda/CUDAContext.h:6:10:fatalerror:cusparse.h:Nosuchfileordirectory#include^~~~~~~~~~~~检查发现是选择了错误的Cuda版本。ls/
Anaconda版本和Python版本对应关系纬领网络 python anaconda3
官网下载地址：https://repo.anaconda.com/archive/下载地址：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/anaconda3版本基础python版本Anaconda3-2024.06-1Python3.12.4Anaconda3-2024.02-1Python3.11.7Anaconda3-2023.09
关于python版本与TensorFlow安装的版本问题 iiimharrygGc. python tensorflow 开发语言
实测在conda环境下，python3.12的版本无法安装TensorFlow2.14.0（截至2024.5.21）最新版本在python3.7版本下正常安装ps：上述安装均在anacondanavigator软件内安装
【CTF】MISC常用工具集锦/使用方法简介不会代码的小徐 misc 网络安全测试工具
前言#MISC题型多变而且工具繁杂，因此自己花时间整理了一份工具列表，以便日后参考用流畅地阅读这篇博客，你可能需要：Python2.7.18+Python3.8+任何一个更高版本的Python，使用conda管理Linux虚拟机，kali即可流畅访问Google/GitHub等站点的网络通用工具#PuzzleSolver#专为misc手打造的瑞士军刀(?)，整合了多种脚本（base，字频分析，pn
python用递归方式实现最大公约数_Python - 最大公约数算法 weixin_39765325
#Python3.6#最大公约数，最大公因子#GreatestCommonDivisor#辗转相除法defgcd(num1:object,num2:object)->object:print('num1={},num2={},r={}'.format(num1,num2,num1%num2))ifnum1%num2==0:returnnum2returngcd(num2,num1%num2)#更相
【Conda 更换python版本】 weixin_44377636 python python conda 开发语言
1、创建python环境并安装自己需要的版本condacreate--namepython39python=3.92、激活新版本python环境condaactivatepython393、查看当前python版本python-V显示版本，就说明已经安装好了！
centos7-安装docker-compose 报错/lib64/libc.so.6: version `GLIBC_2.28‘ not found wangying202 docker docker centos
新增安装的centos7虚拟机，按要求需要安装docker-compose，遇到了使用docker-compose命令时报错“[11798]ErrorloadingPythonlib‘/tmp/_MEIztwHzf/libpython3.9.so.1.0’:dlopen:/lib64/libc.so.6:version‘GLIBC_2.28’notfound(requiredby/tmp/_MEI
linux(CentOS、Ubuntu)安装python3.12.2环境 weixin_41934979 linux 运维服务器 python
1.下载官网Python安装包wgethttps://www.python.org/ftp/python/3.12.2/Python-3.12.2.tar.xz1.1解压tar-xfPython-3.12.2.tar.xz解压完后切换到Python-3.12.2文件夹(这里根据自己解压的文件夹路径)cd/usr/packages/Python-3.12.2/1.2升级软件包管理器CentOS系统：
python - pip安装及使用详解闫小甲 Python python pip
pip是Python的一个包管理器，它使安装和管理额外的库变得非常方便。通过pip，你可以轻松地安装、升级、卸载Python包。下面将详细介绍如何在Python中使用pip进行安装及基本使用。安装pip对于Windows用户：较新版本的Python（3.4及之后）：自Python3.4版本开始，pip已经默认包含在安装程序中。安装Python时，确保勾选了“AddPythontoPATH”选项，这
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

Python3.X 爬虫实战（缓存与持久化）

1 背景

2 Python3.X 缓存与持久化

2-1 常见本地磁盘文件型

2-2 常见数据库方式

2-2-1 Sqlite 持久化

2-2-2 MySQL 持久化

2-2-3 MongoDB 持久化

2-2-4 其他持久化

3 爬虫持久化选型及总结

你可能感兴趣的:(Python3)