python源码阅读(2)-- python高级话题

这部分内容主要包含

  • 运行环境初始化
    1. 初始化完成的一个重要作用是加载基础module,比如__builtin__,sys等,初始化类型和异常系统
    2. python最终创建PyDictObject对象,维护系统所有的module
    3. PyFunctionObject是对函数指针的包装,同样使用了缓冲池
    4. 最后启动字节码虚拟机
  • 模块的动态加载机制
    1. 原理是site.py将site-packages路径加入到sys.path中,将目录下所有.pth文件中的所有路径加入到sys.path中
    2. import机制影响了当前的local名字空间,运行python时python会将一大批module加载到内存中,但不会暴露在当前的local名字空间中,需要用户显式引入
    3. 当前名字空间的__builtins__为PyModuleObject,其维护的dict为import xxx中dir(xxx)中的__builtins__,名称相同对象不同
    4. import会影响到全局的module集合,好处是多处引用可以从module集合缓存中返回
    5. 通过from...import的方式精确引入减少内存占用,避免名字空间遭到污染
    6. python采用全局module集合sys.modules,import会在该pool里查找,引入符号关联,不存在的通过动态加载,删除import的module只是修改为程序不可感知,pool中依然存在
    7. 推测循环引用是名字空间的混乱导致不可用,而局部引入则为名字空间的范围不同所以可行
  • 多线程机制
    1. python所有的线程都共享同样的builtin名字空间
    2. 去除GIL在尝试在基准测试(尤其是单线程操作测试上)效率只有使用GIL的一半,因为细粒度的锁机制会导致大量的加锁解锁动作操作,对操作系统来说是重量级的动作。没了GIL的保护,编写Python扩展模块的难度将增加
    3. 对于IO密集的操作适合使用多线程,CPU密集的操作适合使用多进程
    4. Python的线程机制即为操作系统的原生线程
    5. Python启动时只支持单线程,多线程由用户触发,减少线程切换的无用功
    6. threading是thread的高级封装,是用python实现,thread是比较低级的系统线程的封装,用c实现
  • 内存管理机制
    1. 内存管理主要分4层:第一层主要是malloc和free,由操作系统管理,python不能干涉。第二层提供一层统一的raw memory的管理接口用于不同操作系统的不同行为。第三、四层为内存池,申请内存小于256字节会在内存池中申请,否则转化为malloc,可通过修改源码改变这个临界值。
    2. 引用计数:优点为实时性,一旦引用为0即回收,缺点为维护引用数的开销和循环引用。python采用了各种对象相关的内存池来弥补引用计数的缺点。
    3. 为了解决引用计数的循环引用,python引入了标记--清除和分代收集两种技术。标记--清除采用从根对象的集合(全局引用和函数栈中的引用)出发,不可达的进行垃圾回收。分代收集根据内存块存在的时间分‘代’,存在越久越不可能是垃圾,越少去收集,反之则每次都需要去收集。

你可能感兴趣的:(python源码阅读(2)-- python高级话题)