python源码阅读(1)-- 类型对象及虚拟机

抽空看了《Python源码剖析》+ python3.7的源码,记录一下觉得重要的知识点

类型对象

  • 整数
    1. 通过整数对象池解决对引用计数的过度访问
    2. 频繁执行的代码会提供宏(节省函数开销,牺牲类型安全)和函数(检查类型安全降低效率)两种版本
    3. 小整数池在python初始化时创建,范围在[-5, 257),可以通过修改源码动态改变这个临界值
    4. 大整数开辟一块内存空间轮流使用,用单向列表来管理空闲态内存
    5. 整数引用计数为0不会向系统堆归还内存,会加入到上述单向列表中
  • 字符串
    1. 预存字符串hash值和intern机制提高Python虚拟机20%执行效率
    2. intern机制节省空间、简化PyStringObject比较,即只会存在唯一一个与被intern字符串对应的Obj对象
    3. interned实际为dict存储key value来保证相同string不重复创建
    4. 创建的string对象会进行intern操作并缓存到字符缓冲池中
  • 列表
    1. list也存在缓冲池,默认维护80个PyListObject对象
    2. 初始会分配一定的内存,操作时通过list_resize来调整list的内存占用
  • 字典
    1. 字典采用hash表实现,理论上能达到O(1)的查询效率
    2. python采用开放定址法解决散列冲突,删除探测链元素使用“伪删除”操作
    3. 创建默认8个entry,即键值对,会预存hash值避免重复计算
    4. dict也存在缓冲池,与list缓冲池机制一致

虚拟机

  • 编译
    1. python执行会先编译文件再执行
    2. PyCodeObject是真正编译的结果,pyc文件是这个对象在硬盘上的表现形式
    3. 编译结果存在于内存中,运行结果后保存到pyc中,下次执行相同程序从pyc中建立PyCodeObject对象
    4. pyc文件不是一定生成的,只有在有重用情况下会编译生成pyc文件,如import xxx
    5. pyc文件包含magic number(用于区别不同版本python)、创建时间信息(同步pyc和py文件)、PyCodeObject对象
    6. w_object在PyCodeObject写入pyc时存储对象的类型,在从pyc中加载时恢复对象的结构和蕴含信息
    7. 对于字符串生成pyc和从pyc中解析分别采用PyDictObject减少冗余和PyListObject来作为索引取值(对于重复的字符串会记录一个位置标识表示之前出现的string的位置,dict不支持索引取值,所以采用list)
  • 字节码虚拟机
    1. python执行时,虚拟机上实际不是PyCodeObject对象,而是PyFrameObject对象
    2. PyFrameObject栈空间大小不同取决于Code Block执行时所需大小,并维护PyCodeObject对象
  • 作用域和名字空间
    1. LBG规则:名字引用沿着local作用域、global作用域、builtin作用域的顺序查找名字对应的约束
    2. 闭包函数满足LEGB规则
    3. global关键字使python强制只参考global名字空间而不用管LEBG规则
  • 类机制
    1. python3.7中采用的都是新式类,用户可以定义继承python内置类型的类
    2. class实现"__call__"方法则对象为可调用对象,称作“可调用性”
    3. 虚拟机这部分内容书中多是机器码的实现,这里不赘述

你可能感兴趣的:(python源码阅读(1)-- 类型对象及虚拟机)