17370845950

Python 动态类型的内部原理
Python对象内存结构为PyObject*指针指向堆上对象,头部含ob_refcnt和ob_type字段;小整数、字符串字面量可能复用或驻留;None/True/False为单例;is比较地址,==调用__eq__;type()返回ob_type,isinstance()查MRO;动态类型导致每次操作需运行时查类型分发。

Python 对象的内存结构长什么样

Python 里所有变量都是 PyObject* 指针,不存值,只指向堆上真正的对象。每个对象头部固定有两个字段:ob_refcnt(引用计数)和 ob_type(指向类型对象的指针)。这意味着哪怕你写 x = 42,解释器也要在堆上分配一个 PyLongObject,填好值、设好类型、初始化引用计数为 1。

类型信息不是存在变量里,而是存在对象自身——所以 type(x) 实际是读 x->ob_type,不是查变量声明。

  • 小整数(-5 到 256)会预分配并复用,所以 a = 100; b = 100; a is bTrue
  • 字符串字面量可能被驻留(interned),但运行时拼接的字符串一般不会,"a" + "b" is "ab" 可能成立,s1 + s2 is "ab" 几乎总为 False
  • NoneTrueFalse 是单例对象,它们的 id() 全局唯一

为什么 is== 行为不同

is 比较的是指针地址(即是否同一块内存),== 调用的是对象的 __eq__ 方法。由于动态类型下“相等”的语义由类型自己定义,== 的结果完全取决于 ob_type->tp_richcomparetp_hash 等 C 层函数的实现。

常见误用:用 is 判断数值或字符串相等。比如 [] is [] 一定为 False(两个新列表地址不同),而 [1,2] == [1,2]Truelist.__eq__ 逐项比)。

  • 只对单例对象(NoneTrueFalse)用 is 是安全且推荐的
  • is 在 C 扩展中常用于快速类型检查,如 if PyList_Check(obj) 底层就是比较 obj->ob_type == &PyList_Type
  • 自定义类若没重写 __eq__,默认继承 object.__eq__,行为等价于 is

type()isinstance() 查的是什么

type(x) 直接返回 x->ob_type,不做继承链查找;isinstance(x, cls) 则会遍历 x->ob_type 的 MRO(方法解析顺序)链,看 cls 是否在其中。这就是为什么 isinstance(True, int)Truebool 继承自 int),但 type(True) is intFalse

  • type() 返回的是“实际构造出该对象的那个类”,不是“最接近的父类”
  • 多继承下 MRO 由 C3 线性化算法决定,cls.__mro__ 可查看具体顺序
  • isinstance(x, (A, B, C)) 中元组会被展开,任意一个匹配即返回 True

动态类型带来的运行时开销在哪

每次属性访问(x.attr)、方法调用(x.method())、甚至算术运算(a + b)都必须在运行时查对象类型,再跳转到对应实现。比如 a + b 实际调用 a->ob_type->tp_as_number->nb_add(a, b),如果 aint 就走整数加法,是 str 就走字符串拼接,是自定义类就找它的 __add__

  • 属性访问要查 __dict__、描述符、__getattr__,路径远比静态语言长
  • Cython 或 __slots__ 能减

    少实例字典开销,但改不了类型分发本身
  • CPython 的 AST 编译器不会做类型特化,所以循环里反复调用 len(x) 不会自动内联或缓存类型判断

真正难优化的不是“类型可变”,而是“每次操作都要重新确认类型+分发”。这也是为什么 PyPy 的 JIT 能提速——它在运行时观测类型稳定模式,生成专用机器码。