python基础

python数据类型

1.可变数据类型:Number(数值)、String(字符串)、Tuple(元组)
2.不可变数据类型:List(列表)、Dictionary(字典)、Set(集合)

列表底层数据结构实现

列表实际上采用的就是数据结构中的顺序表,而且是一种采用分离式技术实现的动态顺序表
列表实现可以是数组和链表。
顺序表是怎么回事?顺序表一般是数组。
列表是一个线性的集合,它允许用户在任何位置插入、删除、访问和替换元素。
列表实现是基于数组或基于链表结构的。当使用列表迭代器的时候,双链表结构比单链表结构更快。
有序的列表是元素总是按照升序或者降序排列的元素。

列表推导式

[i for i in range(10) if i % 2 == 0]`

列表与元组的区别

  1. 列表是动态数组,它们可变且可以重设长度(改变其内部元素的个数)。
  2. 元组是静态数组,它们不可变,且其内部数据一旦创建便无法改变。
  3. 元组缓存于Python运行时环境,这意味着我们每次使用元组时无须访问内核去分配内存。

集合底层数据结构实现

1、集合类型的底层实现基于哈希表,键的输出顺序,取决于键在哈希表中的存储顺序。
2、集合中键的数据类型必须是静态数据类型,如简单数据类型、字符串和元组。

集合与列表的区别

集合
1、无序;
2、可以用set()函数或者方括号{}创建,元素之间用逗号”,”分隔;
3、不可索引,不可切片;
4、不可以有重复元素。
列表:
1、有序;
2、可以用list()函数或者方括号[]创建,元素之间用逗号’,‘’分隔;
3、使用索引来访问元素,可切片;
4、可以有重复元素。

字典底层数据结构实现

python字典的底层实现的是哈希表。调用python内置的哈希函数,将键(key)作为参数进行转换(哈希运算+取余运算),得到一个唯一的地址(地址的索引),然后将值(value)存放到对应的地址中(给相同的键赋值会直接覆盖原值,因为相同的键转换后的地址时一样的)

字典解决哈希冲突的方法

开放寻址法
哈希冲突的解决方法详解

hashCode、hashTable、HashSet、HashMap的用法与区别

hashCode、hashTable、HashSet、HashMap的用法与区别

GIL全局解释器锁

Global Interpreter Lock又称全局解释器锁。简单来说是一个互斥锁,每个线程在执行的过程中都需要先获取GIL,作用就是限制多线程同时执行,使得在同一进程内任何时刻仅有一个线程在执行。
由于GIL的存在,在Python上开启多个线程时,每个单独线程都会在竞争到GIL后才运行,因此在我们的Python语言中多线程其实是假的多线程,它只会在一个CPU上运行。即使在具有多核CPU中,Python的多线程也是串行执行的,并不会同一时间多个线程分布在多个CPU上运行。

GIL的准则

  1. 当前执行线程必须持有GIL
  2. 当线程遇到 IO的时、时间片到时或遇到阻塞时, 会释放GIL(Python 3.x使用计时器----执行时间达到阈值后,当前线程释放GIL,或Python 2.x,tickets计数达到100。)

GIL的优缺点

优点:

线程是非独立的,所以同一进程里线程是数据共享,当各个线程访问数据资源时会出现“竞争”状态,即数据可能会同时被多个线程占用,造成数据混乱,这就是线程的不安全。所以引进了互斥锁,确保某段关键代码、共享数据只能由一个线程从头到尾完整地执行。

缺点:

单个进程下,开启多个线程,无法实现并行,只能实现并发,牺牲执行效率。
由于GIL锁的限制,所以多线程不适合计算密集型任务,更适合IO密集型任务
常见IO密集型任务:网络IO(抓取网页数据)、磁盘操作(读写文件)、键盘输入

对Python多线程的影响

  1. GIL:全局解释器锁。每个线程在执行的过程都需要先获取GIL,保证同一时刻只有一个线程可以执行代码。
  2. Python语言和GIL没有任何关系。仅仅是由于历史原因在Cpython虚拟机(解释器),难以移除GIL。
  3. 线程释放GIL锁的情况: 在IO操作等可能会引起阻塞的system call之前,可以暂时释放GIL,但在执行完毕后,必须重新获取GIL
  4. Python使用多进程是可以利用多核的CPU资源的。
  5. 多线程爬取比单线程性能有提升,因为遇到IO阻塞会自动释放GIL锁。

你可能感兴趣的:(python,开发语言,数据结构)