mysql bulkupdate_django_bulk_update源码分析

## django_bulk_update源码分析

这个第三方插件的体量几乎只相当于工作时两三天的代码量了,是一个比较容易开始进行源代码阅读的模块,阅读完这个代码对自定义的进行django拓展也是一个相当好的借鉴

### django_bulk_update文件结构

django_bulk_update在被调用时实际只有四个文件,分别是

1. \_\_init__.py

2. helper.py

3. manager.py

4. query.py

### \_\_init__.py文件

__init__文件是所有要被调用的python模块都有的文件,里面的代码只是对当前的模块版本进行了指定

~~~py

# __init__.py

__version__ = '2.2.0'

~~~

### helper.py文件

此模块的主要文件,bulk_update功能就在此文件里

~~~py

def validate_fields(meta, fields):

fields = frozenset(fields)

field_names = set()

for field in meta.fields:

if not field.primary_key:

field_names.add(field.name)

if field.name != field.attname:

field_names.add(field.attname)

non_model_fields = fields.difference(field_names)

if non_model_fields:

raise TypeError(

"These fields are not present in "

"current meta: {}".format(', '.join(non_model_fields))

)

~~~

validate_fields是一个对bulk_update中需要修改的字段做校验的方法,这里的传入的两个参数,meta可以看做就是django中模型类的_meta属性(实验了一下后发现正常使用时传进去的的确是Option类),也就是一个Options类,fields即用户输入的想要修改的字段名字符串数组

可以看到这里对输入的原始fields数组做了一个frozenset备份,在校验完成后和这些字段中符合逻辑的集合进行差集运算,只要fields集合不是field_names集合的子集则马上抛出TypeError异常,这里的for循环主要处理的就是meta中的fields,根据判断条件可以看出,bulk_update功能**是不支持主键修改的**

~~~py

def get_fields(update_fields, exclude_fields, meta, obj=None):

deferred_fields = set()

if update_fields is not None:

validate_fields(meta, update_fields)

elif obj:

deferred_fields = obj.get_deferred_fields()

if exclude_fields is None:

exclude_fields = set()

else:

exclude_fields = set(exclude_fields)

validate_fields(meta, exclude_fields)

exclude_fields |= deferred_fields

fields = [

field

for field in meta.concrete_fields

if (

not field.primary_key and

field.attname not in deferred_fields and

field.attname not in exclude_fields and

field.name not in exclude_fields and

(

update_fields is None or

field.attname in update_fields or

field.name in update_fields

)

)

]

return fields

~~~

get_fields方法看起来比较长,实际上在做的事情比较单调,依然是通过meta参数指向的Options类进行字段筛选,需要注意的是这里的筛选条件比较多,写法相对复杂

~~~py

def grouper(iterable, size):

# http://stackoverflow.com/a/8991553

it = iter(iterable)

while True:

chunk = tuple(itertools.islice(it, size))

if not chunk:

return

yield chunk

~~~

实际上今天碰到的问题就是依靠这个方法来解决的,因为业务代码中数据库中有10W+的数据,如果直接使用all()拿到所有数据然后不做其他处理进行bulk_update,则因为单条SQL语句处理的数据量过大导致Jenkins集成时django报ProgrammingError,提示mysql server gone away,实际上就是处理超时,这里同事给的解决办法就是使用batch_size参数处理这个问题,将数据分成500条一个的chunk块来进行更新,而bulk_udpate支持的batch_size参数就是在这个方法里实现了chunk分块,这里使用了iter方法将需要更新的对象列表转化为了一个迭代器,通过islice给迭代器分片,最后形成一个生成器供使用,这样就解决了分块批量修改数据的需求

你可能感兴趣的:(mysql,bulkupdate)