Python数值运算各函数性能分析

数据分析中的常见任务是在大量数字上计算复杂的数学表达式,Python本身提供了所有必须的功能,不同库实现的效率差别很大:
1、

loops = 25000000
from math import *
a = range(1,loops)
def f(x):
    return 3 * log(x) + cos(x) ** 2
%timeit r = [f(x) for x in a]

18.9 s ± 221 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

2、使用Numpy可以实现大幅优化

import numpy as np
loops = 25000000
a = np.arange(1,loops)

%timeit r = 3 * np.log(a) + np.cos(a) ** 2

1.12 s ± 10.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

3、甚至有一个库是专门用于此类任务的,这个库称作numexpr,得名于“数值表达式”(Numerical Expressions)。它编译表达式,改善NumPyl通用功能的性能,例如,在执行期间避免数组在内存中复制:

import numexpr as ne
ne.set_num_threads(1)
f = '3 * log(a) + cos(a) ** 2'
%timeit r = ne.evaluate(f)

476 ms ± 7.11 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

4、numexpr还内建并行执行单独运算的功能。使用4线程可进一步降低运行时间

ne.set_num_threads(4)
f = '3 * log(a) + cos(a) ** 2'
%timeit r = ne.evaluate(f)

218 ms ± 3.85 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

你可能感兴趣的:(数据分析)