来源:AI科技评论
本文长度为2300字,建议阅读5分钟
本文为大家介绍了NumPy的现状。
工欲善其事必先利其器~
今日我“代码之神”把装备拉满,势必要大干一场!
在编程中只会Hello World 指定不行(说的不就是小陈自己嘛)。
那深度学习领域,只会import numpy as np能行吗?
当然不行!
我想至少还要会 import tensorflow as pytorch!
玩笑归玩笑,大家都知道最近算法岗面试不止是诸神黄昏了,已经发展到了灰飞烟灭的程度了(虽然有些夸张),贾扬清前些天也说过调参侠没有未来。
那么作为调参侠的哥们调包侠呢,估计也不一定会有未来,那这会代表这个“包”也没有未来吗?
今天我们就以NumPy举例。
1. NumPy现状
目前做人工智能大概离不开深度学习-->做深度学习八成离不开Tensorflow、 Pytorch等框架-->使用这些框架那就离不开Python-->涉及到数值计算那就离不开NumPy。
一句话:深度学习时代,很难离开NumPy!
就在近日,历时15年!NumPy 核心开发团队共26人的心血,终于汇聚成一篇论文发表在 Nature 上!论文主要是详细介绍了数组编程(Array programming)。
哇!从十五年前的角度来看,NumPy的“未来”很棒啊!
Numpy团队也是很开心地把这一消息转发到了推特上,目前转发量已超过3.6k。
2. NumPy应用
在这篇论文中,作者提到NumPy在物理、化学、天文学、地球科学、生物学、心理学、材料科学、工程学、金融和经济学等领域的研究分析中发挥着重要作用。
都有哪些重要作用呢?这里先拿天文学举例。
NumPy是用于发现引力波和黑洞第一次成像的软件栈的重要组成部分。
NumPy用于黑洞成像
当然了,大家都知道了真正的黑洞不是下面这个网页版黑洞:
也不是下面这样很拉丝很炫酷的黑洞:
而是这样的“蜂窝煤之眼”的黑洞:
黑洞 M87 (图片来源: Event Horizon Telescope Collaboration)
NumPy使研究人员能够通过其有效且通用的n维数组来操纵大型数值数据集,从而为用于生成黑洞历史图像的软件奠定了基础。
下图是利用NumPy的过程:
NumPy发现引力波
1916年,爱因斯坦预测了引力波的存在,100年之后,引力波的存在被LIGO科学家证实;其中NumPy在引力波的发现中起到了关键作用。
当然引力波也不是下面这个双龙戏珠的样子:
而或许可能是这个骷髅之脸的样子?
当时收集到的引力波数据很难使用任何技术来计算,而NumPy却作为LIGO GW检测项目期间执行的各种任务的软件成功派上了用场,它帮助高速解决了复杂的数学和数据处理问题。这里有些例子:
信号处理:毛刺数据检测, 噪声识别和数据表征 (NumPy,scikit-learn,scipy,matplotlib,pandas,pyCharm)
数据检索:确定可以分析哪些数据,弄清楚它是否包含信号-大海捞针
统计分析:估计观测数据的统计显着性,并通过与模型比较来估计信号参数(例如,恒星质量,自旋速度和距离)。
数据可视化
其中无论是用于黑洞成像还是引力波,都利用了Numpy三项的关键功能:
NumPy用于数据可视化:
NumPy是迅速发展的Python可视化领域的重要组成部分 ,其中包括 Matplotlib, Seaborn, Plotly, Altair, Bokeh, Holoviz, Vispy和 Napari等。
NumPy对大型数组的加速处理使研究人员可以可视化远超过本机Python可以处理的数据集。
以下是一些NumPy数据可视化的样例:
3. NumPy详细介绍
数组编程为访问、操作和计算向量、矩阵和高维数组中的数据提供了一种强大、紧凑且表达力强悍的语法,NumPy是Python语言的主要数组编程库。
NumPy是构建科学Python生态系统的基础。它的应用十分普遍,由于它在生态系统中居于核心地位,NumPy越来越多地充当这些数组计算库之间的互操作层,并与其API一起提供了一个灵活的框架来支持下一个十年的科学和工业分析。
NumPy 数组
Numpy 是 Python 数据科学计算的核心库,提供了高性能的多维数组对象及处理数组的工具。
NumPy 数组包括多种基础数组概念,在数组维度上的变化操作十分灵活:
NumPy是Python 生态系统的基础
它与SciPy 和 Matplotlib 紧密相关。SciPy 为科学计算提供了基础算法,Matplotlib 则用作可视化。NumPy、SciPy 和 Matplotlib 的结合,再加上 IPython、Jupyter 这类高级交互环境,为 Python 中的数组编程提供了夯实的基础。
下图是Python系统的生态树,可以看出NumPy处于底层支持位置。
而如下图所示,NumPy 的 API 和数组协议向生态系统提供了新的数组:
现在,这些数组协议是 NumPy 的主要特征,它们的重要性预计也会越来越大。NumPy 开发者(本篇论文作者)迭代地改善和设计协议,以改进生态的实用性和简化应用方式。
4. NumPy过去、现在和未来
过去
NumPy最初是由学生、教师和研究人员开发的,目的是为Python提供一个高级的、开源的数组编程库,它可以免费使用,不受许可服务器和软件保护软件狗的阻碍。
有一种感觉是为了其他人的利益而共同建设一些重要的东西。在一个由志同道合的人组成的社区内参与这样一项努力,对许多早期的贡献者具有强大的吸引力。
这些用户-开发人员经常不得不从头开始编写代码来解决他们自己或同事的问题,这些代码通常使用Python之前的低级语言,如Fortran46和C。
现在
现在,大量的科学工作都依赖于NumPy的正确、快速和稳定的特性,它不再是一个小型的社区项目,而是核心的科学基础设施。
也就是说,NumPy的发展仍然很大程度上依赖于研究生和研究人员在空闲时间所做的贡献。
NumPy不再仅仅是科学Python生态系统的基础数组库,它已经成为张量计算的标准API和Python中数组类型和技术之间的中心协调机制。
未来
在接下来的十年里,NumPy的开发者们将面临几个挑战。
新的设备将被开发,现有的专用硬件将进化以满足摩尔定律的递减收益。
数据科学从业者将有更多、更广泛的种类,其中很大一部分人将使用NumPy。
新一代语言、解释器和编译器,如Rust55、Julia56和LLVM57,将创造新的概念和数据结构,确定它们的生存能力。
NumPy准备迎接这样一个不断变化的局面,并继续在交互式科学计算中发挥主导作用,尽管这样做需要政府、学术界和工业界的持续资助。
但是,重要的是,为了满足下一个十年数据科学的需要,它还需要新一代的研究生和社区贡献者来推动它向前发展。
纵观全文,我们可以看到NumPy论文登顶Nature,它的基础之扎实、生态之强大,影响之广泛,它根本不会至止于深度学习,也不会止于下一个十年。
所以,以NumPy为例,调包侠不一定有未来 ,但是这个“包”会有。
那么如何能像NumPy一样也一路成长,不断扩展自己的技术栈和影响力呢做到何时都不被淘汰,这或许是个很大的挑战。
编辑:王菁
校对:汪雨晴