white-night

《利用Python进行数据分析·第2版》第1章准备工作

第 1 章准备工作
第 2 章 Python 语法基础，IPython 和 Jupyter
第 3 章 Python 的数据结构、函数和文件
第 4 章 NumPy 基础：数组和矢量计算
第 5 章 pandas 入门
第 6 章数据加载、存储与文件格式
第 7 章数据清洗和准备
第 8 章数据规整：聚合、合并和重塑
第 9 章绘图和可视化
第 10 章数据聚合与分组运算
第 11 章时间序列
第 12 章 pandas 高级应用
第 13 章 Python 建模库介绍
第 14 章数据分析案例
附录 A NumPy 高级应用
附录 B 更多关于 IPython 的内容（完）

下载本书：http://www.jianshu.com/p/fad9e41c1a42（更新为 GitHub 链接）

GitHub（欢迎提 pull request）：
https://github.com/iamseancheney/python_for_data_analysis_2nd_chinese_version

GitBook（有锚点功能）：
https://seancheney.gitbook.io/python-for-data-analysis-2nd/

下载本书代码：https://github.com/wesm/pydata-book（建议把代码下载下来之后，安装好 Anaconda 3.6，在目录文件夹中用 Jupyter notebook 打开）

本书是 2017 年 10 月 20 号正式出版的，和第 1 版的不同之处有：

包括 Python 教程内的所有代码升级为 Python 3.6（第 1 版使用的是 Python 2.7）
更新了 Anaconda 和其它包的 Python 安装方法
更新了 Pandas 为 2017 最新版
新增了一章，关于更高级的 Pandas 工具，外加一些 tips
简要介绍了使用 StatsModels 和 scikit-learn

对有些内容进行了重新排版。（译者注 1：最大的改变是把第 1 版附录中的 Python 教程，单列成了现在的第 2 章和第 3 章，并且进行了扩充。可以说，本书第 2 版对新手更为友好了！）

（译者注 2：毫无疑问，本书是学习 Python 数据分析最好的参考书。本来想把书名直接译为《Python 数据分析》，这样更简短。但是为了尊重第 1 版的翻译，考虑到继承性，还是用老书名。这样读过第一版的老读者可以方便的用之前的书名检索到第二版。作者在写第二版的时候，有些文字是照搬第一版的。所以第二版的翻译也借鉴 copy 了第一版翻译：即，如果第二版中有和第一版相同的文字，则 copy 第一版的中文译本，觉得不妥的地方会稍加修改，剩下的不同的内容就自己翻译。这样做也是为读过第一版的老读者考虑——相同的内容可以直接跳过。）

1.1 本书的内容

本书讲的是利用 Python 进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍 Python 编程和用于数据处理的库和工具环境，掌握这些，可以让你成为一个数据分析专家。虽然本书的标题是 “数据分析”，重点却是 Python 编程、库，以及用于数据分析的工具。这就是数据分析要用到的 Python 编程。

什么样的数据？

当书中出现 “数据” 时，究竟指的是什么呢？主要指的是结构化数据（structured data），这个故意含糊其辞的术语代指了所有通用格式的数据，例如：

表格型数据，其中各列可能是不同的类型（字符串、数值、日期等）。比如保存在关系型数据库中或以制表符 / 逗号为分隔符的文本文件中的那些数据。
多维数组（矩阵）。
通过关键列（对于 SQL 用户而言，就是主键和外键）相互联系的多个表。
间隔平均或不平均的时间序列。

这绝不是一个完整的列表。大部分数据集都能被转化为更加适合分析和建模的结构化形式，虽然有时这并不是很明显。如果不行的话，也可以将数据集的特征提取为某种结构化形式。例如，一组新闻文章可以被处理为一张词频表，而这张词频表就可以用于情感分析。

大部分电子表格软件（比如 Microsoft Excel，它可能是世界上使用最广泛的数据分析工具了）的用户不会对此类数据感到陌生。

1.2 为什么要使用 Python 进行数据分析

许许多多的人（包括我自己）都很容易爱上 Python 这门语言。自从 1991 年诞生以来，Python 现在已经成为最受欢迎的动态编程语言之一，其他还有 Perl、Ruby 等。由于拥有大量的 Web 框架（比如 Rails（Ruby）和 Django（Python）），自从 2005 年，使用 Python 和 Ruby 进行网站建设工作非常流行。这些语言常被称作脚本（scripting）语言，因为它们可以用于编写简短而粗糙的小程序（也就是脚本）。我个人并不喜欢 “脚本语言” 这个术语，因为它好像在说这些语言无法用于构建严谨的软件。在众多解释型语言中，由于各种历史和文化的原因，Python 发展出了一个巨大而活跃的科学计算（scientific computing）社区。在过去的 10 年，Python 从一个边缘或 “自担风险” 的科学计算语言，成为了数据科学、机器学习、学界和工业界软件开发最重要的语言之一。

在数据分析、交互式计算以及数据可视化方面，Python 将不可避免地与其他开源和商业的领域特定编程语言 / 工具进行对比，如 R、MATLAB、SAS、Stata 等。近年来，由于 Python 的库（例如 pandas 和 scikit-learn）不断改良，使其成为数据分析任务的一个优选方案。结合其在通用编程方面的强大实力，我们完全可以只使用 Python 这一种语言构建以数据为中心的应用。

Python 作为胶水语言

Python 成为成功的科学计算工具的部分原因是，它能够轻松地集成 C、C++ 以及 Fortran 代码。大部分现代计算环境都利用了一些 Fortran 和 C 库来实现线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。许多企业和国家实验室也利用 Python 来 “粘合” 那些已经用了多年的遗留软件系统。

大多数软件都是由两部分代码组成的：少量需要占用大部分执行时间的代码，以及大量不经常执行的 “胶水代码”。大部分情况下，胶水代码的执行时间是微不足道的。开发人员的精力几乎都是花在优化计算瓶颈上面，有时更是直接转用更低级的语言（比如 C）。

解决 “两种语言” 问题

很多组织通常都会用一种类似于领域特定的计算语言（如 SAS 和 R）对新想法做研究、原型构建和测试，然后再将这些想法移植到某个更大的生产系统中去（可能是用 Java、C# 或 C++ 编写的）。人们逐渐意识到，Python 不仅适用于研究和原型构建，同时也适用于构建生产系统。为什么一种语言就够了，却要使用两个语言的开发环境呢？我相信越来越多的企业也会这样看，因为研究人员和工程技术人员使用同一种编程工具将会给企业带来非常显著的组织效益。

为什么不选 Python

虽然 Python 非常适合构建分析应用以及通用系统，但它对不少应用场景适用性较差。

由于 Python 是一种解释型编程语言，因此大部分 Python 代码都要比用编译型语言（比如 Java 和 C++）编写的代码运行慢得多。由于程序员的时间通常都比 CPU 时间值钱，因此许多人也愿意对此做一些取舍。但是，在那些延迟要求非常小或高资源利用率的应用中（例如高频交易系统），耗费时间使用诸如 C++ 这样更低级、更低生产率的语言进行编程也是值得的。

对于高并发、多线程的应用程序而言（尤其是拥有许多计算密集型线程的应用程序），Python 并不是一种理想的编程语言。这是因为 Python 有一个叫做全局解释器锁（Global Interpreter Lock，GIL）的组件，这是一种防止解释器同时执行多条 Python 字节码指令的机制。有关 “为什么会存在 GIL” 的技术性原因超出了本书的范围。虽然很多大数据处理应用程序为了能在较短的时间内完成数据集的处理工作都需要运行在计算机集群上，但是仍然有一些情况需要用单进程多线程系统来解决。

这并不是说 Python 不能执行真正的多线程并行代码。例如，Python 的 C 插件使用原生的 C 或 C++ 的多线程，可以并行运行而不被 GIL 影响，只要它们不频繁地与 Python 对象交互。

1.3 重要的 Python 库

考虑到那些还不太了解 Python 科学计算生态系统和库的读者，下面我先对各个库做一个简单的介绍。

NumPy

NumPy（Numerical Python 的简称）是 Python 科学计算的基础包。本书大部分内容都基于 NumPy 以及构建于其上的库。它提供了以下功能（不限于此）：

快速高效的多维数组对象 ndarray。
用于对数组执行元素级计算以及直接对数组执行数学运算的函数。
用于读写硬盘上基于数组的数据集的工具。
线性代数运算、傅里叶变换，以及随机数生成。
- 成熟的 C API，用于 Python 插件和原生 C、C++、Fortran 代码访问 NumPy 的数据结构和计算工具。

除了为 Python 提供快速的数组处理能力，NumPy 在数据分析方面还有另外一个主要作用，即作为在算法和库之间传递数据的容器。对于数值型数据，NumPy 数组在存储和处理数据时要比内置的 Python 数据结构高效得多。此外，由低级语言（比如 C 和 Fortran）编写的库可以直接操作 NumPy 数组中的数据，无需进行任何数据复制工作。因此，许多 Python 的数值计算工具要么使用 NumPy 数组作为主要的数据结构，要么可以与 NumPy 进行无缝交互操作。

pandas

pandas 提供了快速便捷处理结构化数据的大量数据结构和函数。自从 2010 年出现以来，它助使 Python 成为强大而高效的数据分析环境。本书用得最多的 pandas 对象是 DataFrame，它是一个面向列（column-oriented）的二维表结构，另一个是 Series，一个一维的标签化数组对象。

pandas 兼具 NumPy 高性能的数组计算功能以及电子表格和关系型数据库（如 SQL）灵活的数据处理功能。它提供了复杂精细的索引功能，能更加便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。因为数据操作、准备、清洗是数据分析最重要的技能，pandas 是本书的重点。

作为背景，我是在 2008 年初开始开发 pandas 的，那时我任职于 AQR Capital Management，一家量化投资管理公司，我有许多工作需求都不能用任何单一的工具解决：

有标签轴的数据结构，支持自动或清晰的数据对齐。这可以防止由于数据不对齐，或处理来源不同的索引不同的数据，所造成的错误。
集成时间序列功能。
相同的数据结构用于处理时间序列数据和非时间序列数据。
保存元数据的算术运算和压缩。
灵活处理缺失数据。
合并和其它流行数据库（例如基于 SQL 的数据库）的关系操作。

我想只用一种工具就实现所有功能，并使用通用软件开发语言。Python 是一个不错的候选语言，但是此时没有集成的数据结构和工具来实现。我一开始就是想把 pandas 设计为一款适用于金融和商业分析的工具，pandas 专注于深度时间序列功能和工具，适用于时间索引化的数据。

对于使用 R 语言进行统计计算的用户，肯定不会对 DataFrame 这个名字感到陌生，因为它源自于 R 的 data.frame 对象。但与 Python 不同，data frames 是构建于 R 和它的标准库。因此，pandas 的许多功能不属于 R 或它的扩展包。

pandas 这个名字源于 panel data（面板数据，这是多维结构化数据集在计量经济学中的术语）以及 Python data analysis（Python 数据分析）。

matplotlib

matplotlib 是最流行的用于绘制图表和其它二维数据可视化的 Python 库。它最初由 John D.Hunter（JDH）创建，目前由一个庞大的开发团队维护。它非常适合创建出版物上用的图表。虽然还有其它的 Python 可视化库，matplotlib 却是使用最广泛的，并且它和其它生态工具配合也非常完美。我认为，可以使用它作为默认的可视化工具。

IPython 和 Jupyter

IPython 项目起初是 Fernando Pérez 在 2001 年的一个用以加强和 Python 交互的子项目。在随后的 16 年中，它成为了 Python 数据栈最重要的工具之一。虽然 IPython 本身没有提供计算和数据分析的工具，它却可以大大提高交互式计算和软件开发的生产率。IPython 鼓励 “执行 - 探索” 的工作流，区别于其它编程软件的 “编辑 - 编译 - 运行” 的工作流。它还可以方便地访问系统的 shell 和文件系统。因为大部分的数据分析代码包括探索、试错和重复，IPython 可以使工作更快。

2014 年，Fernando 和 IPython 团队宣布了 Jupyter 项目，一个更宽泛的多语言交互计算工具的计划。IPython web notebook 变成了 Jupyter notebook，现在支持 40 种编程语言。IPython 现在可以作为 Jupyter 使用 Python 的内核（一种编程语言模式）。

IPython 变成了 Jupyter 庞大开源项目（一个交互和探索式计算的高效环境）中的一个组件。它最老也是最简单的模式，现在是一个用于编写、测试、调试 Python 代码的强化 shell。你还可以使用通过 Jupyter Notebook，一个支持多种语言的交互式网络代码 “笔记本”，来使用 IPython。IPython shell 和 Jupyter notebooks 特别适合进行数据探索和可视化。

Jupyter notebooks 还可以编写 Markdown 和 HTML 内容，它提供了一种创建代码和文本的富文本方法。其它编程语言也在 Jupyter 中植入了内核，好让在 Jupyter 中可以使用 Python 以外的语言。

对我个人而言，我的大部分 Python 工作都要用到 IPython，包括运行、调试和测试代码。

在本书的 GitHub 页面，你可以找到包含各章节所有代码实例的 Jupyter notebooks。

SciPy

SciPy 是一组专门解决科学计算中各种标准问题域的包的集合，主要包括下面这些包：

scipy.integrate：数值积分例程和微分方程求解器。
scipy.linalg：扩展了由 numpy.linalg 提供的线性代数例程和矩阵分解功能。
scipy.optimize：函数优化器（最小化器）以及根查找算法。
scipy.signal：信号处理工具。
scipy.sparse：稀疏矩阵和稀疏线性系统求解器。
scipy.special：SPECFUN（这是一个实现了许多常用数学函数（如伽玛函数）的 Fortran 库）的包装器。
scipy.stats：标准连续和离散概率分布（如密度函数、采样器、连续分布函数等）、各种统计检验方法，以及更好的描述统计法。

NumPy 和 SciPy 结合使用，便形成了一个相当完备和成熟的计算平台，可以处理多种传统的科学计算问题。

scikit-learn

2010 年诞生以来，scikit-learn 成为了 Python 的通用机器学习工具包。仅仅七年，就汇聚了全世界超过 1500 名贡献者。它的子模块包括：

分类：SVM、近邻、随机森林、逻辑回归等等。
回归：Lasso、岭回归等等。
聚类：k - 均值、谱聚类等等。
降维：PCA、特征选择、矩阵分解等等。
选型：网格搜索、交叉验证、度量。
预处理：特征提取、标准化。

与 pandas、statsmodels 和 IPython 一起，scikit-learn 对于 Python 成为高效数据科学编程语言起到了关键作用。虽然本书不会详细讲解 scikit-learn，我会简要介绍它的一些模型，以及用其它工具如何使用这些模型。

statsmodels

statsmodels 是一个统计分析包，起源于斯坦福大学统计学教授 Jonathan Taylor，他设计了多种流行于 R 语言的回归分析模型。Skipper Seabold 和 Josef Perktold 在 2010 年正式创建了 statsmodels 项目，随后汇聚了大量的使用者和贡献者。受到 R 的公式系统的启发，Nathaniel Smith 发展出了 Patsy 项目，它提供了 statsmodels 的公式或模型的规范框架。

与 scikit-learn 比较，statsmodels 包含经典统计学和经济计量学的算法。包括如下子模块：

回归模型：线性回归，广义线性模型，健壮线性模型，线性混合效应模型等等。
方差分析（ANOVA）。
时间序列分析：AR，ARMA，ARIMA，VAR 和其它模型。
非参数方法：核密度估计，核回归。
统计模型结果可视化。

statsmodels 更关注与统计推断，提供不确定估计和参数 p - 值。相反的，scikit-learn 注重预测。

同 scikit-learn 一样，我也只是简要介绍 statsmodels，以及如何用 NumPy 和 pandas 使用它。

1.4 安装和设置

由于人们用 Python 所做的事情不同，所以没有一个普适的 Python 及其插件包的安装方案。由于许多读者的 Python 科学计算环境都不能完全满足本书的需要，所以接下来我将详细介绍各个操作系统上的安装方法。我推荐免费的 Anaconda 安装包。写作本书时，Anaconda 提供 Python 2.7 和 3.6 两个版本，以后可能发生变化。本书使用的是 Python 3.6，因此推荐选择 Python 3.6 或更高版本。

Windows

要在 Windows 上运行，先下载 Anaconda 安装包。推荐跟随 Anaconda 下载页面的 Windows 安装指导，安装指导在写作本书和读者看到此文的的这段时间内可能发生变化。

现在，来确认设置是否正确。打开命令行窗口（cmd.exe），输入python以打开 Python 解释器。可以看到类似下面的 Anaconda 版本的输出：

C:\Users\wesm>python
Python 3.5.2 |Anaconda 4.1.1 (64-bit)| (default, Jul  5 2016, 11:41:13)
[MSC v.1900 64 bit (AMD64)] on win32
>>>

要退出 shell，按 Ctrl-D（Linux 或 macOS 上），Ctrl-Z（Windows 上），或输入命令exit()，再按 Enter。

Apple (OS X, macOS)

下载 OS X Anaconda 安装包，它的名字类似 Anaconda3-4.1.0-MacOSX-x86_64.pkg。双击. pkg 文件，运行安装包。安装包运行时，会自动将 Anaconda 执行路径添加到.bash_profile文件，它位于/Users/$USER/.bash_profile。

为了确认成功，在系统 shell 打开 IPython：

$ ipython

要退出 shell，按 Ctrl-D，或输入命令exit()，再按 Enter。

GNU/Linux

Linux 版本很多，这里给出 Debian、Ubantu、CentOS 和 Fedora 的安装方法。安装包是一个脚本文件，必须在 shell 中运行。取决于系统是 32 位还是 64 位，要么选择 x86 (32 位) 或 x86_64 (64 位) 安装包。随后你会得到一个文件，名字类似于Anaconda3-4.1.0-Linux-x86_64.sh。用 bash 进行安装：

$ bash Anaconda3-4.1.0-Linux-x86_64.sh

笔记：某些 Linux 版本在包管理器中有满足需求的 Python 包，只需用类似 apt 的工具安装就行。这里讲的用 Anaconda 安装，适用于不同的 Linux 安装包，也很容易将包升级到最新版本。

接受许可之后，会向你询问在哪里放置 Anaconda 的文件。我推荐将文件安装到默认的 home 目录，例如/home/$USER/anaconda。

Anaconda 安装包可能会询问你是否将bin/目录添加到$PATH变量。如果在安装之后有任何问题，你可以修改文件.bashrc（或.zshrc，如果使用的是 zsh shell）为类似以下的内容：

export PATH=/home/$USER/anaconda/bin:$PATH

做完之后，你可以开启一个新窗口，或再次用~/.bashrc执行.bashrc。

安装或升级 Python 包

在你阅读本书的时候，你可能想安装另外的不在 Anaconda 中的 Python 包。通常，可以用以下命令安装：

conda install package_name

如果这个命令不行，也可以用 pip 包管理工具：

pip install package_name

你可以用conda update命令升级包：

conda update package_name

pip 可以用--upgrade升级：

pip install --upgrade package_name

本书中，你有许多机会尝试这些命令。

注意：当你使用 conda 和 pip 二者安装包时，千万不要用 pip 升级 conda 的包，这样会导致环境发生问题。当使用 Anaconda 或 Miniconda 时，最好首先使用 conda 进行升级。

Python 2 和 Python 3

第一版的 Python 3.x 出现于 2008 年。它有一系列的变化，与之前的 Python 2.x 代码有不兼容的地方。因为从 1991 年 Python 出现算起，已经过了 17 年，Python 3 的出现被视为吸取一些列教训的更优结果。

2012 年，因为许多包还没有完全支持 Python 3，许多科学和数据分析社区还是在使用 Python 2.x。因此，本书第一版使用的是 Python 2.7。现在，用户可以在 Python 2.x 和 Python 3.x 间自由选择，二者都有良好的支持。

但是，Python 2.x 在 2020 年就会到期（包括重要的安全补丁），因此再用 Python 2.7 就不是好的选择了。因此，本书使用了 Python 3.6，这一广泛使用、支持良好的稳定版本。我们已经称 Python 2.x 为 “遗留版本”，简称 Python 3.x 为 “Python”。我建议你也是如此。

本书基于 Python 3.6。你的 Python 版本也许高于 3.6，但是示例代码应该是向前兼容的。一些示例代码可能在 Python 2.7 上有所不同，或完全不兼容。

集成开发环境（IDEs）和文本编辑器

当被问到我的标准开发环境，我几乎总是回答 “IPython 加文本编辑器”。我通常在编程时，反复在 IPython 或 Jupyter notebooks 中测试和调试每条代码。也可以交互式操作数据，和可视化验证数据操作中某一特殊集合。在 shell 中使用 pandas 和 NumPy 也很容易。

但是，当创建软件时，一些用户可能更想使用特点更为丰富的 IDE，而不仅仅是原始的 Emacs 或 Vim 的文本编辑器。以下是一些 IDE：

PyDev（免费），基于 Eclipse 平台的 IDE；
JetBrains 的 PyCharm（商业用户需要订阅，开源开发者免费）；
Visual Studio（Windows 用户）的 Python Tools；
Spyder（免费），Anaconda 附带的 IDE；
Komodo IDE（商业）。

因为 Python 的流行，大多数文本编辑器，比如 Atom 和 Sublime Text 3，对 Python 的支持也非常好。

1.5 社区和会议

除了在网上搜索，各式各样的科学和数据相关的 Python 邮件列表是非常有帮助的，很容易获得回答。包括：

pydata：一个 Google 群组列表，用以回答 Python 数据分析和 pandas 的问题；
pystatsmodels： statsmodels 或 pandas 相关的问题；
scikit-learn 和 Python 机器学习邮件列表，[email protected]；
numpy-discussion：和 NumPy 相关的问题；
scipy-user：SciPy 和科学计算的问题；

因为这些邮件列表的 URLs 可以很容易搜索到，但因为可能发生变化，所以没有给出。

每年，世界各地会举办许多 Python 开发者大会。如果你想结识其他有相同兴趣的人，如果可能的话，我建议你去参加一个。许多会议会对无力支付入场费和差旅费的人提供财力帮助。下面是一些会议：

PyCon 和 EuroPython：北美和欧洲的两大 Python 会议；
SciPy 和 EuroSciPy：北美和欧洲两大面向科学计算的会议；
PyData：世界范围内，一些列的地区性会议，专注数据科学和数据分析；
国际和地区的 PyCon 会议（http://pycon.org 有完整列表）。

1.6 本书导航

如果之前从未使用过 Python，那你可能需要先看看本书的第 2 章和第 3 章，我简要介绍了 Python 的特点，IPython 和 Jupyter notebooks。这些知识是为本书后面的内容做铺垫。如果你已经掌握 Python，可以选择跳过。

接下来，简单地介绍了 NumPy 的关键特性，附录 A 中是更高级的 NumPy 功能。然后，我介绍了 pandas，本书剩余的内容全部是使用 pandas、NumPy 和 matplotlib 处理数据分析的问题。我已经尽量让全书的结构循序渐进，但偶尔会有章节之间的交叉，有时用到的概念还没有介绍过。

尽管读者各自的工作任务不同，大体可以分为几类：

与外部世界交互
阅读编写多种文件格式和数据存储；
数据准备
清洗、修改、结合、标准化、重塑、切片、切割、转换数据，以进行分析；
转换数据
对旧的数据集进行数学和统计操作，生成新的数据集（例如，通过各组变量聚类成大的表）；
建模和计算
将数据绑定统计模型、机器学习算法、或其他计算工具；
展示
创建交互式和静态的图表可视化和文本总结。

代码示例

本书大部分代码示例的输入形式和输出结果都会按照其在 IPython shell 或 Jupyter notebooks 中执行时的样子进行排版：

In [5]: CODE EXAMPLE
Out[5]: OUTPUT

但你看到类似的示例代码，就是让你在in的部分输入代码，按 Enter 键执行（Jupyter 中是按 Shift-Enter）。然后就可以在out看到输出。

示例数据

各章的示例数据都存放在 GitHub 上：http://github.com/pydata/pydata-book。下载这些数据的方法有二：使用 git 版本控制命令行程序；直接从网站上下载该 GitHub 库的 zip 文件。如果遇到了问题，可以到我的个人主页，http://wesmckinney.com/，获取最新的指导。

为了让所有示例都能重现，我已经尽我所能使其包含所有必需的东西，但仍然可能会有一些错误或遗漏。如果出现这种情况的话，请给我发邮件：[email protected]。报告本书错误的最好方法是 O’Reilly 的 errata 页面，http://www.bit.ly/pyDataAnalysis_errata。

引入惯例

Python 社区已经广泛采取了一些常用模块的命名惯例：

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import statsmodels as sm

也就是说，当你看到 np.arange 时，就应该想到它引用的是 NumPy 中的 arange 函数。这样做的原因是：在 Python 软件开发过程中，不建议直接引入类似 NumPy 这种大型库的全部内容（from numpy import *）。

行话

由于你可能不太熟悉书中使用的一些有关编程和数据科学方面的常用术语，所以我在这里先给出其简单定义：

数据规整（Munge/Munging/Wrangling）
指的是将非结构化和（或）散乱数据处理为结构化或整洁形式的整个过程。这几个词已经悄悄成为当今数据黑客们的行话了。Munge 这个词跟 Lunge 押韵。

伪码（Pseudocode）
算法或过程的 “代码式” 描述，而这些代码本身并不是实际有效的源代码。

语法糖（Syntactic sugar）
这是一种编程语法，它并不会带来新的特性，但却能使代码更易读、更易写。

本文转自简书，已获作者本人授权，未经本人允许不得私自转载。

作者主页：SeanCheney

你可能感兴趣的:(《利用Python进行数据分析·第2版》第1章准备工作)

flink-cdc实时增量同步mysql数据到elasticsearch 大数据技术派 #Flink elasticsearch flink mysql
什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直
NTIRE比赛：技术前沿、国内企业表现与计算机视觉未来展望 AndrewHZ 深度学习新浪潮计算机视觉人工智能深度学习调研报告算法 NTIRE 画质算法
一、NTIRE比赛概述：图像恢复与增强领域的全球竞技场1.1NTIRE的定位与历史NTIRE（NewTrendsinImageRestorationandEnhancement）是计算机视觉领域最具影响力的国际赛事之一，聚焦于图像恢复与增强技术的前沿探索。自2017年首次举办以来，NTIRE每年与计算机视觉顶会CVPR联合召开，成为学术界与工业界技术实力的重要展示平台。其竞赛内容涵盖图像超分辨率、
中国团体保险行业发展规模及投资发展趋向研究报告2021-2027年 Le9420 电子商务
第1章：中国团体保险行业发展综述1.1团体保险行业定义及特点1.1.1团体保险行业的定义1.1.2团体保险行业产品/业务特点（1）团体保险与个人保险（2）团体保险与社会统筹保险1.2团体保险行业统计标准1.2.1团体保险行业统计口径1.2.2团体保险行业统计方法1.2.3团体保险行业数据种类1.2.4团体保险行业研究范围（1）团体人寿保险（2）团体健康保险（3）团体意外伤害保险第2章：美国团体健康
MySQL保姆级教程（SQL语法基础篇）从小白到高手的进阶指南，收藏这一篇就够了网安导师小李网络安全编程程序员 mysql sql adb 安全 web安全网络自动化
本章节精心构构造SQL语法学习之旅的基石，旨在从基础出发，逐步深入，全面解析SQL语法规则并辅以丰富实例。通过这一篇章，您将循序渐进地掌握MySQL的核心语法，开启数据库操作的新境界。1：SQL语言概述SQL（StructuredQueryLanguage），简称SQL。结构化查询语言包含6个部分：类型释义范例数据查询语言DQL：DataQueryLanguage如SELECT数据操作语言DML：
Golang后端学习笔记 — 6. Golang操作数据库事务的方法宝码 Golang后端学习笔记 golang 数据库事务 postgresql
之前，学习了对数据库的每个表执行CRUD操作。真实的场景中，我们经常需要执行一个事务，它组合了多个表的相关操作。本节学习如何在Golang中实现它。在开始之前，先聊一下事务。什么是数据库事务？它是一个单一的工作单元，通常由多个表操作组成。比如：在我们的小银行项目中，我们要从张三的账户中向李四的账户中转账10元。该交易就包括5个操作，涉及到accounts表、entries表和transfers表：
如何在PHP中实现API版本管理：保持向后兼容性奥顺互联V php php 开发语言
如何在PHP中实现API版本管理：保持向后兼容性在现代Web开发中，API（应用程序编程接口）是连接前端和后端的关键桥梁。随着业务需求的不断变化，API的版本管理变得尤为重要。良好的版本管理策略不仅能够确保新功能的顺利引入，还能保持向后兼容性，避免对现有客户端造成破坏性影响。本文将探讨如何在PHP中实现API版本管理，并保持向后兼容性。1.为什么需要API版本管理？API版本管理的主要目的是在不破
全网精简版js数据结构——排序 ..儒数据结构js javascript 数据结构前端
冒泡排序functionBubbleSort(){const{length}=arrayfor(leti=0;iarr[j+1]){swap(arr,j,j+1)}}}console.log(arry);}functionswap(arry,a,b){consttemp=arry[a]arry[a]=arry[b]arry[b]=temp//或者用[arry[b],arry[a]]=[arry[a
对象的介绍及使用 ..儒 javascript 前端开发语言
对象简介1.对象是什么?对象是一种数据类型无序的数据的集合2.对象有什么特点?无序的数据的集合可以详细的描述描述某个事物对象的使用：用它保存多个数据1.对象声明语法let对象名={} let对象名=newObject()例如：//声明了一个person的对象letperson={}实际开发中，我们多用花括号。{}是对象字面量属性数据描述性的信息称为属性，如人的姓名、身高、年龄、性别等，一般是名词性
数组 + 函数 ..儒数据结构 javascript 前端
数组1.声明语法let数组名=[数据1，数据2，...，数据n]letarr=newArray[数据1，数据2，..数据]例letnames=['小明'，‘小刚'，‘小红'，‘小丽'，‘小米']数组是按顺序保存，所以每个数据都有自己的编号计算机中的编号从0开始，所以小明的编号为0，小刚编号为1，以此类推在数组中，数据的编号也叫索引或下标数组可以存储任意类型的数据2,数组的基本使用一些术语：元素：数
JS: 类型转换 + 运算符 + 循环 ..儒 javascript 开发语言 ecmascript
类型转换一，为什么需要类型转换JavaScript是弱数据类型：JavaScript也不知道变量到底属于那种数据类型，只有赋值了才清楚。坑：使用表单、prompt获取过来的数据默认是字符串类型的，此时就不能直接简单的进行加法运算。console.log（'1000e'+‘2000')//输出结果100002000此时需要转换变量的数据类型。通俗来说，就是把一种数据类型的变量转换成我们需要的数据类型
RoboVQA：机器人多模态长范围推理三谷秋水计算机视觉智能体大模型机器人人工智能机器学习计算机视觉深度学习语言模型
23年11月来自GoogleDeepmind的论文“RoboVQA:MultimodalLong-HorizonReasoningforRobotics”。本文提出一种可扩展、自下而上且本质多样化的数据收集方案，该方案可用于长期和中期的高级推理，与传统的狭窄自上而下的逐步收集相比，其吞吐量提高2.2倍。通过在3栋办公楼内执行任何用户请求并使用多种具身（机器人、人类、带抓取工具的人类）来收集真实数据
【C#实现手写Ollama服务交互，实现本地模型对话】吾与谁归in C#学习 WPF c#Ollama Deepseek 本地模型
前言C#手写Ollama服务交互，实现本地模型对话最近使用C#调用OllamaSharpe库实现Ollama本地对话，然后思考着能否自己实现这个功能。经过一番查找，和查看OllamaSharpe源码发现确实可以。其实就是开启Ollama服务后，发送HTTP请求，获取返回结果以及一些数据处理。基本流程1、启动Ollama服务进程。2、创建HttpClient对象。3、创建请求体（参数:模型名称、提示
深度学习PyTorch之数据加载DataLoader @Mr_LiuYang 计算机视觉基础深度学习 pytorch 人工智能
深度学习pytorch之简单方法自定义9类卷积即插即用文章目录数据加载基础架构1、Dataset类详解2、DataLoader核心参数解析3、数据增强数据加载基础架构核心类关系图torch.utils.data├──Dataset(抽象基类)├──DataLoader(数据加载器)├──Sampler(采样策略)├──BatchSampler(批量采样)└──IterableDataset(流式数
平安养老险陕西分公司启动315金融消费者权益保护教育宣传活动 lsrsyx 金融人工智能大数据
为全面贯彻落实党的二十大和二十届二中、三中全会精神以及中央金融工作会议精神，深刻把握金融工作政治性、人民性，积极践行以人民为中心的价值取向，帮助社会公众增强维护自身合法权益的意识和能力，金融监管总局决定于2025年继续组织开展“3·15”金融消费者权益保护教育宣传活动。平安养老险陕西分公司对本次活动高度重视，积极响应号召，全面开展相关教育宣传活动。紧扣活动主题，积极动员筹备活动筹备期间，平安养老险
Android SDK 环境配置与离线安装问题（校园网） xdjkyb Android android c google microsoft dataset 短网址服务
一、SDK环境配置过程出现的问题：FailedtofetchURLhttp://dl-ssl.google.com/android/repository/addons_list.xml,reason:Filenotfound.这是国内网络和谐掉了google服务器，解决办法：找到c:\windows\system32\drivers\etc下的HOST文件，将：74.125.237.1dl-ssl
Windows Debugging: 解析 c00001a5 异常（Invalid Exception Handler）金士顿 windbg windows
WindowsDebugging:解析c00001a5异常（InvalidExceptionHandler）在调试Windows应用程序时，我们可能会遇到一些棘手的异常错误。其中，0xC00001A5（“Aninvalidexceptionhandlerroutinehasbeendetected”）是一个涉及异常处理错误的问题，通常与无效的SEH（StructuredExceptionHandl
Hive在大数据集群下的部署正在绘制中大数据大数据 hive
hive安装1）把apache-hive-3.1.3-bin.tar.gz上传到Linux的/opt/software目录下2）解压apache-hive-3.1.3-bin.tar.gz到/opt/module/目录下面tar-zxvf/opt/software/apache-hive-3.1.3-bin.tar.gz-C/opt/module/3）修改apache-hive-3.1.3-bin
搭建分布式Hive集群逸曦玥泱大数据运维分布式 hive hadoop
title:搭建分布式Hive集群date:2024-11-2923:39:00categories:-服务器tags:-Hive-大数据搭建分布式Hive集群本次实验环境：Centos7-2009、Hadoop-3.1.4、JDK8、Zookeeper-3.6.3、Mysql-5.7.38、Hive-3.1.2功能规划方案一（本地运行模式）Master主节点（Mysql+Hive）192.168
机试题——农田修复指针从不空 #hw机试题算法 c++
题目描述小明的农田受到地震的破坏，农田中的一些网点断开了联系。假设原本的农田网构成一个矩形，其中未被破坏的网点标记为1，被破坏的网点标记为0。标记为1的网点连在一起构成一个子网。现在，小明需要找到一个目标网点，并找出离它最近的其他子网。请注意，两个网点相连只能通过上下左右四个方向，不可以通过斜对角相连。两个网点的距离定义为从一个网点（假设网点名为C）到达另一个网点（假设网点名为D）需要经过相连网点
卡尔曼滤波算法c语言stm32,卡尔曼滤波算法及C语言实现_源代码 weixin_39643255 卡尔曼滤波算法c语言stm32
a往南向北2019-01-1620:39:2011340收藏111分类专栏：C语言嵌入式文章标签：卡尔曼滤波C代码卡尔曼滤波理论很容易就可以在MATLAB软件环境下实现，但是，实际的硬件板子上还是需要C语言，当然可以自动代码生成，还有一种就是直接手动编写C语言。1.前言在google上搜索卡尔曼滤波，很容易找到以下这个帖子：http://blog.csdn.net/lanbing510/artic
第十章：C++ 标准 weisonx C++全栈知识体系 c++
第十章：C++标准C++语言不断演进，每个新版本都引入了新的特性和改进。本章将详细介绍C++11、C++14、C++17、C++20和C++23的重要特性及其对C++开发的影响。通过对这些标准的学习，读者可以掌握现代C++编程的最新趋势，提高代码的可维护性、性能和可扩展性。10.1C++11：现代C++的开端C++11标准是C++语言历史上的一次重大更新，它引入了大量的新特性，使得C++语言更加现
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
AI人工智能 Agent：电力系统中智能体的应用 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：电力系统中智能体的应用作者：禅与计算机程序设计艺术1.背景介绍1.1电力系统的挑战与机遇电力系统是现代社会运行的基石，其安全、可靠、高效运行对经济发展和人民生活至关重要。近年来，随着可再生能源的快速发展、电力需求的不断增长以及电力市场化的推进，电力系统面临着前所未有的挑战，同时也迎来了新的发展机遇。挑战：可再生能源的波动性和间歇性：太阳能和风能等可再生能源的输出功率受天气条
《算法二》选择排序算法及它的时间复杂度 code 旭算法选择排序算法算法选择排序时间复杂度
1.选择排序算法选择排序算法的时间复杂度为O(N^2)选择排序算法规则：1.指定位置的数和后面的数比较2.如果指定位置的数大，则两个数交换位置3.向后移动一个位置，和指定位置的数进行比较假设数组大小n,第一轮比较n-1次，最小的数排在了最前面第二轮比较，第一个数已经是最小不用比较，此轮比较n-2次，第二小的排在第二个位置。依次类推，最后一轮，一次比较，最后得出有序的数列1.1和冒泡排序算法相比选择
池化的定义与核心思想 code 旭 AI人工智能学习 python numpy 人工智能
一、池化的定义与核心思想定义：池化是卷积神经网络（CNN）中的一种下采样操作，用于降低特征图的空间维度（宽高），保留主要特征。核心目标：减少计算量：缩小特征图尺寸，降低后续层参数规模。增强模型鲁棒性：对微小平移、旋转等变化不敏感。防止过拟合：通过降维减少冗余信息。二、池化的数学公式1.最大池化（MaxPooling）取池化窗口内的最大值：yi,j=max⁡p=0kh−1max⁡q=0kw−1xi⋅
K-means 算法核心原理 code 旭 AI人工智能学习算法 kmeans 机器学习
一、K-means算法核心原理1.算法目标将n个样本划分到k个簇中，使得每个样本到所属簇中心的距离平方和最小。2.数学公式目标函数（SSE，簇内平方误差）：J=∑i=1k∑x∈Ci∥x−μi∥2J=\sum_{i=1}^k\sum_{x\inC_i}\|x-\mu_i\|^2J=i=1∑kx∈Ci∑∥x−μi∥2其中：CiC_iCi表示第iii个簇μi\mu_iμi表示第iii个簇的质心二、算法步
Windows系统下解压".tar"文件出错，提示：无法创建符号链接，可能需要以管理器身份运行winrar ruangaoyan
1、解压文件出错，如下信息：D:\tools\hadoop-3.1.2.tar.gz:无法创建符号链接D:\tools\hadoop-3.1.2\hadoop-3.1.2\lib\native\libhadoop.so您可能需要以管理器身份运行WinRAR!客户端没有所需的特权。2、解决方式如下：WIN+R快捷的打开命令窗口，输入CMD输入：cd/dD:\tools\hadoop-3.1.2这是我
XGBoost常见面试题（五）——模型对比月亮月亮要去太阳机器学习经验分享
XGBoost与GBDT的区别机器学习算法中GBDT和XGBOOST的区别有哪些？-知乎基分类器：传统GBDT以CART树作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。导数：传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。同时xgboo
Kibana 单机与集群部署教程闲人编程大数据集群部署教程大数据集群单机部署 Kibana 日志分析数据可视化
目录Kibana单机与集群部署教程第一部分：Kibana概述第二部分：Kibana单机部署教程1.安装Kibana1.1安装依赖项1.2下载和安装Kibana1.3启动Kibana2.单机案例代码实现（Python）3.常见问题及解决方法3.1无法启动Kibana服务3.2Kibana无法连接到Elasticsearch第三部分：Kibana集群部署教程1.配置集群节点1.1配置Elasticse
JavaScript面试宝典傻小胖 javascript 面试前端
1.JS由哪三部分组成？JavaScript由以下三部分组成：ECMAScript（ES）：JavaScript的核心语法，如变量、作用域、数据类型、函数、对象等。DOM（文档对象模型）：用于操作HTML和XML文档的API，可以动态修改网页内容、结构和样式。BOM（浏览器对象模型）：用于操作浏览器窗口和页面，例如window、navigator、location、history、screen等对
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

《利用Python进行数据分析·第2版》第1章 准备工作