weixin_30909575

PythonProgramming.net Python 金融教程（转）

https://github.com/wizardforcel/data-science-notebook/blob/master/quant/python-programming-net-quant.md

一、入门和获取股票数据

您好，欢迎来到 Python 金融系列教程。在本系列中，我们将使用 Pandas 框架来介绍将金融（股票）数据导入 Python 的基础知识。从这里开始，我们将操纵数据，试图搞出一些公司的投资系统，应用一些机器学习，甚至是一些深度学习，然后学习如何回溯测试一个策略。我假设你知道 Python 基础。如果您不确定，请点击基础链接，查看系列中的一些主题，并进行判断。如果在任何时候你卡在这个系列中，或者对某个主题或概念感到困惑，请随时寻求帮助，我将尽我所能提供帮助。

我被问到的一个常见问题是，我是否使用这些技术投资或交易获利。我主要是为了娱乐，并且练习数据分析技巧而玩财务数据，但实际上这也影响了我今天的投资决策。在写这篇文章的时候，我并没有用编程来进行实时算法交易，但是我已经有了实际的盈利，但是在算法交易方面还有很多工作要做。最后，如何操作和分析财务数据，以及如何测试交易状态的知识已经为我节省了大量的金钱。

这里提出的策略都不会使你成为一个超富有的人。如果他们愿意，我可能会把它们留给自己！然而，知识本身可以为你节省金钱，甚至可以使你赚钱。

好吧，让我们开始吧。首先，我正在使用 Python 3.5，但你应该能够获取更高版本。我会假设你已经安装了Python。如果你没有 64 位的 Python，但有 64 位的操作系统，去获取 64 位的 Python，稍后会帮助你。如果你使用的是 32 位操作系统，那么我对你的情况感到抱歉，不过你应该没问题。

用于启动的所需模块：

NumPy
Matplotlib
Pandas
Pandas-datareader
BeautifulSoup4
scikit-learn / sklearn

这些是现在做的，我们会在其他模块出现时处理它们。首先，让我们介绍一下如何使用 pandas，matplotlib 和 Python 处理股票数据。

如果您想了解 Matplotlib 的更多信息，请查看 Matplotlib 数据可视化系列教程。

如果您想了解 Pandas 的更多信息，请查看 Pandas 数据分析系列教程。

首先，我们将执行以下导入：

import datetime as dt
import matplotlib.pyplot as plt
from matplotlib import style import pandas as pd import pandas_datareader.data as web

Datetime让我们很容易处理日期，matplotlib用于绘图，Pandas 用于操纵数据，pandas_datareader是我写这篇文章时最新的 Pandas io 库。

现在进行一些启动配置：

style.use('ggplot')

start = dt.datetime(2000, 1, 1) end = dt.datetime(2016, 12, 31)

我们正在设置一个风格，所以我们的图表看起来并不糟糕。在金融领域，即使你亏本，你的图表也是非常重要的。接下来，我们设置一个开始和结束datetime 对象，这将是我们要获取股票价格信息的日期范围。

现在，我们可以从这些数据中创建一个数据帧：

df = web.DataReader('TSLA', "yahoo", start, end)

如果您目前不熟悉DataFrame对象，可以查看 Pandas 的教程，或者只是将其想象为电子表格或存储器/ RAM 中的数据库表。这只是一些行和列，并带有一个索引和列名乘。在我们的这里，我们的索引可能是日期。索引应该是与所有列相关的东西。

web.DataReader('TSLA', "yahoo", start, end)这一行，使用pandas_datareader包，寻找股票代码TSLA（特斯拉），从 yahoo 获取信息，从我们选择的起始和结束日期起始或结束。以防你不知道，股票是公司所有权的一部分，代码是用来在证券交易所引用公司的“符号”。大多数代码是 1-4 个字母。

所以现在我们有一个Pandas.DataFrame对象，它包含特斯拉的股票交易信息。让我们看看我们在这里有啥：

print(df.head())

                 Open   High        Low      Close    Volume  Adj Close
Date                                                                   
2010-06-29  19.000000  25.00  17.540001  23.889999  18766300  23.889999
2010-06-30  25.790001  30.42  23.299999  23.830000  17187100  23.830000
2010-07-01  25.000000  25.92  20.270000  21.959999   8218800  21.959999
2010-07-02  23.000000  23.10  18.709999  19.200001   5139800  19.200001
2010-07-06  20.000000  20.00  15.830000  16.110001   6866900  16.110001

.head()是可以用Pandas DataFrames做的事情，它会输出前n行，其中n是你传递的可选参数。如果不传递参数，则默认值为 5。我们绝对会使用.head()来快速浏览一下我们的数据，以确保我们在正路上。看起来很棒！

以防你不知道：

开盘价 - 当股市开盘交易时，一股的价格是多少？
最高价 - 在交易日的过程中，那一天的最高价是多少？
最低价 - 在交易日的过程中，那一天的最低价是多少？
收盘价 - 当交易日结束时，最终的价格是多少？
成交量 - 那一天有多少股交易？

调整收盘价 - 这一个稍微复杂一些，但是随着时间的推移，公司可能决定做一个叫做股票拆分的事情。例如，苹果一旦股价超过 1000 美元就做了一次。由于在大多数情况下，人们不能购买股票的一小部分，股票价格 1000 美元相当限制投资者。公司可以做股票拆分，他们说每股现在是 2 股，价格是一半。任何人如果以 1,000 美元买入 1 股苹果股份，在拆分之后，苹果的股票翻倍，他们将拥有 2 股苹果（AAPL），每股价值 500 美元。调整收盘价是有帮助的，因为它解释了未来的股票分割，并给出分割的相对价格。出于这个原因，调整价格是你最有可能处理的价格。

二、处理数据和绘图

欢迎阅读 Python 金融系列教程的第 2 部分。在本教程中，我们将使用我们的股票数据进一步拆分一些基本的数据操作和可视化。我们将使用的起始代码（在前面的教程中已经介绍过）是：

import datetime as dt
import matplotlib.pyplot as plt
from matplotlib import style import pandas as pd import pandas_datareader.data as web style.use('ggplot') start = dt.datetime(2000,1,1) end = dt.datetime(2016,12,31) df = web.DataReader('TSLA', 'yahoo', start, end)

我们可以用这些DataFrame做些什么？首先，我们可以很容易地将它们保存到各种数据类型中。一个选项是csv：

df.to_csv('TSLA.csv')

我们也可以将数据从 CSV 文件读取到DataFrame中，而不是将数据从 Yahoo 财经 API 读取到DataFrame中：

df = pd.read_csv('tsla.csv', parse_dates=True, index_col=0)

现在，我们可以绘制它：

df.plot()
plt.show()

很酷，尽管我们真正能看到的唯一的东西就是成交量，因为它比股票价格大得多。我们怎么可能仅仅绘制我们感兴趣的东西？

df['Adj Close'].plot()
plt.show()

你可以看到，你可以在DataFrame中引用特定的列，如：df['Adj Close']，但是你也可以一次引用多个，如下所示：

df[['High','Low']]

在下一个教程中，我们将介绍这些数据的一些基本操作，以及一些更基本的可视化。

三、基本的股票数据操作

欢迎阅读 Python 金融系列教程的第 3 部分。在本教程中，我们将使用我们的股票数据进一步拆分一些基本的数据操作和可视化。我们将要使用的起始代码（在前面的教程中已经介绍过）是：

import datetime as dt
import matplotlib.pyplot as plt
from matplotlib import style import pandas as pd import pandas_datareader.data as web style.use('ggplot') df = pd.read_csv('tsla.csv', parse_dates=True, index_col=0)

Pandas 模块配备了一堆可用的内置函数，以及创建自定义 Pandas 函数的方法。稍后我们将介绍一些自定义函数，但现在让我们对这些数据执行一个非常常见的操作：移动均值。

简单移动均值的想法是选取时间窗口，并计算该窗口内的均值。然后我们把这个窗口移动一个周期，然后再做一次。在我们这里，我们将计算 100 天滚动均值。因此，这将选取当前价格和过去 99 天的价格，加起来，除以 100，之后就是当前的 100 天移动均值。然后我们把窗口移动一天，然后再做同样的事情。在 Pandas 中这样做很简单：

df['100ma'] = df['Adj Close'].rolling(window=100).mean()

如果我们有一列叫做100ma，执行df['100ma']允许我们重新定义包含现有列的内容，否则创建一个新列，这就是我们在这里做的。我们说df['100ma']列等同于应用滚动方法的df['Adj Close']列，窗口为 100，这个窗口将是 mean()（均值）操作。

现在，我们执行：

print(df.head())

                  Date       Open   High        Low      Close    Volume  \
Date                                                                       
2010-06-29  2010-06-29  19.000000  25.00  17.540001  23.889999  18766300   
2010-06-30  2010-06-30  25.790001  30.42  23.299999  23.830000  17187100   
2010-07-01  2010-07-01  25.000000  25.92  20.270000  21.959999   8218800   
2010-07-02  2010-07-02  23.000000  23.10  18.709999  19.200001   5139800   
2010-07-06  2010-07-06  20.000000  20.00  15.830000  16.110001   6866900   

            Adj Close  100ma  
Date                          
2010-06-29  23.889999    NaN  
2010-06-30  23.830000    NaN  
2010-07-01  21.959999    NaN  
2010-07-02  19.200001    NaN  
2010-07-06  16.110001    NaN

发生了什么？在100ma列中，我们只看到NaN。我们选择了 100 移动均值，理论上需要 100 个之前的数据点进行计算，所以我们在这里没有任何前 100 行的数据。 NaN的意思是“不是一个数字”。有了 Pandas，你可以决定对缺失数据做很多事情，但现在，我们只需要改变最小周期参数：

                  Date       Open   High        Low      Close    Volume  \
Date                                                                       
2010-06-29  2010-06-29  19.000000  25.00  17.540001  23.889999  18766300   
2010-06-30  2010-06-30  25.790001  30.42  23.299999  23.830000  17187100   
2010-07-01  2010-07-01  25.000000  25.92  20.270000  21.959999   8218800   
2010-07-02  2010-07-02  23.000000  23.10  18.709999  19.200001   5139800   
2010-07-06  2010-07-06  20.000000  20.00  15.830000  16.110001   6866900   

            Adj Close      100ma  
Date                              
2010-06-29  23.889999  23.889999  
2010-06-30  23.830000  23.860000  
2010-07-01  21.959999  23.226666  
2010-07-02  19.200001  22.220000  
2010-07-06  16.110001  20.998000

好吧，可以用，现在我们想看看它！但是我们已经看到了简单的图表，那么稍微复杂一些呢？

ax1 = plt.subplot2grid((6,1), (0,0), rowspan=5, colspan=1) ax2 = plt.subplot2grid((6,1), (5,0), rowspan=1, colspan=1,sharex=ax1)

如果你想了解subplot2grid的更多信息，请查看 Matplotlib 教程的子图部分。

基本上，我们说我们想要创建两个子图，而这两个子图都在6x1的网格中，我们有 6 行 1 列。第一个子图从该网格上的(0,0)开始，跨越 5 行，并跨越 1 列。下一个子图也在6x1网格上，但是从(5,0)开始，跨越 1 行和 1 列。第二个子图带有sharex = ax1，这意味着ax2的x轴将始终与ax1的x轴对齐，反之亦然。现在我们只是绘制我们的图形：

ax1.plot(df.index, df['Adj Close'])
ax1.plot(df.index, df['100ma']) ax2.bar(df.index, df['Volume']) plt.show()

在上面，我们在第一个子图中绘制了的close和100ma，第二个图中绘制volume。我们的结果：

到这里的完整代码：

import datetime as dt
import matplotlib.pyplot as plt
from matplotlib import style import pandas as pd import pandas_datareader.data as web style.use('ggplot') df = pd.read_csv('tsla.csv', parse_dates=True, index_col=0) df['100ma'] = df['Adj Close'].rolling(window=100, min_periods=0).mean() print(df.head()) ax1 = plt.subplot2grid((6,1), (0,0), rowspan=5, colspan=1) ax2 = plt.subplot2grid((6,1), (5,0), rowspan=1, colspan=1, sharex=ax1) ax1.plot(df.index, df['Adj Close']) ax1.plot(df.index, df['100ma']) ax2.bar(df.index, df['Volume']) plt.show()

在接下来的几个教程中，我们将学习如何通过 Pandas 数据重采样制作烛台图，并学习更多使用 Matplotlib 的知识。

四、更多股票操作

欢迎阅读 Python 金融教程系列的第 4 部分。在本教程中，我们将基于Adj Close列创建烛台/ OHLC 图，我将介绍重新采样和其他一些数据可视化概念。

名为烛台图的 OHLC 图是一个图表，将开盘价，最高价，最低价和收盘价都汇总成很好的格式。并且它使用漂亮的颜色，还记得我告诉你有关漂亮的图表的事情嘛？

之前的教程中，目前为止的起始代码：

import datetime as dt
import matplotlib.pyplot as plt
from matplotlib import style import pandas as pd import pandas_datareader.data as web style.use('ggplot') df = pd.read_csv('tsla.csv', parse_dates=True, index_col=0)

不幸的是，即使创建 OHLC 数据是这样，Pandas 没有内置制作烛台图的功能。有一天，我确信这个图表类型将会可用，但是，现在不是。没关系，我们会实现它！首先，我们需要做两个新的导入：

from matplotlib.finance import candlestick_ohlc
import matplotlib.dates as mdates

第一个导入是来自 matplotlib 的 OHLC 图形类型，第二个导入是特殊的mdates类型，它在对接中是个麻烦，但这是 matplotlib 图形的日期类型。 Pandas 自动为你处理，但正如我所说，我们没有那么方便的烛台。

首先，我们需要适当的 OHLC 数据。我们目前的数据确实有 OHLC 值，除非我错了，特斯拉从未有过拆分，但是你不会总是这么幸运。因此，我们将创建我们自己的 OHLC 数据，这也将使我们能够展示来自 Pandas 的另一个数据转换：

df_ohlc = df['Adj Close'].resample('10D').ohlc()

我们在这里所做的是，创建一个新的数据帧，基于df ['Adj Close']列，使用 10 天窗口重采样，并且重采样是一个 OHLC（开高低关）。我们也可以用.mean()或.sum()计算 10 天的均值，或 10 天的总和。请记住，这 10 天的均值是 10 天均值，而不是滚动均值。由于我们的数据是每日数据，重采样到 10 天的数据有效地缩小了我们的数据大小。这就是你规范多个数据集的方式。有时候，您可能会在每个月的第一天记录一次数据，在每个月末记录其他数据，最后每周记录一些数据。您可以将该数据帧重新采样到月底，并有效地规范化所有东西！这是一个更先进的 Padas 功能，如果你喜欢，你可以更多了解 Pandas 的序列。

我们想要绘制烛台数据以及成交量数据。我们不需要将成交量数据重采样，但是我们应该这样做，因为与我们的10D价格数据相比，这个数据太细致了。

df_volume = df['Volume'].resample('10D').sum()

我们在这里使用sum，因为我们真的想知道在这 10 天内交易总量，但也可以用平均值。现在如果我们这样做：

print(df_ohlc.head())

                 open       high        low      close
Date                                                  
2010-06-29  23.889999  23.889999  15.800000  17.459999
2010-07-09  17.400000  20.639999  17.049999  20.639999
2010-07-19  21.910000  21.910000  20.219999  20.719999
2010-07-29  20.350000  21.950001  19.590000  19.590000
2010-08-08  19.600000  19.600000  17.600000  19.150000

这是预期，但是，我们现在要将这些信息移动到 matplotlib，并将日期转换为mdates版本。由于我们只是要在 Matplotlib 中绘制列，我们实际上不希望日期成为索引，所以我们可以这样做：

df_ohlc = df_ohlc.reset_index()

现在dates 只是一个普通的列。接下来，我们要转换它：

df_ohlc['Date'] = df_ohlc['Date'].map(mdates.date2num)

现在我们打算配置图形：

fig = plt.figure()
ax1 = plt.subplot2grid((6,1), (0,0), rowspan=5, colspan=1) ax2 = plt.subplot2grid((6,1), (5,0), rowspan=1, colspan=1,sharex=ax1) ax1.xaxis_date()

除了ax1.xaxis_date()之外，你已经看到了一切。这对我们来说，是把轴从原始的mdate数字转换成日期。

现在我们可以绘制烛台图：

candlestick_ohlc(ax1, df_ohlc.values, width=2, colorup='g')

之后是成交量：

ax2.fill_between(df_volume.index.map(mdates.date2num),df_volume.values,0)

fill_between函数将绘制x，y，然后填充之间的内容。在我们的例子中，我们选择 0。

plt.show()

这个教程的完整代码：

import datetime as dt
import matplotlib.pyplot as plt
from matplotlib import style from matplotlib.finance import candlestick_ohlc import matplotlib.dates as mdates import pandas as pd import pandas_datareader.data as web style.use('ggplot') df = pd.read_csv('tsla.csv', parse_dates=True, index_col=0) df_ohlc = df['Adj Close'].resample('10D').ohlc() df_volume = df['Volume'].resample('10D').sum() df_ohlc.reset_index(inplace=True) df_ohlc['Date'] = df_ohlc['Date'].map(mdates.date2num) ax1 = plt.subplot2grid((6,1), (0,0), rowspan=5, colspan=1) ax2 = plt.subplot2grid((6,1), (5,0), rowspan=1, colspan=1, sharex=ax1) ax1.xaxis_date() candlestick_ohlc(ax1, df_ohlc.values, width=5, colorup='g') ax2.fill_between(df_volume.index.map(mdates.date2num), df_volume.values, 0) plt.show()

在接下来的几个教程中，我们将把可视化留到后面一些，然后专注于获取并处理数据。

五、自动获取 SP500 列表

欢迎阅读 Python 金融教程系列的第 5 部分。在本教程和接下来的几章中，我们将着手研究如何能够获取大量价格信息，以及如何一次处理所有这些数据。

首先，我们需要一个公司名单。我可以给你一个清单，但实际上获得股票清单可能只是你可能遇到的许多挑战之一。在我们的案例中，我们需要一个 SP500 公司的 Python 列表。

无论您是在寻找道琼斯公司，SP500 指数还是罗素 3000 指数，这些公司的信息都有可能在某个地方发布。您需要确保它是最新的，但是它可能还不是完美的格式。在我们的例子中，我们将从维基百科获取这个列表：http://en.wikipedia.org/wiki/List_of_S%26P_500_companies。

维基百科中的代码/符号组织在一张表里面。为了解决这个问题，我们将使用 HTML 解析库，Beautiful Soup。如果你想了解更多，我有一个使用 Beautiful Soup 进行网页抓取的简短的四部分教程。

首先，我们从一些导入开始：

import bs4 as bs
import pickle
import requests

bs4是 Beautiful Soup，pickle 是为了我们可以很容易保存这个公司的名单，而不是每次我们运行时都访问维基百科（但要记住，你需要及时更新这个名单！），我们将使用 requests 从维基百科页面获取源代码。

这是我们函数的开始：

def save_sp500_tickers():
    resp = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies') soup = bs.BeautifulSoup(resp.text, 'lxml') table = soup.find('table', {'class': 'wikitable sortable'})

首先，我们访问维基百科页面，并获得响应，其中包含我们的源代码。为了处理源代码，我们想要访问.text属性，我们使用 BeautifulSoup 将其转为soup。如果您不熟悉 BeautifulSoup 为您所做的工作，它基本上将源代码转换为一个 BeautifulSoup 对象，马上就可以看做一个典型的 Python 对象。

有一次维基百科试图拒绝 Python 的访问。目前，在我写这篇文章的时候，代码不改变协议头也能工作。如果您发现原始源代码（resp.text）似乎不返回相同的页面，像您在家用计算机上看到的那样，请添加以下内容并更改resp var代码：

    headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.27 Safari/537.17'} resp = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies', headers=headers)

一旦我们有了soup，我们可以通过简单地搜索wikitable sortable类来找到股票数据表。我知道指定这个表的唯一原因是，因为我之前在浏览器中查看了源代码。可能会有这样的情况，你想解析一个不同的网站的股票列表，也许它是在一个表中，也可能是一个列表，或者可能是一些div标签。这都是一个非常具体的解决方案。从这里开始，我们仅仅遍历表格：

    tickers = []
    for row in table.findAll('tr')[1:]: ticker = row.findAll('td')[0].text tickers.append(ticker)

对于每一行，在标题行之后（这就是为什么我们要执行[1:]），我们说股票是“表格数据”（td），我们抓取它的.text，将此代码添加到我们的列表中。

现在，如果我们可以保存这个列表，那就好了。我们将使用pickle模块来为我们序列化 Python 对象。

    with open("sp500tickers.pickle","wb") as f: pickle.dump(tickers,f) return tickers

我们希望继续并保存它，因此我们无需每天多次请求维基百科。在任何时候，我们可以更新这个清单，或者我们可以编程一个月检查一次...等等。

目前为止的完整代码：

import bs4 as bs
import pickle
import requests

def save_sp500_tickers(): resp = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies') soup = bs.BeautifulSoup(resp.text, 'lxml') table = soup.find('table', {'class': 'wikitable sortable'}) tickers = [] for row in table.findAll('tr')[1:]: ticker = row.findAll('td')[0].text tickers.append(ticker) with open("sp500tickers.pickle","wb") as f: pickle.dump(tickers,f) return tickers save_sp500_tickers()

现在我们已经知道了代码，我们已经准备好提取所有的信息，这是我们将在下一个教程中做的事情。

六、获取 SP500 中所有公司的价格数据

欢迎阅读 Python 金融教程系列的第 6 部分。在之前的 Python 教程中，我们介绍了如何获取我们感兴趣的公司名单（在我们的案例中是 SP500），现在我们将获取所有这些公司的股票价格数据。

目前为止的代码：

def save_sp500_tickers():
    resp = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies') soup = bs.BeautifulSoup(resp.text, 'lxml') table = soup.find('table', {'class': 'wikitable sortable'}) tickers = [] for row in table.findAll('tr')[1:]: ticker = row.findAll('td')[0].text tickers.append(ticker) with open("sp500tickers.pickle","wb") as f: pickle.dump(tickers,f) return tickers

我们打算添加一些新的导入：

import datetime as dt
import os
import pandas as pd
import pandas_datareader.data as web

我们将使用datetime为 Pandas datareader指定日期，os用于检查并创建目录。你已经知道 Pandas 干什么了！

我们的新函数的开始：

def get_data_from_yahoo(reload_sp500=False):
    
    if reload_sp500: tickers = save_sp500_tickers() else: with open("sp500tickers.pickle","rb") as f: tickers = pickle.load(f)

在这里，我将展示一个简单示例，可以处理是否重新加载 SP500 列表。如果我们让它这样，这个程序将重新抓取 SP500，否则将只使用我们的pickle。现在我们准备抓取数据。

现在我们需要决定我们要处理的数据。我倾向于尝试解析网站一次，并在本地存储数据。我不会事先知道我可能用数据做的所有事情，但是我知道如果我不止一次地抓取它，我还可以保存它（除非它是一个巨大的数据集，但不是）。因此，对于每一种股票，我们抓取所有雅虎可以返回给我们的东西，并保存下来。为此，我们将创建一个新目录，并在那里存储每个公司的股票数据。首先，我们需要这个初始目录：

    if not os.path.exists('stock_dfs'):
        os.makedirs('stock_dfs')

您可以将这些数据集存储在与您的脚本相同的目录中，但在我看来，这会变得非常混乱。现在我们准备好提取数据了。你已经知道如何实现，我们在第一个教程中完成了！

    start = dt.datetime(2000, 1, 1)
    end = dt.datetime(2016, 12, 31) for ticker in tickers: if not os.path.exists('stock_dfs/{}.csv'.format(ticker)): df = web.DataReader(ticker, "yahoo", start, end) df.to_csv('stock_dfs/{}.csv'.format(ticker)) else: print('Already have {}'.format(ticker))

你可能想要为这个函数传入force_data_update参数，因为现在它不会重新提取它已经访问的数据。由于我们正在提取每日数据，所以您最好至少重新提取最新的数据。也就是说，如果是这样的话，最好对每个公司使用数据库而不是表格，然后从 Yahoo 数据库中提取最新的值。但是现在我们会保持简单！

目前为止的代码：

import bs4 as bs
import datetime as dt
import os
import pandas as pd import pandas_datareader.data as web import pickle import requests def save_sp500_tickers(): resp = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies') soup = bs.BeautifulSoup(resp.text, 'lxml') table = soup.find('table', {'class': 'wikitable sortable'}) tickers = [] for row in table.findAll('tr')[1:]: ticker = row.findAll('td')[0].text tickers.append(ticker) with open("sp500tickers.pickle","wb") as f: pickle.dump(tickers,f) return tickers #save_sp500_tickers() def get_data_from_yahoo(reload_sp500=False): if reload_sp500: tickers = save_sp500_tickers() else: with open("sp500tickers.pickle","rb") as f: tickers = pickle.load(f) if not os.path.exists('stock_dfs'): os.makedirs('stock_dfs') start = dt.datetime(2000, 1, 1) end = dt.datetime(2016, 12, 31) for ticker in tickers: # just in case your connection breaks, we'd like to save our progress! if not os.path.exists('stock_dfs/{}.csv'.format(ticker)): df = web.DataReader(ticker, "yahoo", start, end) df.to_csv('stock_dfs/{}.csv'.format(ticker)) else: print('Already have {}'.format(ticker)) get_data_from_yahoo()

运行它。如果雅虎阻拦你的话，你可能想添加import time和time.sleep(0.5)或一些东西。在我写这篇文章的时候，雅虎并没有阻拦我，我能够毫无问题地完成这个任务。但是这可能需要你一段时间，尤其取决于你的机器。好消息是，我们不需要再做一遍！同样在实践中，因为这是每日数据，但是您可能每天都执行一次。

另外，如果你的互联网速度很慢，你不需要获取所有的代码，即使只有 10 个就足够了，所以你可以用ticker [:10]或者类似的东西来加快速度。

在下一个教程中，一旦你下载了数据，我们将把我们感兴趣的数据编译成一个大的 PandasDataFrame。

七、将所有 SP500 价格组合到一个`DataFrame`

欢迎阅读 Python 金融系列教程的第 7 部分。在之前的教程中，我们抓取了整个 SP500 公司的雅虎财经数据。在本教程中，我们将把这些数据放在一个DataFrame中。

目前为止的代码：

import bs4 as bs
import datetime as dt
import os
import pandas as pd import pandas_datareader.data as web import pickle import requests def save_sp500_tickers(): resp = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies') soup = bs.BeautifulSoup(resp.text, 'lxml') table = soup.find('table', {'class': 'wikitable sortable'}) tickers = [] for row in table.findAll('tr')[1:]: ticker = row.findAll('td')[0].text tickers.append(ticker) with open("sp500tickers.pickle","wb") as f: pickle.dump(tickers,f) return tickers def get_data_from_yahoo(reload_sp500=False): if reload_sp500: tickers = save_sp500_tickers() else: with open("sp500tickers.pickle","rb") as f: tickers = pickle.load(f) if not os.path.exists('stock_dfs'): os.makedirs('stock_dfs') start = dt.datetime(2000, 1, 1) end = dt.datetime(2016, 12, 31) for ticker in tickers: # just in case your connection breaks, we'd like to save our progress! if not os.path.exists('stock_dfs/{}.csv'.format(ticker)): df = web.DataReader(ticker, "yahoo", start, end) df.to_csv('stock_dfs/{}.csv'.format(ticker)) else: print('Already have {}'.format(ticker))

虽然我们拥有了所有的数据，但是我们可能要一起评估数据。为此，我们将把所有的股票数据组合在一起。目前的每个股票文件都带有：开盘价，最高价，最低价，收盘价，成交量和调整收盘价。至少在最开始，我们现在几乎只对调整收盘价感兴趣。

def compile_data():
    with open("sp500tickers.pickle","rb") as f: tickers = pickle.load(f) main_df = pd.DataFrame()

首先，我们获取我们以前生成的代码，并从一个叫做main_df的空DataFrame开始。现在，我们准备读取每个股票的数据帧：

    for count,ticker in enumerate(tickers):
        df = pd.read_csv('stock_dfs/{}.csv'.format(ticker)) df.set_index('Date', inplace=True)

您不需要在这里使用 Python 的enumerate ，我只是使用它，以便知道我们在读取所有数据的过程中的哪里。你可以迭代代码。到了这里，我们可以使用有趣的数据来生成额外的列，如：

        df['{}_HL_pct_diff'.format(ticker)] = (df['High'] - df['Low']) / df['Low'] df['{}_daily_pct_chng'.format(ticker)] = (df['Close'] - df['Open']) / df['Open']

但是现在，我们不会因此而烦恼。只要知道这可能是一条遵循之路。相反，我们真的只是对Adj Close列感兴趣：

        df.rename(columns={'Adj Close':ticker}, inplace=True) df.drop(['Open','High','Low','Close','Volume'],1,inplace=True)

现在我们已经得到了这一列（或者像上面那样的额外列，但是请记住，在这个例子中，我们没有计算HL_pct_diff或daily_pct_chng）。请注意，我们已将Adj Close列重命名为任何股票名称。我们开始构建共享数据帧：

        if main_df.empty:
            main_df = df
        else:
            main_df = main_df.join(df, how='outer')

如果main_df中没有任何内容，那么我们将从当前的df开始，否则我们将使用 Pandas 的join。

仍然在这个for循环中，我们将添加两行：

        if count % 10 == 0:
            print(count)

这将只输出当前的股票数量，如果它可以被 10 整除。count % 10计算被除数除以 10 的余数。所以，如果我们计算count % 10 == 0，并且如果当前计数能被 10 整除，余数为零，我们只有看到if语句为真。

我们完成了for循环的时候：

    print(main_df.head())
    main_df.to_csv('sp500_joined_closes.csv')

目前为止的函数及其调用：

    with open("sp500tickers.pickle","rb") as f: tickers = pickle.load(f) main_df = pd.DataFrame() for count,ticker in enumerate(tickers): df = pd.read_csv('stock_dfs/{}.csv'.format(ticker)) df.set_index('Date', inplace=True) df.rename(columns={'Adj Close':ticker}, inplace=True) df.drop(['Open','High','Low','Close','Volume'],1,inplace=True) if main_df.empty: main_df = df else: main_df = main_df.join(df, how='outer') if count % 10 == 0: print(count) print(main_df.head()) main_df.to_csv('sp500_joined_closes.csv') compile_data()

目前为止的完整代码：

import bs4 as bs
import datetime as dt
import os
import pandas as pd import pandas_datareader.data as web import pickle import requests def save_sp500_tickers(): resp = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies') soup = bs.BeautifulSoup(resp.text, 'lxml') table = soup.find('table', {'class': 'wikitable sortable'}) tickers = [] for row in table.findAll('tr')[1:]: ticker = row.findAll('td')[0].text tickers.append(ticker) with open("sp500tickers.pickle","wb") as f: pickle.dump(tickers,f) return tickers def get_data_from_yahoo(reload_sp500=False): if reload_sp500: tickers = save_sp500_tickers() else: with open("sp500tickers.pickle","rb") as f: tickers = pickle.load(f) if not os.path.exists('stock_dfs'): os.makedirs('stock_dfs') start = dt.datetime(2000, 1, 1) end = dt.datetime(2016, 12, 31) for ticker in tickers: # just in case your connection breaks, we'd like to save our progress! if not os.path.exists('stock_dfs/{}.csv'.format(ticker)): df = web.DataReader(ticker, "yahoo", start, end) df.to_csv('stock_dfs/{}.csv'.format(ticker)) else: print('Already have {}'.format(ticker)) def compile_data(): with open("sp500tickers.pickle","rb") as f: tickers = pickle.load(f) main_df = pd.DataFrame() for count,ticker in enumerate(tickers): df = pd.read_csv('stock_dfs/{}.csv'.format(ticker)) df.set_index('Date', inplace=True) df.rename(columns={'Adj Close':ticker}, inplace=True) df.drop(['Open','High','Low','Close','Volume'],1,inplace=True) if main_df.empty: main_df = df else: main_df = main_df.join(df, how='outer') if count % 10 == 0: print(count) print(main_df.head()) main_df.to_csv('sp500_joined_closes.csv') compile_data()

在下一个教程中，我们将尝试查看，是否可以快速找到数据中的任何关系。

八、创建大型 SP500 公司相关性表

欢迎阅读 Python 金融教程系列的第 8 部分。在之前的教程中，我们展示了如何组合 SP500 公司的所有每日价格数据。在本教程中，我们将看看是否可以找到任何有趣的关联数据。为此，我们希望将其可视化，因为它是大量数据。我们将使用 Matplotlib，以及 Numpy。

目前为止的代码：

import bs4 as bs
import datetime as dt
import os
import pandas as pd import pandas_datareader.data as web import pickle import requests def save_sp500_tickers(): resp = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies') soup = bs.BeautifulSoup(resp.text, 'lxml') table = soup.find('table', {'class': 'wikitable sortable'}) tickers = [] for row in table.findAll('tr')[1:]: ticker = row.findAll('td')[0].text tickers.append(ticker) with open("sp500tickers.pickle","wb") as f: pickle.dump(tickers,f) return tickers def get_data_from_yahoo(reload_sp500=False): if reload_sp500: tickers = save_sp500_tickers() else: with open("sp500tickers.pickle","rb") as f: tickers = pickle.load(f) if not os.path.exists('stock_dfs'): os.makedirs('stock_dfs') start = dt.datetime(2000, 1, 1) end = dt.datetime(2016, 12, 31) for ticker in tickers: # just in case your connection breaks, we'd like to save our progress! if not os.path.exists('stock_dfs/{}.csv'.format(ticker)): df = web.DataReader(ticker, "yahoo", start, end) df.to_csv('stock_dfs/{}.csv'.format(ticker)) else: print('Already have {}'.format(ticker)) def compile_data(): with open("sp500tickers.pickle","rb") as f: tickers = pickle.load(f) main_df = pd.DataFrame() for count,ticker in enumerate(tickers): df = pd.read_csv('stock_dfs/{}.csv'.format(ticker)) df.set_index('Date', inplace=True) df.rename(columns={'Adj Close':ticker}, inplace=True) df.drop(['Open','High','Low','Close','Volume'],1,inplace=True) if main_df.empty: main_df = df else: main_df = main_df.join(df, how='outer') if count % 10 == 0: print(count) print(main_df.head()) main_df.to_csv('sp500_joined_closes.csv') compile_data()

现在我们打算添加下列导入并设置样式：

import matplotlib.pyplot as plt
from matplotlib import style
import numpy as np style.use('ggplot')

下面我们开始构建 Matplotlib 函数：

def visualize_data():
    df = pd.read_csv('sp500_joined_closes.csv')

到了这里，我们可以绘制任何公司：

    df['AAPL'].plot()
    plt.show()

...但是我们没有浏览所有东西，就绘制单个公司！相反，让我们来看看所有这些公司的相关性。在 Pandas 中建立相关性表实际上是非常简单的：

    df_corr = df.corr()
    print(df_corr.head())

这就是它了。.corr()会自动查看整个DataFrame，并确定每列与每列的相关性。我已经看到付费的网站也把它做成服务。所以，如果你需要一些副业的话，那么你可以用它！

我们当然可以保存这个，如果我们想要的话：

    df_corr.to_csv('sp500corr.csv')

相反，我们要绘制它。为此，我们要生成一个热力图。 Matplotlib 中没有内置超级简单的热力图，但我们有工具可以制作。为此，首先我们需要实际的数据来绘制：

    data1 = df_corr.values

这会给我们这些数值的 NumPy 数组，它们是相关性的值。接下来，我们将构建我们的图形和坐标轴：

    fig1 = plt.figure()
    ax1 = fig1.add_subplot(111)

现在我们使用pcolor来绘制热力图：

    heatmap1 = ax1.pcolor(data1, cmap=plt.cm.RdYlGn)

这个热力图使用一系列的颜色来制作，这些颜色可以是任何东西到任何东西的范围，颜色比例由我们使用的cmap生成。你可以在这里找到颜色映射的所有选项。我们将使用RdYlGn，它是一个颜色映射，低端为红色，中间为黄色，较高部分为绿色，这将负相关表示为红色，正相关为绿色，无关联为黄色。我们将添加一个边栏，是个作为“比例尺”的颜色条：

    fig1.colorbar(heatmap1)

接下来，我们将设置我们的x和y轴刻度，以便我们知道哪个公司是哪个，因为现在我们只是绘制了数据：

    ax1.set_xticks(np.arange(data1.shape[1]) + 0.5, minor=False) ax1.set_yticks(np.arange(data1.shape[0]) + 0.5, minor=False)

这样做只是为我们创建刻度。我们还没有任何标签。

现在我们添加：

    ax1.invert_yaxis()
    ax1.xaxis.tick_top()

这会翻转我们的yaxis，所以图形更容易阅读，因为x和y之间会有一些空格。一般而言，matplotlib 会在图的一端留下空间，因为这往往会使图更容易阅读，但在我们的情况下，却没有。然后我们也把xaxis翻转到图的顶部，而不是传统的底部，同样使这个更像是相关表应该的样子。现在我们实际上将把公司名称添加到当前没有名字的刻度中：

    column_labels = df_corr.columns
    row_labels = df_corr.index
    ax1.set_xticklabels(column_labels)
    ax1.set_yticklabels(row_labels)

在这里，我们可以使用两边完全相同的列表，因为column_labels和row_lables应该是相同的列表。但是，对于所有的热力图而言，这并不总是正确的，所以我决定将其展示为，数据帧的任何热力图的正确方法。最后：

    plt.xticks(rotation=90)
    heatmap1.set_clim(-1,1) plt.tight_layout() #plt.savefig("correlations.png", dpi = (300)) plt.show()

我们旋转xticks，这实际上是代码本身，因为通常他们会超出区域。我们在这里有超过 500 个标签，所以我们要将他们旋转 90 度，所以他们是垂直的。这仍然是一个图表，它太大了而看不清所有东西，但没关系。 heatmap1.set_clim(-1,1)那一行只是告诉colormap，我们的范围将从-1变为正1。应该已经是这种情况了，但是我们想确定一下。没有这一行，它应该仍然是你的数据集的最小值和最大值，所以它本来是非常接近的。

所以我们完成了！到目前为止的函数：

def visualize_data():
    df = pd.read_csv('sp500_joined_closes.csv') #df['AAPL'].plot() #plt.show() df_corr = df.corr() print(df_corr.head()) df_corr.to_csv('sp500corr.csv') data1 = df_corr.values fig1 = plt.figure() ax1 = fig1.add_subplot(111) heatmap1 = ax1.pcolor(data1, cmap=plt.cm.RdYlGn) fig1.colorbar(heatmap1) ax1.set_xticks(np.arange(data1.shape[1]) + 0.5, minor=False) ax1.set_yticks(np.arange(data1.shape[0]) + 0.5, minor=False) ax1.invert_yaxis() ax1.xaxis.tick_top() column_labels = df_corr.columns row_labels = df_corr.index ax1.set_xticklabels(column_labels) ax1.set_yticklabels(row_labels) plt.xticks(rotation=90) heatmap1.set_clim(-1,1) plt.tight_layout() #plt.savefig("correlations.png", dpi = (300)) plt.show() visualize_data()

以及目前为止的完整代码：

import bs4 as bs
import datetime as dt
import matplotlib.pyplot as plt from matplotlib import style import numpy as np import os import pandas as pd import pandas_datareader.data as web import pickle import requests style.use('ggplot') def save_sp500_tickers(): resp = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies') soup = bs.BeautifulSoup(resp.text, 'lxml') table = soup.find('table', {'class': 'wikitable sortable'}) tickers = [] for row in table.findAll('tr')[1:]: ticker = row.findAll('td')[0].text tickers.append(ticker) with open("sp500tickers.pickle","wb") as f: pickle.dump(tickers,f) return tickers def get_data_from_yahoo(reload_sp500=False): if reload_sp500: tickers = save_sp500_tickers() else: with open("sp500tickers.pickle","rb") as f: tickers = pickle.load(f) if not os.path.exists('stock_dfs'): os.makedirs('stock_dfs') start = dt.datetime(2000, 1, 1) end = dt.datetime(2016, 12, 31) for ticker in tickers: # just in case your connection breaks, we'd like to save our progress! if not os.path.exists('stock_dfs/{}.csv'.format(ticker)): df = web.DataReader(ticker, "yahoo", start, end) df.to_csv('stock_dfs/{}.csv'.format(ticker)) else: print('Already have {}'.format(ticker)) def compile_data(): with open("sp500tickers.pickle","rb") as f: tickers = pickle.load(f) main_df = pd.DataFrame() for count,ticker in enumerate(tickers): df = pd.read_csv('stock_dfs/{}.csv'.format(ticker)) df.set_index('Date', inplace=True) df.rename(columns={'Adj Close':ticker}, inplace=True) df.drop(['Open','High','Low','Close','Volume'],1,inplace=True) if main_df.empty: main_df = df else: main_df = main_df.join(df, how='outer') if count % 10 == 0: print(count) print(main_df.head()) main_df.to_csv('sp500_joined_closes.csv') def visualize_data(): df = pd.read_csv('sp500_joined_closes.csv') #df['AAPL'].plot() #plt.show() df_corr = df.corr() print(df_corr.head()) df_corr.to_csv('sp500corr.csv') data1 = df_corr.values fig1 = plt.figure() ax1 = fig1.add_subplot(111) heatmap1 = ax1.pcolor(data1, cmap=plt.cm.RdYlGn) fig1.colorbar(heatmap1) ax1.set_xticks(np.arange(data1.shape[1]) + 0.5, minor=False) ax1.set_yticks(np.arange(data1.shape[0]) + 0.5, minor=False) ax1.invert_yaxis() ax1.xaxis.tick_top() column_labels = df_corr.columns row_labels = df_corr.index ax1.set_xticklabels(column_labels) ax1.set_yticklabels(row_labels) plt.xticks(rotation=90) heatmap1.set_clim(-1,1) plt.tight_layout() #plt.savefig("correlations.png", dpi = (300)) plt.show() visualize_data()

我们的劳动果实：

这是很大一个果实。

所以我们可以使用放大镜来放大：

如果你单击它，你可以单击并拖动要放大的框。这个图表上的框很难看清楚，只知道它在那里。点击，拖动，释放，你应该放大了，看到像这样的东西：

你可以从这里移动，使用十字箭头按钮：

您也可以通过点击主屏幕按钮返回到原始的完整图形。您也可以使用前进和后退按钮“前进”和“后退”到前一个视图。您可以通过点击软盘来保存它。我想知道我们使用软盘的图像来描绘保存东西，有多久了。多久之后人们完全不知道软盘是什么？

好吧，看看相关性，我们可以看到有很多关系。毫不奇怪，大多数公司正相关。有相当多的公司与其他公司有很强的相关性，还有相当多的公司是非常负相关的。甚至有一些公司与大多数公司呈负相关。我们也可以看到有很多公司完全没有关联。机会就是，投资于一群长期以来没有相关性的公司，将是一个多元化的合理方式，但我们现在还不知道。

不管怎样，这个数据已经有很多关系了。人们必须怀疑，一台机器是否能够纯粹依靠这些关系来识别和交易。我们可以轻松成为百万富豪吗？！我们至少可以试试！

九、处理数据，为机器学习做准备

欢迎阅读 Python 金融教程系列的第 9 部分。在之前的教程中，我们介绍了如何拉取大量公司的股票价格数据，如何将这些数据合并为一个大型数据集，以及如何直观地表示所有公司之间的一种关系。现在，我们将尝试采用这些数据，并做一些机器学习！

我们的想法是，看看如果我们获得所有当前公司的数据，并把这些数据扔给某种机器学习分类器，会发生什么。我们知道，随着时间的推移，各个公司彼此有着不同的练习，所以，如果机器能够识别并且拟合这些关系，那么我们可以从今天的价格变化中，预测明天会发生什么事情。咱们试试吧！

首先，所有机器学习都是接受“特征集”，并尝试将其映射到“标签”。无论我们是做 K 最近邻居还是深度神经网络学习，这都是一样的。因此，我们需要将现有的数据转换为特征集和标签。

我们的特征可以是其他公司的价格，但是我们要说的是，特征是所有公司当天的价格变化。我们的标签将是我们是否真的想买特定公司。假设我们正在考虑 Exxon（XOM）。我们要做的特征集是，考虑当天所有公司的百分比变化，这些都是我们的特征。我们的标签将是 Exxon（XOM）在接下来的x天内涨幅是否超过x%，我们可以为x选择任何我们想要的值。首先，假设一家公司在未来 7 天内价格上涨超过 2％，如果价格在这 7 天内下跌超过 2%，那么就卖出。

这也是我们可以比较容易做出的一个策略。如果算法说了买入，我们可以买，放置 2% 的止损（基本上告诉交易所，如果价格跌破这个数字/或者如果你做空公司，价格超过这个数字，那么退出我的位置）。否则，公司一旦涨了 2% 就卖掉，或者保守地在 1% 卖掉，等等。无论如何，你可以比较容易地从这个分类器建立一个策略。为了开始，我们需要为我们的训练数据放入未来的价格。

我将继续编写我们的脚本。如果这对您是个问题，请随时创建一个新文件并导入我们使用的函数。

目前为止的完整代码：

import bs4 as bs
import datetime as dt
import matplotlib.pyplot as plt from matplotlib import style import numpy as np import os import pandas as pd import pandas_datareader.data as web import pickle import requests style.use('ggplot') def save_sp500_tickers(): resp = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies') soup = bs.BeautifulSoup(resp.text, 'lxml') table = soup.find('table', {'class': 'wikitable sortable'}) tickers = [] for row in table.findAll('tr')[1:]: ticker = row.findAll('td')[0].text tickers.append(ticker) with open("sp500tickers.pickle","wb") as f: pickle.dump(tickers,f) return tickers def get_data_from_yahoo(reload_sp500=False): if reload_sp500: tickers = save_sp500_tickers() else: with open("sp500tickers.pickle","rb") as f: tickers = pickle.load(f) if not os.path.exists('stock_dfs'): os.makedirs('stock_dfs') start = dt.datetime(2000, 1, 1) end = dt.datetime(2016, 12, 31) for ticker in tickers: # just in case your connection breaks, we'd like to save our progress! if not os.path.exists('stock_dfs/{}.csv'.format(ticker)): df = web.DataReader(ticker, "yahoo", start, end) df.to_csv('stock_dfs/{}.csv'.format(ticker)) else: print('Already have {}'.format(ticker)) def compile_data(): with open("sp500tickers.pickle","rb") as f: tickers = pickle.load(f) main_df = pd.DataFrame() for count,ticker in enumerate(tickers): df = pd.read_csv('stock_dfs/{}.csv'.format(ticker)) df.set_index('Date', inplace=True) df.rename(columns={'Adj Close':ticker}, inplace=True) df.drop(['Open','High','Low','Close','Volume'],1,inplace=True) if main_df.empty: main_df = df else: main_df = main_df.join(df, how='outer') if count % 10 == 0: print(count) print(main_df.head()) main_df.to_csv('sp500_joined_closes.csv') def visualize_data(): df = pd.read_csv('sp500_joined_closes.csv') #df['AAPL'].plot() #plt.show() df_corr = df.corr() print(df_corr.head()) df_corr.to_csv('sp500corr.csv') data1 = df_corr.values fig1 = plt.figure() ax1 = fig1.add_subplot(111) heatmap1 = ax1.pcolor(data1, cmap=plt.cm.RdYlGn) fig1.colorbar(heatmap1) ax1.set_xticks(np.arange(data1.shape[1]) + 0.5, minor=False) ax1.set_yticks(np.arange(data1.shape[0]) + 0.5, minor=False) ax1.invert_yaxis() ax1.xaxis.tick_top() column_labels = df_corr.columns row_labels = df_corr.index ax1.set_xticklabels(column_labels) ax1.set_yticklabels(row_labels) plt.xticks(rotation=90) heatmap1.set_clim(-1,1) plt.tight_layout() #plt.savefig("correlations.png", dpi = (300)) plt.show()

继续，让我们开始处理一些数据，这将帮助我们创建我们的标签：

def process_data_for_labels(ticker):
    hm_days = 7
    df = pd.read_csv('sp500_joined_closes.csv', index_col=0) tickers = df.columns.values.tolist() df.fillna(0, inplace=True)

这个函数接受一个参数：问题中的股票代码。每个模型将在一家公司上训练。接下来，我们想知道我们需要未来多少天的价格。我们在这里选择 7。现在，我们将读取我们过去保存的所有公司的收盘价的数据，获取现有的代码列表，现在我们将为缺失值数据填入 0。这可能是你将来要改变的东西，但是现在我们将用 0 来代替。现在，我们要抓取未来 7 天的百分比变化：

   for i in range(1,hm_days+1): df['{}_{}d'.format(ticker,i)] = (df[ticker].shift(-i) - df[ticker]) / df[ticker]

这为我们的特定股票创建新的数据帧的列，使用字符串格式化创建自定义名称。我们获得未来值的方式是使用.shift，这基本上会使列向上或向下移动。在这里，我们移动一个负值，这将选取该列，如果你可以看到它，它会把这个列向上移动i行。这给了我们未来值，我们可以计算百分比变化。

最后：

    df.fillna(0, inplace=True)
    return tickers, df

我们在这里准备完了，我们将返回代码和数据帧，并且我们正在创建一些特征集，我们的算法可以用它来尝试拟合和发现关系。

我们的完整处理函数：

def process_data_for_labels(ticker):
    hm_days = 7
    df = pd.read_csv('sp500_joined_closes.csv', index_col=0) tickers = df.columns.values.tolist() df.fillna(0, inplace=True) for i in range(1,hm_days+1): df['{}_{}d'.format(ticker,i)] = (df[ticker].shift(-i) - df[ticker]) / df[ticker] df.fillna(0, inplace=True) return tickers, df

在下一个教程中，我们将介绍如何创建我们的“标签”。

十、十一、为机器学习标签创建目标

欢迎阅读 Python 金融系列教程的第 10 部分（和第 11 部分）。在之前的教程中，我们开始构建我们的标签，试图使用机器学习和 Python 来投资。在本教程中，我们将使用我们上一次教程的内容，在准备就绪时实际生成标签。

目前为止的代码：

import bs4 as bs
import datetime as dt
import matplotlib.pyplot as plt from matplotlib import style import numpy as np import os import pandas as pd import pandas_datareader.data as web import pickle import requests style.use('ggplot') def save_sp500_tickers(): resp = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies') soup = bs.BeautifulSoup(resp.text, 'lxml') table = soup.find('table', {'class': 'wikitable sortable'}) tickers = [] for row in table.findAll('tr')[1:]: ticker = row.findAll('td')[0].text tickers.append(ticker) with open("sp500tickers.pickle","wb") as f: pickle.dump(tickers,f) return tickers def get_data_from_yahoo(reload_sp500=False): if reload_sp500: tickers = save_sp500_tickers() else: with open("sp500tickers.pickle","rb") as f: tickers = pickle.load(f) if not os.path.exists('stock_dfs'): os.makedirs('stock_dfs') start = dt.datetime(2000, 1, 1) end = dt.datetime(2016, 12, 31) for ticker in tickers: # just in case your connection breaks, we'd like to save our progress! if not os.path.exists('stock_dfs/{}.csv'.format(ticker)): df = web.DataReader(ticker, "yahoo", start, end) df.to_csv('stock_dfs/{}.csv'.format(ticker)) else: print('Already have {}'.format(ticker)) def compile_data(): with open("sp500tickers.pickle","rb") as f: tickers = pickle.load(f) main_df = pd.DataFrame() for count,ticker in enumerate(tickers): df = pd.read_csv('stock_dfs/{}.csv'.format(ticker)) df.set_index('Date', inplace=True) df.rename(columns={'Adj Close':ticker}, inplace=True) df.drop(['Open','High','Low','Close','Volume'],1,inplace=True) if main_df.empty: main_df = df else: main_df = main_df.join(df, how='outer') if count % 10 == 0: print(count) print(main_df.head()) main_df.to_csv('sp500_joined_closes.csv') def visualize_data(): df = pd.read_csv('sp500_joined_closes.csv') #df['AAPL'].plot() #plt.show() df_corr = df.corr() print(df_corr.head()) df_corr.to_csv('sp500corr.csv') data1 = df_corr.values fig1 = plt.figure() ax1 = fig1.add_subplot(111) heatmap1 = ax1.pcolor(data1, cmap=plt.cm.RdYlGn) fig1.colorbar(heatmap1) ax1.set_xticks(np.arange(data1.shape[1]) + 0.5, minor=False) ax1.set_yticks(np.arange(data1.shape[0]) + 0.5, minor=False) ax1.invert_yaxis() ax1.xaxis.tick_top() column_labels = df_corr.columns row_labels = df_corr.index ax1.set_xticklabels(column_labels) ax1.set_yticklabels(row_labels) plt.xticks(rotation=90) heatmap1.set_clim(-1,1) plt.tight_layout() #plt.savefig("correlations.png", dpi = (300)) plt.show() def process_data_for_labels(ticker): hm_days = 7 df = pd.read_csv(

转载于:https://www.cnblogs.com/ciao/articles/10894445.html

你可能感兴趣的:(python,数据库,人工智能)

【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
3月20日复盘四万二千正式复盘 python 前端机器学习
挑战全栈第八天！今天更新Python中的迭代器和生成器，以及函数式编程的内容。8.3super().init()super().__init__()是Python中用于调用父类（基类）构造函数的一种方式。它通常用于子类的构造函数中，以确保父类的构造函数被正确调用和初始化。这在继承（inheritance）中尤为重要，因为父类的初始化代码可能包含设置实例变量或执行其他重要的初始化任务。classPa
PostgreSQL技术大讲堂 - 第82讲，主题：数据安全利器--密码安全策略构建 m0_65303136 postgresql 数据库
PostgreSQL技术大讲堂-第82讲，主题：数据安全利器--密码安全策略构建讲课内容：1、密码安全概述2、启用密码安全策略3、深入密码安全构建4、PG密码安全策略漏洞数据库用户的密码安全关系在整个数据库的安全，控制密码的复杂度、密码复用控制、密码定期重置直接影响密码的安全，本期技术公开课为大家展示如何构建密码安全策略。欢迎持续关注CUUGPostgreSQL技术大讲堂。
ocp考试有判断题吗?多少分及格? m0_65303136 开闭原则
ocp考试有判断题吗?多少分及格?OCP考试没有判断题。OCP考试指的是OracleOCP中级认证考试，是数据库领域非常有含金量的一种认证，如果拿到OCP证书对于个人入职或者涨薪都有帮助。OCP考试，可以说是数据库领域最值得考的一个认证，根据最新的OCP19c认证考试要求，以下是考试题型和通过成绩的详细信息：考试题型OCP认证考试均为全英文选择题，包括单选题和多选题，没有操作题或其他题型(如判断题
Python + Qt Designer构建多界面GUI应用程序：Python如何调用多个界面文件懒大王爱吃狼 python python qt 命令模式 mysql 数据库 Python基础开发语言
引言QtDesigner是一个用户友好的图形用户界面设计工具，它可以帮助开发人员通过拖放的方式快速创建界面。在实际开发中，往往需要设计多个界面文件，并在Python代码中进行统一管理和使用。本文将介绍如何在Python中使用QtDesigner设计好的多个界面文件的常用方法。方法一：单独加载并显示如果界面文件相对独立，并且没有复杂的依赖关系，可以考虑单独加载并显示每个界面文件。fromPyQt5i
零基础掌握分布式ID生成：从理论到实战的完整指南 [特殊字符] 添砖Java中分布式分布式id java
一、为什么需要分布式ID？在单机系统中，使用数据库自增ID就能满足需求。但在分布式系统中，多个服务节点同时生成ID时会出现以下问题：ID冲突：不同节点生成相同ID扩展困难：数据库自增ID无法水平扩展安全性差：连续ID暴露业务数据量性能瓶颈：高并发场景下生成速度慢典型应用场景：✅电商订单号生成✅社交平台用户ID✅物流运单号生成✅金融交易流水号二、分布式ID的核心要求特性说明重要性全局唯一性整个分布式
Java IDEA中Gutter Icons图标的含义路宇 java笔记 java intellij-idea 开发语言 gutter-icons 图标 Java开发工具
前些天发现了一个蛮有意思的人工智能学习网站,8个字形容一下"通俗易懂，风趣幽默"，感觉非常有意思,忍不住分享一下给大家。点击跳转到教程前言：很多人刚开始用IDEA来学习编程，会发现下面这些图标。但是我们有时候并不知道它的含义和设置显示与隐藏，下面给大家讲解一下装订线图标位于左侧编辑器中。它们调用一些基本操作以及其他特定于框架和技术的功能。设置步骤File->Setting进到idea的设置页面。接
【科大讯飞笔试题汇总】2024-04-21-科大讯飞春招笔试题-三语言题解(CPP/Python/Java) 春秋招笔试突围最新互联网春秋招试题合集 python java 开发语言春招笔试互联网大厂笔试题
大家好这里是KK爱Coding，一枚热爱算法的程序员✨本系列打算持续跟新科大讯飞近期的春秋招笔试题汇总～ACM银牌|多次AK大厂笔试｜编程一对一辅导感谢大家的订阅➕和喜欢KK这边最近正在收集近一年互联网各厂的笔试题汇总，如果有需要的小伙伴可以关注后私信一下KK领取，会在飞书进行同步的跟新，5月1日之前限时免费领取哦，后续会由ACM银牌团队持续维护~。文章目录01.硬币最少组合问题问题描述输入格式输
当我被面试官追问如何优化慢SQL时，我悟了这些底层逻辑 mysql数据库程序员后端
当我被面试官追问如何优化慢SQL时，我悟了这些底层逻辑去年面试字节跳动时，我遇到了一个至今印象深刻的场景：面试官在白板上写了一条包含三表JOIN且带有子查询的SQL，淡淡地说"请分析这条SQL的性能问题"。当时我的后背瞬间绷直——这道题考察的不仅是SQL优化技巧，更是对数据库底层原理的深刻理解。一、面试官到底在考察什么？实战经验：是否真正处理过线上慢查询问题，能否结合业务场景分析知识体系：从索引设
烧掉 700 亿学费后，中国企业终于懂了：换软件才是真正的省钱程序员安全数据库
2018年深圳宝安机场，76岁的中兴创始人侯为贵拖着行李箱赶赴美国的照片全网刷屏。芯片断供7天，这家通信巨头市值蒸发700亿；2022年某新能源车企因EDA软件禁用，耗资数十亿的研发项目直接停摆。中国企业终于意识到：躺在全球化温床上的时代，结束了。从芯片到数据库，从工业软件到办公系统，中国企业正把“进口零件”一个个抠下来——这不是赌气，而是被逼出来的生存智慧。一、当“卡脖子”变成商机2020年哈工
【科研必备】EI/Scopus收录！2025年3-4月智能制造、自动化、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！努力毕业的小土博^_^ 学术会议推荐制造自动化人工智能深度学习神经网络算法
【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！文章目录【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等
华纳云如何优化 MySQL 的内存使用？服务器
优化MySQL的内存使用是提高数据库性能和效率的关键步骤。以下是一些有效的策略和方法，结合了多轮对话中的信息，帮助您优化MySQL的内存使用：1.调整缓冲区和缓存大小InnoDB缓冲池（InnoDBBufferPool）：作用：用于缓存InnoDB表的数据和索引，是MySQL中最重要的内存区域之一。优化建议：将innodb_buffer_pool_size设置为物理内存的50%-80%，具体取决于
Pycharm python解释器 unsupported python 3.1 解决大表哥在曾母暗沙 Python PyCharm python pycharm ide 解释器模式
Pycharm环境unsupportedpython3.1解决1.问题重现2.原因分析3.解决方法1.问题重现之前使用Pycharm2024.1.1的时候，环境配置的Python3.11.9，现在改成使用Pycharm2020.2.2，结果Python解释器显示“unsupportedpython3.1”，如下图：2.原因分析因为Pycharm2020.2.2支持的Python最高版本就是Pyth
【MYSQL学习】5分钟学会MySQL登录，新手也能轻松搞定？墨瑾轩 MySql入门~精通 mysql 学习 adb
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣5分钟学会MySQL登录，新手也能轻松搞定？引言嘿，小伙伴们！今天我们来聊聊MySQL的登录问题。对于初学者来说，登录数据库可能是你接触MySQL的第一步，也是最重要的一步。那么，MySQL是如何登录的呢？有哪些常见的问题需要注意？别急，今天我就带你一步步了解
记服务器MongoDB数据库迁移实战记录【云MongoDB数据库迁移】一键难忘数据库 mongodb 服务器
文章目录一.服务器MongoDB数据库迁移实战记录1.1备份MongoDB数据库步骤1.2恢复数据库到新服务器里1.3总结一.服务器MongoDB数据库迁移实战记录1.背景：我原来的服务器到期了，因为高昂的费用我只能使用新用户的身份购买一个服务器。2.需求：将原来的云端MongoDB数据库迁移到新购买的服务器上。3.注意：之前的MongoDB并没有使用宝塔的可视化创建，而是使用命令行，导致，可视化
java 实现数据库备份李逍遙️ mysql 数据库 java mysql
importcom.guangyi.project.model.system.DataBaseInFo;importjava.io.BufferedReader;importjava.io.File;importjava.io.FileOutputStream;importjava.io.IOException;importjava.io.InputStream;importjava.io.Inp
申请 Let's Encrypt 的免费 TLS 证书实现网站的 https 访问 python
因为这个使用apt安装的python第三方包的版本为什么这么滞后？原因，所以我不是用sudo把证书弄到系统路径，而是选择到普通用户路径下面╭─pon@aliyun2core2GB~/certbot╰─➤tree.├──config│ ├──accounts│ │ └──acme-v02.api.letsencrypt.org│ │ └──directory│ │ └──9401598
python面试题详解 __wishing__ python
十道经典面试题（python）1.一行代码实现累加1-100之和print(sum(range(1,101)))输出结果：5050分析：利用sum函数进行累加。range控制序列。2.一行代码实现列表去重#声明需要去重的列表list1=[1,1,2,2,3,3,4,4]list1=list(set(list1))</
golang接口用法-代码案例 JavaPub-rodert golang golang 开发语言后端
文章目录Go语言中接口（interface）的含义接口的常见应用场景示例1示例2（Dog和Cat）使用场景-多数据库Go语言中接口（interface）的含义接口在Go语言中是一种类型，它定义了一组方法的集合。一个类型只要实现了接口中定义的所有方法，就认为该类型实现了该接口。接口不关心具体的实现细节，只关心方法的签名（即方法的名称、参数和返回值类型）。接口可以看作是不同类型之间的桥梁，它允许不同类
LangChain入门：使用Python和通义千问打造免费的Qwen大模型聊天机器人南七小僧人工智能网站开发 AI技术产品经理服务器数据库 windows
前言LangChain是一个用于开发由大型语言模型（LargeLanguageModels，简称LLMs）驱动的应用程序的框架。它提供了一个灵活的框架，使得开发者可以构建具有上下文感知能力和推理能力的应用程序，这些应用程序可以利用公司的数据和APIs。这个框架由几个部分组成。LangChain库：Python和JavaScript库。包含了各种组件的接口和集成，一个基本的运行时，用于将这些组件组合
pygmsh 项目常见问题解决方案葛雨禹
pygmsh项目常见问题解决方案pygmsh:spider_web:GmshforPython项目地址:https://gitcode.com/gh_mirrors/py/pygmsh1.项目基础介绍和主要编程语言项目名称:pygmsh项目简介:pygmsh是一个结合了Gmsh和Python的开源项目。它通过提供Gmsh的Python接口，简化了复杂几何体的创建过程。pygmsh提供了许多有用的抽
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
【第11章】亿级电商平台订单系统-海量数据架构设计 cherry5230 架构系统架构架构分布式
1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
python之gmsh划分网格老歌老听老掉牙 python有限元分析 python 开发语言 gmsh 划分网格
Gmsh（GeometryModelingandMeshingSuite）是一个开源的三维有限元网格生成器，它集成了内置的CAD引擎和后处理器。Gmsh的设计目标是提供一个快速、轻量级且用户友好的网格工具，同时具备参数化输入和高级可视化能力。Gmsh围绕几何（geometry）、网格（mesh）、求解器（solver）和后处理（post-processing）四个模块构建，用户可以通过图形用户界面
图生视频技术的发展与展望：从技术突破到未来图景 Liudef06 Stable Diffusion 音视频人工智能深度学习 stable diffusion
一、技术发展现状图生视频（Image-to-VideoGeneration）是生成式人工智能（AIGC）的重要分支，其核心是通过单张或多张静态图像生成动态视频序列。近年来，随着深度学习、多模态融合和计算硬件的进步，图生视频技术经历了从基础研究到商业落地的快速演进。早期探索与GAN的奠基早期图生视频技术主要基于生成对抗网络（GAN），通过对抗训练生成低分辨率的视频片段。例如，DeepMind的DVD
已解决：python多线程使用TensorRT输出为零？附tensorrt推理代码李卓璐算法实战 python 开发语言
我是多个不同类型的模型多线程调用报错。设备：cuda12.1,cudnn8.9.2,tensorrt8.6.11.问题tensorrt的推理没输出？？？有输入：想要的输出：原因：多进程时,每进程应单独调用importpycuda.driverascuda和cuda.init()，完成初始化CUDA驱动，并需要使用self.cfx.push()和self.cfx.pop()管理CUDA上下文，以保证
NET Core 大数据处理 Gene Z .Net C#c#
在.NETCore里处理10万条以上的大数据时，可采用以下几种方式，同时也适用于不同的应用场景。1.批量处理方式借助批量操作一次性处理大量数据，从而减少与数据库或外部系统的交互次数，提高性能。例如，在向数据库插入大量数据时，可使用批量插入操作。应用场景适用于数据导入、数据迁移等场景。比如将CSV文件中的大量数据批量导入到数据库中。2.并行处理方式运用并行编程技术（像Parallel.ForEach
Couchbase Analytics 的结构 PersistDZ 数据存储 couchbase
CouchbaseAnalytics的结构CouchbaseAnalytics服务专为大规模、并发、复杂的分析查询而设计，同时不会影响事务性工作负载的性能。下面将详细介绍其结构和架构，以帮助您深入理解CouchbaseAnalytics的运作方式。1.Couchbase集群架构CouchbaseServer是一个多维度可扩展的分布式数据库，其核心架构由多个服务组成：数据服务（DataService
美团Leaf分布式ID生成器使用教程：号段模式与Snowflake模式详解 Cloud_. 分布式
引言在分布式系统中，生成全局唯一ID是核心需求之一。美团开源的Leaf提供了两种分布式ID生成方案：号段模式（高可用、依赖数据库）和Snowflake模式（高性能、去中心化）。本文将手把手教你如何配置和使用这两种模式，并解析其核心机制。一、Leaf号段模式使用教程1.环境准备数据库：MySQL5.7+Java环境：JDK1.8+Leaf源码：从GitHub克隆Leaf仓库（推荐使用feature/
Python 的 ultralytics 库详解白.夜人工智能
ultralytics是一个专注于计算机视觉任务的Python库，尤其以YOLO（YouOnlyLookOnce）系列模型为核心，提供了简单易用的接口，支持目标检测、实例分割、姿态估计等任务。本文将详细介绍ultralytics库的功能、安装方法、核心模块以及使用示例。1.ultralytics库简介ultralytics库由Ultralytics团队开发，旨在为YOLO系列模型提供高效、灵活且易
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

PythonProgramming.net Python 金融教程（转）