AI科技大本营

全球股市巨震，如何用深度学习预测股价？

这两天全球股市都可谓血雨腥风！

这个时候，营长照例会点燃一根烟，看着满屏高高低低的K线，心中又出现了那个历史之问：这时候是该卖出手中持仓？还是用剩余资金抄底？

作为关注 AI 多年的股市老韭菜，营长深知要想完全预测股市是不可能的，但并非无法预测。如果方法得当，就能提高成功的几率。可是什么样的方法才得当呢？心中默念使用数据科学投资的三个关键原则：

过去的表现并不是我们所关心的，我们关心未来的表现。

过去的数据是我们必须学习的，我们没有未来的数据。

不是所有过去发生的都会在未来再次发生。

还是不得操作要领，再次在卷帙浩繁的技术文章中寻找真经，发现有一篇应用深度学习来预测股市的文章还不错，在这里分享给大家。

以下内容由AI科技大本营（微信ID：rgznai100）编译

在过去的几个月里，我对“深度学习”非常感兴趣，尤其是在语言和文本应用方面。我大部分的工作时间都花费在了金融技术上，主要研究算法交易和替代性数据服务。你可以看一下我工作的进程。

写这篇文章的目的是想表达头脑中的想法。尽管我已经成为一个“深度学习”的爱好者，但是深度学习的成果太多太杂，我没有太多机会做出相关的整理。在我看来，如果文章表达的内容思路清晰的话，即便是行外人也能够理解。希望我成功做到了，也希望我的表达让阅读的人感到很愉快。

▌为什么 NLP 与股票预测息息相关

在许多 NLP 问题中，我们最终会得到一个序列并将它编码成一个单个固定大小的形式，然后将该形式编码到另一个序列中。例如，我们可能会标记出文本中的实体，而后将其从英语翻译成法语或将音频转换为文本。NLP 领域涉及方方面面的大量的工作，很多成果的性能正在达到世界领先水平。

在我看来，NLP 和金融分析最大的区别是：语言虽然有一定的结构保证，但是结构的规则是模糊的。另一方面，市场并没有承诺会提供一个可学习的结构，这样的结构之所以存在是建立在此项目会被证明或反驳的假设之上（而不是可能证明或反驳，如果我能找到该结构）。

假设结构是存在的，以我们编码段落语义的方式来概括市场当前状态的想法对我来说似乎是合理的。如果这还没有意义，请继续阅读，总会有意义的。

你应该知道它所持有的公司的一个单词（Firth,J. R. 1957:11）。

有大量关于单词嵌入的文献。Richard Socher 的演讲是一个很好的开始。

总之，我们可以将语言中的所有单词做成一个几何形状，这个几何形状可捕捉单词的意义和它们之间的关系。你可能已见过“国王＋女人＝女王”这个例子或者其他类似的例子。

图像来自 Glove 项目

单词之间的几何图形。通过观察上述单词，我们可以看出公司和其 CEO 之间内在的几何关系。

嵌入是很酷的，因为它们允许我们以一种精简的方式来表达信息。旧的表示单词的方式是在知道单词数量的情况下设置出一个向量（一个大的数字列表），随后在我们当前查找的单词位置将其设置为1。这不是一种有效的方法，也没捕捉到任何意义。使用嵌入法，我们可以在固定数量的维度上表示所有的单词（300似乎很多，50比较好），然后用更高维的几何去理解它们。

下面图片中有一个示例。整个互联网都在或多或少的训练嵌入。经过几天的集中计算，每个词都被嵌入在了相对高维空间里。这个“空间”是有几何形状的，类似距离这样的概念，所以我们可以找到那些靠的比较近的单词。该方法的作者或是发明者曾经举过这样一个例子。以下是与青蛙（Frog）最接近的单词。

来自Glove项目

根据 Glove 算法（单词嵌入的一种），以上单词是离“frog”最近的几个单词。请注意它是如何知道这些你以前从未听过的单词的，也请注意它是如何捕捉到这些单词与 Frog 的相似性的。

但是我们能嵌入的不仅仅是单词，比如，我们也可以做股票市场嵌入。

▌Market2Vec

我听说过的第一个词嵌入算法是 word2vec。尽管我需要运用不同的算法，但我想得到同样的市场效应。我输入的数据是一个 csv 文件，第一列是日期，并且有4*1000列相当于1000个股票的高低开市收盘价。我输入的向量有4000个维度，这太大了。所以我要做的第一件事是把它放在一个更低维的空间，比如说300维，因为我喜欢这部电影。

当你奋力把4000维缩小至300维时，你的表情。

将原本4000维才能放下的东西缩小至300维，乍听起来很难，但实际上很容易。我们只需让矩阵相乘就可以了。每个矩阵都相当于一个大的 excel 电子表格，每个单元格里都有数字且不存在格式问题。想象一个具有4000列300行的 excel 表，当我们将其与向量相互碰撞的时候，一个新向量由此诞生，而它的大小只有300。我希望在大学的课堂里也是这样解释的。

我们的想法诞生于在矩阵中随机设置数字的那一刻，并且深度学习其中一部分本就是为了更新这些数字。因此，我们便更改了电子表格。最终该电子表格（从现在起，我将统一用“矩阵”来表示）会填充上数字，这些数字将原始的4000维向量转换成了300维，非常简明。

现在，我们变得越来越感兴趣了，在此引用了所谓的激活函数。我们将采用一个函数，并将其应用到向量中的每个数字中，使它们都处于0和1之间（也可以是0和无穷大，视情况而定）。为什么呢？一方面这会使我们的向量更加特别；另一方面这也能让我们的学习过程能够理解更为复杂的事情。怎么样？

那又怎么样呢？我希望找到的是将市场价格（向量）新嵌入到相对较小的空间中以捕捉当下任务中的所有关键信息、同时又不在其他事宜上浪费时间的方法。所以我希望它们能捕捉到其它股票之间的相关性，例如某个领域的股票正在下跌或某个市场很火热等情况。我不清楚它会发现什么特征，但是我认为它们会很有用。

▌现在谈论什么

暂且把市场向量放到一边，我们先来谈论下语言模型。Andrej Karpathy 曾写过一篇很长的文章 The Unreasonable effectiveness of Recurrent Neural Networks。

如果我以最自由的方式做总结，这篇帖子可以归结为：

如果我们看一看莎士比亚的作品，并逐字探讨它们，我们可用“深度学习”来学习一种语言模型。
语言模型就像一个魔法盒，你放进去几个前面的字符，它就能告诉你下一个是什么。
如果我们取语言模型预测出的字符，并将其反馈回去，我们就可以一直进行下去。

然后，有一个笑点是，最终生成了一堆看起来像莎士比亚作品的文本。接着他用 Linux 源代码又试验了一次，再接下来他又用一本代数几何的教科书试了一次。

因此我马上回到了那个魔法盒的机制，请允许我提醒你一下，我们想要根据过去来预测未来的市场，就像上述 Andrej Karpathy 根据前一个词预测下一个词一样。在 Karpathy 使用字符的地方，我们将使用市场向量，并将市场向量放进魔法盒中。我们还没决定好让它预测什么，但是没关系，我们还不打算将它的输出反馈给它。

▌不断深入

我想说的是，这是我们迈入深度学习的深层之处的开端。截至目前，我们只是在学习它的浅层部分，上述电子表格浓缩了整个市场。现在我们要加入更多的层，并将它们堆叠起来去做些“深度”的东西。这就是深度学习中所谓的深度。

所以 Karpathy 给我展示了一些从 Linux 源代码上输出的例子，以下是他的黑盒子中的内容。

static void action_new_function(struct s_stat_info *wb)
{
  unsigned long flags;
  int lel_idx_bit = e->edd, *sys & ~((unsigned long) *FIRST_COMPAT);
  buf[0] = 0xFFFFFFFF & (bit << 4);
  min(inc, slist->bytes);
  printk(KERN_WARNING "Memory allocated %02x/%02x, "
    "original MLL instead\n"),
    min(min(multi_run - s->len, max) * num_data_in),
    frame_pos, sz + first_seg);
  div_u64_w(val, inb_p);
  spin_unlock(&disk->queue_lock);
  mutex_unlock(&s->sock->mutex);
  mutex_unlock(&func->mutex);
  return disassemble(info->pending_bh);
}

请注意它自己知道如何打开和关闭括号，并遵从缩近规则。函数内容部分缩进得当，多行 printk 语句中有一个内部缩进。也就是说，这个魔法盒是理解远程相依规则的。在打印语句中缩进时，它知道处于打印语句中，也能记住它处于某个函数中（至少是另一个缩进后的范围中）。这要疯了。很容易忽略的是，一个具有捕捉和记忆长期依赖关系能力的算法是有用的，因为…我们想发现市场的长期依赖性。

▌黑色魔法盒的内部

黑色魔法盒里有什么？是循环神经网络（RNN）的一种类型，叫 LSTM。RNN 是一种操作序列（例如字符序列）的深度学习算法。在每一步上，它都会接受来自下一字符的向量（例如之前谈过的嵌入），并运用矩阵来处理该向量，就像前面所看到的那样。关键点是，RNN 有某种形式的内部存储器，因此它能存储之前看到的内容。它会运用之前存储的内容判定如何准确地处理下一个输入。使用该记忆，RNN 可以“记住”预定范围内的事情，这就是我们正确地获得嵌套输出文本的方式。

一个基本的 RNN

目前 RNN 一个比较流行的版本叫做长短期记忆网络（LSTM，Long Short-Term Memory）。LSTM 巧妙的设计了内存，并允许它：

有选择性的选择它记住的内容。
决定去忘记。
可以选择输出内存的量。

解释 LSTM 的最佳插图

所以，当 LSTM 看到“｛”时就会对自己说“奥，我该记住它，这很重要”，它实际上记住的是嵌套范围内的一个迹象。一旦它看到对应的“｝”时，它就会决定忘记起初的左大括号，因此也就忘记了它正处于嵌套范围内。

我们可以通过将某些概念叠加在一起的方法，让 LSTM 学到更多抽象概念，这让我们又“深度”了一次。现在，之前的每个 LSTM 的输出变成了下一个 LSTM 的输入，而且都在继续不断地学习进入的更高维的抽象数据。在上面的例子中（这只是说明性猜测），LSTM 的第一层可能会学到，被空格所分开的字符就是独立的单词。其下一层可能会学习单词的类型，如（static void action_new_function）。接着下一层可能会学习函数概念以及它的参数，等等。尽管 Karpathy 的博客有一个很好的关于如何可视化的例子，但还是很难准确说明每一层正在做什么。

▌连接 Market2Vec 和 LSTMs

好学的读者一定会注意到，Karpathy 用字符来作为他的输入，而不是嵌入（在技术上是一个火热的字符编码）。

但是当 Lars Eidnes 写 Auto-Generating Clickbait With Recurrent Neural Network一文时，他实际上是用了单词嵌入法的。

Lars Eidnes 在 Auto-Generating Clickbait With Recurrent Neural Network一文中的网络

上图就是他所使用的网络。先忽略 SoftMax 这部分，稍后再做解释。现在，让我们检查一下他是如何把一系列单词向量放在底部的（请记住，每个单词向量都是关于这个单词的向量，由一串数字组成，就像我们在本文开头看到的那样）。Lars 输入了一系列单词向量，其中每一个单词向量都：

影响第一个 LSTM。
让 LSTM 输出的东西置于 LSTM 之上。
让 LSTM 输出的东西提供给 LSTM 下一个单词。

我们将做些相同的事情，但有一个差异，不是我们要输入的“市场向量”这个单词向量，而是之前描述过的那些市场向量。总之，市场向量应该及时地包含既定时间点上市场正在发生的事情。当这一系列的市场向量通过 LSTM 后，我希望能捕捉到市场中一直在发生着的长期动态。通过把 LSTM 堆叠在一起，我希望能捕捉到市场行为的更高层抽象概念。

▌产出什么

到目前为止，我们还没谈论算法实际上是如何学习东西的，只是谈论了对数据的巧妙转换过程。我们将算法的学习过程推后几个自然段再谈，但是请牢牢记在心里，因为这个过程会让每件事变得有意义起来。

在 Karpathy 的例子中，LSTM 输出的是一个向量，这个向量代表某些抽象表征中的下一个字符。在 Eidnes 的例子中，LSTM 输出的是一个向量，代表某些抽象空间中的下一个单词。以上两种情况的下一步都是将抽象表征变为概率向量，这个向量列表分别说明着每个字符或单词出现在后面的可能性。这就是 SoftMax 功能的作用。一旦我们有了这张可能性列表，我们就能选择接下来最可能出现的字符或单词。

在“预测市场”的情况下，我们需要问下自己想让市场准确预测什么？这里我想到了一些选择：

预测每个1000股接下来的价格。
预测接下来的n分钟内一些指数值（标准普尔、波动率指数等）。
预测哪只股票在接下来的n分钟内会上涨超过x%。
（我最喜欢的）预测哪只股票在接下来的n分钟内会上涨／下跌2x%，同时在这段时间内下跌／上涨的幅度不超过x%。
（本文的剩余部分所遵循的）预测波动指数在接下来n分钟内上涨／下跌2x％的时间，同时在这段时间内下跌／上涨的幅度不超过x%。

1和2是回归问题，我们必须预测出实际数字而不是特定事件的可能性（如字母n出现的概率或市场上涨的概率）。这都很好，但不是我想要做的。

3和4非常类似，它们都要求预测一个事件（技术术语称为“类标签”）。事件可以是下一个字母n，也可以指过去的10分钟内某只股票上涨5%而不是下跌超过3%。3和4之间的权衡是：3更常见，因此容易去学习；而4更有价值，既是利润的指标，又对风险有一定约束。

5是这篇文章要继续了解的，因为它和3、4类似，但是有更容易遵循的机制。波动指数 VIX 有时被叫做恐惧指数，代表着 S&P500 中股票的波动程度。它是通过观察指数中每个股票特定期权的隐含波动率得出的。

旁注——为什么预测波动指数 VIX

使 VIX 成为有趣目标的原因在于：

它只是一个数字，而不是1000个股票。这使得它在概念上更容易理解并降低计算成本。
它是对许多股票的总结，因此不是所有的输入都与之息息相关。
它不是我们输入的线性组合。隐含波动率从一个个股票的复杂而又非线性的公式中提取出来的。VIX是从一个复杂公式中派生出来的，如果我们能预测它，这是相当酷的。
它是可交易的，如果真能发挥作用的话，我们就可以使用。

▌回到 LSTM 输出和 SoftMax

我们如何使用之前看到的公式来预测未来几分钟内 VIX 的变化？对于数据集中的每个点，5分钟后我们一起来看一下 VIX 发生了什么。如果在这段时间内它上升了超过1%同时下降幅度又不超过0.5%，我们将输出1，否则为0。然后我们将得到如下一个序列：

0,0,0,0,0,1,1,0,0,0,1,1,0,0,0,0,1,1,1,0,0,0,0,0 …

我们想采用 LSTM 输出的向量，将这些向量压缩，这样一来我们就能得到序列中的下一个项目的概率为1。上图中的 SoftMax 部分出现了压缩现象。（从技术上来说，因为我们现在只有1个类，所以使用一个S形）。

那么，在了解其学习原理之前，让我们回顾下迄今为止我们做过的内容吧。

我们将1000股股票的系列价格数据作为了输入。
序列中的每个时间点都相当于是市场的快照。我们输入了一个有4000个数字的列表，使用嵌入层来表示只有300个数字的关键信息。
现在我们有了市场的嵌入序列。我们一步一步的把这些放进一叠 LSTM 中。LSTM 记住了之前步骤中的内容，这会影响它们加工当前内容的方式。
我们将 LSTM 第一层的输出传递到了另一层。LSTMs 不仅能够记得，而且能够学习所放进去的更高级的抽象信息。
最后，我们拿到 LSTMs 所有的输出，然后“压榨它们”，这样市场信息的序列就变成了一系列的概率。我们在此讨论的是“VIX 在未来5分钟内只上涨1%而不下跌0.5%的可能性”。

▌这个东西是如何学习的？

现在到了文章中比较有趣的部分。到现在为止，我们所做的一切都叫作正向传递。在训练算法以及在生产中使用的时候，我们都要涉及以上这些步骤。这里我们要谈论一下向后传递，而且只谈论在训练中让算法学习的那一部分。

因此，在训练期间我们不仅准备了数年的历史数据，还准备了一系列预测目标，即0和1的列表。这个列表显示的内容，实际上表达的是VIX是否按照我们想要的方式去做了。

为了学习，我们将市场数据反馈到网络中，并将它的输出数据与计算得出的数据进行比较。在我的例子中，比较将只是一道简单的减法问题，也就是我们的模型误差为：

误差 = (((预算)— (预测概率))² )^(1/2)

或者用文字来表达的话，即实际发生的事件与预测的事件之间的差的平方的平方根。

这就是美丽所在。这是一个微分函数，也就是说，如果我们的预测做出了微小的改变，我们也可以通过误差的变化而观察出来。我们的预测是可微函数的结果，SoftMax 输入到 softMax，LSTMs 都是可微分的数学函数。现在所有的函数都满是参数，也就是很久之前我就谈论过那些大的 excel 电子表格。考虑到模型中所有 excel 电子表格中数以万计的参数，所以在这个阶段，我们做的是取误差的导数。在求导过程中我们能够看到，参数值的改变会影响最终的误差。明白其影响原理之后，我们就可以改变其中的某些参数，以降低最终的误差值。

此过程会一直传播直到模型的开端。它调整了我们将输入嵌入到市场向量的方式，因此市场向量代表了任务中最重要的信息。

它调整了每个 LSTM 选择记住的时间和内容，这就使得它们的输出与任务最为息息相关。

它调整了 LSTM 学到的抽象概念，以便它们可以学到任务中最重要的抽象概念。

在我看来是很惊人的，因为它具有我们在任何地方都未曾指定过的所有的复杂性和抽象性。这都是从我们所认为的错误规范中推断出来的。

▌其它想法

这里有一些关于此项目的前沿观点以及我可能会尝试的内容，同时我会说明我觉得有意义的原因，这些想法可能真的会有用。

流动性和资本的有效利用

通常情况下，特定市场的流动性越强，越有效率。我认为这就相当于鸡和蛋的循环，然而当市场的流动性越来越强，它就能吸引更多的资本流出，而不受资本伤害。随着市场的流动性越来越强，有更多的资本可以使用，你会发现更多有经验的玩家纷纷加入。这是因为成为一个富有经验的人是非常昂贵的，所以你必须以大量的资本作为回报，以保证你的运营成本。

很快就能推论出，在不太流动的市场中竞争没那么复杂，因此这样的系统带来的机会可能最终不会涉及交易。重点在于，如果我试图交易的话，我将会选择市场上流动性相对较小的那一部分，可能会是 TASE 100，而不是 S&P 500。

这个东西是新的

至少在我这样平凡的人看来，这些算法的知识、执行算法的框架以及训练它们的计算能力都是新的。假设顶级玩家在几年前就想出了这个东西，并且有能力执行这么长时间，但是正如我在上面提到的，他们也很可能在能够支持其规模的流动市场中执行。我认为下一层市场参与者的技术同化速度较慢。从这个意义上来讲，在尚未开发的市场上，很快就会有一场比赛。

多个时间帧

虽然我在上面提到了单一的输入流，我想一个更有效的训练方式将是（至少）在多个时间帧上训练市场向量，并在推理阶段进行反馈。也就是说，最慢的时间帧将每30秒采样一次，我希望网络去学习延长最多时间的依赖性。

我不知道它们是否相关，但是我认为存在多个时间帧的模式，如果计算成本能足够低，那么值得将它们纳入模型。我仍在绞尽脑汁的想如何在计算图表上表示它们，或许它不是强制性的。

市场向量

当在 NLP 中使用词向量时，我们通常会从预训练模型开始，并在模型训练期间继续调整这些嵌入。在我的例子中，没有可用的预训练市场向量，也没有一个确定的算法来训练它们。

我最初考虑使用一个自动编码器，比如这篇论文中提到的：http://cs229.stanford.edu/proj2013/TakeuchiLee-ApplyingDeepLearningToEnhanceMomentumTradingStrategiesInStocks.pdf，但是端到端的训练使我逐渐打消这个想法。

更值得认真考虑的一个问题是，翻译和语言识别中的从序列到序列模型的成功，序列最终被编码为一个独立的向量，然后被解码成不同的表征形式（比如从语音到文本的形式或者从英语到法语的形式）。在这个观点下，我所描述的整个架构实质上是个编码器，而我并没有真正的向其中放置过解码器。

但是，我想用第一层来实现某些特定的功能，使其在输入4000维向量后输出一个300维的向量。我想让它找到各种股票之间地相关性或关系，并组成它们的特征。

另一种方法是，通过 LSTM 来运行每个输入，可能连接所有的输出向量，并考虑编码阶段的输出。我认为这样效率很低，因为仪器和特征之间的相互作用和相关性将会丢失，而且这将会需要相比之前多于10倍的计算量。另一方面，这样的架构可以在多个 GPU 和主机之间畅通并行，无疑是一个优点。

CNNs

最近有一些关于字符级机器翻译的文章。这篇文章：https://arxiv.org/pdf/1610.03017v2.pdf 引起了我的关注，因为它们采用 CNN 成功捕获了长范围依赖，而没有采用 RNN。我还没有阅读过，但是我认为把每个股票作为一个通道并使其在通道之间相互打通（如在 RGB 图像上），这样一个修改将是捕捉市场动态的另一种方式。同样的，这种做法的实质也是从字符中来编码语法意义。

原文链接

关注AI科技大本营微信公众号，获得更多干货文章。

你可能感兴趣的:(AI,人工智能)

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
python多线程程序设计之一 IT_Beijing_BIT #Python 程序设计语言 python
python多线程程序设计之一全局解释器锁线程APIsthreading.active_count()threading.current_thread()threading.excepthook(args,/)threading.get_native_id()threading.main_thread()threading.stack_size([size])线程对象成员函数构造器start/ru
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam