普通网友

量化论文不可复现是人品问题，赚不赚钱不是评价它的标准！

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，连续2年被腾讯云+社区评选为“年度最佳作者”。

量化投资与机器学习公众号撰写

QIML观点

学术论文，研究报告，纵观其有各种各样的问题。作为Quant，对这些原材料的甄别、提炼及加工，本身就是工作的一部分。

研究需要有主线，策略需要有逻辑，沿着这条主线及逻辑，在不同的（甚至是不同领域的）论文去吸收新颖的方法及技巧，整合到自己的研究逻辑中。这才是Quant需要做的。

论文不可复现（甚至学术造假）是人品的问题，但赚不赚钱不是评价量化论文的标准。

只要论文中的假设及实证能对我们带来一些启发，这就是一篇有用的论文。即使前面是一滩浑水，我们Quant也唯有不断前进。

不能复现就是耍流氓

最近，杜克大学金融学杰出教授，Research Affiliates 合伙人，Man Group投资策略顾问Campbell R. Harvey在论文《The Pitfalls of Asset Management Research》里写道:

In my 35 years as an academic, as an advisor to many asset management companies, and as an editor of one of the top academic journals in finance, I now fully appreciate the crucial importance of the role incentives play in the production of research.

激励问题，加上统计方法的误用，导致了一个不幸的结论：即金融领域大约一半的实证研究结论可能是错误的！

Campbell R. Harvey

2020年，The Journal of Portfolio Management （简称：JPM）将年度Quant大奖颁发给了Campbell R. Harvey，表彰其在量化投资组合理论领域的杰出贡献。

Harvey博士提出了利率期限结构可以作为美国商业周期的领先指标的概念。此外，Harvey博士也扛起了遏制金融文献中普遍存在P-hacking（数据操纵）*行为的大旗，这个问题不能再被否认或忽视。

*我们在统计时经常用到P值，一般认为P≦0.05有统计学意义。但是现在很多统计学家并不是这样认为，对于P值的滥用和误用进行了苛刻的批评。因此出现了一个新词：P-hacking。

P-hacking 最早应该是美国宾夕法尼亚大学的Simmons和他的团队提出来的，Simmons等人也对P-hacking进行了定义：

P-hacking refers to the practice of reanalyzing data in many different ways to yield a target result. They, and more recently Motulsky, have described the variations on P-hacking, and the hazards, notably the likelihood of false positives—findings that statistics suggest are meaningful when they are no.

P-hacking 按照字面的意思来看是「P值黑客]，但是实际上的意思科研动力认为是「P值篡改」或者「P值操纵」。P-hacking是科研人员不断的尝试统计计算直到p<0.05，当然有时这可能是无意识的。

回到主题。根据Harvey的统计，自20世纪60年代以来，有超过400种因子被发表在顶级期刊上，其中大约有一半是在过去10年中发现的。这些因子大概可以归类为规模、波动性或估值等应用于股票市场，并被认为能够跑赢市场。

来源: A Census of the Factor Zoo

Harvey表示，许多在paper看起来很有希望的因子在现实生活中都不起作用，有多少因子可以令人信服？

石川博士也曾写过一段话：

不论是什么领域，如果一篇学术论文提出的模型和得出的结论不能被其他学者或业界复现，那发表这样的文章就无异于耍流氓。

是的，在我们的研究中，存在着诸多人为和理论的影响因素，我们着重以下几个点进行阐述。

晋升与加薪

研究者需要发表文章以获得晋升并获得更高的报酬。他们意识到他们需要提供“Positive”的结果。为了得到“Positive”的结果并获得统计显著性，研究者采用了各种数据挖掘策略，虽然从原则上讲，如果以高度纪律的方式进行数据挖掘并没有什么错，但通常他们并不是按照纪律进行的。他们可能会选择不同的样本开始日期或排除某些可能降低结果强度的影响期。

这里会涉及到P-hacking（数据操纵）行为，下面的内容也会讲到。

但是通过上面的骚操作，编辑、同行评审、读者和投资者很难察觉。例如，如果一个研究人员尝试了100个变量，但是最终只选择了最重要的一个，那这就是不当的研究行为。如果读者知道研究人员尝试了100个变量，他们也会知道大约5个变量纯粹是偶然出现的。

这个观点其实埃隆·马斯克也说过，那是在2013年可汗学院的一个采访上。

马斯克说：大多数学术论文都毫无价值！究竟有多少PhD论文被人真正用过？

针对这个问题。其实目前在业界与学界引起了大家的广泛讨论。

在Quora上，工程师副总裁Xavier Amatriain针对这问题的回答比较中肯：作为多篇论文的作者以及审稿人，Amatriain 表示：“现行的学术体系并不以提升‘实用性’为基础，一旦接受了这一设定，那么多数论文无用（useless）就毫不奇怪了……至少 useful 的部分定义是如此。” Amatriain 继续说，学术论文主要从是否有新意（novelty）、有意义（significance）和有多少原创性（originality）这几个方面考量。所以，在评论一篇学术论文的时候，真正应该问的是：这篇论文对这届学术论文是否有意义，而非问这篇论文是否对全人类有意义。

研究动机

模型是否有可靠的经济含义解释？

在进行研究之前是否存在经济解释或假设？

实证研究经常为理论的发展提供基础。考虑实验物理学和理论物理学的关系。实验物理的研究人员测试并检验现有理论。理论物理学家经常利用实验物理的结果来建立更好的模型。这一过程与科学方法的概念是一致的。提出了一个假设，实证检验试图寻找与假设不一致的证据，即所谓的可证伪性。

这个假说提供了一个规则，可以减少过拟合的机会。重要的是，这个假设需要有一个逻辑基础。例如，下图中的alpha-bet多空交易策略没有任何理论基础，更不用说先验假设了。

这个策略令人难以置信！

基于数据挖掘的股票策略：基于股票代码中的字母形成投资组合。

A(1)-B(1)表示：做多所有以“A”为首字母的股票，做空所有以“B”为首字母的股票，等权。下图的策略考虑了股票代码前三个字母的所有组合，表示为S(3)-U(3)，效果却出奇的好

大家也可以尝试一下大A股，看看有没有类似的效果~

虽然这看起来很荒谬，但这在数据挖掘和机器学习中有重要的借鉴意义。

研究人员在没有事前经济假设的情况下开始实证调查，从而引发未来的问题。首先，如果没有事先的经济假设，就连考虑模型或变量都是低效的。其次，无论结果如何，如果没有一个可靠的经济含义解释，研究人员将模型应用到真实交易时，失效的可能性会很大，这是机器学习的缺点之一。

另一个微妙之处在于: 在医学等其他学科中，研究人员往往没有一个预先指定的理论，而数据探索在塑造未来的临床试验中至关重要。这些试验为研究人员提供了真正的样本外数据。在金融和经济领域，我们没有条件去创建一个大规模的样本外测试。因此，将这种探索性方法在金融和经济领域是危险的。我们可能不会危害客户的健康，但我们会危害他们的财富。这与机器学习方法尤其相关，机器学习方法是为数据更丰富的学科开发的。

数据和样本选择

筛选来的数据是否有意义？如果有其他数据，排除这些数据是否有意义？

研究人员是否采取措施确保数据的完整性？

数据转换（标准化）有意义吗？它们是提前选定的吗？最后结果是否对这些转换中的细微变化具有鲁棒性？

如果异常值被排除，排除规则是否合理？

如果数据被winsorized（处异常值的一种方法），是否有很好的理由这样做？winsorization规则是在研究开始前选定的吗？是否只尝试了一种winsorization规则（而不是很多）?

训练样本需要事先验证。研究开始后，样本不应该改变。例如，如果样本开始于1970年，假设模型有效，但如果样本开始于1960年，这种情况下，模型就不起作用了。一个极端的例子是删掉全球金融危机、科技泡沫或1987年的市场崩溃的数据，因为它们损害了模型的预测能力。研究人员不能篡改数据，使模型工作！

确保数据质量。有缺陷的数据会使研究人员误入歧途。对数据的任何统计分析都只取决于输入数据的质量，垃圾进，垃圾出！特别是在某些试图捕捉非线性的机器学习应用中。考虑到现在数据集的规模，在使用机器学习技术开发投资模型之前对数据进行清理是至关重要的！

对输入数据进行清洗（例如标准化）需要被记录下来，最好提前决定选用哪种。此外，结果是否对这些转换中的细微变化具有鲁棒性？例如，给定10个不同的volatility scaling去选择，如果研究人员选择的是表现最好的那个，这就是一个危险信号。

不要随意排除异常值。异常值是模型的有影响力的观测值。包含或排除有影响力的观测结果可以决定模型的成败。理想的情况是，在估计模型之前，应该为排除提供一个可靠的经济理由。一般来说，任何有影响力的值都不应该被删除。假设观测是基于有效数据，模型应该解释所有的数据，而不仅仅是被选量的观测。

在建立模型之前选择Winsorization级别。经过筛选的数据在某个阈值被截断（例如，将截断异常值到1%或2%的尾部），而不是被删除。Winsorization是一个有用的工具，因为异常值可以对任何模型产生巨大的影响。但是，在构建模型之前，应该先决定是否进行筛选，以及筛选的级别。一个错误研究的明显标志是，模型在5%的Winsorization上有效，但在1%的上失败，然后选择5%。

在2017年，Harvey在美国金融协会（AFA，American Finance Association）做的题为《The Scientific Outlook in Financial Economics》的主席演讲中，有一段演讲：“为了在期刊上发表文章，人们有一种强烈的诱惑，就是“折磨”这些数据，直到它们“供认不讳”——也就是说，进行一轮又一轮的测试，寻找一个可以声称具有统计学意义的发现”。

Harvey告诫大家：“我们不是推销员。我们是科学家！”

没有假设就难受

发表一篇没有“重大”结果的论文是很困难的。如下图所示，很少有金融领域的出版物提出所谓的negative结果（即不“支持”零假设的结果）。

“支持”假设的论文比例，在金融领域的学术期刊上发表的大约占90%

多重检验和统计方法

金融领域更有可能忽略多重检验问题。其他领域已经发现，为了控制多重检验，标准误差需要被夸大。也就是说，第 400 个因子“发现”的t值需要高于第一个因子。所以我们要思考一下的问题：

研究人员是否有跟踪所有尝试过的模型和变量（包括成功的和不成功的），是否意识到多重检验的问题？

如果使用了互动变量，是否对所有可能的互动变量进行了完整的统计？

研究人员是否检验了列出的所有变量，还是一旦找到一个好的模型，他们就立即停止了研究？

给定20个随机选择的策略，其中一个可能由于偶然因素而超过2Sigma阈值（t统计量2.0或以上）。因此，如果测试了多个策略，那么2.0的t统计量就不是一个有意义的基准。跟踪尝试过的策略的数量是至关重要的，同时也要衡量它们之间的相互关系。对于相对不相关的策略，则采用更大的阈值惩罚。例如，如果测试的20个策略相关度接近1.0，那么这个过程相当于只尝试一个策略。

假设研究人员从20个变量开始，并通过一些互动变量（变量1 x变量2）和（变量1 x变量3）进行实验。这种单一的互动不会转化为22个测试（最初的20个，加上两个额外的互动变量），而是转化为190个可能的互动。

另一种考虑这个问题的方法是假设（在一个单一的环境中）研究人员编制了一个包含20个变量的列表来测试预测能力。第一个研究人员只做了一个测试就停止了，因为他发现了第一个变量就是有效的。可运气太好了。另一个研究人员也他有相同的20个变量，却以不同的顺序进行测试，只有最后一个变量有效。在这种情况下，2sigma的发现将被丢弃，因为对于20种不同的测试，2sigma的阈值太低了。

这也回到了我们前面说的，晋升与加薪问题。不同的学术机构有不同的激励措施。最好的学校不仅仅计算教员的出版物数量。这些学校也在寻找能够产生持久影响的出版物。刚才说到，如果一个研究人员尝试了100个变量，但是最终只选择了最重要的一个，但不太可能产生持久的影响，因为结果可能只是侥幸，进一步的研究将揭示其脆弱性。然而，绝大多数的学术机构只计算出版物的数量，以便做出提升的决定。

这些情况表明了一个重要的教训：同行评议的论文比非同行评议的论文更值得信任，但对同行评议论文的怀疑也是有道理的！

金融领域的复制危机

关于金融领域的复制危机，Harvey几年前就开始了这场争论：一个新的因子需要清除一个更高的障碍，t值大于3.0。大多数声称金融经济学的研究结果可能是错误的。”

虽然我们的声明是带有挑衅的，但其他领域已经得到了类似的认知。尤其是在2005年，在医学领域， Ioannidis（2005）在他具有里程碑意义的论文中断言：“大多数已发表的研究成果都是错误的。”

大部分原因是研究人员在发表具有统计学意义的结果之前进行了大量的试验。或者在试验过程中改变不同的参数。这就是所谓的The garden of forking paths，并不总是经过深思熟虑的。

在过去的几年里，一些金融数学领域的一些学者已经注意到困扰大家的回测过拟合问题。例如，下面这篇在2016年发表的论文阐述了这个问题：

为什么在理论上看起来不错的策略往往在实践中表现不佳，是因为回测中那些看起来牛逼轰轰的表现往往不会在实际应用中继续重现。

沿着这条线，在下面这篇论文中：

论文表明：基于回测，可以很容易地实现任何预期的目标。比如10年或更长时间内每月增长1%。然而，当呈现新的数据时，它们总是被证明是禁不住考验的。至少，完全不能复制当初所宣称的目标。

如今，随着算力与程序化技术的兴起，情况更加恶化了！

为一个策略生成千上万、数百万甚至数十亿的组合权重或参数已经变得越来越简单。正如这篇论文所提到的：

Marcos Lopez de Prado、Michael Lewis在回顾了上述以及该领域其它的最新发展后，遗憾地得出结论：从业者和学者发现的大多数投资策略都是错误的！

同样，Marcos Lopez de Prado在2018年《福布斯》采访Brett Steenbarger时，也从以下几个方面讨论了这种情况：

假设一家制药公司开发了1000种药物，并在1000组志愿者身上进行测试。当有几十种测试证明“显著性”的几率为0.05时，这些药物就被当作有效的治疗方法开始销售了。病人们相信这些“科学测试”，纷纷涌向这些新的药物。结果却发现，由于药物并没有带来预期的效果，他们的病情反而恶化了。一些消费者病得很厉害，有些人甚至死亡。

显然，这种欺骗行为会引起公众的强烈抗议。事实上，这正是我们有一个监管机构和法律来帮助确保药物在向公众提供之前经过了适当的测试的原因。但金融消费者却得不到这样的保护，使他们容易受到未经验证投资策略的影响。这些假阳性结果尤其具有误导性，因为它们是由一群具有专业研究背景的人所推动的，而这些研究人员并没有使用必要的科学工具来发现这些虚假的结果。

Fama将有效市场定义为：如果资产价格完全反映了可得的信息，则市场有效。而在随后的研究中，众多异常收益现象（Anomalies）被发现，即持有具有某种特征的股票在未来会获取超额收益。

为了更好地评估金融领域的可复制性状态，Kewei You、Chen Xue、Lu Zhang发表了一篇关于金融领域异象指标复制的论文：

在Lu Zhang教授的论文中，基于美国市场数据，对447种异常收益现象进行了研究（考虑到变量定义的唯一性，实际有大约220种异常收益变量）。结果表明，将T值为2作为阈值时，约64%的异常收益组合收益是不显著的；将阈值提高至3时。约85%的异常收益组合收益是不显著的。也就是说，尽管已有文献记录了众多样本期内有效的因子，但当对其进行复制时，该因子有效性或丧失、或减弱。

论文最后指出：投资者必须对研究结果自己动手进行复制与回测，所谓“信任但要验证”。对任何感兴趣的研究成果，都需要在研究团队反复独立测试验证后才相信，对学术研究结果反复测试检验是很有必要的。科学文献自我纠正的机制是有限的，一般也只会纠正最重要研究成果的偏差。

大部分基于流动性的变量基本只在微盘股有效，即使用等权重，交易摩擦因子的复制成功率也只有不到40%。因此这个类别因子的有效性值得怀疑。我们并不是说流动性、交易微观结构和其他交易摩擦变量（例如交易费）在实践中不重要，而是就驱动股票获得超额收益的因子而言，交易摩擦远远没有价值、动量、投资和盈利因子重要。

其他一些众所周知的异象指标，作者无法复制，包括：

the Bhandari (1988) debt-to-market; the Lakonishok-Shleifer-Vishny (1994) five-year sales growth; the La Porta (1996) long-term analysts’ forecasts; several of the Abarbanell-Bushee (1998) fundamental signals; the O-score and Z-score studied in Dichev (1998); the Piotroski (2000) fundamental score; the Diether-Malloy-Scherbina (2002) dispersion in analysts’ forecasts; the Gompers-Ishii-Metrick (2003) corpo- rate governance index; the Francis-LaFond-Olsson-Schipper (2004) earnings attributes, including persistence, smoothness, value relevance, and conservatism; the Francis-LaFond-Olsson-Schipper (2005) accrual quality; the Richardson-Sloan-Soliman-Tuna (2005) total accruals; the Campbell-Hilscher-Szilagyi (2008) failure probability; and the Fama-French (2015) operating profitability.

有人担心，尽管Kewei You、Chen Xue、Lu Zhang引用了一些多重检验统计数据，但考虑到他们的研究范围，可能没有完全弥补这一现象。但这意味着，如果有什么区别的话，那么他们的研究结果是相对保守的。在他们的研究中，统计上可以复制的指标甚至更少，或者仅在非常有限的统计可信度下才可复制。

更重要的是应该记住，张教授他们的数据只持续到2016年。从那时起，全球市场上基于大数据的程序化交易大幅度增加，这也很可能意味着，一些曾经有重大价值的异象指标不再有效！

2016年，Harvey、Liu、Zhu的一项研究表明：他们分析了296篇已发表的论文中的异象，发现80至158篇（高达53%）可能是错误发现。

作者认为，该领域的一种基本结构性结构偏差可能是罪魁祸首：尽管复制研究经常出现在大多数其他科学领域的顶级期刊上，但这类研究很少在金融和经济领域发表。换句话说，人们普遍倾向于发表新的结果，而不是严格地验证之前的结果。

美国金融协会前任主席Campbell R. Harvey也注意到了这类问题：

https://faculty.fuqua.duke.edu/~charvey/Research/Published_Papers/P131_The_scientific_outlook.pdf

由于复制性研究和其他没有报告显著新结果的研究往往产生较少的引用，这类论文不太可能发表。另一方面，Harvey注意到研究人员也会造成发表偏见，摸清了期刊对有重大新结果的论文的套路，作者可能不会提交只有边缘结果的论文。这种偏见在其他领域被称为“file drawer effect”。发表偏见也可能是由于作者在期刊提交的论文中精心挑选最重要的结果引起的，这是P-hacking的一种形式。

当然也有最新的一些研究表面有不一样的观点：

Theis Jensen，Bryan Kelly 和 Lasse Pedersen 在2021年3月发表的一篇论文《 Is There a Replication Crisis in Finance? 》，他们使用贝叶斯方法研究了论文中的因子是否能复现的问题，并得出结论:

大多数因子确实是可以复现，而且在样本之外，在全球市场都表现出了一致性。
虽然有一小部分因子未能复现，但整体表现并没有大家认为的那么糟糕。
使用他们的贝叶斯方法，复现的成功率(超额收益在统计上显著)是85% ，而且这个结果在美国和全球数据都是一致的。

近期，美联储高级经济学家Andrew Chen及科隆大学教授Tom Zimmermann一篇工作论文《Open Source Cross-Sectional Asset Pricing》中，详细整理总结了过去关于资产定价的学术文献中提及的319个因子，并进行复现及测试。测试的数据及代码也在Github中开源，主要代码由Stata、R及SAS完成，他们根据原始出处的因子有效性的测试结果，作者将因子分为了以下四大类：

Clear Predictor：long-short收益在统计上非常显著，总计161个
Likely Predictor：long-short收益在统计上比较显著，总计44个
Not-Predictor：long-short收益在统计上不显著，总计14个
Indirect Signal：需与其他结合、或要做一些修改后才有预测性，总计100个

通过他们自己的测试，他们发现只有三个因子的测试结果与原论文不一致。对于原论文中的Clear Predictor和Likely Predictor（共205个），作者对原文测试结果的t-value与复现后的t-value进行了回归，结果如下图，可以看出复现的结果和原论文非常接近。，t 统计数据的斜率为0.90，r 平方为83% ：

Chen 和 Zimmerman 还解释说，一些论文发现失败率更高的原因是他们对因子的分类错误。Kewei Hou, Chen Xue, and Lu Zhang (HXZ) 在《Replicating Anomalies》中研究了452个因子，实际上一共只有240各因子，其中212个是这240个不同持仓期。而且在这240个因子中，只有118在统计学上显著。但实际上，Chen 和 Zimmerman发现在HXZ认为无效的因子中，在原论文中就没有本身就没有进行多空收益统计显著性的测试。但对于研究公布后效果衰减的问题，他们的结论与McLean and Pontiff (MP)的高度一致，特别是对于样本内效果非常优秀的因子来说，发表后效果下降的更为明显。

需要注意的是，Chen 和 Zimmerman的复现并没有解决因子可投资性的问题，正如论文《A Taxonomy of Anomalies and Their Trading Costs 》和《Zeroing in on the Expected Returns of Anomalies》发现的那样，考虑了交易成本，如买卖价差之后大部分有效的因子也变得无效了，并不能带来真正的收益。所以因子的可投资性，也是因子研究中非常值得关注的问题。

该项目还有一个网站，用于更新项目的最新动态：

https://www.openassetpricing.com/

交叉验证

研究人员是否意识到真正的样本外测试只有在真实交易中才可能？

是否有适当的步骤来消除样本外“迭代”的风险（即样本内模型后来被修改以适应样本外数据）?

样本外分析是否代表真实交易？例如，是否考虑了交易成本和数据修正?

一个资产管理人，如果能说自己开发除了一套可以预测市场走势的系统，那应该是非常牛x的事了，肯定可以吸引无数的投资人。想必大家都曾在追寻“如何预测市场走势”的道路上有过类似的经历。

Goyal和Welch在2008年发表的一篇论文《a Comprehensive Look at the Empirical Performance of Equity Premium Prediction》中，测试了N多种预测股票未来超额收益的方法，最后不尽感叹道：

“Our article comprehensively reexamines the performance of variables that have been suggested by the academic literature to be good predictors of the equity premium. We find that by and large, these models have predicted poorly both in-sample (IS) and out-of-sample (OOS) for 30 years now; these models seem unstable, as diagnosed by their out-of-sample predictions and other statistics; and these models would not have helped an investor with access only to available information to profitably time the market.”

“...我们发现大部分的模型在样本内和样本外的表现都非常差；这些模型样本外的预测结果非不稳定了；这些模型没有办法帮助只有有限信息的投资人去预测股票市场。”

针对这个问题，我们从几个方面考虑：

Harvey在文章中说到，学术论文忽略了如交易成本等因素，这些成本可能是显著的。一个潜在有用的测试小组是新推出的 ETFs。许多新的ETF都声称是基于发表在最优秀DE 学术期刊上有同行评议研究。但很少有投资者意识到，同行评审的研究可能已经被P-hack或过度拟合到这样的程度，结果不太可能重复出样本。

Chris Brightman、Feifei Li、Xi Liu在2015年的一篇名为《Chasing Performance with ETFs 》的文章就论证了这种情况。

上图展示了所有ETF的市场调整收益率。回测的收益率是强劲的。然而，在向美国证券交易委员会提交申请并随后推出ETF之后，该EFT收益率为零。这种结果与过拟合/P-hacking行为是一致的。

Mclean、Pontiff 在16年的一篇名为《Does Academic Research Destroy Stock Return Predictability?》的论文说到：如果策略额外收益或者可预测性仅存于学术研究所覆盖的样本内，另一个可能的原因是统计偏差。

总之，统计偏差也会让策略在样本外的表现减弱。因此，我们需要在控制统计偏差的基础上来研究学术研究的发表效应。

作者通过研究97个long-short strategy发现，将学术文章所用的样本和学术文章样本之外的策略收益对比，策略收益平均减少26%，因此作者说26%就是平均意义上统计偏差的上界。（这个认识在好几个方面都不是很严格，不过笔者认为在不能做重复实验的基础上，这样的认识是非常合理的。）

但是策略发表后，收益平均下降58%，显著大于统计偏差。因为，作者认为发表效应确实显著存在。

但上图与后一种解释不一致。如果一种策略确实产生了Alpha，ETF就不太可能率先收获 Alpha，而对冲基金更有可能率先介入。因此，我们可以预判在向证券交易委员会提交申请之前，ETF的回测会变得更加平坦，但这张图没有展示这一点。事实上，在向美国证券交易委员会提出申请的前一年，这个斜坡是非常陡峭的。因此，实证与回测过拟合是一致的。

因此，你可以在没有交易成本的情况下进行所有这些学术研究，然后说不存在复制危机。那么样本外如何的确认呢？在Harvey看来，这是非常有利的佐证！

同时，对于预留出来的样本外数据，它们也是已经发生过的历史。尽管模型将它们视作样本外，但由于我们经历了那段历史，知道在那段时间市场是如何发展的（什么时候涨、什么时候跌），会不可避免的把领先变量和这些历史经验联系起来。正是由于这个原因，历史数据中并没有真正的样本外，只有实盘交易才是真正的样本外。

一个更好的样本外是基于新发现的历史数据，例如一些研究人员试图将美国基础数据的历史数据库回填到20世纪20年代（1920s）。可以合理地假设这些数据没有被挖掘，因为这些数据以前不是以机器可读的形式提供的。但是要小心。尽管以前没有这些数据，但资深的研究人员知道历史是如何发展的，宏观经济事件是如何与市场波动相关联的。对于那些精通市场历史的人来说，这些数据只是他们自身经验和塑造他们先验假设的样本。即使对那些知识不那么渊博的人来说，今天的传统智慧也是来自过去的事件。

在不同环境中应用该模型是个好主意，但应谨慎行事，因为各国之间都存在相关性。例如，一种数据挖掘的（可能是假的）异象在美国市场的某个特定样本上有效，在加拿大或英国的同一时间段内也可能有效，因为这些市场之间存在相关性。

假设一个模型在样本期内是成功的，但在样本期外失败了。研究人员发现，这个模型由于一个特定的原因而失败了。研究人员对初始模型进行修改，使其在样本中和样本外都能工作。这已经不再是一个样本外测试了。

石川博士之前写过一篇文章，也是针对这点做了一些自己的见解《所有历史数据都是样本内》:

我们构建策略靠的不是站在回测起点往后看的先见之明，而是站在回测终点往前看的后见之明。所有历史数据都是样本内。

1、Out of Sample is Not Really Out of Sample.

举个例子。在因子选股中，我们通常会用 PE、ROE、EPS 等指标来选股，并按照各种逻辑 —— 比如动量或者估值 —— 进行难如登天的因子择时。在择时的时候，我们会非常小心的使用滚动窗口外推，利用 point in time 数据来避免 look-ahead bias（前视偏差）。但无论是在全部回测期内多因子选股，还是使用滚动窗口在“样本外”做因子择时，这背后无法否认的事实是我们已经知道 PE、ROE、EPS 在过去整段历史时间内是有效的！

我们并不是在 10 年前就预见到了 PE、ROE、EPS 会有效并在过去的 10 年里使用它们；而是在已经知道市场在过去 10 年是如何展开的前提下，通过 empirical data analysis 找到了 PE、ROE、EPS 这些好使的因子然后再去对着它们回测。扪心自问一下，如果一个因子在回测期内的表现是近似随机的，我们会用它来做因子择时吗？这当然不是说它们并没有业务依据，而只是想强调正是因为历史已经发生了，因此它不是真正的样本外。

2、Iterated Out of Sample is Not Out of Sample.

在可交易特征方面，满足一个策略假设的样本其实很少。举个极端的例子，比如 A 股中追踪大牛市的趋势类策略。在过去 20 年中，也仅有三波牛市，而且它们表现出来的市场特征均不相同（比如以 2007 年大牛市构建的趋势追踪策略在 2015 年大牛市中的逃顶效果并不好）。在这种情况下，如果还把数据分成训练集和测试集会怎样呢？我们一定会把策略在测试集中的体现出来的新市场环境反馈到训练过程中，这已经违背了分训练集和测试集调参的本意；这等价于我们在整个历史数据中对策略的参数调优了。

来看一个简单的例子 —— 针对沪深 300 指数使用双均线择时。

假设使用 2005 年 1 月 1 日到 2011 年 12 月 31 日作为样本内数据；使用 2012 年 1 月 1 日到 2019 年 2 月 25 日为“样本外”数据。在样本内，使用 2 天窗口计算快均线、40 天窗口计算慢均线效果非常理想（下图），其年化收益率超过 30%，夏普率高达 1.3。

再来看看这组参数在“样本外”的表现。不幸的是，该策略在样本外的年化收益不到 8%、最大回撤 -25.95%、夏普率仅有 0.51。

如果对着“样本外”搜参数，则最优的快、慢均线窗口参数是 20 和 24，其夏普率也仅有 0.70，远远差于 2012 年之前的表现。考虑到这种情况，很自然的想法就是添加更复杂的逻辑来提高 2012 年之后的表现。显然，这不是样本外测试，而是过拟合。

无论从独立性还是可交易特征而言，交易数据其实都是十分匮乏的。从构建策略的角度来说，如果要求策略能够适应不同的市场状态，那么基于历史数据不断迭代的样本外并不是真正的样本外。

不要忽视交易成本。几乎所有在顶刊的paper忽略了交易成本。即使交易成本不高，许多已发表的异象在统计学上的“显著性”也基本上消失了。对历史数据的任何研究都需要在样本内和样本外分析中考虑交易成本和现实的不足。

从业研究者的风气

是否应该注重科研的质量，而不是仅仅寻求一个赚钱策略？

研究人员是否了解大多数测试将会失败？

研究的目标清晰吗（应该寻找有逻辑支撑的东西而不仅仅是有效的东西）？

一家公司的研究文化也强烈地影响着P-hacking可能性。

假设一家公司有两名高级研究员，我们称他们为A和B，他们都向CIO推销自己的想法，CIO认为这两个研究想法同样有前途。这项研究进行得非常仔细，没有P-hacking。最后，A的想法在回测中表现很好，B凉了。

OK，A的想法进入了实盘交易。

在上面的例子中，A和B都是同等级别的高级研究员。资产管理公司犯了一个很大的错误，如果A被提升或者获得额外的奖金,或者更糟糕的是，B被解雇了。这种待遇导致了一种功能失调的研究文化，在这种文化中，一项研究刚刚开始，A和B都意识到他们需要提供统计上“重要”的结果，以便在公司得到晋升，或者得到保留。他们可能通过开始数据挖掘和P-hacking来回应这些激励。

Harvey认为，在资产管理领域，P-hacking不像在学术界那么成问题，尤其是在作为产品初期的专有研究领域，这个问题更小。原因很简单：

首先，在收取绩效费的情况下，需要对资产管理公司的研究进行优化，使业绩可重复的机会最大化。这意味着资产管理公司不会选择表现最好的回测，因为这很可能是过度拟合和运气造成的。如果该基金经理推出一种回测过拟合的策略，它很可能会失败，而且不会产生业绩费。

第二个原因是声誉。如果一个资产管理公司的产品因为过拟合而表现不如人意，其投资者肯定会撤资。这种市场机制自然会最小化过拟合。资产管理公司仍然会做出大量低质量的研究。与学术研究类似，投资者也需要持怀疑态度。

如果资管行业奖励那些通过回测得出不错结果的研究，那么，我们就创造了一种不良的风气，这种风气会让一些人篡改数据，从而产生一个看似不错的策略。

Researchers should be rewarded for good science, not good results！

避免P-hacking

在你自己的研究中避免P-hacking的一个好的方法是：从一开始就对自己诚实。仔细考虑并记录你想要测试的所有内容。如果你想测试20个不同的因子，请在开始测试之前指定这些因子，并在评估指标时考虑所有20个因子。

同时，对学术研究和实践研究持怀疑态度。

但最重要的是，想想你自己的模型在做什么。神经网络有时被认为是黑箱，从某种意义上说，的确如此，但是你应该批判性地回顾每一步。如果你正在进行图像识别，请观察每一层的激活，大致了解该层的激活基于什么。如果你正在进行强化学习来玩游戏，看看你是否能够大致理解逻辑是如何工作的。如果你正在进行自然语言处理，请考虑与同义词、反义词和相关单词有关的词向量。

如果你在做股票市场分析，问问自己你真正想从模型中得到什么。为什么某些因子的第n个延迟是一个预测因子？为什么以前的收益会影响未来的收益？你为什么只考虑最近的N次收益？为什么要预测一个（每天、每小时、每分钟）的周期？你为什么要考虑从X到Y这段时间？为什么验证到Z？

将股票增量输入到一个递归神经网络中就可以达到减少损失的目的，但是有了解释，你也可以将这些值拟合到一个随机数生成器中。

你可能感兴趣的:(大数据,机器学习,人工智能,深度学习,数据分析)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出