GottdesKrieges

量化投资入门指南：数据和研究

目录

7. 数据

7.1 数据类型

7.2 数据来源

7.3 数据清洗

7.4 数据存储

8. 研究

8.1 科学的方法

8.2 思想的产生

8.3 检验

8.3.1 样本内测试

8.3.2 模型好坏的度量指标

8.3.3 过拟合

8.3.4 样本外检验

7. 数据

俗话说，“输入垃圾，输出垃圾”。数据的重要性不言而喻。系统输入变量的属性决定了可以利用系统进行哪些工作。如果宽客得到的是缓慢变化的宏观经济数据，那么就不可能建立一个快速交易模型。此外存储和提取数据所使用的数据库技术很大程度上也取决于数据的属性。因此，绝大部分顶级的公司都是自己从源头直接搜集数据，而不是从数据供应商那里购买。

7.1 数据类型

宽客使用的数据基本上可以分为价格数据（price data）和基本面数据（fundamental data）。

价格数据不仅仅是和金融产品价格相关的数据，也包括从交易行为中提取或得到的其他信息。比如股票的交易量、每笔交易的时间和规模，以及各种指标水平相关的数据（如标普500指数每日记录的波动百分比）。实际上，整个指令簿都可以看作是价格数据。

基本面数据泛指价格数据以外的所有数据。这些数据有助于决定金融产品未来的价格或者至少描述产品目前的状况。常见的基本面数据种类有财务健康状况（financial health）、财务表现（financial performance）、财物价值（financial worth）和情绪（sentiment）等。

一般来说，使用价格数据的相关交易策略通常是短期策略，而使用基本面数据的大都是长期策略。这是因为价格数据通常比基本面数据更新的频率更高。

7.2 数据来源

主要的数据来源及数据种类包括以下几种：

交易所：价格、交易量、时间戳、持仓量、空头持仓量、订单簿数据；
监管机构：各个公司财务报表、个股的大股东持股情况、内部买卖活动；
政府：宏观经济数据，如失业率、通货膨胀、国民生产总值等；
公司：财务报告和其他公告（如红利的变化）；
新闻机构：新闻报道；
数据专营供应商：可能有用的一些生产数据。如上市公司报告、基金的现金流数据等。

数据供应商可以解决把来自各种数据源的数据置于统一框架下并进行存储和分类的问题。但是，不同数据供应商提供的数据类型可能不同。比如，对某一只股票，数据供应商甲只提供价格数据，供应商乙只提供基本面数据，而且它们采用的识别股票的标识符可能也不一样。因此，宽客必须找到一种有效的方法，将不同数据供应商的关于同一产品的数据与自己已已有的内部数据库统一起来。

除了从数据供应商处购买数据以外，也可以从源头直接获取原始数据。好处是宽客可以最大限度地控制数据的清洗和存储，但是这么做往往也具有很高的成本。对每一个数据源，都需要相应的软件，把它们转化为量化交易系统可以使用的某种格式。

7.3 数据清洗

数据清洗是一项必不可少的工作。即使是从数据供应商处买来的数据，通常也无法避免地存在各种数据缺失或错误的情况。常见的数据问题包括以下五种：缺失值、错误观测值、由公司行为导致的数据错误、时间戳错误以及前视偏差。

解决缺失值问题有两种常用方法。一是使用最近的一个已知价格数据，直至出现一个新的可用价格数据为止。二是在缺失值出现的位置进行插补，补上一个合理的数据。

错误观测值也被称为坏点（bad prints）。解决错误观测值问题的第一种方法是异常值过滤（spike filter）。该方法会对价格数据中那些幅度特别大、突然的变动进行平滑处理或者直接删除。有时候例外的异常值确实存在，因此需要辅以系统监管人员进一步查看确认。当某一数据有多个数据源时，另一种方法是使用来自不同数据源的数据进行交叉核实。此外，第三种方法与处理缺失值的方法类似，通过观察坏点出现时前后的数据或者相关产品的表现，计算出一个近似值。

另一个常见的数据错误问题与公司的行为有关，比如配股和分红。一支股票的价格在配股之后往往会发生明显的变动，如果数据供应商没有记录这次配股行为，很可能会把发生变动后的数据当成坏点来处理。解决这类问题主要依赖于对公司行为的独立追踪或者人工监管。

错误的时间戳通常出现在日间数据或者实时数据中。宽客可以通过对接收到的数据的时间戳与存储数据时内部的时间进行对比来保证时间戳的正确性。同时，也可以通过对来自不同数据源的数据进行交叉检验来解决这一问题。

前视偏差（look-ahead bias）是指在某些事情真实发生之前便错误地假设已经知道了相关信息。这类问题通常是由于数据的不同步性造成的。有些数据在初次发布几个月以后会进行修正。如果宽客没有仔细对数据的修正进行追踪，在之后的研究过程中，很可能就会以为自己第一次拿到的数据就是最可靠的数据。另一种去常见的前视偏差则是由世界上不同交易所收盘时间各不相同造成的。为了解决这类问题，宽客可以记录下数据更新的发布日期。此外，也可以在关注的数据上加入人工滞后项。

7.4 数据存储

数据存储主要有两种形式，即平面文件（flat file）和关系数据库。

平面文件是没有相对关系结构的文件，类似于普通的二维表格，比较简洁。关系数据库则允许数据集中出现更为复杂的关系。

8. 研究

研究是量化交易的核心与灵魂。研究的目的是审查周密思考的投资策略。对于量化交易而言，要基于研究对投资策略进行选择。

8.1 科学的方法

由于市场是不断变化的，因此量化研究也是一个不断持续的过程。研究必须基于科学的方法。

首先，科学方法始于所观察的世界具有可解释性的事物。市场也具备某些可解释性的模式。其次，科学家形成理论去解释他的观察结果。第三，科学家必须对理论进行推断。最后，理论需要进行检验。理论的检验不是“证明”理论，而是证伪（falsification），即恰当地寻找所推断结论的反例。尚未被反驳的理论，就可以被认为暂时是正确的。

8.2 思想的产生

量化研究理论的产生有四个共同来源，即对市场的观察结果、学术文献、研究员或投资组合经理在量化公司之间的迁移以及来自主观判断型交易者的经验教训。

8.3 检验

检验是研究的中心。其基本流程如下：首先，构建模型，并基于可行数据的某个子集（样本内数据，in-sample period）训练该模型；然后在数据集的另一个子集（样本外数据，out-sample period）检验其是否盈利。

8.3.1 样本内测试

检验的第一个步骤是基于样本内数据寻找最优参数训练模型。模型的参数是定义模型的某些特性并能影响其表现的变量。

样本内测试的过程中包含一个重要的决策：如何选择拟合模型样本的宽度和长度？对宽客而言，样本的宽度涉及到使用的股票数量以及如何选择这些股票，而长度则代表着适用于拟合模型的数据时间窗口。

通过使用更多的数据，宽客构建的模型适用于更广泛的情景和市场环境，这是的模型更加稳健。另一方面，模型使用的数据越多，当被调整的时候，风险就越大，因为此时的模型仅仅能对过去进行很好的解释。

8.3.2 模型好坏的度量指标

宽客使用各种方法衡量模型的好坏。常见的方法有累积盈利图、平均收益率、收益率随时间的变异性、波峰波谷间的最大降幅、预测力、胜率或盈利时间占比、回报相对于风险的不同比率、与其他策略的关系、时间延迟以及特定参数的敏感性等。

累积盈利图是检验过程最有力的输出量，可以直观地呈现盈利的时间段和持续时间、盈利的大小、回报流的波动起伏等信息。

平均收益率表明策略在过去的实际运行情况如何，常用的指标如年化收益率。

收益率随时间的变异性描述的是平均收益率的不确定性。通常，变异性越小，策略越优。常用的指标如收益率的标准差。此外，块度（lumpiness），即显著高于平均收益的时间段内的收益占策略总收益的比例，也是一个备受关注的重要统计量。

波峰波谷间的最大降幅测量的是盈利曲线从任意一个累计波峰开始的最大回测。策略的回测越低，策略越优。

预测力表示预测模型解释被预测量的变异程度，通常用符号R2表示。如果该值为1，则表示模型解释了被预测量100%的变异信息。实际模型的预测力通常不会超过0.1。在模型检验中，宽客通常按照分位数的方法对金融产品的潜在预测的收益率进行分组。通常，具有可靠预测力的模型能够显示最坏的收益情况出现在最左边的分组，同时每一个分组的收益率都高于前一个分组。

利用盈利周期与总周期数的比值，可以对盈利的一致性进行度量。该指标可以告诉研究者，系统盈利是来自小比例的偶然表现极其优秀的交易，还是来自多次交易。

对于回报相对于风险的不同比率，比较有名的两个指标是夏普比率（Sharpe ratio）和信息比率（information ratio）。夏普比率是某周期内高于无风险利率的平均收益率与收益率的波动率之间的比值。夏普比率越高，策略越好。信息比率与之类似，不过在公式中去除了无风险利率。

许多宽客也会同时使用好几个策略，通过有效的管理策略组合，分担风险。但是，宽客需要频繁测量新策略如何适应于已经使用的策略，确保新策略能够增加价值。

时间延迟涉及到策略对接受信息及时性的敏感程度。但是，延迟信号的实施并不总是意味着导致坏结果。

如果小幅度改变模型的某个参数，结果发生很大变化，那么我们应该对该参数改变前后的两个结果都抱持怀疑态度，都不应该予以采用。这是因为模型被证明对于该参数在此处的微小改变过于敏感。

8.3.3 过拟合

过拟合的本质是研究员使用了过多的数据，建立了一个能够很好地解释过去，但是对未来解释性较差的模型。避免模型过于复杂和过于简单都是宽客应该注意的事情。

参数拟合的最后一个注意点是参数或者只能适用于过去，或者随着市场数据的不断更新，能在未来不断使用。

8.3.4 样本外检验

到目前为止，模型的参数已经通过样本内检验（训练）而固定下来，问题是基于已经被选定的这些参数，模型是否能在全新的样本外数据集中起到作用。

样本外检验有多种方法。最简单的就是使用去除样本内检验数据的剩下部分进行检验。一些研究员使用滚动样本外数据的方法（rolling out-of-sample technique）。此外也可以使用不断增长的数据窗口，随着时间不断改变，更多的数据被收集，样本外检验将持续进行。

在进行样本外检验之后，即使模型的检验效果不好，也不能在分析原因后重新对模型进行训练。因为这一做法实际上是把样本外数据集当成了样本内数据集来使用。因此，应该尽量避免在样本内数据集和样本外数据集之间来回切换。

Reference:

《打开量化投资的黑箱》，Rishi K. Narang

你可能感兴趣的:(其他内容,金融,数据挖掘,量化交易,宽客)

2012-2021年银行数字化转型综合指数-银行年报数字化词频统计小王毕业啦大数据人工智能数据分析数据挖掘大数据社科数据数据统计实证数据
2012-2021年银行数字化转型综合指数-银行年报数字化词频统计.rarhttps://download.csdn.net/download/2401_84585615/89887456https://download.csdn.net/download/2401_84585615/898874562012年至2021年期间，银行数字化转型的综合指数反映了金融行业在这一时期的数字化进程。随着技术
高可用系统：让服务永不中断的秘密爱吃青菜的大力水手 linux 运维服务器
高可用系统：让服务永不中断的秘密在数字化时代，系统的高可用性（HighAvailability,HA）至关重要。无论是电商平台还是金融服务，系统宕机都可能带来巨大损失。那么，什么是高可用系统？它又是如何实现的呢？本文将为您揭开高可用系统的神秘面纱，带您了解集群、节点、脑裂等核心概念，并推荐最经济实用的集群架构。什么是集群与节点？集群（Cluster）集群是一组协同工作的服务器，共同完成任务。它们就
凌晨の3点，线程池竟在服务器里偷偷···· 山海上的风 Java 服务器 java-ee 线程池
凌晨の3点，线程池の竟在服务器里偷偷榨干CPU····⚡️CPU：JAVAKing为窝发声,HELPME⚡️JAVAKING今天将揭露线程池的罪恶行为⚡️《线程池：OH,YES》线程池到底对项目做了什么想象一下：每次点外卖都新雇一个厨师‍，吃完就开除——这就是裸奔线程的日常！在高并发三巨头（电商秒杀、金融交易、大数据处理）中：1️⃣CPU哭诉：90%时间在面试线程，10%干活（线程切换开销）2️⃣
掌握编程：数字时代的必备技能 afsdfewasdf AI编程
编程在现代社会的必要性学习编程在当今数字化时代具有显著优势。随着科技发展，编程技能已成为许多行业的基础需求，从软件开发到数据分析，甚至传统行业也在逐步依赖技术解决方案。掌握编程能力可以提升个人竞争力，开拓职业机会。就业市场需求旺盛技术岗位如软件工程师、数据科学家、人工智能专家等持续增长。非技术岗位如市场营销、金融分析也要求基础编程知识处理自动化任务或数据分析。掌握编程技能能显著提高薪资水平和职业发
信息检索简介——文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2005年8月17日至9月3日在美国加利福尼亚州伯克莱纳举行了SIGIR国际会议（中文全称“计算机信息retrieval国际会议”），这是信息检索领域的顶级会议之一。该会议由ACM主办，主题涵盖了包括文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等多个热门方向。此次会议是第一次将信息检索作为一个学科，并取得重大突破。本文试图对SIGIR进行一个完整的介绍，阐述
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
量化价值投资入门：Fama-French三因子模型详解与实战应用量化价值投资入门到精通 ai
量化价值投资入门：Fama-French三因子模型详解与实战应用关键词：量化投资、Fama-French三因子模型、价值投资、因子投资、资产定价、Python实现、投资组合管理摘要：本文深入解析Fama-French三因子模型的理论基础、数学原理和实际应用。作为现代金融学最重要的资产定价模型之一，三因子模型通过市场因子、规模因子和价值因子解释股票收益差异。我们将从模型起源开始，详细讲解其数学表达和
对话式数据分析与Text2SQL Agent产品可行性分析思考
Text2SQLAgent产品可行性分析报告版本BG：基于一些手撸Text2SQL的产品MVP，进一步进行商业化思考。目标输出包含市场、技术、开发、商业模式及护城河策略的完整可行性分析报告，支撑产品决策。✅市场调研与竞品分析研究内容：市场现状与趋势全球Text2SQL技术应用场景（金融、零售、医疗等）2023-2028年复合增长率（CAGR）及驱动因素（如低代码、AI民主化）竞品分析矩阵竞品类型代
Qt：QCustomPlot库简介十秒耿直拆包选手 C and C++Qt and Pyside QCustomPlot学习 qt c++QCustomPlot
QCustomPlot是一个基于Qt框架的轻量级C++绘图库，专为高效绘制二维图表（如曲线图、柱状图、金融图表等）而设计。相比QtCharts模块，它以高性能和高度可定制性著称，尤其适合需要实时数据可视化的科学计算、工业监控和金融分析场景。核心特性概览特性说明轻量高效仅需2个头文件+1个源码文件，零外部依赖实时性能优化处理百万级数据点，支持OpenGL加速多图层系统支持无限图层叠加，独立坐标系交互
企业架构设计中的CBAM方法深度解析：成本效益驱动的架构决策艺术架构进化论系统架构设计师架构微服务云原生后端
目录CBAM方法概述与核心价值CBAM核心流程与实施步骤前期准备与场景确定成本效益建模与分析风险调整与决策制定实施技巧与挑战克服CBAM实战案例与应用场景案例一：电商平台促销系统架构选型案例二：制造业ERP系统云迁移决策案例三：金融机构实时风控系统重构跨案例经验总结CBAM与其他架构评估方法的集成应用CBAM与ATAM的协同机制分层评估框架构建行业定制化集成模式敏捷环境中的轻量级CBAM组织能力建
简易区块链的搭建（3）——交易 Hock2024 golang区块链的构建区块链 golang
背景知识1.UTXO账户模型产生背景：为了解决第一类双花问题（一笔钱花两次）原理介绍：我们先来介绍传统的金融模式，你有10元存款，想转给我3元，银行会怎么操作？很显然，他会将你的账户减3元，将我的账户加3元。这种交易模式记录的是交易结果而UTXO账户模型记录的是交易过程下面是简单的例子：还拿上述例子，你给我转账10元，那么这个机制会做出如下记录：初始状态：你的账户有10元，由一个未花费交易输出（U
从决策树到随机森林：Python机器学习里的“树形家族“深度实战与原理拆解小张在编程机器学习决策树随机森林
引言在机器学习的算法森林中，有一对"树形兄弟"始终占据着C位——决策树像个逻辑清晰的"老教授"，用可视化的树状结构把复杂决策过程拆解成"是/否"的简单判断；而它的进阶版随机森林更像一支"精英军团"，通过多棵决策树的"投票表决"，在准确性与抗过拟合能力上实现了质的飞跃。无论是医疗诊断中的疾病预测，还是金融风控里的违约判别，这对组合都用强大的适应性证明着自己的"算法常青树"地位。今天，我们就从原理到实
python ks值计算_风控模型中的K-S理解以及python实现 weixin_39747293 python ks值计算
笔者在工作中计算单变量的ks值时，发现几个分布不同的变量好y计算的ks值相同，凭借统计直觉，发现一定存在问题，笔者从数据和计算ks代码两个方向进行排除。最后定位到计算使用stats.ks_2samp()函数计算ks值时，如果变量存在缺失值，计算得到ks值有误，下面笔者就来好好梳理一下ks值的前世今生。ks检验介绍笔者刚入门机器学习开始做的例子就是金融场景下风控模型。那时评价模型的好坏就用传统的机器
人工智能大模型原理与应用实战：大模型在金融风控中的应用 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
文章目录人工智能大模型原理与应用实战：大模型在金融风控中的应用01.背景介绍1.1金融风控的挑战1.2大模型的优势2.核心概念与联系2.1大模型在金融风控中的应用场景2.2大模型与传统风控技术的结合3.核心算法原理具体操作步骤3.1基于大模型的欺诈检测3.2基于大模型的信用评估4.数学模型和公式详细讲解举例说明4.1逻辑回归模型4.2XGBoost模型5.项目实践：代码实例和详细解释说明5.1基于
【数据挖掘】分类算法学习—ID3 会的全对٩(ˊᗜˋ*)و 数据挖掘数据挖掘分类学习经验分享 ID3
分类算法学习—ID3ID3（IterativeDichotomiser3）是一种经典的决策树学习算法，由RossQuinlan于1986年提出，主要用于处理离散特征的分类问题。其核心思想是通过信息增益选择最优特征进行节点分裂，递归构建决策树。要求：理解并掌握ID3算法，理解算法的原理，能够实现算法，并对给定的数据集进行分类，分析个人参股的情况代码实现：importpandasaspdimportn
性能测试需求分析详解
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快1、客户方提出客户方能提出明确的性能需求，说明对方很重视性能测试，这样的企业一般是金融、电信、银行、医疗器械等；他们一般对系统的性能要求非常高，对性能也非常了解。提出需求也比较明确。曾经有一个银行项目，已经到最后的性能测试极端，因为数据库设计不合理，导致性能出现很大的问题，最终不得不把整合项目作废，对于这样的项目，其实从分析设计阶段就应该
这份「零基础」机器学习实战课程，帮你彻底搞懂AI不再迷茫！——深度解析ML-For-Beginners wylee 人工智能机器学习
引言：告别迷茫，拥抱AI未来在当今科技浪潮之巅，人工智能（AI）无疑是最璀璨的明星。机器学习（MachineLearning），作为AI的核心驱动力，正以前所未有的速度渗透到我们生活的方方面面：从智能推荐系统到自动驾驶，从疾病诊断到金融风控，其应用场景几乎无处不在。然而，对于无数渴望投身AI领域的学习者而言，机器学习的门槛似乎一直高不可攀。你是否也曾有过这样的困惑：面对海量的在线课程和资料，眼花缭
民生银行·企业文化与行业知识 weixin_44589682 企业文化业界资讯
民生银行·企业文化与行业知识介绍概况文化战略体系战略定位发展策略特色优势荣誉新闻20245.22民生银行首个光伏发电“绿色金融大楼”项目投用5.11SRP2024中国年会暨中国区年度奖项颁奖仪式4.8获准设立伦敦分行3.282023年年度报告3.18“绿色无限·碳索未来”CCER碳市场金融服务推广会3.18国际知名财经杂志《财资》(“TheAsset”)“TheAssetTripleASustai
随机近似算法：步长序列选择的理论与金融实践
随机近似算法：步长序列选择的理论与金融实践摘要随机近似算法作为统计学习与优化的核心工具，其收敛性与稳定性高度依赖步长序列的设计。本文系统阐述步长序列的理论约束与工程选择策略，并结合金融波动率估计场景，展示算法在动态系统参数估计中的实践价值。1.随机近似算法的数学框架随机近似算法通过随机样本的迭代更新逼近目标参数，其核心迭代式为：θn+1=θn+an(Yn−g(θn))\theta_{n+1}=\t
Solidity学习 - 断言失败本郡主是喵 #Solidity 学习区块链 Solidity
文章目录前言一、原理剖析（一）断言的作用（二）断言失败的影响（三）与require的区别二、案例分析（一）某去中心化金融（DeFi）借贷合约案例（二）某加密货币交易平台智能合约案例三、解决办法（一）正确区分assert和require的使用场景前言在Solidity智能合约开发领域，确保代码的稳健性和安全性是至关重要的。其中，断言失败漏洞是一个需要开发者高度警惕的问题，它可能会对智能合约的正常运行
合规型区块链RWA系统解决方案报告——机构资产数字化的终极武器 Ashlee_guweng22346 区块链需求分析架构 python eclipse c#git
（跨境金融科技解决方案白皮书）一、直击机构客户四大痛点痛点传统方案缺陷我们的破局点✖️跨境资产流动性差结算周期30+天，摩擦成本超8%▶️7×24h全球实时交易（速度提升90%）✖️合规成本飙升KYC/AML人工审核占成本35%+▶️自动化合规引擎（成本降低50%）✖️资产透明度缺失多层中介导致权属不清▶️链上全生命周期溯源（100%防篡改）✖️新型资产配置难非标资产难分割、难定价▶️碎片化代币发
AI+实时计算如何赋能金融系统？DolphinDB 在国泰君安期货年度中期策略会的演讲
6月25日，国泰君安期货2025年度中期策略会在上海顺利开幕。本次策略会以“观势明变，本固枝荣”为主题，特邀15位重量级行业嘉宾和52位明星分析师发表精彩观点，DolphinDB受邀出席会议并作主题演讲。实时计算如何赋能量化投研交易下午13:30分，AI投资主题分论坛正式启幕，DolphinDB创始人周小华博士在随后登台发言，带来了题为《AI+实时计算赋能量化金融》的精彩发言。演讲中，周小华博士首
稳定币技术全解：从货币锚定机制到区块链金融基础设施 Ashlee_guweng22346 游戏区块链金融架构人工智能自动化 java
引言：稳定币的技术定位根据国际清算银行（BIS）2025年定义：稳定币是以法定资产或算法机制维持价值稳定的区块链代币，其本质是传统金融与加密技术的接口层。核心价值：解决加密货币波动性问题→成为DeFi生态的计价基准与结算工具第一章技术原理：稳定币如何实现“稳定”？1.1锚定机制的三类技术路径graphTBA[稳定币类型]-->B[法币储备型]A-->C[加密资产抵押型]A-->D[算法调控型]B-
DeLorean联手Sui网络推出最新区块链订车,XBIT平台xaut今日价格行情飙升引热议 caijingshiye 区块链
币界网6月24日讯,全球豪华汽车领域迎来颠覆性变革!DeLorean汽车公司今日宣布,基于SuiNetwork打造的全球首个区块链汽车预订市场正式上线,用户可通过加密货币直接预订其旗舰电动跑车Alpha5,并在等待交付期间通过质押资产赚取收益。这一创新模式不仅解决了传统汽车预订的退款难、周期长等痛点,更将区块链技术的透明性与金融属性深度融合。受此消息刺激,去中心化交易所XBIT平台上的黄金稳定币x
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
解锁阿里云E-MapReduce：大数据处理的超能力秘籍云资源服务商阿里云云计算人工智能云原生
一、引言在数字化浪潮汹涌澎湃的当下，大数据已然成为推动各行业创新发展的核心驱动力。从电商平台精准的个性化推荐，到金融机构严密的风险评估，再到医疗领域高效的疾病预测，大数据的应用场景无处不在，深刻地改变着我们的生活与工作方式。在这片充满机遇与挑战的大数据领域中，阿里云E-MapReduce宛如一颗璀璨的明星，占据着举足轻重的地位。它凭借强大的大数据处理能力、卓越的性能表现以及丰富的功能特性，为企业和
Python爬虫实战：用Tushare和Baostock爬取股票历史数据及K线图与技术指标计算
在金融数据分析和量化交易中，股票历史数据的获取是进行技术分析、回测和策略研究的第一步。传统上，投资者需要依赖付费数据服务，然而如今，借助Python强大的爬虫工具和开源数据接口，我们能够轻松地爬取免费的历史股票数据，并结合K线图与技术指标来进行深入分析。Tushare和Baostock是两个非常流行的开源金融数据接口。Tushare提供了丰富的国内外金融数据，特别是A股市场的历史数据和实时数据，而
稳定币独角兽：Circle InnoLink_1024 区块链稳定币区块链
Circle公司背景分析CircleInternetFinancial（以下简称Circle）是一家成立于2013年的美国金融科技公司，总部位于波士顿，由JeremyAllaire和SeanNeville联合创立。公司最初专注于点对点加密货币支付和交易，后转型为全球领先的稳定币发行机构，其核心产品是与美元1:1挂钩的USDCoin（USDC），目前为全球第二大稳定币，仅次于Tether的USDT。
企业级知识库私有化部署：腾讯混元+云容器服务TKE实战大熊计算机 #腾讯云语言模型
1.背景需求分析在金融、医疗等数据敏感行业，企业需要构建完全自主可控的知识库系统。本文以某证券机构智能投研系统为原型，演示如何基于腾讯混元大模型与TKE容器服务实现：千亿级参数模型的私有化部署金融领域垂直场景微调高并发低延迟推理服务全链路安全合规方案1.1典型技术挑战#性能基准测试数据（单位：QPS）|场景|裸机部署|容器化部署|优化后||--------------------|--------
Python 数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙清水白石008 python Python题库 python 数据挖掘动画
Python数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙引言在数字化浪潮席卷全球的今天，数据已成为企业和组织最重要的战略资产。海量数据蕴藏着巨大的价值，等待我们去挖掘和发现。数据挖掘(DataMining)，作为从海量数据中提取有价值知识和模式的关键技术，正日益受到各行各业的重视。它如同探矿者的火眼金睛，能够穿透数据的迷雾，发现隐藏在背后的规律和趋势，为商业决策、科学研究和社会发展提供强有
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他