百木从森

【机器学习】线性回归实战案例三：股票数据价格区间预测模型（国外+国内数据）

股票数据价格区间预测模型（国外+国内数据）

- 案例三：股票数据价格区间预测模型（国外+国内数据）
- - 2.3.1 模块加载与忽略警告设置
  - 2.3.2 加载数据和数据筛选
  - 2.3.3 探索式数据分析（EDA）
  - 2.3.4 探究字段之间的关联性
  - 2.3.5 特征工程
  - 2.3.6 模型创建与应用
  - 2.3.7 模型对比
  - 2.3.8 预测结果可视化
  - 2.3.9 国内茅台股票数据集应用

手动反爬虫，禁止转载：原博地址 https://blog.csdn.net/lys_828/article/details/121452962（CSDN博主：Be_melting）

 知识梳理不易，请尊重劳动成果，文章仅发布在CSDN网站上，在其他网站看到该博文均属于未经作者授权的恶意爬取信息

案例三：股票数据价格区间预测模型（国外+国内数据）

2.3.1 模块加载与忽略警告设置

打开Jupyter notebook，然后新建一个python3文件，命名为股票时序数据回归预测模型1.ipynb。文件首个cell中导入数据分析常用模块和模型相关的模块，设置提示警告的过滤，代码如下。

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import math
import seaborn as sns
import datetime
import matplotlib.pyplot as plt
from matplotlib import style
import time

import warnings
warnings.filterwarnings('ignore')

2.3.2 加载数据和数据筛选

准备的数据集为谷歌2004年的股票数据，读取过程中将Date字段进行时间字段转化，并设置为索引，然后查看数据的维度。

df=pd.read_csv('./data/google-stockdata.csv',index_col='Date',
                  parse_dates=True)
df

输出结果如下。（直接输出读取后文件数据对应的变量，最后面一行会有提示数据的维度，一共有3424行，12列，相当于最后输出了df.shape）

了解一下股票数据的基本信息，一般就是包含了前六个字段（包含索引），即股票的开盘时间、开盘价、最高点、最低点、收盘价和成交量。最后面的五个字段是经过复权后的衍生字段，而中间的两个字段是在案例中没有使用到。

2.3.3 探索式数据分析（EDA）

之前的两个案例中均展示了探索式数据分析的几个步骤，这里就不再进行赘述。但是对于字段中的缺失值的查看一定是要做的，如果存在着缺失值就要进行缺失值处理，确保传入模型的数据是一个完整的数据，输出结果如下。

在提供的数据中并没有缺失的数据，但是经过仔细研究发现股票数据中并没有一个标签字段，因此要进行线性回归模型创建前需要先解决标签数据的问题。本案例的目标：预测未来股票的价格区间，需要根据历史的股票价钱（收盘价）来预测未来股票价钱的情况。

考虑数据量进行时间范围的确定。数据量一共3424行，假定按照数据量除以100取上限进行预测天数的确定，然后就可以构造对应标签数值。为了便于理解这个构建标签数值的过程，可以进行一个简单的示例，先以5天为基准构建数据。为了不破坏数据和方便查看，对原数据进行备份后取出10条数据进行演示。

接着就是利用pandas应用基础中第10小结的内容，shift时间平移操作。首先提取经过复权后的收盘价字段并转化为DataFrame数据类型，进一步应用shift(-5)变换并赋值给新字段，最后就是新字段与原字段相减获得相差5天的数据。

df3=df2['Adj. Close'].to_frame()
df3['col2']= df3['Adj. Close'].shift(-5)
df3['delta']=df3['col2']-df3['Adj. Close']
df3.head(7)

输出结果如下。（采用 shift 加上负值的方法可以把同一组数据错位的放在一起，这个错位是把5天后的数据与当前天的数据放在同一行中，然后两个字段数值相减就可以获得对应天数股票价格的差值）

利用上面的原理，应用到整个股票数据集中，

forecast_col = 'Adj. Close'
forecast_out = int(math.ceil(0.01 * len(df)))
df['label'] = df[forecast_col].shift(-forecast_out)
df[-40:-30]

输出结果如下。（为了核实是否处理正确，切片获取倒数第40到第30行的数据，输出结果中label字段数据有一半缺失一般完整，说明操作过程正确）

也可以直接查看各字段的缺失值进行核实，输出结果如下，最终就是创建的字段label中存在着35条缺失值，满足要求。

2.3.4 探究字段之间的关联性

完成了标签字段数据的构建，接下来就可以查看特征字段与标签字段的关联性，直接利用热力图进行展示输出。

确定标签字段后，在热力图中只需要查看标签字段label对应的行或者列即可，比如上图红框标注的列。根据图中的结果，首先看两个不相关的字段，也就是中间的那两个字段在整个案例中没有进行介绍也和标签字段无关，后续直接进行剔除；然后就是股票除时间外的剩下的5个信息与调整后的5个信息，由于标签字段就是利用调整后的收盘价字段构造的，所以会和调整后的收盘价相相关性为0.99，然而调整后的4个信息之间的相关性都为1，自然标签字段和剩下的3个信息直接的相关性也是0.99，至于未调整前的数据，是经过一定的计算转化而来，相关性数值相对较小一些，但是也是存在很强的相关性。

2.3.5 特征工程

根据关联性分析的结果重新提取字段数据，构建数据集，创建两个新字段为高低价变化差和涨跌幅，并进行缺失值的处理。

df = df[['Adj. Open',  'Adj. High',  'Adj. Low',  'Adj. Close', 'Adj. Volume','label']]
df['HL_PCT'] = (df['Adj. High'] - df['Adj. Low']) / df['Adj. Close'] * 100.0
df['PCT_change'] = (df['Adj. Close'] - df['Adj. Open']) / df['Adj. Open'] * 100.0
df.dropna(inplace=True)
df.isnull().sum()

输出结果如下。（在进行创建模型之前，数据中的缺失值需要清洗干净，此外添加的两个字段也在数据集中）

2.3.6 模型创建与应用

（1）划分特征数据X和标签数据Y

（2）划分训练集和测试集。这里的数据集需要特别注意，在删除最后的缺失值后，中最后35条数据label值其实就是已经要预测的数据值，因此在数据集也需要进行删除。比如最后一行数据是2018年2月5号，对应的label就是2018年3月27号的数据（去掉了周末），最后的35天就作为真实值要进行预测35天后的价格进行差值对比，所以需要再将最后35行数据删除。

X_lately = X[-forecast_out:]  # 把最后35行单独拿出来，作为最后的预测
X = X[:-forecast_out]         # x中存放除最后35行以外的其他信息
y = y[:-forecast_out]         # y中存放除最后35行以外的其他信息

然后才是进行训练集和测试集的划分，按照9:1的比例进行。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)

（3）模型创建与拟合。

clf=LinearRegression()
clf.fit(X_train,y_train)

（4）模型预测与评估。

forecast_set = clf.predict(X_lately)
forecast_set

输出结果如下。（最终的股票价钱是在1082-1262之间）

然后查看一下当前模型预测股票区间的正确率得分有多少，代码及输出结果如下。(未来35天的股票价格区间预测，有97.4%的正确率使得最终的股票价格落在1082-1262之间)

2.3.7 模型对比

在进行数据集构建时，细心点可以发现特征字段的量纲不一致，比如价钱字段和成交量字段数值。接下来就是确定特征数据标准化会不会对模型有一定的优化，需要添加一个标量处理器，之后的模型步骤保持一致，建模部分全部代码和最终测试得分如下。

#划分特征数据和标签数据
X = np.array(df.drop(['label'], 1))
y = np.array(df['label'])

#特征数据标量化
from sklearn import preprocessing
X = preprocessing.scale(X)

#进行最后35行数据剔除
X_lately = X[-forecast_out:]  
X = X[:-forecast_out]    
y = y[:-forecast_out]

#划分训练数据与测试数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)

#创建线性回归模型
clf=LinearRegression()

#模型拟合
clf.fit(X_train,y_train)

#模型预测结果及输出股票价格区间
forecast_set = clf.predict(X_lately)
min(forecast_set),max(forecast_set)

#模型得分
confidence = clf.score(X_test, y_test)
confidence

最终输出的模型预测的股票价格区间（1080-1217之间）与模型得分结果（正确率为97.7%）如下。由于没有指定随机种子，每次程序跑出的结果基本上都不会完全一致。

2.3.8 预测结果可视化

由于标签的结果带有时序性且是数值型，就可以对预测的结果进行可视化展示。由于删除了倒数35行的数据，因此要得到绘制35天后的数据，就需要先获得最后35行对应的时间，代码如下。

df['Forecast'] = np.nan
last_date = df.iloc[-1].name
last_unix = last_date.timestamp()
last_unix = time.mktime(last_date.timetuple())
one_day = 864006
next_unix = last_unix + one_day

输出结果如下。（之前进行数据集处理的时候将最后35条数据删除，现在输出结果汇总把添加了Forecast字段）

然后将预测的结果进行填充到对应的时间中去，就可以获得预测结果，代码如下。

for i in forecast_set:
    next_date = datetime.datetime.fromtimestamp(next_unix)
    next_unix += 86400
    df.loc[next_date] = [np.nan for _ in range(len(df.columns)-1)]+[i]

输出结果如下。（需要留意，模型数据中最后日期是2018年2月5号，预测的结果对应label值，这个数据就是35天后的股票价格，映射到对应的时间段就如下）

有了数据后，进行可视化，代码及输出结果如下。

绘制预测数据的图像代码与结果输出如下。

添加两图合并后，代码及可视化图形输出如下。

2.3.9 国内茅台股票数据集应用

在使用国外谷歌的数据进行线性回归回归模型的预测中，模型得分正确率达到了97%，而对于国内股票的预测效果如何，接下来进行探究。创建一个新的python3文件，命名为股票时序数据回归预测模型2.ipynb，数据集为茅台酒的股票数据（对应的编号为600519）。首先导入模块和加载数据，代码如下。

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import math
import seaborn as sns
import matplotlib.pyplot as plt

df2 = pd.read_csv('./data/600519d4.csv',index_col='trade_date',
                  parse_dates=True)

输出结果如下：（股票数据的时间跨度为2020年1月2日到2021年10月21日，可以通过tushare接口下载）

按照习惯，时间索引一般是按照从前到后（即从以前到现在）的方式设置，也方便绘制图形，进行反序操作后绘制折线图查看茅台股票走势图，代码及输出结果如下。

剩下的步骤就是按照前面国外数据的处理方式一致，首先进行预测时间长短的设置，需要根据数据量来确定，这里的时间设定为22天。

进一步构建数据集和缺失值处理，并进行特征数据以及标签数据的划分，并剔除最后22天的数据，代码如下。

##构建数据集
df2 = df2[['open', 'high', 'low', 'close','vol','label']]
df2.head()

#缺失值处理
df2.dropna(inplace=True)

#核实缺失值处理完毕
df2.isnull().sum()

#划分特征数据和标签数据
X = np.array(df2.drop(['label'], 1))
y = np.array(df2['label'])

#剔除最后的22条数据
X_lately = X[-forecast_out:]  # 把最后22行单独拿出来
X = X[:-forecast_out]    #  x中存放除最后22行以外的其他信息
y = y[:-forecast_out]

最后就是进行模型的创建，训练，预测和评估，代码及输出结果如下。

模型最后的准确率只有0.796，远远低于使用国外数据进行建模时候的得分，更进一步采用以往进行模型评估的方法查看一下平均绝对误差和R方值（就是模型的score得分），输出结果如下。

利用预测结果的平均值结合平均绝对误差，可以推测该模型预测单次预测股票数据的涨跌幅范围，即正负7.13%，而股票一天的最大涨跌幅就是正负10%，这个预测结果太过粗糙了，基本上没有意义。根本原因在于国内的股票数据的波动幅度太大，就会导致预测数值与真实数值之间的误差就会扩大，模型最终的得分也就下降，对于未来数据的预测效果就很差，因此在对此类数据进行建模之前需要对数据进行平滑处理。

对于金融类数据，可以尝试ta模块，各种指标已经封装在pandas中了，只需要进行pip install pandas_ta即可进行安装。

查看具体有哪些指标可以按照如下代码进行输出，当前一共有205个指标。

假定选取里面的EMA指标进行数据平滑处理，以收盘价字段和10天为依据，将处理后的内容添加到新的字段中。

也是和手动设定天数的步骤一样，需要进行缺失值的查看，除去和核实，代码如下。

也可以借助图形查看经过平滑处理过后的股票数据折线图和原数据折线图之间的对比，代码及输出结果如下。

数据处理完毕后，进一步构建数据集和缺失值处理，并进行特征数据以及标签数据的划分，代码如下。（对于采用EMA指标处理数据后，这里的标签数据和特征数据就不需要再次进行最后10条数据的剔除，因为使用的并不是原来真实的数据，而是一个计算的数据，并非直接线性相关）

#设定标签数据
df2['label'] = df2['EMA_10']
df2 = df2[['open', 'high', 'low', 'close','vol','label']]

#核实没有缺失值
df2.isnull().sum()

#构建特征数据与标签数据
X = np.array(df2.drop(['label'], 1))
y = np.array(df2['label'])

#训练数据与测试数据划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

#创建模型
clf=LinearRegression()

#训练模型
clf.fit(X_train,y_train)

#模型预测
y_pred = clf.predict(X_test)
min(y_pred),max(y_pred)

#模型得分
confidence = clf.score(X_test, y_test)
confidence

最终的输出股票价格区间和对应的模型得分，以及预测股票价格的涨跌幅结果如下。数据经过平滑处理过后，模型预测的准确度要大大提升，最后的涨跌幅度的范围拿捏着也很准确。

LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
卫星分析系列之使用卫星图像量化野火烧毁面积在 Google Colab 中使用 Python 使用 Sentinel-2 图像确定森林火灾烧毁面积知识大胖 NVIDIA GPU和大语言模型开发教程 python sentinel 开发语言
简介几年前，当大多数气候模型预测如果我们不采取必要措施，洪水、热浪和野火将会发生更多时，我没想到这些不寻常的灾难现象会成为常见事件。其中，野火每年摧毁大量森林面积。如果你搜索不同地方的重大野火表格，你会发现令人震惊的统计数据，显示由于野火，地球上有多少森林面积正在消失。在本教程中，我将结合我已经发表过的关于下载、处理卫星图像和可视化野火的故事，量化加州发生的其中一场重大野火的烧毁面积。与之前的帖子
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
搜广推校招面经九十三 Y1nhl 搜广推面经机器学习人工智能 python 算法推荐算法 pytorch 搜索算法
字节懂车帝一面一、NDCG（NormalizedDiscountedCumulativeGain）的计算NDCG是信息检索和排序任务中常用的评价指标，用于衡量模型预测的排序质量与真实相关性排序的一致程度。1.1.DCG@k（DiscountedCumulativeGain）DCG@k=∑i=1krelilog⁡2(i+1)\text{DCG@k}=\sum_{i=1}^{k}\frac{rel_i
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
使用tensorflow的线性回归的例子（七） lishaoan77 tensorflow tensorflow 线性回归人工智能
L1与L2损失这个脚本展示如何用TensorFlow求解线性回归。在算法的收敛性中，理解损失函数的影响是很重要的。这里我们展示L1和L2损失函数是如何影响线性回归的收敛性的。我们使用iris数据集,但是我们将改变损失函数和学习速率来看收敛性的改变。importmatplotlib.pyplotaspltimportnumpyasnpimporttensorflowastffromsklearnim
使用tensorflow的线性回归的例子（十二） lishaoan77 tensorflow tensorflow 线性回归人工智能戴明回归
DemingRegression这里展示如何用TensorFlow求解线性戴明回归。=+y=Ax+b我们用iris数据集,特别是:y=SepalLength且x=PetalWidth。戴明回归Demingregression也称为totalleastsquares,其中我们最小化从预测线到实际点(x,y)的最短的距离。最小二乘线性回归最小化与预测线的垂直距离，戴明回归最小化与预测线的总的距离，这种
傅里叶级数分解问题
题目问题1.在区间[−l,l][-l,l][−l,l]上分解为完整傅里叶级数：(a)ezxe^{zx}ezx，其中z∈Cz\in\mathbb{C}z∈C；找出zzz的“例外”值；(b)cos⁡(ωx)\cos(\omegax)cos(ωx)，sin⁡(ωx)\sin(\omegax)sin(ωx)，其中00(\etal)^2+(n\pi)^2>0(ηl)2+(nπ)2>0对所有n≥1n\geq1
Python数据分析：从入门到精通
引言在当今数据驱动的时代，数据分析已成为企业和组织做出明智决策的关键。Python作为一种强大的编程语言，因其简洁性和丰富的数据分析库而成为数据科学领域的首选工具。无论你是初学者还是有一定经验的数据分析师，本指南都将带你从入门到精通Python数据分析，掌握必备技能和最佳实践。数据分析的重要性与Python的角色数据分析涉及收集、处理和解释数据，以揭示模式、趋势和见解。它有助于解决复杂问题，优化业
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四） Superstarimage 文献随笔材质神经网络人工智能扩散模型
AnevaluationofSVBRDFPredictionfromGenerativeImageModelsforAppearanceModelingof3DScenes输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：在当前时代的技术背景下，生成与几何匹配
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
医疗金融预测与语音识别中的模型优化及可解释性技术突破智能计算研究中心其他
内容概要随着人工智能技术的纵深发展，模型优化与可解释性技术正在重塑医疗诊断、金融预测及语音识别领域的应用范式。在医疗领域，基于自适应学习的动态参数调整机制，结合迁移学习的跨场景知识复用，显著提升了疾病筛查模型的泛化能力；而金融预测场景中，联邦学习框架通过分布式数据协作，在保障隐私安全的前提下，实现了风险预测模型的多维度优化。语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
bert中 [CLS] 和 [SEP] 表示什么意思？
[CLS]和[SEP]是BERT中的两个特殊标记符号，在BERT的输入文本中起到特殊的作用。[CLS]是"classification"的缩写，在文本分类任务中，它通常表示句子或文档的开头。在BERT中，[CLS]对应着输入文本中第一个词的词向量，输出层中的第一个神经元通常会被用来预测文本的类别。[SEP]是"separator"的缩写，它通常表示句子或文档的结尾。在BERT中，[SEP]对应着输
【Rust日报】使用Rust开发分布式系统的经验教训
Fjall-一个安全Rust的KV存储引擎Fjall是一个可嵌入的基于LSM的forbid-unsafeRust键值存储引擎。它的目标是成为一个可靠且可预测但性能优异的通用KV存储引擎，适用于小型数据集，尤其是大于内存大小的数据集。我刚刚发布了1.0版本，该版本稳定了其数据格式，适用于所有未来的1.x.x版本。它的设计受到了LevelDB/RocksDB架构的重大影响，并且通常具有相似的性能。它具
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
MyBatis动态SQL进阶：复杂查询与性能优化实战
引言在复杂业务场景中，SQL查询往往需要动态拼接条件、复用代码片段，并支持批量操作。MyBatis的动态SQL功能提供了强大的解决方案，本文将深入解析条件分支、片段复用、批量操作优化等核心技巧，助你写出高效、可维护的SQL映射。一、条件分支：choose/when/otherwise标签1.1场景说明假设需要实现一个商品查询接口，支持以下条件组合：按名称模糊查询按价格区间查询按状态精确查询若无条件
YOLOv8 环境监测五大场景 —— 二、森林火灾早期预警之无人机巡逻监测详细解释及代码完整示例路飞VS草帽 YOLOv8 原理与源代码讲解---六大章 YOLOv各版本的应用详细说明及代码示例环境监测五大场景 YOLO 无人机环境监测森林火灾早期预警无人机巡逻监测 YOLOv8
YOLOv8无人机森林火灾巡逻监测系统系统架构设计无人机火灾监测系统组成：1.飞行平台-多旋翼无人机(续航≥60分钟)-双光吊舱(可见光+红外)-RTK高精度定位-4G/5G数据链2.机载计算单元-JetsonOrinNX(AI加速)-轻量化YOLOv8模型-实时火情分析3.地面控制站-飞行路径规划-实时视频监控-火情预警系统4.云端协同-多机任务分配-火势扩散预测-应急资源调度完整代码实现1.无
【个人思考】如何理解量化交易与做空？初学者必读的金融交易入门指南姚瑞南Raynan 个人思考人工智能 AIGC
本文原创作者：姚瑞南AI-agent大模型运营专家/音乐人/野生穿搭model，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。（转载需经授权）目录金融交易中的一些常见概念：量化交易、做空以及更多1️⃣量化交易：数据驱动的交易方式2️⃣做空：预测价格下跌赚取差价个人做空的理解：借西瓜赚差价3️⃣做
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt