赵孝正

时间序列问题案例分析Kaggle M5 Forecasting（代码+数据）

0.案例介绍
- 0.1 数据
- 0.2 评价指标
- 0.3 方法论
1. 数据EDA
- - 1.探索性数据分析
  - - 数据 First Look（类型，每列的意义，目标值）
    - 数据检查和清洗（主键判重、空值，异常值检测）
    - 异常值检测
    - 趋势作图
  - Downcast
  - 提取时间相关特征
  - 小结
  - 作业
- 1.x 构建树模型解决方案
2. 特征工程
- 2.1 特征构建（重要）
- 2.2 特征选择
- 2.3 特征编码
3.建模预测
4.误差分析
- 4.预测结果产出
- 5.误差分析及模型解释
我的note
参考资料

Markidakis竞赛（又称M竞赛或M-Competitions），是由预测研究员Spyros Makridakis领导的团队组织的一系列公开对于时间序列预测的竞赛，旨在评估和比较不同预测方法的准确性。

每一届均是真实数据，其实验方案可用于测试真实的业务。

M5是最近的一次比赛，目标：预测零售巨头沃尔玛在未来28天的销量，kaggle官网下载数据地址。

0.案例介绍

0.1 数据

我们正在处理42,840个分层时间序列。数据是从美国3个加利福尼亚州（CA），德克萨斯州（TX）和威斯康星州（WI），7个部门的3049种单独产品中获得的。

这里的“分层”表示可以在不同级别上汇总数据：商店级别，部门级别，产品类别级别和州级别。销售信息可以追溯到2011年1月至2016年6月。除了销售数量，我们还提供了有关价格，促销和节假日的相应数据。

注意：大多数时间序列数据都包含零值。

层级关系为 State->Store->Category->Department->item，如上图所示。
The historical data range from 2011-01-29 to 2016-06-19.数据时间范围： 2011-01-29 to 2016-06-19。

0.2 评价指标

RMSSE

探索性数据分析(Exploratory Data Analysis，简称EDA)

0.3 方法论

数据EDA -> 特征工程 -> 建模训练 -> 预测结果产出 -> 误差分析及模型解释
特征工程
建模训练 -> 预测结果产出 -> 误差分析及模型解释
预测结果产出 -> 误差分析及模型解释
误差分析及模型解释
如果单纯参加比赛的话，只需要进行前4步就可以了。

数据EDA->特征工程->建模训练->预测结果产出->误差分析及模型解释

特征工程：选定预测输出策略；常见特征的生成；特征选择；类别型变量编码

建模训练：模型选择（如何兼顾效果和速度），AutoML

误差分析：Feature importance，shaply value

1. 数据EDA

1.探索性数据分析

数据 First Look（类型，每列的意义，目标值）

大致看一下数据的大小，列名、内容、数据类型

# 读入数据
import pandas as pd
train = pd.read_csv('filename.csv')

# 检查数据基本信息
train.shape
train.sample()
train.dtypes

数据检查和清洗（主键判重、空值，异常值检测）

# 确定主键后按照主键去重，判断数据的 Uniqueness
train[train.duplicated(subset=['Store', 'Date'])]

# 检查数据空值，并按照要求填充空值
train.isna().sum()
train.fillna(0, inplace=True)

# 查看数据的数值分布
train.describe()

异常值检测

是一个大的课题，后续为专门梳理一篇博客来介绍
Python有专门的异常值检测库：Python Outlieer Detection（PyOD）
通过调用API的方式，来进行异常值检测。

例：

销量中有很多0，面对这种销量在现实项目中，先去判断是不是能用业务理解去解释这些0。比如，在过去某便利店的销量预测项目中，发现扑克牌在按照天维度去预测的时候会有大量的0，一周可能只会在某几天卖出2-3副扑克牌，但是如果巧妙的将客户的需求从按照日维度预测未来1-28天，变成扑克牌品类按照周维度去预测，可能在周维度上每周扑克牌销量是稳定恒定值。
在kaggle比赛或者没有业务的深度参与的项目中，我们还能用一些所谓的"denosing"方法，去还原，平滑这些销量，并利用平滑完后的销量去做后续的特征工程的处理。
但作为一个实战项目，不会轻易去denoise

趋势作图

# 1号店的销量随时间的图像
seclect_store = train[train['Store']==1]
select_store[['Date', 'Sales']].plot(x='Date', y='Sales', title='Store1', figsize=(16, 4))

目标值的趋势
目标值的分布情况，观察目标值的分布和统计情况，可以确定适用于哪种模型或者loss function进行训练，当服从高斯分布的时候，一般用RMSE的loss function。统计学有个概念叫偏度，用来描述分布情况。
Log1p, box-cox

# 目标值 Sales 分布曲线
for i in ['Sales']:
	sns.histplot(data=train[i], kde=True)

时间序列问题案例分析Kaggle M5 Forecasting（代码+数据）_第6张图片

时间序列问题案例分析Kaggle M5 Forecasting（代码+数据）_第7张图片

Downcast

5000万行以下的数据，用pandas是完全没有问题的。再大的话，比如8000万*40的数据，则需要spark分布式操作，或者用Downcast方法。

当数据量太大，又只能用pandas处理的时候，需要用一些Downcast手段，去把项目的内存拉小，
对于比较小的数字，比如32，达不到2^8，故没有必要用64位来存储，这就是可以降低内存的手段。根据数字的大小，适度转为int8或者int16，避免浪费。

def downcast(df):
    cols = df.dtypes.index.tolist()
    types = df.dtypes.values.tolist()
    for i,t in enumerate(types):
        if 'int' in str(t):
            if df[cols[i]].min() > np.iinfo(np.int8).min and df[cols[i]].max() < np.iinfo(np.int8).max:
                df[cols[i]] = df[cols[i]].astype(np.int8)
            elif df[cols[i]].min() > np.iinfo(np.int16).min and df[cols[i]].max() < np.iinfo(np.int16).max:
                df[cols[i]] = df[cols[i]].astype(np.int16)
            elif df[cols[i]].min() > np.iinfo(np.int32).min and df[cols[i]].max() < np.iinfo(np.int32).max:
                df[cols[i]] = df[cols[i]].astype(np.int32)
            else:
                df[cols[i]] = df[cols[i]].astype(np.int64)
        elif 'float' in str(t):
            # float 16不能被pyarrow to parquet 所以全部转成float32
            if df[cols[i]].min() > np.finfo(np.float16).min and df[cols[i]].max() < np.finfo(np.float32).max:
                df[cols[i]] = df[cols[i]].astype(np.float32)
            else:
                df[cols[i]] = df[cols[i]].astype(np.float64)
        elif t == np.object:
            if cols[i] == 'date':
                df[cols[i]] = pd.to_datetime(df[cols[i]], format='%Y-%m-%d')
            else:
                df[cols[i]] = df[cols[i]].astype('category')
    return df

提取时间相关特征

df['Year'] = df['Date'].dt.year
df['Month'] = df['Date'].dt.month
df['DayOfWeek'] = df['Date'].dt.dayofweek
df['WeekOfYear'] = df['Date'].dt.weekofyear

小结

了解常见真实数据
了解数据进行探索性分析的方法论
能独立运用一些python可视化工具进行各类分析作图

作业

运行目前的EDA代码，增加更多方向和维度的一些数据探索性分析，例如周一-周日每天的销量分布情况，节假日和非节假日(event)在不同维度上的销量分布情况，可以尝试用不同的画图方式和图形表示。
作为一个完整的预测，如何建立未来的数据(1942-1969)？
拿出若干条时间序列，用过去学过的传统时序算法进行建模和回测，例如Prophet, DeepAR，看一下最后的RMSSE score和训练时长情况。

1.x 构建树模型解决方案

直接多步骤预测

prediction(t+1) = model1(obs(t-1), obs(t-2), ..., obs(t-n)) 
prediction(t+2) = model2(obs(t-2), obs(t-3), ..., obs(t-n))

对于每个forecast horizon都有一个模型，那么每个模型的特征必然不会是相同的了。
缺点在于可能会出现较高的方差，特别是如果我们要预测的时间步长比较长的情况下，比如我们要预测未来100个时间步骤，则第100个时间步骤使用的最近的一样观测样本是100个时间步之前的，我们知道，周期越接近当前时间点的滞后特征预测效果越好，间隔时间越长效果越差。

递归多步预测

prediction(t+1) = model(obs(t-1), obs(t-2), ..., obs(t-n))
prediction(t+2) = model(prediction(t+1), obs(t-1), ..., obs(t-n))

如果 model 是一个线性 model，看起来不太会有 bias；但是如果不是，bias 会变的越来越大

⭐优点：只需训练一个模型，很省时间和资源对于 M5 这种有几千万条时间序列的大项目很友好
⭐缺点：由于使用预测代替真实值，因此递归策略会累积预测误差，即递归策略的偏差比较大，从而随着预测时间范围的增加，模型的性能可能会迅速下降。

直接递归混合策略

prediction(t+1) = model1(obs(t-1), obs(t-2), ..., obs(t-n)) 
prediction(t+2) = model2(prediction(t+1), obs(t-1), ..., obs(t-n))

为什么会有上述三种策略呢？

本质原因是传统的机器学习算法无法正常处理多输出问题，多步预测的本质是多输出，我们需要多输出模型才能在一个模型里预测多个标签，比如预测未来的 3 步是一个 3 输出模型，这个概念就类似于我们的多标签分类、多标签回归的概念。
实际上针对于直接预测法，就是一种常见的使用传统的机器学习算法解决多标签问题的转化方法，而递归预测法本质上还是普通的简单的单标签问题。

多输出策略

prediction(t+1), prediction(t+2) = model(obs(t-1), obs(t-2), ..., obs(t-n))

神经网络可以打破这样的限制，nn 可以非常灵活的支持多输入或者多输出的形式
seq2seq 结构考虑输出的标签之间的序列依赖性.

2. 特征工程

一个完整的特征工程可以包括但不限于：

特征构建
- 销量预测：历史销量lag，历史销量的统计值(MA)，窗口统计值(Window max,min)
- 各类维度表信息的合并（商品，门店，价格，促销，节假日）
特征选择
- 去除leakage特征（比如做一个 t+28 的问题，其实不能够看到 t+1 的销量，这就是leak泄露，也就是28天前去预测28天后的，那其实我们训练的时候不能让模型知道前一天的销量，过去一天的信息，要知道过去28的情况，所以要去除可能leak的特征；另外，比如做一个价格的特征，在训练集中可能合并到那一天的总销售额，总销售额=单价*数量，其实这个特征不能用，因为它泄露了那一天实际上卖的数量，所以它是leak的特征。）
- 去除常量（constant）特征（当某个特征所有数据都一样，没有信息增益，该特征对于模型毫无意义，对于树模型做分割的时候，没啥意义。）
- 去除 high correlation 特征（去除相关性高的特征，比如两个特征相关度为1，这会导致对这两个特征分别处理的时候，会得到同样的结果，需要删除其中的一个。）
类别型特征的编码

2.1 特征构建（重要）

Lag特征（历史销量特征，如’lag1’表示过去一天的销量。）

MA特征

一阶差分特征

Window 统计值特征

预防 leakage

# 历史销量lag特征，在已经按照日期排序填充的数据集上利用pandas shift函数完成
df[‘lag1’] = df.groupby([‘store‘, ‘sku’])['Sales'].shift(1)
# 对lag可以取moving average，
# w_avg = w1*(t-1) + w2*(t-2) + w3*(t-3)+ w4*(t-4)
df[‘ma_1_4’] = df[[‘lag1’,’lag2’,’lag3’,’lag4’]].mul([0.4,0.3,0.2,0.1]).sum(1)
# 一阶差分，可以提取增长率的特征
df[‘diff_1_2’] = df[‘lag1’] - df[‘lag2’]
# 窗口统计值
df['rolling_max'] = df[‘Sales'].rolling(window=4).max()

下图中，对于2月19来说，其lag1就是2月18的销量1.0 。

下图中，Lag1是Sales经过一次shift的结果，Lag2是Sales经过两次shift后的结果，MA2是取Lag1以2为窗口数量的滑动平均（MA2是Lag1和Lag2的平均）

Time-Related Features：时间相关特征
业务相关特征：比如价格、促销，还会衍生出其它相关特征，比如有个特征代表是否是促销，还可以做对于每一天（假如是促销），其上一个促销日的销量，这也是一种Lag特征，只不过执行的Lag是纯统计的无脑的，而现在的聚合逐渐增加了是否是促销，或者是节假日等。

pandas 对时间有非常多的预制写好的功能非常强大的操作，如果有一列是pandas.Datetime的格式，如下面的Date列，就可以提取到时间相关的年月日，甚至它在哪一周，在哪一年。

下面有pandas的官方文档，在下面你可以看到，甚至可以看到它是不是一个月的开始，是不是一个月的结束，是不是一个季度的开始，是不是一个季度的结束，

# 提取时间相关特征
df['Year'] = df['Date'].dt.year
df['Month'] = df['Date'].dt.month
df['Day'] = df['Date'].dt.day
df['DayOfWeek'] = df['Date'].dt.dayofweek
df['WeekOfYear'] = df['Date'].dt.weekofyear

这些时间特征，在我们实际模型训练的时候，该如何使用？

其实它能够反映出销量的季节性，或者时间相关的一些规律性，比如说某一个商品——冰淇淋，可能夏天它的销量比较高，这就是时间相关特征的重要性。

业务相关特征，比如价格、促销等各种各样的业务相关特征，

之后，比如说有一个特征，我能做比如某一天它是促销的情况下，其上一个促销日的销量情况，也可以构架一个lag特征，这个聚合增加了一个是否是促销这个特征，同理，是节假日的某天，也可以与上一个是节假日的某天做lag，而不是节假日的某天，也可以找上一个不是节假日的某天计算lag特征，

也就是有了业务特征之后，你还可以衍生出来更多的东西。

2.2 特征选择

特征选择的好处：

简化模型，使模型更易于理解：去除不相关的特征会降低学习任务的难度。并且可解释性能对模型效果的稳定性有更多的把握

改善性能：节省存储和计算开销

改善通用性、降低过拟合风险：减轻维数灾难，特征的增多会大大增加模型的搜索空间，大多数模型所需要的训练样本随着特征数量的增加而显著增加。特征的增加虽然能更好地拟合训练数据，但也可能增加方差。（特征增多的时候，模型变得越复杂，需要增加更多的样本，如果不增加样本，就容易过拟合。）

# 去除leak的特征，包括Sales总销售额，Sales自己肯定要去除，因为它也是dataframe的一个列；
# 有些人做了log_Sales也要去除，
# Customers：那天来了多少顾客。它也会反应那天卖了多少东西，当前节点去预测未来的时候，不知道未来会有多少顾客，要去除
# Date：需要处理后，才能放入模型，处理方法：把时间格式按照顺序排列，比如2017.2.18为1，依次增加一天加1，也可以去除
# 目标值，datetime值等不需要的特征
excluded_cols = ['Date', 'Sales','log_Sales', 'Customers','PromoInterval','monthStr']
init_cols = whole_df.columns
features = columns_minus(init_cols, excluded_cols)  # list1 - list2
# 去除常数项特征，如open全都是1（代表店是开着的状态）
constant_cols = [col for col in features if whole_df[col].nunique() == 1]
features = columns_minus(features, constant_cols)
# 剩下特征区分numeric & categorical
num_features = whole_df[features].select_dtypes(include=[np.number]).columns.tolist()
cate_features = columns_minus(features, num_features)
# num_features可以去计算correlation，默认是pearson correlation
# 而pandas.DataFrame.corr()只能处理数值类的特征，
corr_matrix = whole_df[num_features].corr().abs()
# 选择左上矩阵，目的为了观察哪些是high correlation的
upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(np.bool))  # np.triu选择矩阵的左上
# 去除相关性高于某个threshold的特征，而不能处理类别或者中文类特征，比如中文的省份和另外一列一一对应了，这时候只有把中文省份转为数值，再进行处理，
high_corr_cols = [col for col in num_features if any(upper[col] >= 0.9)]

说明：

如果用pandas自带的求特征相关度的corr()，其只能计算数值类的特征，不能计算类别类的特征，需要先将其转为数值；

2.3 特征编码

我们拿到的数据通常比较脏乱，可能会带有各种非数字特殊符号，比如中文。而实际上机器学习模型需要的数据是数字型的，因为只有数字类型才能进行计算。
根据 categorical column 的意义选择合适的编码器
独热编码的缺点：会把特征搞得特别大，有时候与我们特征筛选的意图相违背，而下面的直接转成数字的方式，会更好

# Label-Encoder
from sklearn import preprocessing
label_encoder = preprocessing.LabelEncoder()
# Encode labels in column
for col in cate_features:
    train_df[f'{col}_le']= label_encoder.fit_transform(train_df[col])

3.建模预测

经过上述的处理，N 条时间序列数据已经转化为标准的表格类结构化数据(Tabular Data)，将其分为合适的训练预测数据进行建模。

Resampling strategy – Cross-validation or Hold-out validation （如何划分train_data和test_data）
Model Selection – LGB，XGB，RF（shai你要考虑尝试哪些模型，以及每个模型最后的一个筛选，或做集成）
Parameter Tuning (参数自动搜索，有现成的工具，比如obtiuna（音），)
Model Explanation(Feature importance, SHAP Value)
Ensemble & Stacking

定义合适的objective function & metrics (模型的考察指标，如何判断模型好或差，需要一个metrics，比如下面定义的rmspe)
选择合适的树的数量 & 大小
earlystopping （防止过拟合，和神经网络里面的dellport类似）
LightGBM官方文档

# 模型考察指标
def rmspe(y_true, y_pred):
    return np.sqrt(np.mean((y_pred/y_true-1) ** 2))
    
def log_rmspe_lgb(y_true, y_pred):
    y_true = np.expm1(y_true)
    y_pred = np.expm1(y_pred)
    return "rmspe", rmspe(y_true, y_pred), False
    
# 参数
model_params = {
    'boosting_type':'gbdt',
    'objective': 'rmse',
    'num_leaves': 127,
    'learning_rate': 0.15,
    'n_estimators': 200,
    'feature_fraction': 0.8,
    'bagging_fraction': 0.8,
    'max_bin': 100,
    'max_depth':9,
}

# 模型训练
target = 'log_Sales'
m = lgb.LGBMRegressor(**model_params)  # 定义你的 LGB
features = num_features + cate_features
m.fit(X=train_df[features], y=train_df[target],
      eval_set = [(val_df[features], val_df[target])],
      eval_metric=log_rmspe_lgb,
      categorical_feature=cate_features,
      early_stopping_rounds=15, 
      verbose=10,
)
# 在测试集上进行预测输出
test_df['log_pred'] = m.predict(test_df[features])
test_df['pred'] = np.expm1(test_df['log_pred'])

4.误差分析

4.预测结果产出

5.误差分析及模型解释

我的note

cmd中输入 jupyter notebook ，把弹出到word中的链接复制到地址栏，打开即可，代码放在机器学习算法课件

参考资料

[1] Kaggle知识点：数据分析EDA；

TypeScript编译选项
一、前言在开发TypeScript项目时，一个非常关键的文件就是tsconfig.json。它不仅定义了项目的根目录、模块解析方式，还控制着TypeScript编译器的行为。本文将带你全面了解：✅tsconfig.json的作用✅常用编译选项（compilerOptions）详解✅不同环境下的配置建议（开发/生产）✅配置继承与共享设置✅实际开发中的常见问题与解决方法并通过完整的代码示例帮助你掌握如
HTTP 协议深入理解大曰编程 java面试 http 网络协议网络
在Web服务与API设计中，HTTP协议是客户端与服务器通信的基石。本文从协议演进、核心机制、缓存策略、安全特性及面试高频问题五个维度，系统解析HTTP的底层原理与工程实践。一、HTTP协议演进与版本差异1.1版本特性对比版本发布年份核心改进局限性HTTP1.01996基础请求-响应模型，支持GETPOSTHEAD方法无持久连接，每次请求需建立TCP连接HTTP1.11999持久连接（Connec
RocketMQ 5.x 架构与端口差异、Java客户端代码示例及修改 RocketMQ Proxy 默认端口
RocketMQ5.x端口差异及代码解释端口差异的原因在RocketMQ5.x版本中，端口使用与之前版本不同，主要原因如下：架构变化：RocketMQ5.x引入了新的Proxy模块，作为客户端与Broker之间的中间层默认端口：4.x版本：NameServer默认端口9876，Broker默认端口109115.x版本：Proxy默认端口8080/8081分离设计：5.x将路由发现与消息传输分离，客
【RabbitMQ】消息丢失问题排查与解决
RabbitMQ消息丢失是一个常见的问题，可能发生在消息的生产、传输、消费或Broker端等多个环节。消息丢失的常见原因及对应的解决方案：一、消息丢失的常见原因1.生产端（Producer）原因(1)消息未持久化原因：生产者发送消息时未设置持久化（deliveryMode为非持久化模式），且Broker未持久化队列或交换器。场景：Broker宕机或重启时，未持久化的消息会丢失。(2)生产者通道或连
RabbitMq消息丢失解决方案回丿眸消息队列 rabbitmq
1、消息丢失的三种原因生产者：生产者写消息失败、消息发送到RabbitMq但是内部接收失败。消息队列：RabbitMq出现宕机，接收到的消息还在内存中，没有来得及消费，就会导致内存中的数据被搞丢啦。消费者：消费者还没有来的急处理就发生了宕机。1、解决消息丢失的方案。1)解决生产者丢失1、RebbitMq事务缺点：事务机制是同步机制，生产者发送消息会同步阻塞卡主等待发送结果，导致吞吐量降低publi
MVC与MVVM架构模式详解：原理、区别与JavaScript实现布兰妮甜 javascript mvc mvvm 架构
Hi，我是布兰妮甜！在当今复杂的前端开发领域，如何组织代码结构一直是开发者面临的核心挑战。MVC和MVVM作为两种经典的架构模式，为前端应用提供了清晰的责任划分和可维护的代码组织方案。本文将深入探讨这两种模式的原理、实现差异以及在实际项目中的应用场景，通过JavaScript代码示例展示它们的核心思想，帮助开发者理解如何根据项目需求选择合适的架构模式。文章目录一、架构模式概述二、MVC架构模式2.
BAAI/BGE-VL多模态模型部署、原理、代码详解（实现图像文本混合检索），包含BEG-VL多模态模型的本地部署详细步骤及代码原理解析令令小宁 python 语言模型自然语言处理 nlp 人工智能
本文包含BGE-VL多模态模型的本地部署详细步骤及代码原理解析文章目录前言一、模型下载二、计算流程解析1.BGE-VL-base/Large2.BGE-VL-MLLM-s1/s2三、总结前言提示：这里可以添加本文要记录的大概内容：包含四个模型及数据集，数据集未开源，四个模型可以分别下载：其中，BGE-VL-base/Large是基于CLIP训练的模型，BGE-VL-MLLM-S1/S2是基于LLM
python lambda函数计算三次幂_pythonlambda函数及三个常用的高阶函数
进行编程时，一般我们会给一个函数或者变量起一个名字，该名称是用于引用或寻址函数变量。但是有一个低调的函数，你不需要赋予它名字，因此该函数也叫匿名函数。该函数就是Python中的Lambda函数，下面就来为大家解析python—lambda函数，三个常用的高阶函数。为什么要使用PythonLambda函数？匿名函数可以在程序中任何需要的地方使用，但是这个函数只能使用一次，即一次性的。因此Python
RTX50系显卡+CUDA+torch+python对应关系
前言本人的显卡是RTX5070，使用时发现它对CUDA、torch和python版本有要求，试图按照老项目的依赖文件进行安装发现安不了，因此记录一下（截至2025年6月）。提示：以下是本篇文章正文内容，下面案例可供参考一、RTX50系显卡只能使用CUDA12.8二、目前只支持torch2.7.0和2.7.11.去pytorch官网的https://download.pytorch.org/whl/
Llama改进之——RoPE旋转位置编码愤怒的可乐 NLP项目实战 #LLaMA RoPE 旋转位置编码
引言旋转位置编码(RotaryPositionEmbedding,RoPE)将绝对相对位置依赖纳入自注意力机制中，以增强Transformer架构的性能。目前很火的大模型LLaMA、QWen等都应用了旋转位置编码。之前在[论文笔记]ROFORMER中对旋转位置编码的原始论文进行了解析，重点推导了旋转位置编码的公式，本文侧重实现，同时尽量简化数学上的推理，详细推理可见最后的参考文章。复数与极坐标复数
Llama改进之——均方根层归一化RMSNorm 愤怒的可乐 NLP项目实战 #llama
引言在学习完GPT2之后，从本文开始进入Llama模型系列。本文介绍Llama模型的改进之RMSNorm(均方根层归一化)。它是由RootMeanSquareLayerNormalization论文提出来的，可以参阅其论文笔记1。LayerNorm层归一化(LayerNorm)对Transformer等模型来说非常重要，它可以帮助稳定训练并提升模型收敛性。LayerNorm针对一个样本所有特征计算
ATmega16微控制器编程与应用实践 love彤彤
本文还有配套的精品资源，点击获取简介：ATmega16是一个基于AVR架构的8位微控制器，广泛用于嵌入式系统控制应用。本文将详细介绍如何在ATmega16上实现1602液晶显示、独立键盘操作、数码管扫描、蜂鸣器控制和流水灯设计等常用功能。通过这些功能的实践项目，读者可以掌握C语言在嵌入式系统开发中的应用，包括I/O口编程、定时器设置、中断处理和串行通信等关键技术。1.ATmega16微控制器简介A
从零实现Llama3：深入解析Transformer架构与实现细节祁婉菲Flora
从零实现Llama3：深入解析Transformer架构与实现细节llama3-from-scratchllama3一次实现一个矩阵乘法。项目地址:https://gitcode.com/gh_mirrors/ll/llama3-from-scratch引言本文将深入探讨如何从零开始实现Llama3语言模型。我们将从最基本的张量操作开始，逐步构建完整的Transformer架构。通过这个过程，读者
PyTorch-Llama: 从零开始实现LLaMA 2模型教程乔昕连
PyTorch-Llama:从零开始实现LLaMA2模型教程pytorch-llamaLLaMA2implementedfromscratchinPyTorch项目地址:https://gitcode.com/gh_mirrors/py/pytorch-llama1.项目介绍PyTorch-Llama是一个在PyTorch平台上完全从零开始实现的LLaMA2模型仓库。该模型是一个强大的自回归语言模
音视频会议服务搭建(设计方案)-01 卜锦元音视频webrtc golang 流媒体websocket 音视频
前言最近在做音视频会议系统服务搭建的工作任务，因为内容过多，我会逐篇分享相关的设计方案、开发思路、编程语言、使用的组件集合等等。如果你也有大型音视频会议系统搭建架构的需求，希望这些可以对你有所帮助。EchoMeet音视频会议系统架构设计项目概述EchoMeet是基于WebRTC技术的企业级音视频会议解决方案，采用三层音视频架构和Go+Node.js双后端微服务设计，实现了高并发、低延迟、可扩展的视
音视频会议服务搭建(设计方案-两种集成方案对比)-03 卜锦元流媒体websocket 音视频webrtc golang 音视频 go node.js webrtc c++redis mysql
前言在开始计划之前，查阅了不少资料。一种方案是Go层做信令业务，nodejs层来管理和mediasoup的底层交互，通过客户端去调用Go层；第二种方案是客户端直接调用nodejs层来跟mediasoup去交互；最终，当然不出意料的选择了项目复杂的构建方案，为性能去考虑。EchoMeet架构方案对比分析1.两种架构方案概览方案A：Go+Node.js双系统架构（当前方案）前端Vue3+mediaso
Github 2025-07-03Go开源项目日报Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-07-03统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Go项目10JavaScript项目2Go编程语言：构建简单、可靠和高效的软件创建周期：3474天开发语言：Go协议类型：BSD3-Clause“New”or“Revised”LicenseStar数量：117964个Fork数量：16989次关注人
Github 2025-06-07 Rust开源项目日报Top10 老孙正经胡说 github rust 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-06-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Rust项目10Dart项目1TypeScript项目1RustDesk:用Rust编写的开源远程桌面软件创建周期：1218天开发语言：Rust,Dart协议类型：GNUAfferoGeneralPublicLicensev3.0Star数量：581
Github 2025-07-01 开源项目月报 Top16
根据GithubTrendings的统计，本月(2025-07-01统计)共有16个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量TypeScript项目5JupyterNotebook项目4Python项目4Rust项目2JavaScript项目1非开发语言项目1Shell项目1Dockerfile项目1Java项目1C++项目1Vue项目1各种有趣主题的精彩清单创建周期：3
【Rust日报】2025年全球有哪些Rust大会
vekos-又一个Rust写的实验性OSVEKOS是一个用Rust语言编写的实验性操作系统,目前处于0.0.1的alpha版本。它专注于在内核中引入验证和安全性。主要特性包括:使用加密证明系统验证所有文件系统和内存操作。使用伙伴分配器及Copy-on-Write支持的安全内存管理。实现了基本的shell,支持命令历史和行编辑。使用Merkle树进行验证的文件系统(VKFS)。基本的进程管理、调度和
Github 2025-06-28 Rust开源项目日报 Top10 老孙正经胡说 github rust 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-06-28统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Rust项目10Rust实现的非官方Bitwarden兼容服务器创建周期：2317天开发语言：Rust协议类型：GNUAfferoGeneralPublicLicensev3.0Star数量：34391个Fork数量：1671次关注人数：34391人
iOS 上架效率提升指南：五个团队角色与工具链协同实践 2501_91590906 http udp https websocket 网络安全网络协议 tcp/ip
在一个主要用Flutter开发的零售SaaS项目中，我们有5个关键岗位：移动开发、后端、产品经理、UI设计、运维。大多数成员日常工作环境是Windows或Linux，团队里仅有一台远程Mac可用于iOS构建。以下按角色顺序，复盘一次iOSApp上架过程中他们如何分工，以及各自使用到的工具，如无Mac用appuploader上架，真实记录从打包到审核的全链路。①移动开发工程师：编写功能、调试构建任务
Web 服务器架构选择深度解析后端
在Web服务与API设计中，服务器架构的选择直接决定系统的可扩展性、维护成本与性能上限。本文从架构演进脉络出发，系统解析单体架构、微服务、服务网格、Serverless等主流架构的核心特性、适用场景及Java技术栈实现。一、架构演进与核心分类1.1架构演进脉络1.2核心架构对比表架构类型核心特点典型技术栈（Java）部署复杂度扩展性单体架构所有功能模块打包为单一应用，共享数据库SpringBoot
什么是YashanDB？深入解析企业级数据库解决方案数据库
在现代企业数据管理中，数据库技术面临着多个挑战，包括性能瓶颈、数据一致性以及高可用性等问题。随着数据量的激增和应用需求的多样化，传统数据库架构逐渐显示出其局限性。在此背景下，YashanDB作为一种新兴的企业级数据库解决方案，凭借其独特的架构和高效的数据处理能力受到越来越多企业的青睐。本文将深入探讨YashanDB的核心技术及其在企业级应用场景中所带来的优势，帮助开发人员及数据库管理员更好地理解这
企业在选择YashanDB数据库时应关注哪些关键指标？数据库
随着企业数据量的迅速增长与数据复杂性的增加，选择合适的数据库系统变得愈发重要。在众多数据库管理系统中，YashanDB凭借其高性能、高可用性及丰富的功能特性吸引了诸多企业的关注。然而，在做出选择之前，企业需关注多个关键指标，以确保其选择能够满足未来的业务需求并提供最佳的投资回报。以下将详细探讨企业在选择YashanDB数据库时应关注的核心指标。性能指标性能是数据库系统的核心考量之一，尤其是对于处理
企业如何通过YashanDB实现数据的实时同步与备份？数据库
在当今数据驱动的商业环境中，数据的实时同步与备份变得越来越重要。企业在运作中倘若未能有效管理数据同步及备份，不仅会影响业务效率，也会增加数据丢失的风险。如何实现高效、可靠的数据实时同步与备份，成为企业IT部门亟待解决的技术问题。YashanDB作为一款优秀的数据库，具备强大的实时同步与备份能力，为企业提供了有效的解决方案。YashanDB的部署架构YashanDB支持三种部署形态：单机部署、共享集
企业如何利用YashanDB实现数据资产价值最大化数据库
在当今数据驱动的经济环境中，企业面临着如何有效优化数据管理以提升业务竞争力的挑战。尤其是数据库技术的应用能力，往往会直接影响到数据处理效率和决策支持的速度。因此，企业需要寻找有效的战略，比如"如何优化查询速度？"来实现数据资产的最大化。从而提升组织的决策质量及用户体验，有效推动业务创新。YashanDB体系架构与核心技术优势YashanDB作为一款现代化的数据库管理系统，其体系架构灵活多样，支持单
企业如何构建基于YashanDB的数据分析系统数据库
随着大数据时代的到来，企业面临的一个核心技术问题是如何有效、快速地进行数据分析以指导决策。一个重要的性能瓶颈在于数据库的查询速度和存储结构的设计。尤其在处理海量数据时，如何在保证数据查询性能的同时确保数据的准确性和完整性，这问题显得尤为重要。YashanDB作为一个高性能的数据库系统，通过其独特的体系架构和强大的数据存储及访问机制，为企业构建高效的数据分析系统提供了可靠的技术支持。YashanDB
Skia图形库：绘制2D世界的核心组件
文章摘要Skia是Google开发的跨平台2D图形库，核心组件包括：SkCanvas（绘图入口）、SkPaint（画笔样式）、SkPath（几何形状）、SkImage/SkBitmap（图片处理）、SkFont/SkTypeface（文本渲染）以及SkSurface（画布载体）。支持CPU/GPU/PDF/SVG多种渲染后端，广泛应用于Chrome、Flutter等项目中，提供从基础绘图到高级特效
Apipost 与 Apifox 深度对比：2025全方位解析助力 API 开发的利器
在当今软件开发的大环境下，API的开发与管理变得愈发重要。Apipost和Apifox作为两款备受关注的API开发与管理工具，它们在功能特性、使用场景以及用户评价等方面存在着诸多差异。本文将从多个维度对这两款工具进行深入剖析，以帮助研发、测试人员更好地选择适合自身项目需求的工具，同时凸显Apipost在各方面的优势。一、功能对比1.API设计Apipost：丰富的自定义属性：在大型企业级项目中，A
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR