Tosonw

动作识别 - 视频分类-StNetSTNET训练

一、STNET模型简介

数据介绍
训练介绍

二、STNET模型实战训练

1.下载源码
2.下载预训练模型
3.下载数据集
3.StNet训练
4.训练结果

三、pkl数据包分析

解析pkl文件
改写video2pkl.py脚本

四、使用自己的视频，进行再训练

1.调用rstp视频流处理并保存为pkl文件
1.调用rstp视频流处理并保存为pkl文件

附、相关资料

一、STNET模型简介

StNet模型框架为ActivityNet Kinetics Challenge 2018中夺冠的基础网络框架，本次开源的是基于ResNet50实现的StNet模型，基于其他backbone网络的框架用户可以依样配置。该模型提出“super-image"的概念，在super-image上进行2D卷积，建模视频中局部时空相关性。另外通过temporal modeling block建模视频的全局时空依赖，最后用一个temporal Xception block对抽取的特征序列进行长时序建模。StNet主体网络结构如下图所示：

详细内容请参考AAAI’2019年论文StNet:Local and Global Spatial-Temporal Modeling for Human Action Recognition

数据介绍

StNet的训练数据采用由DeepMind公布的Kinetics-400动作识别数据集。数据下载及准备请参考数据说明

训练介绍

数据准备完毕后，可以通过如下两种方式启动训练：

export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
python train.py --model_name=STNET \
                --config=./configs/stnet.yaml \
                --log_interval=10 \
                --valid_interval=1 \
                --use_gpu=True \
                --save_dir=./data/checkpoints \
                --fix_random_seed=False
                --pretrain=$PATH_TO_PRETRAIN_MODEL

bash run.sh train STNET ./configs/stnet.yaml

从头开始训练，需要加载在ImageNet上训练的ResNet50权重作为初始化参数，请下载此模型参数并解压，将上面启动命令行或者run.sh脚本中的pretrain参数设置为解压之后的模型参数存放路径。如果没有手动下载并设置pretrain参数，则程序会自动下载并将参数保存在~/.paddle/weights/ResNet50_pretrained目录下面
可下载已发布模型model通过–resume指定权重存放路径进行finetune等开发

**数据读取器说明： **模型读取Kinetics-400数据集中的mp4数据，每条数据抽取seg_num段，每段抽取seg_len帧图像，对每帧图像做随机增强后，缩放至target_size。

二、STNET模型实战训练

1.下载源码

注：该源码含有其他的模型，我们只用的到models/PaddleCV/video代码。

git clone https://github.com/PaddlePaddle/models.git
cd models/PaddleCV/video

2.下载预训练模型

我是下载已发布模型model通过–resume指定权重存放路径进行finetune等开发：https://paddlemodels.bj.bcebos.com/video_classification/STNET.pdparams
放入到文件夹~/.paddle/weights/下。

3.下载数据集

Kinetics数据集下载：可以按照https://github.com/PaddlePaddle/models/blob/develop/PaddleCV/video/data/dataset/README.md#Kinetics数据集这个链接里的说明准备数据集的

数据需要转化为pkl格式：

# 首先生成预处理需要的数据集标签文件
python generate_label.py kinetics-400_train.csv kinetics400_label.txt

# 然后执行如下程序：
python video2pkl.py kinetics-400_train.csv $Source_dir $Target_dir  8 #以8个进程为例

# 对于train数据，
Source_dir = $Code_Root/data/dataset/kinetics/data_k400/train_mp4
Target_dir = $Code_Root/data/dataset/kinetics/data_k400/train_pkl

# 对于val数据，
Source_dir = $Code_Root/data/dataset/kinetics/data_k400/val_mp4
Target_dir = $Code_Root/data/dataset/kinetics/data_k400/val_pkl

# 这样即可将mp4文件解码并保存为pkl文件。

生成训练和验证集list：

cd $Code_Root/data/dataset/kinetics
ls $Code_Root/data/dataset/kinetics/data_k400/train_pkl/* > train.list
ls $Code_Root/data/dataset/kinetics/data_k400/val_pkl/* > val.list
ls $Code_Root/data/dataset/kinetics/data_k400/val_pkl/* > test.list
ls $Code_Root/data/dataset/kinetics/data_k400/val_pkl/* > infer.list

# 即可生成相应的文件列表，train.list和val.list的每一行表示一个pkl文件的绝对路径，示例如下：
/ssd1/user/models/PaddleCV/PaddleVideo/data/dataset/kinetics/data_k400/train_pkl/data_batch_100-097
/ssd1/user/models/PaddleCV/PaddleVideo/data/dataset/kinetics/data_k400/train_pkl/data_batch_100-114
/ssd1/user/models/PaddleCV/PaddleVideo/data/dataset/kinetics/data_k400/train_pkl/data_batch_100-118
# 或者
/ssd1/user/models/PaddleCV/PaddleVideo/data/dataset/kinetics/data_k400/val_pkl/data_batch_102-085
/ssd1/user/models/PaddleCV/PaddleVideo/data/dataset/kinetics/data_k400/val_pkl/data_batch_102-086
/ssd1/user/models/PaddleCV/PaddleVideo/data/dataset/kinetics/data_k400/val_pkl/data_batch_102-090

3.StNet训练

准备：
1.我使用的显卡是RTX2070，显存8G，需要修改configs/stnet.yaml：
TRAIN: batch_size: 64
2.因为我使用了单个GPU，所以需要修改configs/stnet.yaml：
TRAIN: num_gpus: 1
3.我运行的时候‘train.py’有代码会报错，需要修改170行为：
assert os.path.exists(args.pretrain + ".pdparams"), \

训练：
可以通过如下两种方式启动训练：

# 单卡训练：
export CUDA_VISIBLE_DEVICES=0
# 多卡训练：
# export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
python train.py --model_name=STNET \
		--model_name=STNET \
		--config=./configs/stnet.yaml \
		--log_interval=10 \
		--valid_interval=1 \
		--use_gpu=True \
		--save_dir=./data/checkpoints \
		--fix_random_seed=False \
		--pretrain=/home/dell/.paddle/weights/STNET

bash run.sh train STNET ./configs/stnet.yaml

4.训练结果

因为我是找朋友要的Kinetics的pkl数据集来训练，数据量不是很多，很快就训练完成了。
测试不是怎么好测试，暂时就没做了，至少训练是没问题了，如果想用自己的数据来训练，我后续会进行研究。

/home/dell/miniconda3/bin/python3.7 /home/dell/PycharmProjects/stnet_train_paddle/train.py --model_name=STNET --config=./configs/stnet.yaml --log_interval=10 --valid_interval=1 --use_gpu=True --save_dir=./data/checkpoints --fix_random_seed=False --pretrain=/home/dell/.paddle/weights/STNET
DALI is not installed, you can improve performance if use DALI
[INFO: train.py:  254]: Namespace(batch_size=None, config='./configs/stnet.yaml', epoch=None, fix_random_seed=False, is_profiler=0, learning_rate=None, log_interval=10, model_name='STNET', no_memory_optimize=False, pretrain='/home/dell/.paddle/weights/STNET', profiler_path='./', resume=None, save_dir='./data/checkpoints', use_gpu=True, valid_interval=1)
[INFO: config_utils.py:   70]: ---------------- Train Arguments ----------------
[INFO: config_utils.py:   72]: MODEL:
[INFO: config_utils.py:   74]:     name:STNET
[INFO: config_utils.py:   74]:     format:pkl
[INFO: config_utils.py:   74]:     num_classes:400
[INFO: config_utils.py:   74]:     seg_num:7
[INFO: config_utils.py:   74]:     seglen:5
[INFO: config_utils.py:   74]:     image_mean:[0.485, 0.456, 0.406]
[INFO: config_utils.py:   74]:     image_std:[0.229, 0.224, 0.225]
[INFO: config_utils.py:   74]:     num_layers:50
[INFO: config_utils.py:   74]:     topk:5
[INFO: config_utils.py:   72]: TRAIN:
[INFO: config_utils.py:   74]:     epoch:60
[INFO: config_utils.py:   74]:     short_size:256
[INFO: config_utils.py:   74]:     target_size:224
[INFO: config_utils.py:   74]:     num_reader_threads:12
[INFO: config_utils.py:   74]:     buf_size:1024
[INFO: config_utils.py:   74]:     batch_size:64
[INFO: config_utils.py:   74]:     num_gpus:8
[INFO: config_utils.py:   74]:     use_gpu:True
[INFO: config_utils.py:   74]:     filelist:./data/dataset/kinetics/train.list
[INFO: config_utils.py:   74]:     learning_rate:0.01
[INFO: config_utils.py:   74]:     learning_rate_decay:0.1
[INFO: config_utils.py:   74]:     l2_weight_decay:0.0001
[INFO: config_utils.py:   74]:     momentum:0.9
[INFO: config_utils.py:   74]:     total_videos:224684
[INFO: config_utils.py:   74]:     pretrain_base:./data/dataset/pretrained/ResNet50_pretrained
[INFO: config_utils.py:   72]: VALID:
[INFO: config_utils.py:   74]:     short_size:256
[INFO: config_utils.py:   74]:     target_size:224
[INFO: config_utils.py:   74]:     num_reader_threads:12
[INFO: config_utils.py:   74]:     buf_size:1024
[INFO: config_utils.py:   74]:     batch_size:128
[INFO: config_utils.py:   74]:     filelist:./data/dataset/kinetics/val.list
[INFO: config_utils.py:   72]: TEST:
[INFO: config_utils.py:   74]:     seg_num:25
[INFO: config_utils.py:   74]:     short_size:256
[INFO: config_utils.py:   74]:     target_size:256
[INFO: config_utils.py:   74]:     num_reader_threads:12
[INFO: config_utils.py:   74]:     buf_size:1024
[INFO: config_utils.py:   74]:     batch_size:4
[INFO: config_utils.py:   74]:     filelist:./data/dataset/kinetics/test.list
[INFO: config_utils.py:   72]: INFER:
[INFO: config_utils.py:   74]:     seg_num:25
[INFO: config_utils.py:   74]:     short_size:256
[INFO: config_utils.py:   74]:     target_size:256
[INFO: config_utils.py:   74]:     num_reader_threads:12
[INFO: config_utils.py:   74]:     buf_size:1024
[INFO: config_utils.py:   74]:     batch_size:1
[INFO: config_utils.py:   74]:     filelist:./data/dataset/kinetics/infer.list
[INFO: config_utils.py:   74]:     video_path:
[INFO: config_utils.py:   74]:     kinetics_labels:./data/dataset/kinetics_labels.json
[INFO: config_utils.py:   75]: -------------------------------------------------
W0520 19:19:57.004699 29621 device_context.cc:236] Please NOTE: device: 0, CUDA Capability: 75, Driver API Version: 10.1, Runtime API Version: 10.0
W0520 19:19:57.007618 29621 device_context.cc:244] device: 0, cuDNN Version: 7.5.
W0520 19:19:57.007634 29621 device_context.cc:270] WARNING: device: 0. The installed Paddle is compiled with CUDNN 7.6, but CUDNN version in your machine is 7.5, which may cause serious incompatible bug. Please recompile or reinstall Paddle with compatible CUDNN version.
[INFO: stnet.py:  163]: Load pretrain weights from /home/dell/.paddle/weights/STNET, exclude fc, batch_norm, xception, conv3d layers.
[INFO: stnet.py:  173]: Delete conv3d_0.w_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete conv3d_0.b_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete batch_norm_24.w_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete batch_norm_24.b_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete batch_norm_24.w_1 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete batch_norm_24.w_2 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete conv3d_1.w_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete conv3d_1.b_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete batch_norm_44.w_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete batch_norm_44.b_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete batch_norm_44.w_1 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete batch_norm_44.w_2 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_bn.w_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_bn.b_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_bn.w_1 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_bn.w_2 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_att_conv.w_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_att_conv.b_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_att_2.w_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_att_2.b_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_bndw.w_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_bndw.b_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_bndw.w_1 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_bndw.w_2 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_att1.w_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_att1.b_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_att1_2.w_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_att1_2.b_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_dw.w_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_dw.b_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_bn2.w_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_bn2.b_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_bn2.w_1 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete xception_bn2.w_2 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete fc_0.w_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  173]: Delete fc_0.b_0 from pretrained parameters. Do not load it
[INFO: stnet.py:  179]: conv1_weights is transformed from [Cout, 3, Kh, Kw] into [Cout, 3*seglen, Kh, Kw]
[INFO: accuracy_metrics.py:   34]: Resetting train metrics...
[INFO: accuracy_metrics.py:   34]: Resetting valid metrics...
[INFO: train_utils.py:   46]: ------- learning rate [0.], learning rate counter [-1] -----
reader shuffle seed 0
[INFO: kinetics_reader.py:  249]: trainerid 0, trainer_count 1
[INFO: kinetics_reader.py:  253]: read images from 0, length: 756, lines length: 756, total: 756
I0520 19:20:00.296499 29621 parallel_executor.cc:421] The number of CUDAPlace, which is used in ParallelExecutor, is 1. And the Program will be copied 1 copies
I0520 19:20:00.323364 29621 build_strategy.cc:363] SeqOnlyAllReduceOps:0, num_trainers:1
I0520 19:20:00.353277 29621 parallel_executor.cc:285] Inplace strategy is enabled, when build_strategy.enable_inplace = True
I0520 19:20:00.369305 29621 parallel_executor.cc:368] Garbage collection strategy is enabled, when FLAGS_eager_delete_tensor_gb = 0
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 19:20:01] Epoch 0, iter 0, time 2.6954545974731445, 	Loss: 6.386939,	top1_acc: 0.00, 	top5_acc: 0.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 19:20:11] Epoch 0, iter 10, time 1.144268274307251, 	Loss: 7.805868,	top1_acc: 0.00, 	top5_acc: 0.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 19:20:25] Epoch 0, iter 20, time 1.8410155773162842, 	Loss: 12.061253,	top1_acc: 0.00, 	top5_acc: 0.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 19:20:41] Epoch 0, iter 30, time 1.1101765632629395, 	Loss: 9.782310,	top1_acc: 0.00, 	top5_acc: 0.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 19:20:57] Epoch 0, iter 40, time 1.6426472663879395, 	Loss: 6.662434,	top1_acc: 0.00, 	top5_acc: 0.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 19:21:12] Epoch 0, iter 50, time 1.0377476215362549, 	Loss: 7.927030,	top1_acc: 0.00, 	top5_acc: 0.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 19:21:27] Epoch 0, iter 60, time 1.8886034488677979, 	Loss: 7.618662,	top1_acc: 0.00, 	top5_acc: 0.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 19:21:42] Epoch 0, iter 70, time 1.4986093044281006, 	Loss: 10.829721,	top1_acc: 0.00, 	top5_acc: 0.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 19:21:57] Epoch 0, iter 80, time 1.5821115970611572, 	Loss: 10.367525,	top1_acc: 0.00, 	top5_acc: 0.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 19:22:12] Epoch 0, iter 90, time 1.1715724468231201, 	Loss: 10.460176,	top1_acc: 0.00, 	top5_acc: 0.00
[INFO: train_utils.py:  122]: [TRAIN] Epoch 0 training finished, average time: 1.4606082644513858
[INFO: accuracy_metrics.py:   34]: Resetting valid metrics...
[INFO: kinetics_reader.py:  249]: trainerid 0, trainer_count 1
[INFO: kinetics_reader.py:  253]: read images from 0, length: 76, lines length: 76, total: 76
share_vars_from is set, scope is ignored.
I0520 19:22:21.868980 29621 parallel_executor.cc:421] The number of CUDAPlace, which is used in ParallelExecutor, is 1. And the Program will be copied 1 copies
I0520 19:22:21.874469 29621 build_strategy.cc:363] SeqOnlyAllReduceOps:0, num_trainers:1
I0520 19:22:21.879205 29621 parallel_executor.cc:285] Inplace strategy is enabled, when build_strategy.enable_inplace = True
I0520 19:22:21.883241 29621 parallel_executor.cc:368] Garbage collection strategy is enabled, when FLAGS_eager_delete_tensor_gb = 0
[INFO: metrics_util.py:  143]: [TEST] test_iter 0 	Loss: 24.683359,	top1_acc: 0.00, 	top5_acc: 12.50
[INFO: metrics_util.py:  184]: [TEST] Finish	Loss: 24.371124,	top1_acc: 1.56, 	top5_acc: 12.50
[INFO: train_utils.py:   46]: ------- learning rate [0.01], learning rate counter [93] -----
reader shuffle seed 1
...
...(中间省略)
...
[INFO: kinetics_reader.py:  249]: trainerid 0, trainer_count 1
[INFO: kinetics_reader.py:  253]: read images from 0, length: 756, lines length: 756, total: 756
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:48:33] Epoch 58, iter 0, time 4.258568286895752, 	Loss: 0.576913,	top1_acc: 87.50, 	top5_acc: 100.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:48:45] Epoch 58, iter 10, time 1.3456335067749023, 	Loss: 0.317392,	top1_acc: 100.00, 	top5_acc: 100.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:48:59] Epoch 58, iter 20, time 1.1674671173095703, 	Loss: 0.671914,	top1_acc: 87.50, 	top5_acc: 100.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:49:14] Epoch 58, iter 30, time 1.9933085441589355, 	Loss: 0.784231,	top1_acc: 87.50, 	top5_acc: 100.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:49:29] Epoch 58, iter 40, time 1.1111698150634766, 	Loss: 0.930491,	top1_acc: 87.50, 	top5_acc: 87.50
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:49:42] Epoch 58, iter 50, time 1.8673505783081055, 	Loss: 0.543070,	top1_acc: 87.50, 	top5_acc: 100.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:49:57] Epoch 58, iter 60, time 1.634033203125, 	Loss: 0.919805,	top1_acc: 62.50, 	top5_acc: 87.50
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:50:11] Epoch 58, iter 70, time 0.9776091575622559, 	Loss: 0.418453,	top1_acc: 87.50, 	top5_acc: 100.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:50:27] Epoch 58, iter 80, time 0.9865224361419678, 	Loss: 1.184469,	top1_acc: 62.50, 	top5_acc: 100.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:50:42] Epoch 58, iter 90, time 1.0359406471252441, 	Loss: 0.816228,	top1_acc: 75.00, 	top5_acc: 100.00
[INFO: train_utils.py:  122]: [TRAIN] Epoch 58 training finished, average time: 1.4280521023658015
[INFO: accuracy_metrics.py:   34]: Resetting valid metrics...
[INFO: kinetics_reader.py:  249]: trainerid 0, trainer_count 1
[INFO: kinetics_reader.py:  253]: read images from 0, length: 76, lines length: 76, total: 76
[INFO: metrics_util.py:  143]: [TEST] test_iter 0 	Loss: 6.010135,	top1_acc: 18.75, 	top5_acc: 37.50
[INFO: metrics_util.py:  184]: [TEST] Finish	Loss: 10.055953,	top1_acc: 6.25, 	top5_acc: 28.12
[INFO: train_utils.py:   46]: ------- learning rate [0.01], learning rate counter [5545] -----
reader shuffle seed 59
[INFO: kinetics_reader.py:  249]: trainerid 0, trainer_count 1
[INFO: kinetics_reader.py:  253]: read images from 0, length: 756, lines length: 756, total: 756
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:51:02] Epoch 59, iter 0, time 2.8308911323547363, 	Loss: 0.166549,	top1_acc: 100.00, 	top5_acc: 100.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:51:18] Epoch 59, iter 10, time 1.7925031185150146, 	Loss: 0.996779,	top1_acc: 75.00, 	top5_acc: 100.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:51:31] Epoch 59, iter 20, time 1.660839319229126, 	Loss: 0.654242,	top1_acc: 87.50, 	top5_acc: 100.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:51:45] Epoch 59, iter 30, time 2.043001651763916, 	Loss: 0.896705,	top1_acc: 75.00, 	top5_acc: 100.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:51:57] Epoch 59, iter 40, time 1.0093119144439697, 	Loss: 0.860474,	top1_acc: 75.00, 	top5_acc: 100.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:52:11] Epoch 59, iter 50, time 1.7284026145935059, 	Loss: 0.901385,	top1_acc: 62.50, 	top5_acc: 100.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:52:26] Epoch 59, iter 60, time 1.1205298900604248, 	Loss: 0.465495,	top1_acc: 87.50, 	top5_acc: 100.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:52:41] Epoch 59, iter 70, time 1.2147243022918701, 	Loss: 0.953047,	top1_acc: 75.00, 	top5_acc: 100.00
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:52:56] Epoch 59, iter 80, time 1.788550853729248, 	Loss: 0.777208,	top1_acc: 75.00, 	top5_acc: 87.50
[INFO: metrics_util.py:  143]: [TRAIN 2020-05-20 21:53:11] Epoch 59, iter 90, time 0.9238030910491943, 	Loss: 1.572572,	top1_acc: 50.00, 	top5_acc: 87.50
[INFO: train_utils.py:  122]: [TRAIN] Epoch 59 training finished, average time: 1.4281317880076747
[INFO: accuracy_metrics.py:   34]: Resetting valid metrics...
[INFO: kinetics_reader.py:  249]: trainerid 0, trainer_count 1
[INFO: kinetics_reader.py:  253]: read images from 0, length: 76, lines length: 76, total: 76
[INFO: metrics_util.py:  143]: [TEST] test_iter 0 	Loss: 4.260227,	top1_acc: 18.75, 	top5_acc: 43.75
[INFO: metrics_util.py:  184]: [TEST] Finish	Loss: 8.431045,	top1_acc: 9.38, 	top5_acc: 26.56

Process finished with exit code 0

三、pkl数据包分析

解析pkl文件

如果我们要使用自己的数据来训练怎么办？
那么就要按照Kinetics数据集的方式，将视频转换为pkl文件，我们需要了解Kinetics数据集的pkl文件是怎样生成的，我们可以查看源码：data/dataset/kinetics/video2pkl.py
根据运行该脚本的命令来分析：

python video2pkl.py kinetics-400_train.csv \
		data/dataset/kinetics/data_k400/train_mp4 \
		data/dataset/kinetics/data_k400/train_pkl \
		8

kinetics-400_train.csv：kinetics-400数据集列表，包含视频源、视频截取信息、标签等。
data/dataset/kinetics/data_k400/train_mp4：源视频目录
data/dataset/kinetics/data_k400/train_pkl：目标pkl文件目录
8：线程数

#  Copyright (c) 2019 PaddlePaddle Authors. All Rights Reserve.
#
#Licensed under the Apache License, Version 2.0 (the "License");
#you may not use this file except in compliance with the License.
#You may obtain a copy of the License at
#
#    http://www.apache.org/licenses/LICENSE-2.0
#
#Unless required by applicable law or agreed to in writing, software
#distributed under the License is distributed on an "AS IS" BASIS,
#WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
#See the License for the specific language governing permissions and
#limitations under the License.
import os
import sys
import glob
try:
    import cPickle as pickle
except:
    import pickle
from multiprocessing import Pool
# example command line: python generate_k400_pkl.py kinetics-400_train.csv 8
# 
# kinetics-400_train.csv is the training set file of K400 official release
# each line contains laebl,youtube_id,time_start,time_end,split,is_cc
assert (len(sys.argv) == 5)

# 打开kinetics-400_train.csv文件并读出列表
f = open(sys.argv[1])
source_dir = sys.argv[2]
target_dir = sys.argv[3]
num_threads = sys.argv[4]
all_video_entries = [x.strip().split(',') for x in f.readlines()]
all_video_entries = all_video_entries[1:]
f.close()

# 读取kinetics400标签信息
category_label_map = {}
f = open('kinetics400_label.txt')
for line in f:
    ens = line.strip().split(' ')
    category = " ".join(ens[0:-1])
    label = int(ens[-1])
    category_label_map[category] = label
f.close()

def generate_pkl(entry):
    mode = entry[4]
    category = entry[0].strip('"')
    category_dir = category
    video_path = os.path.join(
        './',
        entry[1] + "_%06d" % int(entry[2]) + "_%06d" % int(entry[3]) + ".mp4")
    video_path = os.path.join(source_dir, category_dir, video_path)
    label = category_label_map[category]

    vid = './' + video_path.split('/')[-1].split('.')[0]
    if os.path.exists(video_path):
        if not os.path.exists(vid):
            os.makedirs(vid)
        # 这里是将视频分离为图片
        os.system('ffmpeg -i ' + video_path + ' -q 0 ' + vid + '/%06d.jpg')
    else:
        print("File not exists {}".format(video_path))
        return

    images = sorted(glob.glob(vid + '/*.jpg'))
    ims = []
    for img in images:
        f = open(img, 'rb')
        # 这里是将这段10s视频的很多张图片，放入ims
        ims.append(f.read())
        f.close()

    output_pkl = vid + ".pkl"
    output_pkl = os.path.join(target_dir, output_pkl)
    f = open(output_pkl, 'wb')
    # 这里可以发现：生成的pkl文件格式为3项：vid, 标签, 图片列表
    pickle.dump((vid, label, ims), f, protocol=2)
    f.close()

    os.system('rm -rf %s' % vid)

pool = Pool(processes=int(sys.argv[4]))
pool.map(generate_pkl, all_video_entries)
pool.close()
pool.join()

例如：我尝试打开某个pkl文件：0-nxKQTMo-Y_000000_000010.pkl

import six.moves.cPickle as pickle
inf = pickle.load(open(r'0-nxKQTMo-Y_000000_000010.pkl', 'rb'))
print(inf)
# 以下是输出：
<class 'tuple'>: ('./0-nxKQTMo-Y_000000_000010', 183, [b'\xff\xd8\xff...\xe0\x00\x10]

可以发现是一个tuple：
tuple[0]是文件名。
tuple[1]是对应的标签index（可查看kinetics400_label.txt）
tuple[2]是一个图片集list：: [b'\xff\xd8\xff\xe0\x00...（如果是30帧率的视频源，则10s的数据，这里就是300张图）

改写video2pkl.py脚本

由于后面我得到的数据的标签和标准Kinetics不同，导致很多没有转换出来，所以根据我的数据的情况改写了video2pkl.py：

#  Copyright (c) 2019 PaddlePaddle Authors. All Rights Reserve.
#
#  Modified by Toson on May 22, 2020.
#

import os
import glob

try:
    import cPickle as pickle
except:
    import pickle
from multiprocessing import Pool
import argparse


def parse_args():
    parser = argparse.ArgumentParser(description='Video to pkl')
    parser.add_argument('--csv_file', default='kinetics-400-mini_train.csv', help='csv file')
    parser.add_argument('--label_file', default='kinetics400_label.txt', help='label file')
    parser.add_argument('--mp4_dir', default='../data_k400_modified/mini_train/', help='dataset input directory')
    parser.add_argument('--threads_num', type=int, default=12, help='Threads number')
    args = parser.parse_args()
    return args


args = parse_args()

source_dir = args.mp4_dir
source_dir = source_dir[:-1] if source_dir[-1] == '/' else source_dir
if source_dir[-1] == '/':
    print('--mp4_dir is error:', args.mp4_dir)
    exit(-1)
target_dir =  source_dir + '_pkl'
if os.path.exists(target_dir) is False:
    os.system('mkdir -p ' + target_dir)
num_threads = args.threads_num

category_label_map = {}
f = open(args.label_file)
for line in f:
    ens = line.strip().split(' ')
    category = " ".join(ens[0:-1])
    label = int(ens[-1])
    category_label_map[category] = label
f.close()


# 发现标签和文件夹名字不同
# list1 = os.listdir(source_dir)
# list1.sort()
# label_list.sort()
# diff = set(label_list).difference(list1)
# print(diff)
# diff = set(list1).difference(label_list)
# print(diff)
# exit(0)


errorCount_notThreadsSafe = 0


def generate_pkl(entry):
    # entry[0]
    mode = entry[4]
    category = entry[0].strip('"')
    category_dir = category.replace(' ', '_').replace('(', '_').replace(')', '_').replace('\'', '_')
    video_path = os.path.join(
        './',
        entry[1] + "_%06d" % int(entry[2]) + "_%06d" % int(entry[3]) + ".mp4")
    video_path = os.path.join(source_dir, category_dir, video_path)
    label = category_label_map[category]

    vid = './' + video_path.split('/')[-1].split('.')[0]
    if os.path.exists(video_path):
        if not os.path.exists(vid):
            os.makedirs(vid)
        os.system('ffmpeg -i ' + video_path + ' -q 0 ' + vid + '/%06d.jpg')
    else:
        print("File not exists {}".format(video_path))
        errorCount_notThreadsSafe += 1
        exit(-1)
        # return

    images = sorted(glob.glob(vid + '/*.jpg'))
    ims = []
    for img in images:
        f = open(img, 'rb')
        ims.append(f.read())
        f.close()

    output_pkl = vid + ".pkl"
    output_pkl = os.path.join(target_dir, output_pkl)
    f = open(output_pkl, 'wb')
    pickle.dump((vid, label, ims), f, protocol=2)
    f.close()

    if vid == '*' and vid[0] == '/':
        print('ERROR!!! you want to rm -rf', vid)
        exit(-2)
    os.system('rm -rf %s' % vid)


f = open(args.csv_file)
all_video_entries = [x.strip().split(',') for x in f.readlines()]
all_video_entries = all_video_entries[1:]
f.close()

pool = Pool(processes=int(args.threads_num))
pool.map(generate_pkl, all_video_entries)
pool.close()
pool.join()

print('errorCount_notThreadsSafe:', errorCount_notThreadsSafe)
print('end.')

至此，对video转pkl的研究就告一段落了。

四、使用自己的视频，进行再训练

先理清一下思路，特别是处理数据集：

1.收集数据（Kinetics里大多数视频都是30帧率的视频，推荐视频帧率为30，当然其他帧率也问题不大）
2.整理数据：训练集、验证集（Kinetics截取的是10s，我们使用其他长度也影响不大，创建csv表格，按标准写入视频信息）
3.转换为pkl（需要标签txt文件、视频信息csv文件）
4.生成训练和验证集list
5.训练

本来使用上述流程，不过我后来写了脚本可以直接从摄像头视频流直接处理成pkl文件，免去了很多麻烦：

1.调用rstp视频流处理并保存为pkl文件
2.自写pkl查看脚本，查看pkl文件并将其分类
3.生成训练和验证集list
4.训练

1.调用rstp视频流处理并保存为pkl文件

代码：暂不上传了。

1.调用rstp视频流处理并保存为pkl文件

附、相关资料

GitHub: https://github.com/PaddlePaddle/models/blob/release/1.8/PaddleCV/video/models/stnet/README.md

百度AI开放平台：https://www.paddlepaddle.org.cn/modelbasedetail/stnet

百度大脑：STNET可阅读版(只是该项目使用的是HMDB 51数据)

Kinetics数据集下载：可以按照https://github.com/PaddlePaddle/models/blob/develop/PaddleCV/video/data/dataset/README.md#Kinetics数据集这个链接里的说明准备数据集的

你可能感兴趣的:(深度学习,动作识别,视频分类,STNET,paddlepaddle,Kinetics)

Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
QKeras、Brevitas和QONNX量化工具对比 kanhao100 笔记深度学习边缘计算
QKeras、Brevitas和QONNX量化工具对比一、引言在深度学习模型部署领域，量化技术已成为提升模型执行效率的关键手段。通过将浮点权重转换为低精度表示，量化能显著减小模型体积、降低内存占用并加速推理过程。对于资源受限的设备（如移动设备、嵌入式系统和边缘计算设备），量化技术尤为重要。本文深入对比三款主流量化工具：QKeras、Brevitas和QONNX，从用户实际应用角度剖析它们的技术特点
Umi-OCR：解锁高效文字识别的新时代水熠芝Dark-Haired
Umi-OCR：解锁高效文字识别的新时代Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda项目介绍在数字化浪潮席卷全球的今天，文字识别技术已成为提升工作效率和生活质量的关键工具。Umi-OCR，作为一款基于深度学习技术的开源文字识别工具，凭借其强大的功能和高效的性能，迅速成为众多用户的首选。无
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
关于误差平面小记文弱_书生乱七八糟平面算法神经网络机器学习
四维曲面的二维切片：误差平面详解在深度学习优化过程中，我们通常研究损失函数（LossFunction）的变化，试图找到权重的最优配置。由于神经网络的参数空间通常是高维的，我们需要使用低维可视化的方法来理解优化过程和误差平面（ErrorSurface）。在这里，我们讨论一个四维曲面的二维切片，其中：三个维度是网络的权重（w1,w2,w3w_1,w_2,w_3w1,w2,w3）。第四个维度是误差（损失
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
Marker可以快速且准确地将PDF转换为markdown格式。星霜笔记开源关注简介免费源码 pdf
MarkerMarker可以快速且准确地将PDF转换为markdown格式。支持多种文档类型（针对书籍和科学论文进行了优化）支持所有语言移除页眉/页脚/其他杂质格式化表格和代码块提取并保存图像以及markdown将大多数方程转换为latex支持在GPU、CPU或MPS上运行工作原理Marker是一个由深度学习模型组成的管道：提取文本，必要时进行OCR处理（启发式算法，surya，tesseract
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
Adam-mini：深度学习内存效率新突破 XianxinMao 人工智能深度学习人工智能
标题：Adam-mini：深度学习内存效率新突破文章信息摘要：Adam-mini优化器在深度学习领域展现出突破性潜力，尤其在内存效率和计算性能上表现卓越。相比AdamW，Adam-mini将内存效率提升了一倍，并通过减少学习率数量显著降低了内存消耗，同时保持了与AdamW相当甚至更好的性能。在训练十亿参数级别的大语言模型（LLM）时，Adam-mini实现了49.6%的吞吐量提升，并减少了33%的
Transformer与图神经网络的融合与应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。其中，Transformer模型和图神经网络（GraphNeuralNetworks,GNNs）是两个备受关注的研究方向。Transformer最初应用于自然语言处理领域，通过自注意力机制实现了并行计
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi