Gaotianer_99

TSN原文阅读笔记

文章目录

一、补充知识
- 1.Optical Flow
- 2.two-stream（RGB图和光流混合起来判断）的缺点
二、TSN介绍
- 1.TSN大体模型介绍
- 2.五种共识聚合函数
- - （1）max pooling
  - （2）average pooling
  - （3）top-k pooling
  - （4）weighted average
  - （5）attention weighting
- 3.四种不同输入
- 4.三种改进训练的策略
- - （1）交叉输入模式预训练
  - （2）正则化技术
  - （3）数据增强
- 5.M-TWI
- - （1）长视频分类的挑战
  - （2）M-TWI方法
五、优点与不足
- 1.优点
- - （1）解决了two-stream没有处理的长视频分类问题
  - （2）提供了扩大数据集，减少过拟合的方法
- 2.缺点

一、补充知识

1.Optical Flow

颜色表示方向，亮度表示速度
（1）RGB图（一帧图）获得appearance比如人、球、静态动作信息
（2）光流（好几帧形成的图）获得motion比如正在打球（动作）
有篇文章证明了，光流图不按顺序一帧一帧取和按一帧一帧顺序取的区别不大

2.two-stream（RGB图和光流混合起来判断）的缺点

（1）对长视频分类不明显，因为他就是处理单帧前后的信息
（2）当时数据少，很容易过拟合（现在好些了）

二、TSN介绍

1.TSN大体模型介绍

two-stream 卷积网络对于长范围时间结构的建模无能为力，主要因为它仅仅操作一帧（空间网络）或者操作短片段中的单堆帧（时间网络），因此对时间上下文的访问是有限的。视频级框架TSN可以从整段视频中建模动作。

和two-stream一样，TSN也是由空间流卷积网络和时间流卷积网络构成。但不同于two-stream采用单帧或者单堆帧，TSN使用从整个视频中稀疏地采样一系列短片段，每个片段都将给出其本身对于行为类别的初步预测，从这些片段的“共识”来得到视频级的预测结果。在学习过程中，通过迭代更新模型参数来优化视频级预测的损失值（loss value）。

由上图所示**，一个输入视频被分为 K 段（segment），一个片段（snippet）从它对应的段中随机采样得到。不同snippet的类别得分采用段共识函数（The segmental consensus function）进行融合来产生段共识（segmental consensus），这是一个视频级的预测。然后对所有模式的预测融合产生最终的预测结果。
具体来说，给定一段视频V，把它按相等间隔分为K段{S1,S2,⋯,SK}。接着，TSN按如下方式对一系列片段进行建模：

（1）采样得到子片段：(T1,T2,…,Tk)表示K个采样得到的snippets(子片段)，也就是说Tk是从其对应(S1,S2,…,Sk)中随机采样出来的结果。
（2）子片段输入信息种类：Tk是一个snippet，每个snippet包含一帧图像和两个光流特征图(光流、扭曲光流)。这也就完成了作者说的稀疏采样。
（3）单个子片段的输出：式子中的W就是网络的参数，F(Tk;W)函数代表采用 W 作为参数的卷积网络作用于短片段 Tk，函数返回 Tk 相对于所有类别的得分，也就是该snippet属于每个类的得分。F函数的输出值对应于网络结构图中Spatial ConvNet(空间)或Temporal ConvNet(时序)的输出结果，ConvNet图后面的绿色条形图，代表的就是socre在类别上的分布。
（4）融合所有子片段结果：g是一个融合函数，在文中采用的是均值函数，就是对所有snippet的属于同一类别的得分做个均值。g函数的输出结果就是网络结构中Segmental Consensus的输出结果。**
（5）softmax计算概率：最后用H函数（文中用的softmax函数）根据得分算概率，概率最高的类别就是该video所属的类别。
（6）融合时序和空间结果：在输入softmax之前会将空间和时序两条网络的结果进行合并，默认采用加权求均值的方式进行合并，文中用的权重比例是spatial：temporal=1:1.5。
（7）所有子片段共享参数：网络结构中的K个Spatial ConvNet的参数是共享的，K个Temporal ConvNet的参数也是共享的，实际用代码实现时只是将K个子片段输入到同一个网络中。
结合标准分类交叉熵损失（cross-entropy loss），关于部分共识的最终损失函数G的形式为：

其中，C是行为总类别数，yi是类别i的groundtruth（真相），实验中片段的数量K设置为3。本工作中共识函数G采用最简单的形式，即Gi=g(Fi(T1),…,Fi(TK))，采用用聚合函数g（aggregation function）从所有片段中相同类别的得分中推断出某个类别分数 Gi。聚合函数g采用均匀平均法来表示最终识别精度。
TSN中利用反向传播算法来优化参数：

其中，K是TSN使用的segment数，TSN从整个视频中学习模型参数而不是一个短的片段。与此同时，通过对所有视频固定K，作者提出了一种稀疏时间采样策略，其中采样片段只包含一小部分帧。与先前使用密集采样帧的方法相比，这种方法大大降低计算开销。

2.五种共识聚合函数

介绍共识聚合函数的设计和推导出它们对于snippet的梯度及分析不同聚合函数的特性提供建模见解。

（1）max pooling

最大池化的基本思想是为每个动作寻找一个最具有区别性的snippet，然后用这个最强的激活作为这类视频的视频级响应。鼓励时间段网络从每个动作类的最具区别的片段中学习，但缺乏联合模型多个片段以实现视频级动作理解的能力

（2）average pooling

平均池化的思想是把所有动作识别的snippet平均，平均池化能从整个视频中获得信息。但是对于那些背景复杂的嘈杂视频，可能一些snippet会干扰识别表现

（3）top-k pooling

Top-k，在最大池化和平均池化中取得平衡先为每个动作选取K个最具区别的snippet，然后对这些snippet执行平均池化

（4）weighted average

线性权重，就是为每个snippet加一个权重

（5）attention weighting

注意力权重（自适应加权方法）上述线性加权方案是数据无关的，缺乏考虑视频之间的差异。A（Tk）根据视频内容自适应计算

3.四种不同输入

TSN通过探索更多的输入模式来提高辨别力。除了像two-stream那样，空间流卷积网络操作单一RGB图像，时间流卷积网络将一堆连续的光流场作为输入，作者提出了两种额外的输入模式：RGB差异（RGB difference）和扭曲的光流场（warped optical flow fields）。

单一RGB图像表征特定时间点的静态信息，从而缺少上下文信息。如上图2所示，两个连续帧的RGB差异表示动作的改变，对应于运动显著区域。故试验将RGB差异堆作为另一个输入模式。
TSN将光流场作为输入，致力于捕获运动信息。在现实拍摄的视频中，通常存在摄像机的运动，这样光流场就不是单纯体现出人类行为。如上图2所示，由于相机的移动，视频背景中存在大量的水平运动。受到iDT（improved dense trajectories）工作的启发，作者提出将扭曲的光流场作为额外的输入。通过估计估计单应性矩阵（homography matrix）和补偿相机运动来提取扭曲光流场。如图2所示，扭曲光流场抑制了背景运动，使得专注于视频中的人物运动。

4.三种改进训练的策略

（1）交叉输入模式预训练

<1>对于RGB输入：采用在ImageNet上预训练的模型做初始化。
<2>对于其他输入模式（如RGB差异、光流场）：它们基本上捕捉视频数据的不同视觉方面，并且它们的分布不同于RGB图像的分布。作者提出了交叉模式预训练技术：利用RGB模型初始化时间网络。
<3>交叉训练模式具体操作方式：首先，通过线性变换将光流场离散到从0到255的区间，这使得光流场的范围和RGB图像相同。然后修改RGB模型第一个卷积层的权重来处理光流场的输入。具体是对RGB通道上的权重进行平均，并根据时间网络输入的通道数量复制这个平均值。这一策略对时间网络中降低过拟合非常有效。

（2）正则化技术

在学习过程中，Batch Normalization将估计每个batch内的激活均值和方差，并使用它们将这些激活值转换为标准高斯分布。这一操作虽可以加快训练的收敛速度，但由于要从有限数量的训练样本中对激活分布的偏移量进行估计，也会导致过拟合问题。因此，在用预训练模型初始化后，冻结所有Batch Normalization层的均值和方差参数，但第一个标准化层除外。由于光流的分布和RGB图像的分布不同，第一个卷积层的激活值将有不同的分布，于是，我们需要重新估计的均值和方差，称这种策略为部分BN。与此同时，在BN-Inception的全局pooling层后添加一个额外的dropout层，来进一步降低过拟合的影响。dropout比例设置：空间流卷积网络设置为0.8，时间流卷积网络设置为0.7。

（3）数据增强

数据增强能产生不同的训练样本并且可以防止严重的过拟合。在传统的two-stream中，采用随机裁剪和水平翻转方法增加训练样本。作者采用两个新方法：角裁剪（corner cropping）和尺度抖动（scale-jittering）。
<1>角裁剪
仅从图片的边角或中心提取区域，来避免默认关注图片的中心。
<2>尺度抖动
将输入图像或者光流场的大小固定为 256×340，裁剪区域的宽和高随机从 {256,224,192,168} 中选择。最终，这些裁剪区域将会被resize到224×224 用于网络训练。事实上，这种方法不光包括了尺度抖动，还包括了宽高比抖动。

5.M-TWI

（1）长视频分类的挑战

<1>动作剪辑可能出现在视频的任何时间位置
<2>动作可能会持续很久或者很短
<3>视频中的背景会占据视频的很大一部分

（2）M-TWI方法

首先是固定时间间距采样snippet，然后用TSN对其评分估计，然后定义几个滑动窗口L{1,2,4，8,16}，然后按这个来划分，看里面有几个snippet，找出得分最大的snippet，再和其他的snippet聚合，得出视频动作分类，然后再让这几个窗口的函数取平均聚合。

五、优点与不足

1.优点

（1）解决了two-stream没有处理的长视频分类问题

（2）提供了扩大数据集，减少过拟合的方法

2.缺点

了解多了再写

你可能感兴趣的:(CV动作识别方向论文研读笔记,机器学习,深度学习,计算机视觉)

基于SIFT特征提取和模板匹配的车标识别算法MATLAB仿真（含MATLAB代码）爱学习的通信人图像处理毕业设计信号处理算法 matlab 开发语言
摘要本文介绍了一种基于尺度不变特征变换（SIFT）特征提取和模板匹配的车标识别方法，并通过MATLAB进行仿真。该方法利用SIFT特征的尺度和旋转不变性，提高车标识别的准确性和鲁棒性，适用于各种尺寸和方向的车标图像。仿真结果展示了该方法在实际应用中的有效性。关键词：车标识别，SIFT特征提取，模板匹配，MATLAB仿真1.引言车标识别在车辆检测、智能交通系统和安全监控中具有重要应用。准确识别车辆品
docker的staut一直是exit1_Docker随笔记—docker run执行后，容器的状态是Exited的一些困惑... 长颈鹿很忙
问题：运行dockerrun-itd-p5000:5000localregistryregistry:2.5/bin/bash命令后，发现容器并没有跑起来，而是变成了Exit状态。如果将末尾的/bin/bash去掉，容器就能正常的start了解决：翻看不少docker资料，到目前位置，对导致此问题的出现算是有了一个比较清晰的认识。1.容器的生命周期。要把docer容器看做是一个单独的进程。它不是一
后端方向初阶入门——MySQL 小羊一定要努力变强 mysql 数据库
各位帅哥美女，编辑不易，动动发财小手，来个三连加关注，后续会有更加优秀的推文推出~Mysql：用的最多的数据库，项目都用此数据库(Oracle：大型数据库，用的不多，因为收费，大公司难免会遇到。目录1.MySQL简介2.MySQL安装与配置2.1下载与安装2.2配置与启动3.数据库基础操作3.1创建数据库3.2选择数据库3.3创建表3.4插入数据3.5查询数据3.6更新数据3.7删除数据3.8.添
Python数据分析高频面试题及答案闲人编程程序员面试 python 数据分析面试题核心
目录1.基础知识2.数据处理3.数据可视化4.机器学习模型5.进阶问题6.数据清洗与预处理7.数据转换与操作8.时间序列分析9.高级数据分析技术10.数据降维与特征选择11.模型评估与优化12.数据操作与转换13.数据筛选与分析14.数据可视化与报告15.数据统计与分析16.高级数据处理以下是一些Python数据分析的高频核心面试题及其答案，涵盖了基础知识、数据1.基础知识问1：Python中列表
Pytorch 三小时极限入门教程 power-辰南人工智能深度学习 pytorch 人工智能
一、引言在当今的人工智能领域，深度学习占据了举足轻重的地位。而Pytorch作为一款广受欢迎的深度学习框架，以其简洁、灵活的特性，吸引了大量开发者投身其中。无论是科研人员探索前沿的神经网络架构，还是工程师将深度学习技术落地到实际项目，Pytorch都提供了强大的支持。本教程将带你从零基础开始，一步步深入了解Pytorch的核心知识，助你顺利踏上深度学习的征程。二、Pytorch基础环境搭建安装An
PCL 点云高程渲染：实现点云高程信息的颜色渲染技术征服冒险 PCL
PCL点云高程渲染：实现点云高程信息的颜色渲染点云渲染在计算机视觉和图形学中具有重要的应用价值。在处理点云数据时，一种常见的需求是通过将高程信息映射到颜色空间，以实现对点云的可视化。本文将介绍如何使用PCL（PointCloudLibrary）库实现点云的高程渲染，并提供相应的源代码。引言在开始之前，我们首先需要了解点云的基本概念。点云是由大量的三维点组成的数据集合，每个点都具有X、Y和Z坐标。点
Python机器学习之XGBoost从入门到实战(基本理论说明) 雪域枫蓝 Python Atificial Intelligence 机器学习 python 分布式
Xgboost从基础到实战XGBoost:eXtremeGradientBoosting*应用机器学习领域的一个强有力的工具*GradientBootingMachines(GBM)的优化表现，快速有效—深盟分布式机器学习开源平台(DistributedmachinelearningCommunity，DMLC)的分支—DMLC也开源流行的深度学习库mxnet*GBM：Machine：机器学习模型
冒泡排序选择排序插入排序 2401_89791565 java 排序算法算法
packagecom.nobody.sort;/**@authorMr.nobody@Description插入排序@date2020/9/5*/publicclassCode01_InsertionSort{publicstaticvoidinsertionSort(int[]arr){//数组为空，或者数组长度小于2就没必要操作if(null==arr||arr.length=0&&arr[j
【数据分析岗】关于数据分析岗面试python的金典问题+解答，包含数据读取、数据清洗、数据分析、机器学习等内容摇光~ 数据分析面试 python
大家好，我是摇光~，用大白话讲解所有你难懂的知识点最近和几个大佬交流了，说了很多关于现在职场面试等问题，然后也找他们问了问他们基本面试的话都会提什么问题。所以我收集了很多关于python的面试题，希望对大家面试有用。类别1：数据读取与处理问题1：如何用Python从Excel文件中读取数据？答：在Python中，可以使用pandas库从Excel文件中读取数据。pandas提供了read_exce
【Python篇】深入机器学习核心：XGBoost 从入门到实战半截诗 Python python 机器学习深度学习分类回归数据分析 XGBoost
文章目录XGBoost完整学习指南：从零开始掌握梯度提升1.前言2.什么是XGBoost？2.1梯度提升简介3.安装XGBoost4.数据准备4.1加载数据4.2数据集划分5.XGBoost基础操作5.1转换为DMatrix格式5.2设置参数5.3模型训练5.4预测6.模型评估7.超参数调优7.1常用超参数7.2网格搜索8.XGBoost特征重要性分析9.高级功能扩展9.1模型解释与可解释性9.2
【YOLOv8杂草作物目标检测】 stsdddd YOLO目标检测目标检测 YOLO 目标检测人工智能
YOLOv8杂草目标检测算法介绍模型和数据集下载算法介绍YOLOv8在禾本科杂草目标检测方面有显著的应用和效果。以下是一些关键信息的总结：农作物幼苗与杂草检测系统：基于YOLOv8深度学习框架，通过2822张图片训练了一个目标检测模型，用于检测田间的农作物幼苗与杂草对象。该系统支持图片、视频以及摄像头进行目标检测，并能保存检测结果。系统界面可实时显示目标位置、目标总数、置信度、用时等信息。YOLO
Android 后台线程氤氲息安卓原生学习 android
ExecutorServiceexecutor=Executors.newSingleThreadExecutor();executor.execute(newRunnable(){@Overridepublicvoidrun(){Bitmapbitmap=getBitmapFromUrl(url);//网络请求runOnUiThread(newRunnable(){@Overridepublic
Android Fragment 按键监听 weixin_44128558 android android android studio java
Fragment中是没有监听按键的方法的，但是Fragment是寄托于Activity的，只要在Activity中将监听到的按键传递给Fragment就行，网络上大部分都是让Fragment获得焦点，再添加一个按键监听器，这样就能监听到了@Nullable@OverridepublicViewonCreateView(@NonNullLayoutInflaterinflater,@Nullable
编程语言符号表的管理编译原理
首先为表中的符号,设置一个初始annote值的,其中size是长度,staticvoidsymtable_add_global(structsymtable*st){structsym*sym;sym=&st->table[st->len++];sym->annot.type=FS_INT;sym->annot.size=8;sym->name="@$";sym->size=sym->annot.
关于 PHP 性能优化很青的青蛙 php php php 性能优化
本文写的也是关于PHP性能优化、减少耗时方面的话题，虽然老生常谈，但还是以我的角度来一个总结或分享。网上关于50条PHP优化的方法，除此之外从架构或环境方面的优化建议等，是非常有益的。本文讲讲我所关注的一些方法或建议。一般来说，性能优化可先从大的方向开始考虑，从对影响性能比较大的因素来考虑，比如现在使用PHP5.7，性能据说可以成倍提高，最后考虑的应该是PHP语法细节上。1.PHP部署环境单台服务
深度学习(1) 浅忆へ梦微凉深度学习人工智能深度学习学习方法 python
一、torch的安装基于直接设备情况，选择合适的torch版本，有显卡的建议安装GPU版本，可以通过nvidia-smi命令来查看显卡驱动的版本，在官网中根据cuda版本，选择合适的版本号，下面是安装示例代码GPU：pipinstalltorch==2.5.0torchvision==0.20.0torchaudio==2.5.0--index-urlhttps://download.pytorc
提升数据科学工作流效率的10个Jupyter Notebook高级特性
JupyterNotebooks已成为数据科学家、机器学习工程师和Python开发人员的核心开发工具。其核心优势在于提供了一个集成式环境，支持代码执行、文本编辑和数据可视化的无缝整合。尽管大多数用户熟悉其基本功能，但许多能显著提升工作效率的高级特性往往被忽视。本文将介绍一些高级功能，帮助您在数据科学项目中充分发挥JupyterNotebooks的潜力。1、Magic命令：高效的命令行接口Jupyt
【视觉算法—视频目标跟踪】基于camshift实现视频目标实时追踪明月下视觉算法 opencv python 音视频
本文代码功能：1.获取摄像头，实时显示2.鼠标获取第一帧中的目标roi区域3.在视频中实时对目标进行追踪。4.两种目标追踪的方式：‘meanshift’，‘camshift’5.保存视频代码准备新建test.py，复制以下代码：importcv2ascvimportnumpyasnpglobalmin_y,height,min_x,width#1代表打开外置摄像头,外置多个摄像头可依此枚举0，1，
Python 数据建模完整流程指南木觞清 3天入门Python python 开发语言
在数据科学和机器学习中，建模是一个至关重要的过程。通过有效的数据建模，我们能够从原始数据中提取有用的洞察，并为预测或分类任务提供支持。在本篇博客中，我们将通过Python展示数据建模的完整流程，包括数据准备、建模、评估和优化等步骤。1.导入必要的库在进行任何数据分析或建模之前，首先需要导入必需的Python库。这些库提供了各种工具和算法，帮助我们更高效地完成任务。importnumpyasnpim
深度学习常用格式转化脚本xml2yolo/coco2yolo/bdd2yolo/frame2video等 qq1309399183 计算机视觉实战项目集合深度学习人工智能格式转化脚本 voc2yolo格式转化数据集格式转换 xml2yolo coco2yolo
文章目录1.**数据集格式转换脚本**`coco2yolo.py`示例注释：注释说明：`xml2yolo.py`示例注释：注释说明：2.**数据集可视化与统计**`vis_yolo_files.py`示例注释：注释说明：3.**其他工具脚本**`frames2video.py`示例注释：注释说明：该项目提供了一系列用于深度学习的数据处理工具，主要功能包括：数据集格式转换：提供多种脚本，将不同格式的
LLMs，即大型语言模型 maopig AI 语言模型人工智能自然语言处理
LLMs，即大型语言模型，是一类基于深度学习的人工智能模型，它们通过海量的数据和大量的计算资源进行训练，可以理解和生成自然语言。LLMs的核心架构是Transformer，其关键在于自注意力机制，使得模型能够同时对输入的所有位置进行“关注”，从而更好地捕捉长距离的语义依赖关系。LLMs在众多领域都有广泛的应用，如自然语言理解（NLU），语言生成，以及语音识别和合成等。例如，它们能够理解人类的语言
YOLOv10-1.1部分代码阅读笔记-base.py 红色的山茶花 YOLO 笔记深度学习
base.pyultralytics\data\base.py目录base.py1.所需的库和模块2.classBaseDataset(Dataset):1.所需的库和模块#UltralyticsYOLO,AGPL-3.0licenseimportglobimportmathimportosimportrandomfromcopyimportdeepcopyfrommultiprocessing.
【第十章——数据可视化之地图构建】【最新！黑马程序员Python自学课程笔记】课上笔记+案例源码+作业源码嗯哈！信息可视化 python 笔记 pycharm
第十章-数据可视化之地图构建10.1数据可视化-地图-基础地图使用注意！！！现在的版本，需要加：省，市"""演示地图可视化的基本使用"""frompyecharts.chartsimportMapfrompyecharts.optionsimportVisualMapOpts#准备地图对象map=Map()#准备数据data=[("北京市",9),("上海市",8),("湖南省",5),("台湾省
【LLM】大语言模型（LLMs）林九生人工智能语言模型人工智能自然语言处理
大型语言模型（LLMs）1.什么是大型语言模型？大型语言模型（LargeLanguageModel，LLM）是基于深度学习的自然语言处理模型，能够理解和生成自然语言文本。它们通过在大规模文本数据上进行训练，学习语言的语法、语义和各种语言特征，从而可以执行诸如文本生成、翻译、总结、问答等多种语言任务。以下是大型语言模型的定义和基本原理：1.1定义大型语言模型是由大量参数组成的神经网络，这些参数通过在
全新 Hopper 架构的Transformer 引擎有什么特点？扫地的小何尚人工智能
Transformer引擎是全新Hopper架构的一部分，将显著提升AI性能和功能，并助力在几天或几小时内训练大型模型。Transformer模型是当今广泛使用的语言模型（例如asBERT和GPT-3）的支柱。Transformer模型最初针对自然语言处理用例而开发，但因其通用性，现在逐步应用于计算机视觉、药物研发等领域。与此同时，模型大小不断呈指数级增长，现在已达到数万亿个参数。由于计算量巨大，
大语言模型（LLMs）入门教程（非常详细）从零基础入门到精通，看完这一篇就够了大模型零基础教程语言模型人工智能自然语言处理大模型
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
BERT详解 comli_cn 大模型笔记 bert 人工智能深度学习
1.背景结构1.1基础知识BERT（BidirectionalEncoderRepresentationsfromTransformers）是谷歌提出，作为一个Word2Vec的替代者，其在NLP领域的11个方向大幅刷新了精度，可以说是前几年来自残差网络最优突破性的一项技术了。论文的主要特点以下几点：使用了双向Transformer作为算法的主要框架，之前的模型是从左向右输入一个文本序列，或者将l
《AI语言模型的关键技术探析：系统提示、评估方法与提示工程》 XianxinMao 人工智能语言模型自然语言处理
文章主要内容摘要1.系统提示(SystemPrompt)定义:用于设置模型行为、角色和工作方式的特殊指令重要性:定义模型行为边界影响输出质量和一致性可将通用模型定制为特定领域助手挑战:技术集成复杂兼容性问题效果难以精确预测2.模型评估方法创新方向:自一致性(Self-Consistency)评估PlanSearch方法强化学习(RL)应用核心特点:多次采样和交叉验证策略空间探索动态权重调整实践价值
《多模态语言模型：一个开放探索的技术新领域》 XianxinMao 语言模型人工智能算法
核心主题多模态语言模型的特点仍处于探索和定义阶段没有固定的标准任务和评估方法研究方向高度开放技术路径主要存在两种方法：后期融合(LateFusion)从语言模型backbone开始添加图像编码器效果稳定，成本可控早期融合(EarlyFusion)从多模态数据集预训练效果尚不明显需要更大规模计算资源开放和透明的重要性促进知识累积和技术迭代降低技术准入门槛避免技术垄断便于安全性审计主要挑战技术层面数据
node笔记05——Nodejs学习之Express中间件与接口的编写，GET和POST接口的编写和案例演示。 noahsark747 学习中间件前端
认识expressexpress是基于Node.js平台的web开发框架作用和Node.js内置的http模块类似，是专门用来创建Web服务器的。本质上Express就是一个npm的第三方包提供了快速创建Web服务器的便捷方法。中文官网：expressjs.com.cnexpress的作用：快速方便的创建Web网站服务器和API接口服务器express的基本使用一、下载express包npmiex
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他