木桷

【论文阅读】An empirical study on image bag generators for multi-instance learning

用于多实例学习的图像包生成器的实证研究

时间：2022/10/31

文章目录

【论文阅读】An empirical study on image bag generators for multi-instance learning
- 1.基本信息
- 2. 主要贡献
- 3.主要内容
- - 3.1.图像多示例包生成器
  - 3.2.按是否分类语义分类
  - 3.3.Row, SB and SBN
  - 3.4.Blobworld
  - 3.5.k-meansSeg
  - 3.6.WavSeg
  - 3.7.JSEG-bag
  - 3.8.Local binary patterns（LBP）
  - 3.9.Scale invariant feature transform (SIFT)
- 4.总结

1.基本信息

@article{wei2016empirical,
  title={An empirical study on image bag generators for multi-instance learning},
  author={Wei, Xiu-Shen and Zhou, Zhi-Hua},
  journal={Machine learning},
  volume={105},
  number={2},
  pages={155--198},
  year={2016},
  publisher={Springer}
}

2. 主要贡献

周老师在这篇文章中主要介绍了九种主流的图像多示例包的生成器，以及对这些包生成器的效用进行实证研究。通过6923个(9个袋发生器，7个学习算法，4个补丁大小和43个数据集)配置的实验中，他们得到了两个重要的新发现:(1)具有密集抽样策略的袋发生器的性能优于其他策略;(2)学习算法的标准MIL假设并不适用于图像分类任务。

3.主要内容

我读这篇文章主要了解当前主流的多示例包生成器的构成，而后面的实验部分却并不是我关注的，所以便没有去了解。

3.1.图像多示例包生成器

在多示例学习中，主要处理的数据对象是多示例包，一种由多个实例组成的集合数据。所以在实际的实践中，对于原始数据，我们需要使用包生成器来将图片或文本数据转化成多示例数据，用以后续的多示例算法。值得注意的是，包发生器不同于特征提取过程;也就是说，包生成器决定如何用一组补丁来表示图像，而特征提取过程决定如何用特征向量来描述每个补丁。由于将一个数据对象表示为多个实例有许多不同的方法，因此包生成器对MIL学习性能至关重要。周老师对此主要研究了不同的多示例包在那种算法上的应用效果是最好的。此外，周老师还提到，像miGraph、MIBoosting和miFV等算法强调MIL包中实例之间的关系，它们不采用标准的MIL假设(即，如果包中至少包含一个阳性实例，则标记为阳性，否则标记为阴性)，而这些学习算法却获得更好的分类准确率，周老师说可能原因是这几个算法没有假设包中实例是独立同分布的，因为现实中的数据很少是符合独立同分布的。同时还分析了这些包发生器在不同类型的图像分类任务中的效用，即场景分类和目标分类。

3.2.按是否分类语义分类

根据包生成器能否区分图像的语义成分，图像包生成器可分为两类，即非分割包生成器和分割包生成器。非分割包生成器采用一种独立于图像结构的固定策略从图像中提取实例，如Row、SB和SBN。而分割包生成器试图将一幅图像分割成多个语义组件，并用一个实例表示一个对应的语义组件来构造MIL包，Blobworld、k-meansSeg、WavSeg和JSEG-bag。

3.3.Row, SB and SBN

这三个包生成器均是由Maron and Ratan在2001年提出的。这三个包生成器均是借助RGB色彩空间来对图像进行处理。

Row

如图1(a)，这个生成器对于8 × 8滤波后的图像，包的构造如下:对于每一行，用该行的平均颜色和其上下行的平均色差构造一个实例。

SB是Single Blob with no neighbors（没有邻居的单个斑点）的缩写。如图1(b)，该方法下每一个实例都是一个2*2大小的斑点，而且采用的是不重叠的覆盖方法，相邻的斑点没有重复区域。

SBN

SBN是SB的修改版，即Single Blob with Neighbors(有邻居的单个斑点)的缩写。它考虑了相邻的斑点之间的关系。如图1©，每一个实例构造为一个2*2大小的斑点，包含其颜色平均值以及其与周围相邻的四个斑点的颜色差值。除了考虑相邻斑点，其还采用了重叠滑动窗口采样的方式如图2所示。此外，还有一个值得注意的点是如图1©右上角，这个位置的图像SBN无法采集到，存在图像盲区，而SB便没有这个缺点。

3.4.Blobworld

该算法是工作在L*a*b*的色彩空间中，它首先提取每个图像像素的颜色特征，采用色彩空间中的三维描述符进行描述。其次，从灰度图像中提取纹理特征，得到纹理的各向异性、对比度和极性。到目前为止，给定像素的颜色/纹理描述符由6个值组成:3个用于颜色，3个用于纹理。在第三步中，我们将像素的(x, y)位置附加到之前的特征向量上。Blobworld在获得8维像素特征后，通过混合高斯模型对像素特征分布进行建模，将像素分组。为了将这些像素分组，它使用期望-最大化(EM)算法估计K个高斯分量的混合物的极大似然参数。最后，Blobworld为MIL算法描述了每个区域的颜色分布和纹理，即图像中每个区域的表示是一个包中的一个实例。Blobworld处理的各个阶段如图所示。

3.5.k-meansSeg

在k-meansSeg中，图像在YCbCr颜色空间3中执行，而不进行任何预处理。该算法将一个4*4的图像块作为一个补丁，用一个六维向量表示，前三个维度是这16 (4 × 4)像素的三个颜色分量的平均值，后三个维度由HL、LH和HH三个子带组成，这些子带由亮度(Y)分量上的daubecies -4小波变换得到。则第i个原始图像斑点表示为：

$Y_i$	$Cb_i$	$Cr_i$	$HL(Y)_i$	$LH(Y)_i$	$HH(Y)_i$

然后，利用K均值分割算法对这些六维向量进行分割，将图像分割为K个段，一个段对应一个实例。在该方法开始时，将未知参数K设为2，然后通过循环增加，直到其停止条件终止。最后，将表示第i段中所有斑点的所有六维向量的平均值计算为

$bag = \{\{mean(Y_{ij})， mean(Cb_{ij})， mean(Cr_{i j})， mean(HL(Y)_{i j})，\\ mean(L H(Y)_{i j})， mean(H H(Y)_{i j})\}| i = 1,2，…K \}$

其中K是图像分割的段数,j是第i段的第j个斑点。

3.6.WavSeg

Zhang等人(2004)提出了WavSeg包生成器，可以在MIL包(图像)中自动构造多个实例(区域)。WavSeg主要涉及小波分析和并行分割和类参数估计(SPCPE)算法。

第一步，对图像进行daubecies -1小波变换预处理。

小波变换后，高频分量在更大的子带中消失，可能的区域清晰可见。然后对每个通道的显著点进行分组，得到一个初始粗分区，并将其作为SPCPE分割算法的输入。通过实验证明使用小波变化可以获得更好的分割结果，此外，它可以产生其他有用的特征，如纹理特征。

第二，WavSeg提取每个图像区域的局部颜色和局部纹理特征。

在提取颜色特征时，他们使用基于HSV颜色空间的HSV值范围(这些范围共有13种代表颜色)的颜色分类对颜色空间进行量化。

对于区域的纹理特征，daubecies -1变换可以在原始图像的HL、LH和HH三个频段生成三张对应的图像。对上述三个波段的小波系数分别采集均值和方差值。

最终，每个图像区域便形成6个纹理特征。

3.7.JSEG-bag

JSEG算法

Deng和Manjunath(2001)提出了JSEG图像分割算法，用于图像和视频中颜色纹理区域的无监督分割。该方法包括两个独立的步骤:颜色量化和空间分割。在第一步中，图像中的颜色被量化为几个有代表性的类，可以用来区分图像中的区域。这种量化只在颜色空间中执行，而不考虑空间分布。然后将图像像素颜色替换为对应的颜色类标签，从而形成图像的类图。第二步是在图像的类图上进行空间分割。
JSEG-bag

在JSEG-bag中，它首先用JSEG算法分割图像。然后按照区域面积递减的顺序从分割后的图像中选取最上面的k个区域。注意，在我们的实验中，我们将k的不同值设为2、6和10。JSEG-bag的第三步是计算每个区域的R、G、B颜色平均值。最后，将图像转换为对应的由k个三维特征向量(实例)组成的图像袋。其分割结果如图6(g)所示。

3.8.Local binary patterns（LBP）

局部二值模式(LBP) (Ojala et al, 2002)是一种局部描述符，它捕获像素周围小邻域内图像的外观。LBP是一串位，邻域中的每个像素对应一个位。每个位的开关取决于对应像素的强度是否大于中心像素的强度。通常，这些二进制字符串被合并到局部直方图中，而不是直接使用二进制字符串。周老师实验时用的LBP是来自开源库VLFeat。在VLFeat中，它只实现3x3像素的邻域的处理，其运行过程如图4所示，处理3*3像素的区域，以中心像素为对比对象，比较周围8个像素与中心的亮度，大于中心的编码为1，小于中心的像素编码为0。最终按逆时针方向从右上角开始组成一个8位的字符串。故一共便有256种编码。

在实践中，根据统一模式(Heikkilä和Pietikäinen 2006)将256个模式进一步量化为58个量化模式。将量化后的LBP模式进一步分组为局部直方图。在我们的实验中，我们划分了一个40 × 40像素窗口的图像。然后，通过沿两个空间维度的双线性插值，将每个窗口的量化lbp聚合成一个直方图。故一个240 × 360图像的LBP共有54 ((240/40)× (360/40) = 6 × 9)个实例，58个维度。

3.9.Scale invariant feature transform (SIFT)

尺度不变特征变换(SIFT)特征(Lowe 2004)是描述图像关键点外观的图像梯度的三维空间直方图。计算SIFT描述符的第一件事是提取SIFT关键点。采集N个SIFT关键点，如图5所示，对于每个SIFT关键点，我们计算图像补丁中每个图像样本点的梯度幅值和方向。这些样本通过梯度范数进行加权，累积成三维直方图h，形成图像补丁的SIFT描述符。另外还应用了一个高斯加权函数，使远离关键点中心的梯度不那么重要。方位被量化为8个箱子，空间坐标分别为4个。因此，得到的SIFT描述符的维数为128 (8 bins×4×4 = 128个容器)。

注意，图5只是显示了一个从8 × 8的样本集计算出来的2 × 2描述符数组。

因此，由SIFT生成的包包含128维的N个实例。

4.总结

Row, SB和SBN是三种只提取颜色特征的非分割包生成器。他们使用固定的策略将原始图像分割成多个区域，这可能会将物体分成几个部分。对于SBN来说可能是不利的:它的重叠策略可能会使原始图像中的一个对象(bags)多次出现在多个区域(instance)中，根据实验的结果，这似乎是有问题的。

Blobworld, k-meansSeg, WavSeg和JSEG-bag是分割包生成器。它们的相似之处在于，它们首先将原始图像分割成多个区域(实例)，然后提取特征来呈现每个局部区域。其中的不同之处在于它们不同的细分方法。Blobworld和k-meansSeg首先提取像素级或blob级特征。之后，他们将这些像素或blobs聚类到几个区域(实例)，即Blobworld的高斯混合模型和k-meansSeg的k-means。

最后，对于每个区域，他们计算同一区域内像素或斑点特征的平均值作为该区域的特征。WavSeg和JSEG-bag分别采用SPCPE和JSEG分割算法对原始图像进行分割。这两种方法的最后一步是从多个区域提取特征。简而言之，k-meansSeg和WavSeg包含了每个区域的颜色和纹理信息，除此之外，Blobworld还包含了空间信息。然而，JSEG-bag只有颜色信息。图6便是各种算法运行结果。

而对于两个局部描述符算法LBP和SIFT，它们都计算图像(包)中本地区域(实例)的基于直方图的特征。重要的是它们都处理灰度图像，因此它们的局部特征(即LBP的比特串和SIFT的梯度分布)只包含纹理信息，不包含任何颜色信息。

此外，从采样策略来看，可以明显发现SB、SBN和LBP样本密集斑块/区域在袋中构造实例。然而，SIFT描述符(实例)只是基于SIFT检测器检测到的关键点，而不是从原始图像中采样密集的局部区域。此外，其他包生成器只将图像段作为实例处理。

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
我的烦恼余建梅
我的烦恼。女儿问我：“你给学生布置什么作文题目？”“《我的烦恼》。”“他们都这么大了，你觉得他们还有烦恼吗？”“有啊！每个人都会有自己烦恼。”“我不相信，大人是没有烦恼的，如果说一定有的话，你的烦恼和我写作业有关，而且是小烦恼。不像我，天天被你说，有这样的妈妈，烦恼是没完没了。”女儿愤愤不平。每个人都会有自己的烦恼，处在上有老下有小的年纪，烦恼多的数不完。想干好工作带好孩子，想孝顺父母又想经营好自
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
2019-12-22-22:30 涓涓1016
今天是冬至，写下我的日更，是因为这两天的学习真的是能量的满满，让我看到了自己，未来另外一种可能性，也让我看到了这两年这几年的过程中我所接受那些痛苦的来源。一切的根源和痛苦都来自于人生，家庭，而你的原生家庭，你的爸爸和妈妈，是因为你这个灵魂在那一刻选择他们作为你的爸爸和妈妈来的，所以你得接受他，你得接纳他，他就是因为他的存在而给你的学习和成长带来这些痛苦，那其实是你必然要经历的这个过程，当你去接纳的
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
有舍才有得 _清净_
为什么经常讲放下？放下就是让你要舍得、舍去。喜舍心就是把自己喜欢的，用慈悲心喜舍出去。这就锻炼了你们在人间，学会放下原本不舍得的东西或一些事物，学会舍出去，学会帮助别人，学会多付出。你今天付出了慈悲心、喜舍心，以后会得到更多的缘助力。缘助力是什么？——贵人缘啊。今天没有付出，不懂得付出，什么都只会想到自己，那你也得不到缘助力。慈悲喜舍就是用慈悲心去帮助别人，用喜舍心去付出，最后也会得到别人回报。别
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

【论文阅读】An empirical study on image bag generators for multi-instance learning

【论文阅读】An empirical study on image bag generators for multi-instance learning

文章目录

1.基本信息

2. 主要贡献

3.主要内容

3.1.图像多示例包生成器

3.2.按是否分类语义分类

3.3.Row, SB and SBN

3.4.Blobworld

3.5.k-meansSeg

3.6.WavSeg

3.7.JSEG-bag

3.8.Local binary patterns（LBP）

3.9.Scale invariant feature transform (SIFT)

4.总结

你可能感兴趣的:(多示例学习,论文阅读)