图像取证:源识别和伪造检测(Image Forensics: source identification and tampering detection) 续2

图像取证:源识别和伪造检测 续2

ImageForensics: source identification and tampering detection

作者:IreneAmerini 佛罗伦萨大学 MICC

中文翻译:xizero00 常熟理工学院(CSLG) 下一代互联网实验室NGIL


在翻译的过程中遇到很多不懂的知识点,同时也恶补了相关的知识,包括《数字图像处理》,《统计学习基础》,《机器学习》Tom Mitchell,《数据挖掘》

Jiawei Han、Micheline Kamber

书籍,如果您想搞清楚其中的知识点还是参考一下相关的书籍的某个章节吧,翻译的不好,还请各位多多指正,有些地方很拗口,这一次,我着重翻译了聚类分析这一块的内容,对其中的部分理论搞的不是很清楚,也参考了本文的参考文献所引用的书籍。也希望您能够给出相应的建议。我的联系方式是[email protected],如果看不到图片,请参看http://xizero00.blog.163.com/blog/static/8694523920122502733485/

2.多媒体取证

多媒体取证可以定义为仅仅通过尝试分析特定数据,对这些数据的内容进行评估并获取数据中包含的内容,从而有力支持某个犯罪场景中的特定的数字文档的调查。在多媒体取证背后的基本思想就是通过观察多媒体数据获取过程和任何多媒体数据处理之后所留下的痕迹,这种痕迹可以作为一种数字指纹来研究。对数字指纹的分析能够鉴别图像和视频的来源以及数字内容的真实性。

数字犯罪以及不断迅猛发展的软件技术以一种远远超过其防御手段的速度发展。有时候,数字图像或者视频可能成为鉴别犯罪或者恶意行为确凿的证据。通过将数字内容作为取证的线索,多媒体取证技术引入的一系列新的方法将会在犯罪案件的线索分析和案件的正确判决方面提供有力的支持。到目前为止,多媒体取证的研究人员一直在通过给予验证多媒体内容真实性的工具以及提供案件线索的分析方面来协助调查人员。为了更好地理解这一话题,首先先介绍一些相关的应用场景。让我们想象一下这样一幅场景,在该场景中创作数字内容的行为 (比如一个摄影师在拍照)本文中暗示的是违法的行为,但是判定该行为是否违法和在数据中呈现的内容有关(比如说儿童色情照片)。在这个案例中,跟踪图像摄取设备就能够让真正的罪犯绳之于法。取证技术可以帮助鉴别数字媒体的来源,让非法的数字内容能够在法庭上作为可靠的证据,它就像法庭上沉默的证人一样。相同的方法也可以被用于不同的环境中,在这些环境中取证分析可以帮助调查者分辨出原始多媒体内容和该内容的非法副本。在这些环境中可能涉及到不同类型的设备,从数码相机,扫描仪,手机,PDA,数码摄像机以及利用图像渲染软件生成的照片般逼真的图像或者视频等等。在这种情景下,能够识别数字文档是怎样被创建的能够让调查人员有能力检测出这些非法的副本(比如说在数字电影院中的电影被数码摄像机重新摄取的影片的检测)。一个更为阴险狡诈的数字犯罪就是罪犯通过散布伪造的数据来达到改变舆论的目的。伪造的目的可能包括开玩笑(比如不能够互相信任的情侣之间)、改变在有非常重要的人物涉及的照片或者视频的内容(比如修改某个政要的会议的图片)或者故意夸大或者淡化灾难照片的凄惨程度。图像取证技术能够辨别图片是否是伪造或者找到可能伪造的部分。

取证工具可以在没有任何附加信息的条件下工作,

先翻译第六章,等第六章完成后翻译

3.鉴别图像的来源:数码相机拍摄的图像or扫描仪获得的图像

先翻译第六章,等第六章完成后翻译

4.在源相机鉴别中所使用的降噪滤波器的分析

先翻译第六章,等第六章完成后翻译

5.对未知来源的图像进行快速聚类(分类)

先翻译第六章,等第六章完成后翻译

6.基于SIFT算法检测复制-粘贴攻击的取证方法

其他主要的多媒体取证主要是关于图像伪造检测、评估图像的真实性或者检测的目标并非数字图像。

在法庭上信息完整性是一个基本的要求,但是很明显,数字图像的出现以及数字图像处理的便捷性让现今的图像真实性无法确定,无法评估图像是否真实或者是否为数字图像。关于这个问题,在最近的几大报纸以及电视新闻上曾经出现过,见图6.1和图6.2

修改一幅数字图像或者改变图像所代表的意思可能是至关重要的特别是当该图像在法庭上作为证据的时候。此外,事情会变得更加有趣起来,一旦某件事曾经发生,可以这样去理解这件事:如果图像中一个物体或者某个人被覆盖了,或者图像的某个部分被复制或者图像中某个部分是从其他图像中复制而来或者这些处理过程综合起来进行,特别是攻击者通过复制图像的某个区域到其他的区域来掩盖某些东西,那么他常常会用到一些几何变换来达到目的。本文将讨论此问题,鉴别出复制-粘贴伪造并估计出伪造所用的变换的参数(比如水平和垂直平移参数,尺度参数,旋转角度参数)。在“Geometric tampering estimation by means of a sift-based forensic analysis论文的基础之上将提出一种新的新方法,该方法是基于尺度不变特征变换(SIFT)算法的。SIFT算法是一种具有鲁棒性的检测算法,它能够找到属于复制区域的聚簇点。接下来,这些点将会被用来重建进行几何变换的参数。我们所提出的方法能够有效抵抗“剪切攻击”,所谓的剪切攻击就是指从一幅图像中复制一小块到另一幅图像中去。事实上,在当源图像可以获取的时候(比如在取证分析时,分析者首先必须检测一个现有的可疑数据集,该数据库包含有原图像和目的图像)该方法依然可用。

本章将按如下结构进行组织:在6.1小节,将会介绍与复制-粘贴伪造检测方法的相关工作和SIFT算法。在6.2小节,将会介绍我们提出的方法的三个主要的方面和在伪造检测性能方面的实验结果,在6.3小节将会介绍在伪造图像中通过我们所提出的方法所估计出的几何变换的参数。

6.1用于图像取证的SIFT特征

最常见的对于图像的修改就是克隆(即复制和粘贴)部分图像,从而达到去除图像中的某个人或者物体的作用。如果很细心地进行修改并使用一些图像修改工具,那么从视觉上将会很难检测出来。而且,如果被复制的部分都来自于同一个图像的某个部分(在噪声和颜色方面它是与目的图像一致),那么它就能够和原图像融合的很好,那么在那些以统计方法寻找图像中不相容部分的时候就不会被检测出来。此外,因为被克隆的区域可以是任何位置的任何形状,那么在计算上将不可能通过穷举法搜索所有可能的图像大小和位置。一直以来人们提出的不同的检测复制-粘贴伪造检测问题的方法,每一种方法都是基于这样的一个核心,那就是原图像和目的图像之间是相关联的。一些搜索这种依赖的方法是通过将图像划分为重叠部分然后对图像施行特征提取,以低维度的来表示所找到的图像块。 例如在文献49中,红、绿、蓝的分量的平均值分别被选作三个特征和其他四个通过计算

6.1.1SIFT算法回顾

因为对SIFT算法比较熟悉,所以这一章暂时先缓一缓,最后翻译。

6.2我们提出的方法

我们所提出的方法是基于SIFT算法所提取的具有鲁棒性的特征向量的,这些特征向量可以允许我们判别图像中的某个部分是否是通过复制-粘贴或者更进一步的几何变换进行伪造的。事实上,被复制的部分和原来的部分拥有基本相似的外形,因此,在伪造区域的关键点检测将会和原SIFT算法非常相似,因此基于SIFT特征的匹配可以被用来完成可能的伪造检测。整个系统包含非常简单的三个步骤见图6.3。第1步包含SIFT特征点提取和关键点匹配,第2步包括将这些关键点进行聚类,并评价伪造检测,第3步是估计伪造时所应用的几何变换。

6.2.1SIFT特征提取和关键点匹配

因为对SIFT算法比较熟悉,所以这一章暂时先缓一缓,最后翻译。

6.2.2聚类和伪造检测

为了识别可能被复制的区域,将会在匹配点的空间位置上进行凝聚层次聚类(AHC)。层次聚类创建簇集的层次。该层次可以用一个树形结构来表示。凝聚层次聚类算法首先将每一个特征作为一个个簇;然后计算所有簇之间的空间距离,并找出最相近的两个簇然后将他们合并成一个簇;然后迭代地重复刚才这一过程,直至数据都聚到一个簇中。上述的合并过程由所采用的不同的链接方法以及所使用的停止聚簇这一过程的阈值来决定的。在文献中出现的几种链接方法和检测它们效果的实验以及估测出的阈值将会在6.3.1小节进行详细的描述。特别是3种不同的连接方法,它们分别是单连接,重心连接,离差平方和连接。给定两个簇P和簇Q,它们各自包含npnqxpixpj分别表示第i个和第j个在簇PQ中的元素。不同的连接方法如下所述:

单链接:采用两个簇中元素的最短欧几里得距离

重心连接:采用两个簇之间的重心之间的欧几里得距离

离差平方和连接:用来评价合并两个单独的簇为一个簇之后的错误离差平方和的增量或者减量(ESS),其公式为

根据所采用的连接方法,将会获得一个树形结构。另外,裁剪树的阈值Th以及最后聚簇的最终数目也是至关重要的。与Th进行比较的参数:不一致协方差(IC),该参数能够刻画每个聚簇过程,该参数的值越高,则相连接的两个元素就越不相似,因此,当它超过阈值Th的时候,则聚簇过程停止。不一致协方差(IC)将聚簇间的平均距离考虑在内,并且不允许在同一层次中加入太远的簇。因此合理的阈值Th对于伪造检测至关重要。在聚簇过程的最后,那些不包含特定数目的匹配点的簇将会被忽略。在此基础之上,为了优化检测性能以及方便后续进行实验检测(6.3.1小节),我们认为,如果通过该方法检测出在两个或者多个簇中有最少3个及以上的匹配点连到另一个簇,那么就认为该图像是通过复制-粘贴方法伪造的。我们已经考虑到,这样的一个假设(即有3个及以上的匹配点连接,则认为是伪造的)在低误报率和处理复制区域的必要性之间得到了平衡。

6.2.3几何变换估计

当一幅图像被认定为是不可信的,那么我们所提出的方法将会判断那些被复制的区域图像是否经过几何变换或者是否是通过复制-粘贴区域图像的方法进行伪造的。不管匹配点的坐标如何,对于两个区域, ,他们的几何关系可以通过一个单应性矩阵来定义:

该矩阵可以通过至少3个匹配点来进行计算,这里我们通过最大似然估计来得到变换H。该方法可以找到单应性矩阵H和几对完美匹配的点 ,这些点能够降低所估计出的单应性矩阵H的错误率。计算公式如下:

然而,误匹配的点将会严重影响得出的单应性矩阵。因此,我们需要使用随机一致性抽样(RANSAC)来进行预估计。该算法随机地从匹配点中选择一个集合(在本文中为3对匹配点),然后估计单应性矩阵H,将剩下的点根据矩阵H进行变换,并比较匹配的点之间的距离。如果距离低于或者高于某一个阈值β的话,那么这些点就可以被分为内点和外点(外点是那些没用可以忽略掉,不用考虑的点)。经过预定义的Niter次数迭代之后,就能够得出单应性矩阵,该矩阵和内点中匹配点之间距离大的有很大联系。在我们的实验中,我们将Niter设定为1000,阈值β设为0.05,这是因为我们使用数据归一化这种标准方法来估计单应性矩阵。这些点将会被归一化从而使它们的重心都在原点,然后对他们进行缩放从而使得以原点作为起点两个匹配点之间的平均距离等于 。在我们的方法中将会对两个区域xixi’同时进行这样的归一化。

一旦找到单应性矩阵,那么旋转和缩放变换就可以通过对单应性矩阵进行分解得到,同时变换也可以通过两个匹配的簇的重心得到。H可定义如下:

矩阵A是旋转和各向异性缩放变换的组合。事实上,A可以被分解如下:

R(θ)R(Ф)是旋转参数θ和Ф,S=diag(s1,s2)是一个缩放变换(尺度变换)的对角矩阵。因此A是由旋转参数Ф,缩放参数在x方向和y方向的s1和s2,反旋转-Ф和另一个旋转参数θ的函数。分解可以通过计算它的奇异矩阵进行。实际上矩阵A可以被写成 其中U和V都是正交矩阵。

6.3实验结果

在本小节中将会给出实验结果并评价我们所提出的方法。我们将进行两类测试,一类是在小型数据集DB220上进行,为了合理地设定阈值Th以及比较其他文献中所述方法,我们对该数据集中的图片进行了标定。另一类是在一个更大的数据集DB2000上进行的,我们将在该数据集上完整地测试系统抵抗不同类型伪造攻击的能力。

两个数据集都来自于哥伦比亚大学图像库(the Columbia photographic images repository)的一个私人收藏集。第一个数据集DB220由220幅图片组成,其中110幅是伪造的图片,另外110幅是原图。图像分辨率在722*480到800*600不等,并且伪造图片区域的大小占整个图像的1.2%左右。这些图像是通过复制粘贴同一幅图像中的不同区域的不同维度的图像块并应用各种几何变换来实现伪造的(见下文)。第2个数据集DB2000是由2000幅2048*1536像素(300万像素)组成,伪造的图像区域占到整个图像的1.12%。这和DB220数据集所占到的比例很接近。因为所复制的区域大小将会极大地影响到SIFT算法的性能,所以这非常关键。很显然,复制的区域越大,SIFT关键点就越多。此外,为了重现如此多的实际情况,在DB2000中的原图像和修改后的图像并不相同,其中有1300幅原图像和700幅伪造图像。伪造图像是通过随机选择(在位置和维度方面各不相同)一个图像区域(正方形或者长方形)并复制粘贴一个经过不同的变换的图像块,该图像块可能经过平移,旋转,缩放(包括对称和不对称的方式)或者组合上述几种方法。表6.1出了第一个数据集DB220中所使用的几何变换参数(10种类型的攻击,从A到J见表6.1)。

表6.2给出了第二个数据集DB2000所使用的几何变换参数(14种攻击类型,从a到o见表6.2)。每一种类型的攻击都会给出旋转角度θ(以度为单位)缩放因子sx和sy分别表示x轴和y轴方向的被复制图像块的缩放程度(比如在攻击G中,x和y轴被缩放到30%,但采用没有旋转变换)。

6.3.1伪造检测的阈值设定

如上文所述,在本小节,首先将会分析我们所提出的方法从而得出最佳的阈值Th(相关内容见6.22小节,根据不同的连接方法有不同的阈值)。该值将会用在后续的实验和比较阶段。为了强调这一问题,在接下来的实验中将会进行一个4对的交叉验证过程:从DB220中随机地选取了165张图片,也就是该图像集的3/4(其中有82张伪造的和83张原图),并根据所使用的三种不同的连接方法(单连接、重心连接、离差平方和连接)去选取最佳阈值Th。那么剩下的55张图片(整个数据集的1/4)接下来将会用于评估我们所提方法性能检测的测试中去。在检测过程中阈值Th在区间[0.8,3]之间,间隔为0.2。实验重复了四次,周期性地交换属于3个子集(即前面用于得到阈值的3/4的图像)的4幅图像,然后测试剩下的1个子集(即前面剩下的1/4的图像),最后对所得的结果求平均。检测性能通过检测率(TPR)和误报率(FPR)来衡量。TPR是指一幅伪造的图像能够正确被检测出来的概率,而FPR是一个图像没有伪造却被误报为伪造图像的概率。它们的定义如下:

我们再一次假定,如果通过该方法检测出在两个或者多个簇中有最少3个及以上的匹配点连到另一个簇,那么就认为该图像是通过复制-粘贴方法伪造的。

在表6.3中给出了每一种连接方法在获取最佳阈值Th阶段的检测率(TPR)和误报率(FPR)。可以看出阈值在所确立的范围内波动。表6.3如下所示。

我们的目标是在获得非常高的检测率的同时降低误报率(误警率),可以从表6.3中看出误报率非常低,相反,检测率却是波动得厉害。所以在单连接方法中,最好的阈值Th为1.6,重心连接最好的阈值为1.8,离差平方和连接最好的阈值为2.2。基于以上分析,我们将在测试阶段采用前一阶段所获取最佳阈值Th。最终的检测结果将会重复四次并做平均处理。表6.4给出了这一结果。

如表6.4所示,这些结果显示我们所提方法对于所有使用的连接方法都能够在比较低的误报率的同时能够获得较高的检测率,可以看到离差平方和连接似乎比其他连接更好一些。综上所述,我们可以得出,连接方法的选择并不是决定性因素,阈值Th的设定也许也是至关重要的。

此外,对于正确检测出伪造的图像,我们也得到了对原图像进行几何变换参数的估计。这里通过平均绝对误差来衡量真实值和估计值。同时这里也采用的对所有图像(指的是那些检测出伪造的图像)重复4次并求平均的方法得到的。具体参见表6.5。

结果显示,我们的方法对于仿射变换的估计是非常精确的。除此之外,表6.6作给出了属于DB220数据集的一个测试图片的一个例子,我们将之命名为汽车(见图6.4的右上角),我们给出了对原图像块所应用变换的每一个参数值,以及我们所提方法估计出的参数值和绝对误差|e|。可以看出,所作估计非常可靠,特别是尺度变换(缩放)参数和非对称缩放融合旋转变换的参数。

定性评价

今后,我们将给出对基于内容复制-粘贴方法伪造图像的检测结果。在这一情况中,图像块是根据要达到的特定目的而被选择的,并且伪造者将很小心地使用变换参数来掩盖对图像所进行的修改。在粗检测阶段是不能检测出对图像的修改的。取证工具能够在调查过程中辅助取证者进行取证。在图6.4中将给出6个特定伪造图像的样例,并且在SIFT算法匹配处以及经过我们所提算法检测的部分将会被高亮显示。

如何区分这些被复制的点非常有趣,比如从多个原图像中复制图像块的例子,在右上角中,图像中的鹅被复制粘贴两次,并且每次都使用了不同的缩放因子,伪造工作做得很好。值得注意的是为什么图片中左上角经过缩放的鹅在关键点减少的情况下所提方法仍然能够检测出来。另一个有趣的情景是区分一个命名为沙丘的图像中复制的图像块有关,在该图像中尽管复制的区域非常平坦,我们的方法也能够检测出足够数目匹配的点。相反,一个反例是圣托里尼岛这幅图,在这幅图中有非常多的匹配点,虽然被复制的图像块有显著的特征并且经过了几何变换,使得该图像块能够和周围的内容相协调。但是SIFT算法的鲁棒性使得我们能够检测出被复制的图像块。

复制-粘贴伪造方法比较

我们所提出方法和文献55中所述基于离散余弦变换(DCT)方法和文献556中所介绍基于主成分分析(PCA)方法做了相应的比较(都已经在6.1小节做了简短的描述)。两种方法所需的输入参数为b=16(每个图像块的像素数目),Nn=5(在“按字典排序的矩阵”中欲搜索的相邻行),Nf=1000(最小频度阈值),Nd=22(判定是否为复制的图像块的阈值)。这两个算法需要用到这些参数,e=0.01(计算PCA之后的主轴方向所忽略的方差数值),Q=256(量化直方图中的条数)这个参数仅仅文献15所提方法中使用。我们自己所提方法中使用预估的离差平方和连接的阈值Th=2.2。实验在一台IntelQ660双核处理器,4G内存,Linux系统上进行,采用DB220中所有的图片。我们记录下了实验的误警率(FPR)、识别率(FPR)和处理时间,见表6.7所示。

如表6.7所示给出了每种方法的检测结果和平均处理时间(以秒为单位)。结果表明,我们的方法相比其他方法效果更好。并且每幅图像的处理时间都在5秒左右,而其他方法却长达1分多钟,甚至有长5分钟的。此外,离散余弦变换和主成分分析的方法虽然能够得到能够接受的识别率,但是却有着很高的误警率。这是因为这两种方法不能够很好地处理对图像块经过几何变换伪造的图像。这些伪造的图片并不仅仅经过平移图像块来实现伪造。在特定场合下,比如说被复制的图像块仅经过平移变换,3种方法的误警率都是0%。

6.3.2在大数据集上的测试

在本小节中,将会给出在一个名为DB2000的大数据集中进行测试的结果,从而验证我们方法检测伪造图像的性能以及估计几何变换参数的准确度。另外,也进行了一些抵抗图像所可能经受的日常处理(比如说JPEG压缩或者加性噪声)鲁棒性的测试。这些对图像的日常处理,可分为对整幅伪造的图像以及单独对被修改的图像块进行处理。

DB2000数据集包含2000幅图片(JPEG质量为100),其中1300幅原图,700幅伪造图片。伪造的图片是由50张图片经过14种不同的变换得到(见表6.2)。首先,我们尝试着进行获取最佳阈值的实验,在实验中,我们使用在6.3.1小节所述针对DB220的3种连接方法。这将进一步检验所获得的阈值是否正确。1500幅图像被用于训练阶段(即获取最佳阈值的阶段),剩下的500幅(其中325幅原图,175幅伪造图像)将在测试阶段使用。测试阶段将使用之前所采用的4交叉重复测试策略,表6.8给出了平均结果。

从表6.8可以看出和从DB220中获取的阈值是一致的,即在6.3.1小节所获得阈值(单连接的阈值为1.6,重心连接为1.8,离差平法和连接为2.2)仍然保证我们的方法在识别率和误警率方面能够获得理想的性能。在测试阶段我们采用前面所提到的最佳阈值Th,表6.9给出了检测率能够有效证明我们方法的有效性,可以看出我们的方法三种连接方法获得了93%的识别率,并且其鲁棒性再一次表现非凡。

在图6.5中,表中列出了每种攻击的错误数目(即那些伪造图像未被检测出来的数目)。最致命的攻击比如f(θ=0°,Sx=2,Sy=2),n(θ=40°,Sx=1.1,Sy=1.6),这些攻击加倍了图像块的维度。并且使用了40度的旋转以及在尺度的两个方向上的一致的变化。在图6.5中的直方图中显示这两种类型的攻击所导致的错误占所有错误的30%左右。

表6.10给出了集合变换参数估计的基于500幅测试图像的平均估计误差。那些在DB2000数据集中经过几何变换修改图像块所形成的伪造图像平均绝对误差率仍然保持足够小,DB2000相对于DB220来说是非常具有挑战性的。

JPEG压缩和加性噪声

我们的方法同时也在鲁棒性方面做了测试,特别是JPEG压缩和加性噪声的影响下的DB2000中2000幅图像中进行了测试。第一个实验中所有格式为JPEG的图像(质量因子为100)被压缩成压缩质量递减的JPEG格式,质量因子为75,50,40和20。表6.11上面的一个表中给出了所有不同JPEG质量因子测试的识别率和误警率(采用离差平方和连接,阈值Th=2.2),可以看出误警率在实际测试过程中是比较稳定的,但是识别率却随着图像质量的降低而逐渐降低。在第2个实验中就像前面的一样,DB2000数据集中的图像被不同的递减单一噪声比(SNR,噪声分别为50,40,30,20分贝)的高斯噪声所污染而失真。这些含有噪声的图像是通过给JPEG质量因子为100的图像加入高斯白噪声而获得。表6.11中(下面的表)给出了实验结果,可以发现识别率虽然SNR为30dB,但是识别率仍然超过90%,并且误警率也比较稳定,似乎加了白噪声之后误警率反而提高了。

在被复制的图像块上进行JPEG压缩,噪声,伽马修正处理的伪造

被复制的图像块常常经过进一步的处理,比如亮度、对比度的调节,伽马修正以及加性噪声的引入等等,从而达到调整所复制的图像块和目标图像中的周围区域相一致的效果。为了研究这一情况,我们设计了如下实验。从10个原始图像中随机选取10个图像块,并使用4种几何变换(表6.2中的a,d,j和o)对这些图像块进行处理。此外在粘贴这些图像块到目标图像之前,使用了4种不同的伽马值[2.2,1.4,0.7,0.45]对每一个图像块进行了修正,最终获得了160幅伪造的图像。同样的方式,最后一步的伽马修正改为使用不同质量因子[75,50,40,20]的JPEG压缩,然后再用四种不同SNR(分贝)[50,40,30,20]的高斯加性噪声处理。上面的每一种情况都获得了160幅伪造图像。对于这三种类型(伽马修正,JPEG压缩和加性噪声)的每一种情况,一个从DB2000中随机选取的350幅原始图像以及所获得的160幅伪造图像的就构成了这样的数据集。接下来,表6.12给出了基于这样一个数据集识别率和误警率的测试结果。

这些实验结果表明,我们所提方法在抵抗除几何变换之外的后期处理方法(即前面所提的JPEG压缩,伽马修正和加性噪声,使用这些方法使得被复制的图像块和目标图像更为协调)仍然具有很好的准确率。

图像拼接

尽管所提方法能够应用在复制-粘贴场景中,它仍然能够被用于图像拼接的场合中。拼接攻击是指抓去一幅图像的某个部分,这个部分可能还需要经过修改(比如几何变换或者增强),然后粘贴进另一幅图像中,从而伪造一幅新的图像。大多数场合中对于取证分析者来说只能获得最终伪造好的图像,很难判定源图像。正是因为如此,SIFT算法匹配过程,该匹配过程是我们方法的核心过程,不能进行(因为缺少原图像),我们将尝试在这样的情况下进行检测。事实上,在现实中这种检测并不一定准确。分析者必须对一个数据集的图像进行评估,比如在判决中属于某个嫌疑人的或者在硬盘、优盘中找到的图片。在这种场景中,可能碰巧就能够找到用于伪造的原图像,这些原始图像可能就在某个即将被犯罪分子清理的图像集合中。这样就很容易理解,我们的方法能够再次被用来判定即将被检测的图像集合中是否存在原图像,甚至能够判定,伪造区域从何而来。如何成功检测出原图像和伪造图像的关系,就能够协助调查顺利进行。为了证明我们的方法能够被用于上述场景中,我们将进行如下实验。

在一幅来自800*600像素的私人收藏图片集里选择了100幅图片。通过从其他96幅原始图像中剪切出图像块,然后粘贴到4幅目标图像中形成4幅伪造图像。我们的方法通过分析在数据集中所有可能的图片对()来寻找被复制的区域。

为了能够让我们的算法能够工作,我们将要匹配的图像看做一幅单独的图像双倍的宽度(大小为N*2M),因此检测的阈值Th需要改为3.4(之前是2.2)对于离差平方和连接而言,这里我们同样也选择该连接方法。表6.13给出了识别率和误警率。

我们的方法正如预期的那样能够正确检测四个伪造的图像对,并能够判定可能的原图像和伪造图像之间的联系。众所周知,虽然我们的方法不能够从伪造图像中区别出原图像,可是其他工具也同样不能。检测过程中同时也误检测出其他两幅非伪造的图像。在图6.6中给出了4种拼接攻击的情形。

 

在图6.7我们给出了误检测的情形。在最后的环境中,我们能够理解错误是因为在两幅图片中出现了相同的物体,但是该物体不是伪造的。然而这可能也会出现在实际情况中(比如获取在相似环境得到图片之间可能的关系)。

你可能感兴趣的:(图像处理)