探究影像辨識裡的臉部偵測技術(五)

http://www.compotech.com.tw/articleinfo.php?id=9845

探究影像辨識裡的臉部偵測技術(五)
 
 
作者:鍾慶豐
 
臉部偵測與辨識的技術需求在美國遭受重大911恐怖攻擊之後,呈現爆炸性的成長,在機場使用生物辨識技術的影子隨處可見。目前技術較高且精確性也高的生物辨識要屬虹膜辨識系統。但因為臉部辨識不需接觸,且處於被動安全防禦體系,被偵測者可能根本就沒察覺自己已進入生物辨識系統,因此臉部辨識技術的使用與研究目前還非常熱絡。 

上期我們談到了由上往下的方法,除此方法外,由下往上的特徵式方法亦多有人研究,有關這些方法我們將在本期為各位介紹。 

(二)由下往上的特徵式方法(Bottom-up Feature-Based Methods) 
另一種與知識式由上往下(Top-down)作法不同的方法,是由下往上(Bottom-up)的建構方式。在這種由下往上的研究方法裡,研究者嘗試先找出(或定義出)一些臉部不變特徵(invariant features)。而其所使用的假設便是基於生物視覺空間特徵,當人類眼睛可以不費吹灰之力便能辨識不同姿勢及光線條件之臉部位置,這之間必定存在一些臉部不變特徵,使我們的視覺得以快速索引對應。在人類視覺能快速辨識臉部或物體的另一項重大變因,乃在於生物視覺蛋白的快速構型(conformation)變化(分子處理資訊的速度)與訊息傳導(signal transduction),以大腦視覺區域的分子變化來說,其速度之快為目前超級電腦的100倍。其次,人類視覺模型仍存在不可探知的區域,換句話說,我們並非完全了解生物視覺的運作原理。因此在此類研究裡面,其前提假設的不完全是其中一項重大缺陷,但這種缺陷卻因為未必需達完全相同,只需逼近便能產生重大利益的吸引之下(只需達生物視覺系統一小部分,其效能可能就已經超越目前許多視覺辨識的演算法),仍吸引許多研究者投入相關研究。 

生物分子的訊息傳遞鏈與活性位置形狀(active site motif)變化在此我們並不打算討論,我們在此傾向於關心目前許多相關提議的方法裡其運作原理與效能。在目前許多由下往上的偵測方法裡面,大多數演算法是先偵測臉部特徵是否存在,然後再決定臉部區域是否存在。因此在此類方法裡,臉部特徵的擷取變成處理的第一步驟(在由上往下的方法裡,它是第二步驟,主要用以驗證臉部候選區域之用)。而臉部特徵的擷取方法有許多種,包含了:色彩空間轉換分析、臉部邊界投影方法以及利用邊界偵測器(edge detectors)方法…等等。這些臉部特徵候選區域一旦被擷取之後,預先定義的統計模型(statistical models)便會針對這些候選區域進行檢驗,以檢測這些臉部特徵存在臉部的距離是否合乎常態。不過此種方法和前面幾種方法一樣,都存在有許多待克服的問題,其中包含:光照條件、雜訊或是其他像素融合問題,都會嚴重影響到臉部特徵的辨識。 

直覺式臉部偵測方法 
前面我們看過很多臉部偵測方法,其大多數可分成兩個執行步驟。因此依據執行程序,一個臉部偵測的演算模組可以區分成兩大塊,一個是「臉部定位(face localization)」,一個是「臉部特徵偵測(facial features detection)」,為了方便說明,在此我們使用最常見的膚色(skin-color)偵測方法來作為探討基底。因為沒有任一家的影像感應器是完美的,所以當一個影像進入之後,大多數都要先修正影像的色彩(color correction),這個過程我們稱為「偏移色彩移除(bias color remove)」、「白平衡技術(white balance)」或「光線補償技術(light compensation technique)」。做完色彩修正後,影像就要轉換到特定的色彩空間(color space)進行處理。 

在色彩空間部分我們有多種選擇,但並每一種都適合使用。許多臉部辨識的研究都將luminance與chrominance視為獨立分開的兩個因素,但2002年R. L. Hsu及A. M.Mohamed等人,利用HHI(Heinrich-Hertz-Institute)影像資料庫實驗的結果發現,亮度(luminance)與色度(chrominance)存有「非線性(non-linear)」的關連性部分。而J. C. Terrillon、M. N. Shirazi等人在比較了多種適用臉部偵測之色彩空間後,認為TSL(Tint-Saturation-Luma)空間提供了最佳的偵測結果。 

不過,目前除TSL空間外,因為現行的視訊壓縮標準(例如:MPEG或JPEG)大多以YCbCr色彩空間為主,因此YCbCr色彩空間也常被用來作為臉部偵測的色彩空間。不過YCbCr色彩空間被使用的另一個主因,在於它與TSL色彩空間類似都把亮度(luminance)及色度(chrominance)分開處理,這有助於膚色叢集化(skin clustering)的工作。一旦影像被轉換到所選定的色彩空間之後,膚色像素的測定主要是利用轉換色彩空間的橢圓膚色模型(elliptic skin model)。經過參數化的橢圓部分(parametric ellipse),主要是對應膚色高斯分布(Gaussian distribution)下的Mahalanobis距離(Mahalanobis distance)。Mahalanobis距離法與其他方法(例如:最鄰近法(nearest neighbor)、平均距離法(mean distance)或最近特徵線法(nearest feture line)一樣,都屬子空間的距離判別方法。膚色像素的偵測,主要是依據鄰近像素顏色的變異以及色彩相似度(similarity),並參考這些像素的空間排列,以決定是否群組化(grouping)這些像素,使其成為臉部區域。一般影像中臉部的大小多為固定,而其包含的像素多寡則依據相機解析度與距離遠近而定。在臉部色彩區域判斷後,進一步搜尋臉部特徵(例如:眼睛、鼻子、嘴巴或臉部邊緣),將有助於雙重確認臉部區域的所在。其偵測流程圖如圖10所示。 

圖10、一個膚色為主的臉部偵測流程,流程的每一區塊都可在細分成數個處理細節,且區塊流程因實作需求的差異,亦可做適當調整。 
 

光線補償與膚色偵測方法 
因為膚色的呈現與當時光線色溫有很大關係,因此在處理膚色程序之前,必須要作兩件的事情,一個是定義膚色範圍,另一個是光補償(即是白平衡)。膚色定義因人種不同而易,如果同時採用多種定義(例如:黃種人、黑人或白種人的膚色定義),亦可能讓臉部偵測的判別更加複雜並降低準確率。通常在這種情況下,直覺式的方式就是以case-by-case的方式進行處理。為使往後膚色搜尋更加精密,我們必須先對不同色溫下的影像進行白平衡(white balance)的處理。為了使顏色的補償正規化,通常此我們需要定義「參考白(reference white)」,其設定方式是以經過非線性的gamma校正後,最高luma值的前5%像素平均值做為參考白。在這5%的參考白像素裡面,我們可以定義極端值的影響門檻(例如:每個像素Luma值都至少要大於110),以作為影像是否進行比例色彩偏移的依據。有了參考白之設定之後,其參考白平均值再由現值移向255最大值,而每一個色彩元件,便依序乘上比例作線性延展的動作,以消除原先色彩偏移的效果。為避免錯誤處理,如果一幅影像未達參考白的定義門檻,則該影像便不被白平衡所處理。而為了為將膚色模型化,通常的作法是先擇一適當的色彩空間進行叢集化的過程處理,經過一些研究顯示,並非所有色彩空間都是適合使用的(例如:正規化的red-green空間(R-G space)便不是非常適合用來作臉部偵測時使用)。 

臉部特徵的定位 
在眾多臉部特徵裡面,最明顯者莫過於嘴、鼻、口這三項,這些位置的資訊也可被用評估頭部3-D位置的依據。在許多目前使用的眼睛定位方法裡面,大多數方法屬模版式(template-based)的定位方式。為使臉部特徵獲得初步定位,我們可以利用影像中的luma及chroma來定位眼睛、口、鼻或是臉部邊界。在臉部偵測裡面,我們所在意的是臉部區域的所在,而這些區域可能是由一群膚色區域(skin-tone region)像素所群組化的結果。 

一、眼睛的部分 
因為眼睛周圍有較高Cb值但低Cr值,且通常包含有較暗以及較亮的像素,所以我們可利用這些特性,分別從單張影像的YCbCr色彩空間裡,候選可能存在的眼睛區域。因此當我們在處理眼睛的定位時,我們通常會先將影像轉換到特殊色彩空間(color space),在此我們使用的是色彩空間。然後利用臨界值閥設定粹取影像特徵後,再利用二元型態運算子(binary morphological operators)來強化眼睛標記,並抑制其他臉部特徵的出現。 

所以為了確定眼睛存在的區域,可以結合luminance元件特性與chrominance元件特性,來作為眼睛影像候選的依據。因此我們會得到兩張眼睛候選影像,一個從luminance元件而來,另一個來自chrominance元件。由這兩個分開的元件所偵測到的eyes map,最後經由結合之後成為最後眼睛偵測的候選影像。在luminance元件內眼睛區域的判斷方法,可依據灰階型態運算子(grayscale morphological operators),例如:dilation或erosion,來強化眼睛周邊較暗或較亮區域,這種方法在多重尺度縮放的正面臉部驗證上也常被用來建構臉部特徵向量(face features vectors)。在此方面的建構方式有多種不同方法,例如:R. L. Hsu及A. M. Mohamed等人便利用P. T. Jackway與M. Deriche所提出的縮放空間影像(scale-space image)方法,來計算luminance的眼睛部分影像區域。 

其中乃Jackway與Deriche在縮放空間屬性中所定義之縮放尺度為的平滑核心(smoothing kernel),而關於chrominance元件內眼睛區域的判斷方法。 

來自chrominance的眼睛圖案在經過histogram equalization之後,便利用AND運算與來自luminance的影像結合起來,結合後的結果分別將眼睛部分予以擴張化、遮罩化以及正規化,以加強眼睛周邊亮度並抑制臉部其他特徵,以構成眼睛區域的候選圖。 

二、嘴巴部分 
相較於其他臉部特徵區域,嘴巴區域含有較強烈的紅色元素,即是在色彩空間中,其強度會比強。R. L. Hsu及A. M. Mohamed研究發現,嘴巴的部分對的反應性較低,但對有較高的反應性。 

三、臉部邊界 
之前我們已經針對眼睛及嘴巴的部分確認了候選區域,不過為確認眼睛及嘴巴區域的正確性,一般都會作雙重確認。首先先要確定眼睛或嘴巴區域的luma變異程度以及其平均梯度方向(average gradient orientation),其次是確認眼睛及嘴巴候選區域所形成的幾何形狀是否呈現倒三角形。如果要在更確認一點,可以在利用橢圓偵測來確認臉部邊界,並確定此三角形是否在所偵測的橢圓範圍內。等確定之後,這些候選區域便會開始進行投票(包含眼睛、嘴巴區域,以及橢圓投票(ellipse vote)),並針對臉部特徵、對稱性與方向進行評分。因為我們已經知道眼睛及嘴巴的位置,所以利用這些位置形成的幾形狀可以幫助我們確認臉部走向或擺頭姿勢。 

經由眼睛、嘴巴與臉部邊界的其他臉部特徵判定,可以協助我們更精確判別臉部候選區域的正確性。只是這三者的擷取方法各家多有不同,因此精確度也多有所差異。如果只是要用在初步定焦(例如:數位相機臉部定焦功能),選擇效率可能是主要考量點。但如果是用在生物辨識安全領域,那精確度與提供辨識特徵可能主要該種系統訴求。不同的應用領域,其對臉部偵測的效能與系統評價有會有所差異。 

不妨給未來一個想像空間 
臉部偵測與辨識的技術需求在美國遭受重大911恐怖攻擊之後,呈現爆炸性的成長,在機場使用生物辨識技術的影子隨處可見。在生物辨識領域其並非只有指紋辨識系統,其他生物辨識系統還包含語音辨識、臉部辨識以及虹膜辨識(iris recognition)…等等,而目前技術較高且精確性也高的生物辨識要屬虹膜辨識系統。但因為臉部辨識不需接觸,且處於被動安全防禦體系,被偵測者可能根本就沒察覺自己已進入生物辨識系統,因此臉部辨識技術的使用與研究目前還非常熱絡。 

臉部偵測技術看起來似乎簡單,但經由前面的論述便可知,如果真要實作起來卻不見得簡單(為了維持高偵測率、執行效率與低錯誤,其需要考量很多問題)。正如幾年前許多不被看好的技術,意外的在今日卻逐漸佔有重要地位。或許在十年前,生物機電顯得遙不可及。但誰知在十年之後,生物機電整合出現希望的曙光。 

除了液晶螢幕的例子之外,人工視網膜(或稱為「視網膜晶片(retina chip)」)的設計也是另一項壯舉。在傳統認知上,生物神經傳導屬離子脈衝,其利用離子極化與去極化反應,描繪神經所接受的訊號形式(神經軸內部維持低電壓約70mV)與一般電子訊號有所差異。令人覺得不可思議的部分,在於錯綜複雜的電子訊號與離子訊號的轉換對應關係。因為這種對應關係一旦找到,非但盲者可重見光明,連下肢癱瘓之小兒麻痺患者或其他因神經傳導斷裂而癱瘓之病患也將可能因重新取的傳導訊號而有限度恢復行動力。人工視網膜主要研究團隊來自美國南加大以及Doheny眼科研究所,在他們目前實驗中經由植入人工視網膜到部分盲人眼裡,已經讓這些盲人可以重新感覺到光線及物體移動,這項研究成果就在2005年宣布時,造成許多人不少震撼。 

人工視網膜構造與機器視覺非常類似,比較重要的差別在於對訊號的處理型態與機器種類。在人工視網膜晶片的搭配上面,其由一副內植一部小型攝影機的太陽眼鏡負責擷取影像,而攝影機之感應訊號乃經由4×4網格電極(grid of electrodes)與患者視網膜上受損之錐細胞(cones)及桿細胞(rods)相連結。這些網格電極將被用來模擬光接收器(photoreceptors)並經由光學神經將訊號轉換給大腦。 

想到這裡,突然讓筆者心裡有種踏實感,因為科技終於可以用在比較有意義又接近人本思想的事情上面。正如幾年前爭論不休的量子電腦、量子運算一樣,一部份人持肯定說,另一部份人持否定見解。不過如按照歷史來看,其答案如何似乎已經呼之欲出。科學可以幫助的不只是盲人,一次一個像素的建構精神化不可能為神奇。人工視網膜(artificial retina)如果運作的不錯,該產品預料將在三年之內成為可販售之商品。可見創意永遠是人類最珍貴的資產(機器可能繼承此智慧?),未來機器視覺及其他人工智慧如果發展成熟,則機器人亦可能成為人類另一個重要伙伴(例如:機器戰警?)。如同人類一樣,或許初生機器亦需上課、學習新知,「我的同學(老師)是機器」在未來可能成真,面對先進的未來,我們需要多給自己一點想像空間。(全文完)

你可能感兴趣的:([Image]Face)