91一级特黄大片|婷婷中文字幕在线|av成人无码国产|日韩无码一二三区|久久不射强奸视频|九九九久久久精品|国产免费浮力限制

IEEE TIFS |用于多視角指靜脈識(shí)別的基于注意力BLSTM的時(shí)空靜脈Transformer

tittle

該論文發(fā)表于IEEE Transactions on Information Forensics and Security (中科院一區(qū),IF=6.3),題目為《Attention BLSTM-Based Temporal-Spatial Vein Transformer for Multi-View Finger-Vein Recognition》。重慶工商大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院的教授秦華鋒為此文第一作者。重慶大學(xué)計(jì)算機(jī)學(xué)院的教授李延濤為此文的通訊作者。

論文鏈接:https://ieeexplore.ieee.org/document/10695117

論文概要

由于其良好的隱私保護(hù)和高度的安全性,指靜脈生物識(shí)別技術(shù)近年來(lái)受到廣泛關(guān)注。盡管該領(lǐng)域已取得顯著進(jìn)展,但大多數(shù)現(xiàn)有方法仍主要依賴于從三維靜脈血管投影到二維(2D)圖像上的單視角圖像中提取特征。然而,單視角的識(shí)別容易受到手指位置變化(尤其是由于手指旋轉(zhuǎn)造成的)影響,進(jìn)而降低識(shí)別性能。為了解決這一挑戰(zhàn),本文提出了一種基于注意力雙向LSTM的時(shí)空靜脈Transformer模型——ABLSTM-TSVT,用于多視角指靜脈識(shí)別。首先,在LSTM中引入注意力機(jī)制,構(gòu)建了注意力LSTM以提取時(shí)序特征。在此基礎(chǔ)上,進(jìn)一步引入了一個(gè)局部注意力模塊,該模塊能夠?qū)W習(xí)多視角圖像中一個(gè)圖像塊(token)與其鄰近圖像塊之間的時(shí)間依賴關(guān)系,并與注意力LSTM融合形成時(shí)序注意力模塊。其次,設(shè)計(jì)了空間注意力模塊,用于捕捉單張圖像中各圖像塊之間的空間依賴關(guān)系。最后,通過(guò)融合時(shí)序注意力模塊與空間注意力模塊,構(gòu)建了時(shí)空Transformer模型,有效地表征多視角圖像的特征表示。在兩個(gè)多視角數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法在提升身份識(shí)別準(zhǔn)確率和減少靜脈分類器驗(yàn)證誤差方面優(yōu)于現(xiàn)有先進(jìn)方法。

研究背景

指靜脈識(shí)別仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)槎喾N因素會(huì)導(dǎo)致圖像質(zhì)量下降,這些因素可大致分為兩類:一是外部因素,如環(huán)境光照、溫度變化以及光散射等,這些會(huì)在圖像中引入噪聲、不規(guī)則陰影,甚至造成靜脈圖案缺失;二是內(nèi)部因素,如用戶的操作行為,可能會(huì)引起圖像的旋轉(zhuǎn)和平移。在圖像采集過(guò)程中,用戶的手指可能沿 X、Y、Z 三個(gè)軸發(fā)生平移與旋轉(zhuǎn):其中,X 和 Y 軸方向的平移會(huì)影響圖像中手指區(qū)域的位置,Z 軸方向的平移則會(huì)改變其尺度;而沿這三個(gè)軸的旋轉(zhuǎn)——即滾轉(zhuǎn)、俯仰和偏航——會(huì)以不同方式影響最終圖像。具體而言,偏航可能使手指在圖像中產(chǎn)生旋轉(zhuǎn),俯仰可能導(dǎo)致手指變形從而造成靜脈結(jié)構(gòu)扭曲,尤其值得注意的是,滾轉(zhuǎn)會(huì)改變?nèi)S血管結(jié)構(gòu)在二維圖像上的投影角度,尤其在大角度時(shí),不同視角下同一手指采集到的靜脈圖像差異會(huì)變得十分顯著,最終導(dǎo)致注冊(cè)圖像與測(cè)試圖像之間的不匹配,從而影響識(shí)別性能。由于大多數(shù)用戶對(duì)靜脈識(shí)別缺乏專業(yè)知識(shí),在圖像采集時(shí)可能錯(cuò)誤地放置手指,進(jìn)一步加劇了采集圖像之間的差異。而無(wú)接觸式采集系統(tǒng)則往往帶來(lái)更多的變化,包括旋轉(zhuǎn)、平移和尺度變化。

f_xyz

圖一 手指移動(dòng)引起的姿勢(shì)變化

方法與結(jié)果分析

研究方法

model_struct

圖二 ABLSTM-TSVT框架.(a) ABLSTM-TSVT, (b)時(shí)間注意力, (c) BLSTM注意力, (d) LSTM注意力.

基于注意力機(jī)制的BLSTM時(shí)空靜脈Transformer(即ABLSTM-TSVT)由空間注意力模塊、時(shí)間注意力模塊和嵌入層組成,如圖2(a)所示。首先,對(duì)多視角指靜脈圖像序列中的每一幅圖像進(jìn)行卷積處理,將其劃分為 N=196 個(gè)圖像塊(patch),每個(gè)圖像塊隨后被轉(zhuǎn)換為一個(gè)嵌入向量。接著,這些嵌入向量被送入時(shí)間注意力模塊(如圖2(b)所示),以學(xué)習(xí)多視角圖像之間的時(shí)間依賴關(guān)系。時(shí)間注意力模塊的輸出作為空間注意力模塊的輸入,用于提取圖像內(nèi)部各圖像塊之間的空間相關(guān)性。通過(guò)這種交互式的處理流程,模型能夠有效提取并優(yōu)化圖像序列中的特征,為后續(xù)的分類任務(wù)提供支持。

A. 序列嵌入

IMG_256目前,大多數(shù)Transformer模型 ,旨在改進(jìn)Vision Transformer(ViT),通常會(huì)利用其預(yù)訓(xùn)練權(quán)重并進(jìn)行微調(diào),以提升模型的魯棒性。類似地,本文的方法引入了空間注意力模塊,并采用了一個(gè)經(jīng)過(guò)預(yù)訓(xùn)練的ViT模型,利用指靜脈圖像對(duì)其進(jìn)行微調(diào)。在 ViT 中采用了圖像塊劃分與特征嵌入方案。設(shè)X?:? 表示一個(gè)多視角指靜脈圖像序列 X?, X?, ..., X?。對(duì)于第 t 幅圖像, 在不同像素位置上使用帶有 d = 768 個(gè) p×p(其中 p = 16)的卷積核的卷積操作,步長(zhǎng)為 p。這樣,圖像 X? 被轉(zhuǎn)換為一個(gè)由IMG_256個(gè)token 組成的序列 IMG_256。在實(shí)驗(yàn)中,所有指靜脈圖像被統(tǒng)一調(diào)整為 224×224,因此:IMG_256。最終,這些 token 被聚合成一個(gè)矩陣 IMG_256,從而得到該圖像的嵌入表示。對(duì)于整個(gè)圖像序列的嵌入,將 T 個(gè)矩陣{X?′ | t = 1, ..., T}堆疊起來(lái),得到新的三維張量IMG_256。在 ViT中,一張圖像被劃分為 N 個(gè) patch,每個(gè) patch 被嵌入為一個(gè) token,通過(guò) Transformer 中的自注意力機(jī)制學(xué)習(xí) patch 之間的空間依賴關(guān)系。為了實(shí)現(xiàn)魯棒的分類,ViT 在 N 個(gè) token 前連接一個(gè)分類 token z?,從而形成 N+1 個(gè) token 輸入到 Transformer 中。Transformer 編碼器的輸出 z? 作為整張圖像的空間特征表示。為了保留在不同時(shí)間點(diǎn)采集圖像的空間信息,為每個(gè)時(shí)間點(diǎn)引入一個(gè)時(shí)間 token 向量z?:?,維度為 T×1×d,并將其加入到原始嵌入中,得到新矩陣IMG_256。將IMG_256輸入到 Transformer 后,編碼器的輸出 z? 表示時(shí)間 t 對(duì)應(yīng)圖像的空間信息。

B. 時(shí)間注意力

時(shí)間關(guān)系信息是多視角分類中的關(guān)鍵特征。為了有效地捕捉這種時(shí)間信息,引入了一個(gè)時(shí)間注意力模塊,該模塊由局部時(shí)間注意力模塊和注意力雙向 LSTM(BLSTM)組成。

1)局部時(shí)間注意力

論文中提出一個(gè)局部時(shí)間注意力模塊,用于建模多視角圖像中相鄰 patch 的 token 之間的關(guān)系。將分類 token 從IMG_256中去除,得到IMG_256。為了捕捉時(shí)間特征表示,在多視角圖像的 token 之間設(shè)計(jì)了自注意力機(jī)制。來(lái)自第 t 幅圖像的 token 表示為 IMG_256,它被劃分為由其相鄰 patch 中的 L×L 個(gè) token 組成的窗口。這些窗口不重疊,因此圖像 X′? 被劃分為IMG_256個(gè)窗口,并重新組織為矩陣IMG_256。對(duì)于一個(gè)指靜脈的所有多視角圖像,共有 T 個(gè)此類矩陣,它們被打包為矩陣IMG_256。為了學(xué)習(xí)某個(gè)窗口內(nèi)的時(shí)間信息,取第 s 個(gè)窗口在不同視角下的集合,構(gòu)成矩陣IMG_256,其中包含 T × 1 × (L × L) 個(gè) token。通過(guò)這些 token 的自注意力計(jì)算時(shí)間依賴關(guān)系。令 IMG_256(其中 i = 1, ..., T × (L × L)表示第 s 個(gè)窗口中、第 T 幅圖像內(nèi)的第 i 個(gè) token。該 token 通過(guò)一個(gè)線性層被映射為三個(gè)向量,分別是查詢向量 IMG_256、鍵向量 IMG_256 和數(shù)值向量IMG_256。論文中將所有查詢向量 IMG_256(i = 1, ..., T × (L × L)聚合成一個(gè)矩陣 Q?,同樣地,鍵和數(shù)值向量分別聚合為矩陣 K? 和 V?。第 s 個(gè)窗口中所有 token 的自注意力隨后通過(guò)公式 (1) 進(jìn)行計(jì)算:

eql1

其中,E? 表示相對(duì)位置偏置,SM(·) 是對(duì)相似度矩陣 A? = Q?K?? 的每一行應(yīng)用的 Softmax 操作,d? 表示歸一化參數(shù)。通過(guò)組合 M 個(gè)單頭注意力機(jī)制,計(jì)算多頭注意力,來(lái)增強(qiáng)特征表示能力。如公式 (2) 所示:

eql2

其中,IMG_256,m (m = 1, 2, …, M) 表示多頭注意力中的第 m 個(gè)頭。類似地,在 s (s = 1, 2, …, S) 個(gè)窗口中計(jì)算多頭注意力 timeMSAT?,并將其組合成一個(gè)矩陣IMG_256

2)注意力 BLSTM

論文中在 LSTM 架構(gòu)中引入了注意力機(jī)制,構(gòu)建了注意力 LSTM(見(jiàn)圖 2(d))。進(jìn)一步地,將其擴(kuò)展為雙向 LSTM(BLSTM)網(wǎng)絡(luò)(見(jiàn)圖 2(c)),以從圖像的左右兩個(gè)方向提取信息。

從變換后的表示 IMG_256 中,論文提取出類別標(biāo)記 IMG_256。每張圖像的嵌入向量被視為一個(gè) token,其中 X′? 表示第 t 張圖像的第 t 個(gè) token,IMG_256 表示前一時(shí)刻的隱藏狀態(tài)。通過(guò)一個(gè)線性變換層,將IMG_256映射為三個(gè)向量:IMG_256的查詢向量 Q?、鍵向量 K? 和值向量 V?。同樣地,對(duì)前一隱藏狀態(tài)IMG_256計(jì)算查詢向量 Q?、鍵向量 K? 和值向量 V?。輸入向量 IMG_256的自注意力機(jī)制按公式(3)計(jì)算:

eql3

采用這種方法,通過(guò)公式(4)、公式(5)和公式(6)分別獲得隱藏狀態(tài)IMG_256的自注意力機(jī)制以及IMG_256IMG_256之間的交叉注意力機(jī)制。

eql4

其中,C? 和 C? 分別表示輸入向量 IMG_256與前一隱藏狀態(tài)IMG_256之間的交叉注意力機(jī)制,S? 表示隱藏狀態(tài)的自注意力機(jī)制。

LSTM 架構(gòu)包含四個(gè)模塊:遺忘門(mén)、輸入門(mén)、記憶單元和輸出門(mén)。其中,遺忘門(mén) 決定從記憶單元中舍棄哪些信息。該決策由一個(gè) Sigmoid 激活函數(shù)控制,如公式(7)所示:

eql4_5

其中,σ 表示 Sigmoid 函數(shù),linear 表示線性映射函數(shù),Concat 表示向量拼接操作。輸入門(mén) 負(fù)責(zé)處理當(dāng)前輸入,如公式 (8) 和公式 (9) 所示:

eql5

記憶單元被設(shè)計(jì)用于緩解梯度消失問(wèn)題,從而有助于模型的訓(xùn)練,特別適用于包含長(zhǎng)序列的數(shù)據(jù)集。記憶單元的輸出由公式 (10) 給出:

eql6

其中,⊙ 表示 Hadamard(元素級(jí))乘法運(yùn)算符。

與前兩個(gè)門(mén)控機(jī)制類似,輸出門(mén)通過(guò)公式 (12) 計(jì)算:

eql7

BLSTM 是 RNN 的一種變體,增強(qiáng)了標(biāo)準(zhǔn) LSTM 在處理長(zhǎng)期依賴關(guān)系方面的能力。為了進(jìn)一步提升性能,論文中提出了注意力 BLSTM(Attention BLSTM),該結(jié)構(gòu)在前向和后向兩個(gè)方向中引入注意力機(jī)制,從而實(shí)現(xiàn)信息的同步提取,如圖 2(c) 所示。在 Forward 層中,注意力 LSTM 按順序從第 1 個(gè) token 處理到第 T 個(gè) token,逐步獲取前向隱藏層的輸出。相反,在 Backward 過(guò)程中,注意力 LSTM 按相反順序從第 T 個(gè) token 處理到第 1 個(gè) token,逐步獲取后向隱藏層的輸出。六個(gè)權(quán)重 V、V′、U、U′、Z 和 Z′ 被迭代使用,以通過(guò)公式 (13)、(14) 和 (15) 融合前向和后向?qū)拥妮敵觥?/p>

eql8

輸出 IMG_256(t = 1, 2 …, T)被組織成一個(gè)矩陣IMG_256。如圖 2(b) 所示,隨后將 IMG_256IMG_256 結(jié)合,通過(guò)公式 (16) 得到 Y。

eql9

最終,如圖 2(b) 所示,使用具有兩層全連接層的多層感知機(jī)(MLP)進(jìn)行魯棒的特征提取。論文采用兩次線性變換,通過(guò)公式 (17) 將得到的映射 Y 轉(zhuǎn)換:

eql10

其中,φ(·) 表示 ReLU 激活函數(shù)。

C. 空間注意力
為了提取空間信息,在每張圖像的 N 個(gè)空間 token 上實(shí)現(xiàn)了自注意力機(jī)制。矩陣 IMG_256被重新調(diào)整為IMG_256,其中 Y?′′ 表示包含 N 個(gè) token 的矩陣,這些 token 對(duì)應(yīng)于第 t 張圖像中的補(bǔ)丁。對(duì)于第 t 張圖像中這 N 個(gè) token 的空間自注意力,通過(guò)公式 (18) 計(jì)算:

eql11

多頭注意力機(jī)制在不同的位置使用公式 (19) 實(shí)現(xiàn):

eql12

其中,IMG_256 (m = 1, 2, . . . , M)。通過(guò)這種方式,計(jì)算所有圖像中的多頭注意力 SpatialM SAT? (t = 1, 2, . . . , T),然后將其合并成一個(gè)矩陣IMG_256。最后,將 L 個(gè)時(shí)空模塊層疊在一起,構(gòu)建 ABLSM-TSVT(如圖 2(a) 所示),從而促進(jìn)從多視角圖像中提取魯棒特征。

實(shí)驗(yàn)結(jié)果

ABLSTM-TSVT在全視圖靜脈數(shù)據(jù)集CTBU(包含3視角、6視角和9視角)和多模態(tài)數(shù)據(jù)集LFMB-3DFB(包含3視角與6視角)進(jìn)行了實(shí)驗(yàn)

對(duì)比實(shí)驗(yàn):

閉集場(chǎng)景中的識(shí)別性能

為了評(píng)估所提方法的有效性,論文中將 ABLSTM-TSVT 與代表性的 2D 單視角識(shí)別方法,以及 3D 多視角識(shí)別方法進(jìn)行比較。常用的均衡誤差率(EER)用于評(píng)估性能,它是虛假接受率(FAR)等于虛假拒絕率(FRR)時(shí)的點(diǎn)。此外,采用了TAR@FAR = 0.1%,其中TAR = 正確接受的合法用戶數(shù) / 所有合法用戶數(shù),F(xiàn)AR = 錯(cuò)誤接受的非法用戶數(shù) / 所有非法用戶數(shù),TAR@FAR = 0.1%是指FAR 限制在 0.1% 的時(shí)候,系統(tǒng)對(duì)合法用戶的接受率是多少。表 一、二、三、四 和 五 展示了在兩個(gè)數(shù)據(jù)集上各種方法的識(shí)別準(zhǔn)確率。

表三_1

表一 數(shù)據(jù)集CTBU的三視圖子集上各方法的識(shí)別準(zhǔn)確率(%)

表一

表二 數(shù)據(jù)集CTBU的六視圖子集上各方法的識(shí)別準(zhǔn)確率(%)

表二

表三 數(shù)據(jù)集CTBU的九視圖子集上各方法的識(shí)別準(zhǔn)確率(%)

表三

表四 數(shù)據(jù)集LFMB-3DFB的三視圖子集上各方法的識(shí)別準(zhǔn)確率(%)

表四

表五 數(shù)據(jù)集LFMB-3DFB的六視圖子集上各方法的識(shí)別準(zhǔn)確率(%)

具體而言,對(duì)于數(shù)據(jù)集 CTBU,所提出方法達(dá)到了 97.55% 的識(shí)別準(zhǔn)確率和 0.96% 的 EER;對(duì)于數(shù)據(jù)集 LFMB-3DFB,則分別達(dá)到了 98.06% 的識(shí)別準(zhǔn)確率和 0.54% 的 EER。特別地,在 FAR = 0.1% 時(shí),所提出方法在數(shù)據(jù)集 CTBU上達(dá)到了 97.77% 的 TAR,在數(shù)據(jù)集 LFMB-3DFB上達(dá)到了 98.71% 的 TAR。

開(kāi)集場(chǎng)景中的識(shí)別性能

實(shí)驗(yàn)結(jié)果如表六所示,表明所提出方法在兩個(gè)數(shù)據(jù)集上都保持了高識(shí)別性能,即使測(cè)試集中包含了來(lái)自額外類別的樣本。該方法能夠有效識(shí)別并拒絕冒名頂替者,從而展示了所提出的指靜脈識(shí)別系統(tǒng)在實(shí)際應(yīng)用中的有效性。此外,表七中的驗(yàn)證結(jié)果表明,即使測(cè)試集僅包含新類別,該方法仍然能夠取得令人滿意的驗(yàn)證性能。這些結(jié)果表明,該方法非常適合實(shí)際的驗(yàn)證場(chǎng)景。

表五

表六 開(kāi)集場(chǎng)景下的識(shí)別準(zhǔn)確(%)(FAR = 1%)

表六

表七 開(kāi)集場(chǎng)景下的驗(yàn)證錯(cuò)誤率(%)

消融實(shí)驗(yàn):

首先,論文中使用標(biāo)準(zhǔn)的自注意力模塊來(lái)捕捉空間依賴性,該方案作為基線(baseline)。隨后,引入鄰域時(shí)間注意力來(lái)學(xué)習(xí)多視角圖像間的時(shí)間依賴性,該方案被記作 (baseline)+ 局部時(shí)間注意力。類似地,將局部時(shí)間注意力替換為注意力BLSTM模塊,此方案記作 (baseline)+ BLSTM注意力。最后,同時(shí)結(jié)合局部時(shí)間注意力模塊與注意力BLSTM模塊提取時(shí)間信息,同時(shí)保留標(biāo)準(zhǔn)的空間自注意力機(jī)制,用于空間特征學(xué)習(xí),構(gòu)成 ABLSTM-TSVT模型(baseline+BLSTM注意力 + 局部時(shí)間注意力)。

各種方法在兩個(gè)數(shù)據(jù)集上的識(shí)別結(jié)果展示在表八、九、十、十一與十二中。實(shí)驗(yàn)結(jié)果表明,引入的局部時(shí)間注意力模塊與注意力BLSTM模塊能顯著提升識(shí)別性能。

表八

表八 各方法在數(shù)據(jù)集CTBU三視角子集上的識(shí)別準(zhǔn)確率(%)

表九

表九 各方法在數(shù)據(jù)集CTBU六視角子集上的識(shí)別準(zhǔn)確率(%)

表十

表十 各方法在數(shù)據(jù)集CTBU九視角子集上的識(shí)別準(zhǔn)確率(%)

表十一

表十一 各方法在數(shù)據(jù)集LFMB-3DFB三視角子集上的識(shí)別準(zhǔn)確率(%)

表十二

表十二 各方法在數(shù)據(jù)集LFMB-3DFB六視角子集上的識(shí)別準(zhǔn)確率(%)

結(jié)論

本文提出了一種基于注意力雙向LSTM的時(shí)空靜脈Transformer(ABLSTM-TSVT),用于多視角靜脈圖像識(shí)別。ABLSTM-TSVT由多個(gè)時(shí)空模塊組成,每個(gè)模塊包括一個(gè)時(shí)間模塊和一個(gè)空間模塊。時(shí)間模塊能夠有效學(xué)習(xí)序列中多視角指靜脈圖像之間的魯棒時(shí)間特征依賴關(guān)系,而空間模塊則用于捕捉圖像內(nèi)部各個(gè)圖像塊之間的空間依賴。在兩個(gè)多視角靜脈數(shù)據(jù)集上的綜合實(shí)驗(yàn)結(jié)果表明,ABLSTM-TSVT優(yōu)于當(dāng)前的2D/3D靜脈識(shí)別方法,在多視角三維指靜脈識(shí)別任務(wù)中實(shí)現(xiàn)了最高的識(shí)別準(zhǔn)確率。多視角三維指靜脈識(shí)別的研究熱度不斷提升,原因在于其能夠提供更具區(qū)分性的信息,并緩解由手指滾動(dòng)帶來(lái)的圖像不匹配問(wèn)題。

撰稿人:張坤鵬

審稿人:黃俊端


登錄用戶可以查看和發(fā)表評(píng)論, 請(qǐng)前往  登錄 或  注冊(cè)。
SCHOLAT.com 學(xué)者網(wǎng)
免責(zé)聲明 | 關(guān)于我們 | 用戶反饋
聯(lián)系我們: