高效Transformer、計(jì)算機(jī)視覺的總結(jié)與展望

來源：CSDN 時(shí)間：2023-01-16 08:00:29

論文綜述：文章主旨：在本文中，我們回顧了這些視覺Transformer模型，將它們分為不同的任務(wù)，并分析了它們的優(yōu)缺點(diǎn)。我們探討的主要類別包括主干網(wǎng)絡(luò)、高/中級(jí)視覺、低級(jí)視覺和視頻處理。我們還包括有效的Transformer方法，用于將Transformer推進(jìn)基于設(shè)備的實(shí)際應(yīng)用。此外，我們還簡要介紹了計(jì)算機(jī)視覺中的自我注意機(jī)制，因?yàn)樗荰ransformer的基本組成部分。在本文的最后，我們討論了視覺Transformer面臨的挑戰(zhàn)，并提供了幾個(gè)進(jìn)一步的研究方向。

其他章節(jié)： Transformer綜述(A Survey on Vision Transformer) 閱讀學(xué)習(xí)筆記（一）----transformer的發(fā)展，transformer的基本結(jié)構(gòu)和原理

【資料圖】

Transformer綜述(A Survey on Vision Transformer) 閱讀學(xué)習(xí)筆記（三）–Transformer應(yīng)用的圖像處理與視頻處理的研究

Transformer綜述(A Survey on Vision Transformer) 閱讀學(xué)習(xí)筆記（四）-- 高效Transformer、計(jì)算機(jī)視覺的自注意力、Transformer的總結(jié)與展望

A Survey on Vision Transformer

3. VISION TRANSFORMER 視覺Transformer3.1 Backbone for Representation Learning 表征學(xué)習(xí)的主干網(wǎng)3.1.1 Pure Transformer3.1.2 Transformer with Convolution 卷積Transformer3.1.3 Self-supervised Representation Learning 自監(jiān)督表征學(xué)習(xí)3.1.4 Discussions 3.2 High/Mid-level Vision 高中級(jí)視覺3.2.1 Generic Object Detection 通用對象檢測3.2.2 Segmentation 分割3.2.3 Pose Estimation 姿態(tài)估計(jì)3.2.4 Other Tasks 其他任務(wù)3.2.5 Discussions

3. VISION TRANSFORMER 視覺Transformer

在本節(jié)中，我們將回顧基于Transformer的模型在計(jì)算機(jī)視覺中的應(yīng)用，包括圖像分類、高/中級(jí)視覺、低級(jí)視覺和視頻處理。我們還簡要總結(jié)了自我注意機(jī)制和模型壓縮方法在高效變壓器中的應(yīng)用。

3.1 Backbone for Representation Learning 表征學(xué)習(xí)的主干網(wǎng)

受該Transformer在NLP領(lǐng)域取得的成功啟發(fā)，一些研究人員探索了類似模型是否可以學(xué)習(xí)圖像的有用表示。與文本相比，圖像涉及更多維度、噪聲和冗余模態(tài)，因此它們被認(rèn)為更難進(jìn)行生成建模。

除了CNN，該Transformer還可以用作圖像分類的主干網(wǎng)絡(luò)。Wuet等人[240]將ResNet作為一個(gè)方便的基線，并使用視覺Transformer來取代卷積的最后一個(gè)階段。具體來說，他們應(yīng)用卷積層來提取低級(jí)特征，然后將其輸入視覺Transformer。對于vision transformer，他們使用一個(gè)標(biāo)記來將像素分組為少量視覺標(biāo)記，每個(gè)標(biāo)記代表圖像中的一個(gè)語義概念。這些視覺標(biāo)記直接用于圖像分類，Transformer用于模擬標(biāo)記之間的關(guān)系。如下圖所示，這些作品可以分為純粹使用transformer進(jìn)行視覺，以及將CNN和transformer相結(jié)合。我們在表3和圖7-8中總結(jié)了這些模型的結(jié)果，以展示主干的發(fā)展。除了監(jiān)督學(xué)習(xí)，視覺transformer中還探索了自我監(jiān)督學(xué)習(xí)。

Visual transformers: Token-based image representation and processing for computer vision.arXiv preprint arXiv:2006.03677,2020.

3.1.1 Pure Transformer

ViT.Dosovitskiyet等人[55]最近提出了視覺Transformer （ViT），它是一種純變換器，當(dāng)直接應(yīng)用于圖像塊序列時(shí)，可以很好地執(zhí)行圖像分類任務(wù)。它們盡可能遵循transformer的原始設(shè)計(jì)。下圖顯示了ViT的框架。

An image is worth 16x16 words: Transformers for image recognition at scale. InICLR, 2021

要處理2D圖像， i m a g e ∈ R h × w × c image \in R^{\ h×w×c} image∈R h×w×c被重塑成一系列扁平的2D塊(patch): X P ∈ R n × ( p 2 ? c ) X_P \in R^{\ n×(p^2 \cdot c)} XP∈R n×(p2?c) 其中，c表示通道數(shù)，(h,w)是原始圖像的分辨率，而(p,p)是圖像塊的分辨率。因此，Transformer 的有效序列長度為： n = ( h ? w ) / p 2 n = (h \cdot w) / p^2 n=(h?w)/p2因?yàn)閠ransformer在其所有層提出使用恒定寬度，所以可訓(xùn)練線性投影將每個(gè)矢量化路徑映射到模型維度，其輸出稱為面片嵌入。

與BERT的[class]標(biāo)記類似，可學(xué)習(xí)的嵌入被應(yīng)用于嵌入補(bǔ)丁的序列。該嵌入狀態(tài)用作圖像表示。在預(yù)訓(xùn)練和微調(diào)階段，分類頭的尺寸相同。此外，將1D位置嵌入添加到面片嵌入中，以保留位置信息。Dosovitskiyet等人探索了位置嵌入的不同2D感知變體，這些變體都沒有比標(biāo)準(zhǔn)的1D位置嵌入產(chǎn)生任何顯著的收益。接頭嵌入件作為編碼器的輸入斷開。值得注意的是，ViT僅使用標(biāo)準(zhǔn)變壓器的編碼器（層標(biāo)準(zhǔn)化位置除外），其輸出先于MLP頭。

在大多數(shù)情況下，ViT是在大型數(shù)據(jù)集上預(yù)先訓(xùn)練的，然后針對較小的下游任務(wù)進(jìn)行微調(diào)。為此，移除預(yù)先訓(xùn)練好的預(yù)測頭，并附加一個(gè)初始化為零的d×k前饋層，其中k是下游類的數(shù)量。在微調(diào)階段使用比訓(xùn)練前更高的分辨率通常是有益的。例如，當(dāng)饋送更高分辨率的圖像時(shí)，即使面片大小保持不變，也可以獲得更大的有效序列長度。雖然ViT可以處理任意序列長度，但預(yù)先訓(xùn)練的位置嵌入可能不再有意義。因此，Dosovitskiyet等人根據(jù)預(yù)訓(xùn)練位置嵌入在原始圖像中的位置對其執(zhí)行2D插值。請注意，只有在分辨率調(diào)整和面片提取期間，才會(huì)將有關(guān)圖像2D結(jié)構(gòu)的感應(yīng)偏差手動(dòng)注入ViT。

當(dāng)在中型數(shù)據(jù)集（如ImageNet）上進(jìn)行訓(xùn)練時(shí)，ViT會(huì)產(chǎn)生適度的結(jié)果，精確度比同等大小的RESNET低幾個(gè)百分點(diǎn)。由于變壓器缺乏CNN固有的一些感應(yīng)偏差，例如平移等變和局部性，因此在數(shù)據(jù)量不足的情況下，transformer不能很好地概括。然而，作者發(fā)現(xiàn)，在大數(shù)據(jù)集（1400萬到3億張圖像）上訓(xùn)練模型超過了歸納偏差。當(dāng)以足夠大的規(guī)模進(jìn)行預(yù)培訓(xùn)時(shí)，變壓器在數(shù)據(jù)點(diǎn)較少的任務(wù)上取得了優(yōu)異的效果。例如，當(dāng)在JFT-300M數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練時(shí)，ViT在多個(gè)圖像識(shí)別基準(zhǔn)上接近甚至超過了最先進(jìn)的性能。具體來說，它的準(zhǔn)確度達(dá)到了88.36%在ImageNet上。在CIFAR-10達(dá)到99.50%；在CIFAR-100達(dá)到94.55；在VTAB套件的19項(xiàng)任務(wù)中達(dá)到77.16%。

Touvronet al.[219]通過僅在ImageNet數(shù)據(jù)庫上進(jìn)行訓(xùn)練，提出了一種競爭性的無卷積transformer，稱為數(shù)據(jù)高效圖像變壓器（DeiT）。參考視覺轉(zhuǎn)換器DeiT-B與ViT-B的結(jié)構(gòu)相同，使用了8600萬個(gè)參數(shù)。憑借強(qiáng)大的數(shù)據(jù)增強(qiáng)功能，DeiTB的準(zhǔn)確度達(dá)到了83.1%（單一作物評(píng)估）在ImageNet上，無外部數(shù)據(jù)。此外，作者觀察到，使用CNN教師比使用transformer表現(xiàn)更好。具體地說，Deit-B可以在基于令牌的精餾的幫助下達(dá)到TOP-1準(zhǔn)確率84.40%。

Training data-efficient image transformers & distillation through attention. InICML, 2020

Variants of ViT. VIT的變體在VIT范式的指導(dǎo)下，人們提出了一系列VIT的變體來提高視覺任務(wù)的績效。主要途徑包括增強(qiáng)地域性、提高自覺性和建筑設(shè)計(jì)。原有的視覺轉(zhuǎn)換器擅長捕捉面片之間的遠(yuǎn)程依賴關(guān)系，但忽略了局部特征提取，因?yàn)?D面片被投影到具有簡單線性層的矢量上。近年來，研究人員開始注重提高對局部信息的建模能力[85]、[148]、[26]。TNT[85]進(jìn)一步將補(bǔ)丁劃分為若干子補(bǔ)丁，并引入了一種新的變壓器-變壓器架構(gòu)，該架構(gòu)利用內(nèi)部變壓器塊來建模子補(bǔ)丁與外部變壓器塊之間的關(guān)系，以進(jìn)行補(bǔ)丁級(jí)別的信息交換。Twins[43]和CA-T[137]層層交替地執(zhí)行局部和全局注意。Swin Transformers[148]，[54]在窗口內(nèi)執(zhí)行局部注意，并為跨窗口連接引入了移位窗口分區(qū)方法。ShuffleTransformer[105]、[63]進(jìn)一步利用空間混洗操作而不是移位窗口劃分來允許跨窗口連接。RegionViT[26]從圖像生成區(qū)域標(biāo)記和局部標(biāo)記，并且局部標(biāo)記通過關(guān)注區(qū)域標(biāo)記來接收全局信息。除了局部關(guān)注外，還有一些工作提出通過局部特征聚合來提高局部信息，如T2T[260]。這些工作展示了視覺變壓器的局部信息交換和全局信息交換的好處。

[85]: Transformer in transformer.arXiv preprint arXiv:2103.00112, 2021.[148]: Swin transformer: Hierarchical vision transformer using shifted windows. InICCV, 2021[26]: Regionvit: Regional-to-local attention for vision transformers.arXiv preprint arXiv:2106.02689, 2021.[43]: Twins: Revisiting the design of spatial attention in vision transformers.arXiv preprint arXiv:2104.13840, 1(2):3, 2021.[137]: Cat: Cross attention in vision transformer.arXiv preprint arXiv:2106.05786, 2021.[54]: Cswin transformer: A general vision transformer backbone with cross-shaped windows.arXiv preprint arXiv:2107.00652, 2021.[105]: Shuffle transformer: Rethinking spatial shuffle for vision transformer.arXiv preprint arXiv:2106.03650, 2021.[63]: Msgtransformer: Exchanging local spatial information by manipulating messenger tokens.arXiv preprint arXiv:2105.15168, 2021.[260]: Tokens-to-token vit: Training vision transformers from scratch on imagenet. InICCV, 2021.

作為transformer的關(guān)鍵組件，自我注意層提供了圖像塊之間全局交互的能力。提高自我注意層的計(jì)算能力吸引了許多研究者。Deep ViT[286]建議建立十字頭通信，以重新生成注意力地圖，以增加不同層的多樣性。KVT[230]引入了k-NN注意，利用圖像補(bǔ)丁的局部性，并通過僅使用頂級(jí)K相似標(biāo)記計(jì)算注意來忽略噪聲標(biāo)記。Refiner[287]探索了高維空間中的注意力擴(kuò)展，并應(yīng)用卷積來增強(qiáng)注意力地圖的局部模式。XCiT[56]跨功能通道而不是令牌執(zhí)行自我注意計(jì)算，這允許高效處理高分辨率圖像。自注意機(jī)制的計(jì)算復(fù)雜度和注意精度是未來優(yōu)化的兩個(gè)關(guān)鍵點(diǎn)。

[286]: Deepvit: Towards deeper vision transformer.arXiv preprint arXiv:2103.11886, 2021.[230]: Kvt: k-nn attention for boosting vision transformers.arXiv preprint arXiv:2106.00515, 2021.[287]: Refiner: Refining self-attention for vision transformers.arXiv preprint arXiv:2106.03714, 2021.[56]: Xcit: Cross-covariance image transformers.arXiv preprint arXiv:2106.09681, 2021.

網(wǎng)絡(luò)體系結(jié)構(gòu)是CNN領(lǐng)域的重要因素。ViT最初的架構(gòu)是由相同形狀的transformer塊組成的簡單堆棧。視覺transformer的新架構(gòu)設(shè)計(jì)一直是一個(gè)有趣的話題。許多視覺變換器模型[232]、[148]、[209]、[61]、[279]、[167]都使用了金字塔狀結(jié)構(gòu)，包括PVT[232]、HVT[168]、Swin transformer[148]和PiT[92]。還有其他類型的體系結(jié)構(gòu)，例如雙流體系結(jié)構(gòu)[25]和U-net體系結(jié)構(gòu)[237]，[17]。神經(jīng)結(jié)構(gòu)搜索（NAS）也被用來搜索更好的transformer結(jié)構(gòu)，例如Scaling ViT[269]、ViTAS[205]、AutoFormer[28]和GLiT[24]。目前，vision transformer的網(wǎng)絡(luò)設(shè)計(jì)和NAS主要借鑒CNN的經(jīng)驗(yàn)。在未來，我們期待著視覺轉(zhuǎn)換器領(lǐng)域出現(xiàn)具體而新穎的架構(gòu)。

[232]: Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. InICCV, 2021.[148]: Swin transformer: Hierarchical vision transformer using shifted windows. InICCV, 2021.[209]: Visual parser: Representing part-whole hierarchies with transformers. 2021.[61]: Multiscale vision transformers.arXiv preprint arXiv:2104.11227, 2021.[279]: Aggregating nested transformers.arXiv preprint arXiv:2105.12723, 2021.[167]: Less is more: Pay less attention in vision transformers.arXiv preprint arXiv:2105.14217,2021.[168]: Scalable visual transformers with hierarchical pooling.arXiv preprint arXiv:2103.10619,2021.[92]: Rethinking spatial dimensions of vision transformers. InICCV, 2021.[25]: Crossvit: Cross-attention multi-scale vision transformer for image classification.arXiv preprintarXiv:2103.14899, 2021. [237]: Uformer: A general u-shaped transformer for image restoration.arXiv preprint arXiv:2106.03106, 2021.[17]: Swin-unet: Unet-like pure transformer for medical image segmentation. arXiv preprint arXiv:2105.05537, 2021.[269]: Scaling vision transformers.arXiv preprint arXiv:2106.04560, 2021.[205]: Vision transformer architecture search.arXiv preprint arXiv:2106.13700, 2021.[28]: Autoformer: Searching transformers for visual recognition.arXiv preprint arXiv:2107.00651, 2021.[24]: Glit: Neural architecture search for global and local image transformer. arXiv preprint arXiv:2107.02960, 2021.

除了上述方法，還有一些其他方向可以進(jìn)一步改進(jìn)視覺transformer，例如位置編碼[44]、[242]、標(biāo)準(zhǔn)化策略[220]、快捷連接[215]和消除注意[217]、[158]、[79]、[218]。

[44]: Conditional positional encodings for vision transformers.arXiv preprintarXiv:2102.10882, 2021.[242]: Rethinking andimproving relative position encoding for vision transformer. InICCV,2021.[220]: Going deeper with image transformers.arXiv preprint arXiv:2103.17239,2021.[215]: Augmented shortcuts for vision transformers.arXiv preprint arXiv:2106.15941, 2021.[217]: Mlp-mixer: An all-mlp architecture for vision.arXiv preprint arXiv:2105.01601, 2021.[158]: Do you even need attention? a stack of feedforward layers does surprisingly well on imagenet.arXiv preprint arXiv:2105.02723, 2021.[79]: Beyond self-attention: External attention using two linear layers for visual tasks.arXiv preprint arXiv:2105.02358, 2021.[128]: Object detection based on an adaptive attention mechanism.Scientific Reports, pages 1–13, 2020.

上表格ImageNet代表CNN和vision transformer模型的結(jié)果比較。在[219]、[148]之后，在NVIDIA V100 GPU和Pytork上測量吞吐量，輸入大小為224×224。純Transformer意味著在stem階段只使用幾個(gè)卷積。CNN Transformer意味著在中間層使用卷積。

3.1.2 Transformer with Convolution 卷積Transformer

盡管視覺轉(zhuǎn)換器能夠捕獲輸入中的長期依賴關(guān)系，因此已成功應(yīng)用于各種視覺任務(wù)，但在轉(zhuǎn)換器和現(xiàn)有CNN之間仍存在性能差距。一個(gè)主要原因可能是缺乏提取本地信息的能力。除了上述增強(qiáng)局部性的ViT變體外，將變換器與卷積相結(jié)合是將局部性引入常規(guī)變換器的更直接的方法。

有很多工作試圖用卷積來增強(qiáng)傳統(tǒng)的變壓器塊或自我注意層。例如，CPVT[44]提出了一種條件位置編碼（CPE）方案，該方案以輸入標(biāo)記的局部鄰域?yàn)闂l件，并適用于任意輸入大小，以利用卷積進(jìn)行精細(xì)特征編碼。CvT[241]、CeiT[259]、LocalViT[132]和CMT[77]分析了直接從NLP借用變壓器架構(gòu)并將卷積與變壓器結(jié)合在一起時(shí)可能存在的缺點(diǎn)。具體而言，每個(gè)轉(zhuǎn)換器塊中的前饋網(wǎng)絡(luò)（FFN）與卷積層相結(jié)合，卷積層促進(jìn)相鄰令牌之間的相關(guān)性。LeViT[75]回顧了CNN大量文獻(xiàn)中的原理，并將其應(yīng)用于變壓器，提出了一種用于快速推理圖像分類的混合神經(jīng)網(wǎng)絡(luò)。BoTNet[202]在ResNet的最后三個(gè)瓶頸塊中，用全局自我關(guān)注取代了空間卷積，并在實(shí)例分割和對象檢測任務(wù)上顯著改進(jìn)了基線，延遲開銷最小。

[44]:Conditional positional encodings for vision transformers.arXiv preprint arXiv:2102.10882, 2021.[241]: Cvt: Introducing convolutions to vision transformers.arXiv preprint arXiv:2103.15808, 2021.[259]: Incorporating convolution designs into visual transformers.arXiv preprint arXiv:2103.11816, 2021.[132]: ocalvit: Bringing locality to vision transformers.arXiv preprint arXiv:2104.05707, 2021.[77]: Cmt: Convolutional neural networks meet vision transformers.arXiv preprint arXiv:2107.06263, 2021[202]: Bottleneck transformers for visual recognition. InCVPR, pages 16519–16529, 2021

此外，一些研究人員已經(jīng)證明，基于Transformer 的模型可能更難享受良好的數(shù)據(jù)擬合能力[55]、[38]、[245]，換句話說，它們對優(yōu)化器的選擇、超參數(shù)和訓(xùn)練計(jì)劃非常敏感。Visformer[38]通過兩種不同的培訓(xùn)設(shè)置揭示了Transformer 和CNN之間的差距。第一個(gè)是CNN的標(biāo)準(zhǔn)設(shè)置，即訓(xùn)練時(shí)間更短，數(shù)據(jù)擴(kuò)充只包含隨機(jī)裁剪和水平翻轉(zhuǎn)。另一個(gè)是[219]中使用的訓(xùn)練設(shè)置，即訓(xùn)練計(jì)劃更長，數(shù)據(jù)增強(qiáng)更強(qiáng)。[245]改變了ViT的早期視覺處理，用標(biāo)準(zhǔn)卷積干替換其嵌入干，并發(fā)現(xiàn)這種改變使ViT更快收斂，并使AdamW或SGD的使用不會(huì)顯著降低準(zhǔn)確性。除了這兩項(xiàng)工作，[75]，[77]還選擇在Transformer 頂部添加卷積桿。

[55]:An image is worth 16x16 words: Transformers for image recognition at scale. InICLR, 2021.[38]:Visformer: The vision-friendly transformer.arXiv preprint arXiv:2104.12533, 2021.[245]: Early convolutions help transformers see better.arXiv preprint arXiv:2106.14881, 2021.[219]: Training data-efficient image transformers & distillation through attention. InICML, 2020.[75]: Levit: a vision transformer in convnet’s clothing for faster inference.arXiv preprint arXiv:2104.01136, 2021.[77]: Cmt:Convolutional neural networks meet vision transformers.arXiv preprint arXiv:2107.06263, 2021.

3.1.3 Self-supervised Representation Learning 自監(jiān)督表征學(xué)習(xí)

基于生成的方法。生成性的圖像預(yù)訓(xùn)練方法已經(jīng)存在很長時(shí)間了。Chen等人[29]重新研究了這類方法，并將其與自我監(jiān)督方法相結(jié)合。在此之后，提出了幾項(xiàng)工作[134]，[8]來擴(kuò)展基于生成的自監(jiān)督學(xué)習(xí)在視覺轉(zhuǎn)換器中的應(yīng)用。我們簡要介紹iGPT[29]以證明其機(jī)制。這種方法包括訓(xùn)練前階段和微調(diào)階段。在訓(xùn)練前階段，探索了自回歸和BERT目標(biāo)。為了實(shí)現(xiàn)像素預(yù)測，采用了序列轉(zhuǎn)換器體系結(jié)構(gòu)，而不是語言標(biāo)記（如NLP中使用的）。當(dāng)與早期停止結(jié)合使用時(shí)，預(yù)訓(xùn)練可以被認(rèn)為是一種有利的初始化或調(diào)節(jié)器。在微調(diào)階段，他們向模型中添加了一個(gè)小的分類頭。這有助于優(yōu)化分類目標(biāo)并調(diào)整所有權(quán)重。

[29]: Generative pretraining from pixels. InInternational Conference on Machine Learning, pages 1691–1703. PMLR, 2020.[8]: Beit: Bert pre-training of image transformers.arXiv preprint arXiv:2106.08254, 2021.[134]: Mst: Masked self-supervised transformer for visual representation.arXiv preprint arXiv:2106.05656, 2021.

使用Transformer 解碼器塊的GPT-2[182]公式。特別地，層規(guī)范先于注意和多層感知器(MLP)操作，并且所有操作都嚴(yán)格在剩余路徑上執(zhí)行。注意操作是唯一涉及跨序列元素混合的操作。為了在訓(xùn)練AR目標(biāo)時(shí)確保適當(dāng)?shù)臈l件作用，Chenet等人將標(biāo)準(zhǔn)的上三角掩模應(yīng)用于n×n注意邏輯矩陣。當(dāng)使用BERT目標(biāo)時(shí)，不需要注意邏輯掩碼：Chenet等人將內(nèi)容嵌入應(yīng)用于輸入序列之后的位置置零。在最終的變換器層之后，他們應(yīng)用一個(gè)層范數(shù)，并從輸出中學(xué)習(xí)一個(gè)投影到logits，將每個(gè)序列元素的條件分布參數(shù)化。在訓(xùn)練BERT,時(shí)，他們干脆忽略了不帶面具的位置上的邏輯。在微調(diào)階段，他們跨序列維度平均匯集最終層歸一化層的輸出，以提取每個(gè)示例的特征的ad維向量。他們從集合特征中學(xué)習(xí)到類邏輯的投影，并使用該投影來最小化交叉熵?fù)p失。實(shí)際應(yīng)用表明，交叉熵?fù)p失和訓(xùn)練前損失的聯(lián)合目標(biāo)(LAR or LBERT)效果更好。

[182]: Language models are unsupervised multitask learners.OpenAI blog,1(8):9, 2019.

iGPT和 ViT 是將變壓器應(yīng)用于視覺任務(wù)的兩個(gè)開創(chuàng)性作品。Igpt 與 vit-like 模型的區(qū)別主要體現(xiàn)在三個(gè)方面: 1) igpt 的輸入是通過像素聚類得到的一系列調(diào)色板，而 vit 將圖像均勻地分割成若干個(gè)局部塊; 2) igpt 的結(jié)構(gòu)是編碼-解碼框架，而 vit 只有Transformer 編碼器; 3) igpt 利用自回歸自監(jiān)督損失進(jìn)行訓(xùn)練，而 vpt 則通過監(jiān)督圖像分類任務(wù)進(jìn)行訓(xùn)練。

基于對比學(xué)習(xí)的方法。目前，對比學(xué)習(xí)是計(jì)算機(jī)視覺領(lǐng)域最流行的自監(jiān)督學(xué)習(xí)方法。對比學(xué)習(xí)已應(yīng)用于視覺Transformer 的無監(jiān)督預(yù)訓(xùn)練[32] ，[247] ，[126]。 Chenet al. [32]調(diào)查了幾個(gè)基本組成部分對自我監(jiān)督 vit 訓(xùn)練的影響。作者觀察到，不穩(wěn)定性是降低準(zhǔn)確性的一個(gè)主要問題，這些結(jié)果確實(shí)是部分失敗，當(dāng)訓(xùn)練更加穩(wěn)定時(shí)，它們可以得到改善。他們引入了“ moco v3”框架，這是對 moco v1/2 [31][88]的一個(gè)漸進(jìn)式改進(jìn)。具體來說，作者在隨機(jī)數(shù)據(jù)增強(qiáng)下，為每張圖片選取兩種作物。它們由兩個(gè)編碼器 fq 和 fk 編碼，輸出矢量 q 和 k 直觀地表現(xiàn)出 q 的行為像一個(gè)“查詢”，學(xué)習(xí)的目標(biāo)是檢索相應(yīng)的“鍵”。這是一個(gè)最小化對比損失函數(shù)的公式，可以寫成:

這里k是fk和q在同一幅圖像上的輸出，也就是asq的正樣本。setk?包含offk從其他圖像的輸出，稱為q的負(fù)樣本。τ是l2歸一化q,k的溫度超參數(shù)。Moco v3使用自然存在于同一批中的鍵并放棄內(nèi)存隊(duì)列，他們發(fā)現(xiàn)如果批足夠大(例如4096)，內(nèi)存隊(duì)列的增益會(huì)遞減。通過這種簡化，對比損耗可以以一種簡單的方式實(shí)現(xiàn)。編碼器fq由主干(如vit)、投影頭和額外的預(yù)測頭組成;而編碼器fk有主干和投影頭，而沒有預(yù)測頭。Fk由fq的移動(dòng)平均來更新，不包括預(yù)測頭。 Moco v3表明，不穩(wěn)定性是訓(xùn)練自監(jiān)督 vit 的主要問題，因此他們描述了一個(gè)簡單的技巧，可以提高穩(wěn)定性在各種情況下的實(shí)驗(yàn)。他們發(fā)現(xiàn)不需要訓(xùn)練貼片投影層。對于標(biāo)準(zhǔn)的維特斑塊大小，斑塊投影矩陣是完全的或過完全的。在這種情況下，隨機(jī)投影應(yīng)該足以保存原始補(bǔ)丁的信息。然而，這個(gè)技巧雖然減輕了問題，但并不能解決問題。如果學(xué)習(xí)率過大，第一層不可能是不穩(wěn)定的根本原因，則模型仍可能不穩(wěn)定。

[32]: An empirical study of training self- supervised vision transformers. InICCV, 2021.[126]: Efficient self-supervised vision transformers for representation learning. arXiv preprint arXiv:2106.09785, 2021.[247]: Self-supervised learning with swin transformers.arXiv preprint arXiv:2105.04553, 2021.[31]: Improved baselines with momentum contrastive learning.arXiv preprint arXiv:2003.04297, 2020.[88]: Momentum contrast for unsupervised visual representation learning. InCVPR, pages 9729–9738, 2020.

3.1.4 Discussions

視覺Transformer 的所有組成部分，包括多頭自注意、多層感知器、快捷連接、層規(guī)范化、位置編碼和網(wǎng)絡(luò)拓?fù)洌谝曈X識(shí)別中起著關(guān)鍵作用。如上所述，已經(jīng)提出了一些工作，以提高視覺變壓器的效果和效率。從圖78中的結(jié)果可以看出，結(jié)合 cnn 和 transformer 可以獲得更好的性能，表明它們通過本地連接和全局連接互補(bǔ)。進(jìn)一步研究骨干網(wǎng)絡(luò)可以改善整個(gè)視覺社區(qū)。至于視覺Transformer 的自監(jiān)督表征學(xué)習(xí)，我們?nèi)孕枧υ? nlp 領(lǐng)域追求大規(guī)模預(yù)訓(xùn)練的成功。

3.2 High/Mid-level Vision 高中級(jí)視覺

最近，人們對使用變壓器來完成高/中級(jí)計(jì)算機(jī)視覺任務(wù)的興趣越來越濃厚，比如目標(biāo)檢測[19] ，[291] ，[10] ，[263] ，[166] ，[144] ，車道檢測[144] ，分割[235] ，[228] ，[285]和姿態(tài)估計(jì)[102] ，[103] ，[138] ，[253]。我們在這一節(jié)回顧這些方法。

[19]: End-to-end object detection with transformers. InECCV,2020.[291]: Deformable detr: Deformable transformers for end-to-end object detection. InICLR,2021.[10]: Toward transformer-based object detection.arXiv preprint arXiv:2012.09958, 2020.[263]: Temporal-channel transformer for 3d lidar-based video object detection in autonomous driving.arXiv preprint arXiv:2011.13628, 2020.[166]: 3d object detection with pointformer. InCVPR, 2021.[144]: End-to-end lane shape prediction with transformers. InWACV, 2021.[235]: End-to-end video instance segmentation with transformers. InCVPR,2021.[228]: Max-deeplab: End-to-end panoptic segmentation with mask transformers. InCVPR, pages 5463–5474, 2021.[285]: Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers. InCVPR, 2021.[102]: Hand-transformer: Non- autoregressive structured modeling for 3d hand pose estimation. In ECCV, pages 17–33, 2020.[103]: Hot-net: Non-autoregressive transformer for 3d hand-object pose estimation. In Proceedings of the 28th ACM International Conference on Multimedia, pages 3136–3145, 2020.[138]: End-to-end human pose and mesh reconstruction with transformers. InCVPR, 2021.[253]: Transpose: Keypoint localization via transformer. InICCV, 2021.

3.2.1 Generic Object Detection 通用對象檢測

傳統(tǒng)的目標(biāo)檢測器主要建立在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上，而基于變壓器的目標(biāo)檢測由于其優(yōu)越的性能近年來引起了人們的極大興趣。一些目標(biāo)檢測方法試圖利用Transformer的自我注意機(jī)制，然后增強(qiáng)現(xiàn)代檢測器的特定模塊，如特征融合模塊[271]和預(yù)測頭[41]。基于Transformer的目標(biāo)檢測方法大致可以分為兩類：基于Transformer的集合預(yù)測方法[19]、[291]、[210]、[284]、[154]和基于變壓器的骨干方法[10]、[166]，如圖9所示。與基于CNN的檢測器相比，基于Transformer的方法在準(zhǔn)確率和運(yùn)行速度上都表現(xiàn)出了很強(qiáng)的性能。表下顯示了之前在COCO 2012 VAL集合中提到的不同基于Transformer的物體探測器的檢測結(jié)果。

[271]: Feature pyramid transformer. InECCV, 2020.[41]: Relationnet++: Bridging visual representations for object detection via transformer decoder.NeurIPS, 2020.[19]: End-to-end object detection with transformers. InECCV,2020.[291]:Deformable detr: Deformable transformers for end-to-end object detection. InICLR, 2021.[210]: Rethinking transformer-based set prediction for object detection.arXiv preprint arXiv:2011.10881,2020.[284]: End-to-end object detection with adaptive clustering transformer.arXiv preprint arXiv:2011.09315, 2020.[154]: Oriented object detection with transformer.arXiv preprint arXiv:2106.03146, 2021.[10]: Toward transformer-based object detection.arXiv preprint arXiv:2012.09958, 2020.[166]: 3d object detection with pointformer. InCVPR, 2021.

COCO 2017 ValSet上不同變壓器式物體探測器的比較。運(yùn)行速度(Fps)是在NVIDIA Tesla V100GPU上評(píng)估的，?根據(jù)論文中報(bào)告的數(shù)量進(jìn)行了估計(jì)。?VIT主干在ImageNet-21k上進(jìn)行了預(yù)訓(xùn)練。?VIT主干在一個(gè)包含13億幅圖像的私有數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。

Transformer-based Set Prediction for Detection. 基于變壓器的檢測集預(yù)測。作為基于Transformer的檢測方法的先驅(qū)，Carionet等人[19]提出的檢測Transformer（DETR）重新設(shè)計(jì)了目標(biāo)檢測的框架。DETR是一種簡單且完全端到端的目標(biāo)檢測器，它將目標(biāo)檢測任務(wù)視為一個(gè)直觀的集合預(yù)測問題，消除了傳統(tǒng)手工制作的組件，如錨生成和非最大抑制（NMS）后處理。如圖10所示，DETR從CNN主干開始，從輸入圖像中提取特征。為了用位置信息補(bǔ)充圖像特征，在將特征輸入編碼器-解碼器轉(zhuǎn)換器之前，將固定位置編碼添加到展平特征中。解碼器使用來自編碼器的嵌入以及學(xué)習(xí)的位置編碼（對象查詢），并生成輸出嵌入。Here是一個(gè)預(yù)定義的參數(shù)，通常大于圖像中對象的數(shù)量。簡單前饋網(wǎng)絡(luò)（FFN）用于計(jì)算最終預(yù)測，其中包括邊界框坐標(biāo)和類標(biāo)簽，以指示對象的特定類別（或指示不存在對象）。與原始的transformer不同，DETR是按順序計(jì)算預(yù)測的，DETR是并行解碼對象的。DETR采用二分匹配算法來分配預(yù)測對象和地面真實(shí)對象。如等式17所示，利用匈牙利損失計(jì)算所有匹配對象對的損失函數(shù)。 DETR是一種基于transformer的目標(biāo)檢測框架的新設(shè)計(jì)，使社區(qū)能夠開發(fā)完全端到端的檢測器。然而，vanilla DETR帶來了一些挑戰(zhàn)，具體來說，訓(xùn)練計(jì)劃較長，小型物體的性能較差。為了應(yīng)對這些挑戰(zhàn)，Zhuet al.[291]提出了可變形DETR，它已成為一種流行的方法，顯著提高了檢測性能。變形注意模塊關(guān)注參考點(diǎn)周圍的一小部分關(guān)鍵位置，而不是像transformer中的原始多頭注意機(jī)制那樣查看圖像特征圖上的所有空間位置。這種方法大大降低了計(jì)算復(fù)雜度，并帶來了快速收斂的好處。更重要的是，可變形注意模塊可以很容易地應(yīng)用于融合多尺度特征。變形DETR比DETR具有更好的性能，訓(xùn)練成本降低10倍，性能提高1.6倍更快的推理速度。通過使用迭代邊界盒細(xì)化方法和兩階段方案，可變形DETR可以進(jìn)一步提高檢測性能。

也有幾種方法來處理原始DETR的緩慢收斂問題。例如，Sunet等人[210]研究了DETR模型收斂緩慢的原因，發(fā)現(xiàn)這主要是由于transformer解碼器中的交叉注意模塊。為了解決這個(gè)問題，提出了一種只使用編碼器的DETR，在檢測精度和訓(xùn)練收斂性方面取得了相當(dāng)大的改進(jìn)。此外，為了提高訓(xùn)練穩(wěn)定性和更快的收斂速度，設(shè)計(jì)了一種新的二部匹配方案，并提出了兩種基于變換的集合預(yù)測模型，即TSP-FCOS和TSP-RCNN，以改進(jìn)具有特征金字塔的純編碼器DETR。與原DETR模型相比，這些新模型實(shí)現(xiàn)了更好的性能。Gao等人[71]提出了空間調(diào)制的共同注意（SMCA）機(jī)制，通過將共同注意反應(yīng)限制在接近初始估計(jì)邊界框位置的較高水平來加速收斂。通過將所提出的SMCA模塊集成到DETR中，可以在相當(dāng)?shù)耐评沓杀鞠拢源蠹s10倍更少的訓(xùn)練周期獲得類似的mAP。

鑒于與DETR相關(guān)的高計(jì)算復(fù)雜度，Zheng等人[284]提出了一種自適應(yīng)聚類變換器（ACT），以降低預(yù)訓(xùn)練DETR的計(jì)算成本。ACT使用局部敏感哈希（LSH）方法自適應(yīng)地對查詢特征進(jìn)行聚類，并將注意力輸出廣播到所選原型表示的查詢。ACT用于取代預(yù)先訓(xùn)練的DETR模型的自我注意模塊，無需任何再訓(xùn)練。這種方法大大降低了計(jì)算成本，同時(shí)精度略有下降。通過使用多任務(wù)知識(shí)提取（MTKD）方法，可以進(jìn)一步減少性能下降，該方法利用原始轉(zhuǎn)換器提取ACT模塊，并進(jìn)行幾次微調(diào)。Yao等人[257]指出，DETR中的隨機(jī)初始化是需要多個(gè)解碼器層和緩慢收斂的主要原因。為此，他們提出了有效的DETR，通過一個(gè)額外的區(qū)域建議網(wǎng)絡(luò)將密集先驗(yàn)信息納入檢測管道。更好的初始化使它們能夠只使用一個(gè)解碼器層，而不是六層，從而在更緊湊的網(wǎng)絡(luò)中實(shí)現(xiàn)具有競爭力的性能。

Transformer-based Backbone for Detection. 基于transformer的檢測主干

與通過transformer將目標(biāo)檢測重新設(shè)計(jì)為一組預(yù)測任務(wù)的DETR不同，Bealet al.[10]提出利用transformer作為常見檢測框架（如更快的RCNN[186]）的主干。將輸入圖像分割成若干塊，送入視覺變換器，視覺變換器的輸出嵌入特征根據(jù)空間信息進(jìn)行重組，然后通過檢測頭獲得最終結(jié)果。大規(guī)模的預(yù)培訓(xùn)變壓器主干可能會(huì)為擬建的ViT FRCNN帶來好處。還有很多方法可以探索多功能視覺轉(zhuǎn)換器主干設(shè)計(jì)[85]、[232]、[148]、[43]，并將這些主干轉(zhuǎn)移到傳統(tǒng)的檢測框架，如視網(wǎng)膜網(wǎng)[140]和Cascade R-CNN[16]。例如，Swin Transformer[148]在ResNet-50主干網(wǎng)上獲得了大約4盒AP增益，在各種檢測框架中具有類似的觸發(fā)器。

[186]: Faster R-CNN: Towards real- time object detection with region proposal networks. InNeurIPS, 2015.[10]: Toward transformer-based object detection.arXiv preprint arXiv:2012.09958, 2020.[85]: Transformer in transformer.arXiv preprint arXiv:2103.00112, 2021.[232]: Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. InICCV, 2021.[148]: Swin transformer: Hierarchical vision transformer using shifted windows. InICCV, 2021.[43]: Twins: Revisiting the design of spatial attention in vision transformers.arXiv preprint arXiv:2104.13840, 1(2):3, 2021[140]: Focal loss for dense object detection. InICCV, 2017.[16]: Cascade r-cnn: Delving into high quality object detection. InCVPR, pages 6154–6162, 2018.

Pre-training for Transformer-based Object Detection. 基于transformer的目標(biāo)檢測預(yù)培訓(xùn)。受NLP中預(yù)訓(xùn)練變換方案的啟發(fā)，人們提出了幾種方法來探索基于變換的目標(biāo)檢測的不同預(yù)訓(xùn)練方案[49]、[64]、[9]。Daiet等人[49]提出了目標(biāo)檢測的無監(jiān)督預(yù)訓(xùn)練（UPDETR）。具體而言，本文提出了一種新的無監(jiān)督借口任務(wù)——隨機(jī)查詢補(bǔ)丁檢測來預(yù)訓(xùn)練DETR模型。通過這種無監(jiān)督的預(yù)訓(xùn)練方案，UP-DETR在相對較小的數(shù)據(jù)集（PASCAL VOC）上顯著提高了檢測精度。在有足夠培訓(xùn)數(shù)據(jù)的COCO基準(zhǔn)上，UP-DETR仍然優(yōu)于DETR，這表明了無監(jiān)督預(yù)培訓(xùn)計(jì)劃的有效性。 Fanget al.[64]探索了如何將在ImageNet上預(yù)先訓(xùn)練的純ViT結(jié)構(gòu)轉(zhuǎn)移到更具挑戰(zhàn)性的目標(biāo)檢測任務(wù)中，并提出了YOLOS檢測器。為了處理目標(biāo)檢測任務(wù)，建議的YOLOS首先在ViT中刪除分類標(biāo)記，并附加可學(xué)習(xí)的檢測標(biāo)記。此外，利用二部匹配損失對目標(biāo)進(jìn)行集合預(yù)測。通過在ImageNet數(shù)據(jù)集上的這種簡單預(yù)訓(xùn)練方案，所提出的YOLOS在COCO基準(zhǔn)上顯示了具有競爭力的目標(biāo)檢測性能。

[49]: UP-DETR: unsupervised pre- training for object detection with transformers. InCVPR, 2021.[64]: You only look at one sequence: Rethinking transformer in vision through object detection.arXiv preprint arXiv:2106.00666, 2021.[9]: Detreg: Unsupervised pretraining with region priors for object detection.arXiv preprint arXiv:2106.04550, 2021

3.2.2 Segmentation 分割

分割是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要課題，它廣泛地包括全景分割、實(shí)例分割和語義分割等。視覺轉(zhuǎn)換器在分割領(lǐng)域也顯示出了巨大的潛力。

Transformer for Panoptic Segmentation.用于全景分割的TransformerDETR[19]可以自然地?cái)U(kuò)展到全景分割任務(wù)中，并通過在解碼器上附加一個(gè)遮罩頭來獲得競爭性的結(jié)果。Wanget al.[228]建議Max DeepLab使用遮罩Transformer 直接預(yù)測全景分割結(jié)果，而不涉及盒子檢測等替代子任務(wù)。與DETR類似，Max DeepLab以端到端的方式簡化全景分割任務(wù)，并直接預(yù)測一組不重疊的遮罩和相應(yīng)的標(biāo)簽。模型訓(xùn)練使用全景質(zhì)量（PQ）類型的損失進(jìn)行，但與之前將變壓器堆疊在CNN主干上的方法不同，MaxDeepLab采用了雙路徑框架，有助于CNN和Transformer 的組合。

[19]: End-to-end object detection with transformers. InECCV, 2020.[228]: Max-deeplab: End-to-end panoptic segmentation with mask transformers. InCVPR, pages 5463–5474, 2021.

Transformer for Instance Segmentation用于實(shí)例分割的TransformerVisTR 是一種基于變換器的視頻實(shí)例分割模型，由 wanget al [235]提出，用于從一系列輸入圖像中產(chǎn)生實(shí)例預(yù)測結(jié)果。提出了一種實(shí)例序列匹配策略，用基本事實(shí)分配預(yù)測。為了獲得每個(gè)實(shí)例的掩碼序列，vistr 利用實(shí)例序列分割模塊對多幀掩碼特征進(jìn)行積累，并用3d cnn 對掩碼序列進(jìn)行分割。Huet al [98]提出了一個(gè)實(shí)例分段轉(zhuǎn)換器(istr)來預(yù)測低維掩碼嵌入，并將它們與地面真值匹配以獲得設(shè)置損失。Istr 使用不同于現(xiàn)有的自頂向下和自底向上框架的循環(huán)細(xì)化策略進(jìn)行檢測和分割。研究了如何實(shí)現(xiàn)更好、更有效的嵌入式學(xué)習(xí)來處理具有挑戰(zhàn)性的多目標(biāo)場景下的半監(jiān)督視頻對象分割問題。一些文獻(xiàn)，如[243] ，[52]也討論了使用 transformer 處理分割任務(wù)。

[235]: End-to-end video instance segmentation with transformers. InCVPR, 2021.[98]: Istr: End-to-end instance segmentation with transformers.arXiv preprint arXiv:2105.00637, 2021.[243]: Fully transformer networks for semantic image segmentation.arXiv preprint arXiv:2106.04108, 2021.[52]: Solq: Segmenting objects by learning queries.arXiv preprint arXiv:2106.02351, 2021.

Transformer for Medical Image Segmentation.醫(yī)療圖像分割用TransformerCaoet al. [17]提出了一種用于醫(yī)學(xué)圖像分割的 unet 式純變換器，通過將標(biāo)記化的圖像補(bǔ)丁輸入基于變換器的 u 型編解碼器架構(gòu)，該架構(gòu)具有跳躍式連接，用于局部-全局語義特征學(xué)習(xí)。V alanarasuet al. [223]探索了基于變壓器的解決方案，并研究了使用基于變壓器的網(wǎng)絡(luò)結(jié)構(gòu)執(zhí)行醫(yī)療圖像分割任務(wù)的可行性，提出了一種門控軸向注意模型，該模型通過在自注意模塊中引入額外的控制機(jī)制來擴(kuò)展現(xiàn)有的結(jié)構(gòu)。Cell-detr [174] ，基于 detr 泛光分割模型，嘗試使用轉(zhuǎn)換器進(jìn)行細(xì)胞實(shí)例分割。為了增強(qiáng)特征融合，在分割頭中增加了主干 cnn 和 cnn 解碼器之間的跳躍連接。Cell-detr 通過顯微圖像實(shí)現(xiàn)了細(xì)胞實(shí)例分割的最先進(jìn)性能。

[17]: Swin-unet: Unet-like pure transformer for medical image segmentation. arXiv preprint arXiv:2105.05537, 2021.[223]: Medical transformer: Gated axial-attention for medical image segmentation. arXiv preprint arXiv:2102.10662, 2021.[174]: Attention-based transformers for instance segmentation of cells in microstructures.arXiv preprint arXiv:2011.09763, 2020.

3.2.3 Pose Estimation 姿態(tài)估計(jì)

人體姿勢和手部姿勢估計(jì)是研究界非常感興趣的基礎(chǔ)課題。關(guān)節(jié)式位姿估計(jì)類似于結(jié)構(gòu)化預(yù)測任務(wù)，目的是從輸入的 rgb/d 圖像中預(yù)測關(guān)節(jié)坐標(biāo)或網(wǎng)格頂點(diǎn)。在這里，我們討論了一些方法[102] ，[103] ，[138] ，[253] ，探索如何利用變壓器建模的人體姿態(tài)和手姿態(tài)的全局結(jié)構(gòu)信息。 Transformer for Hand Pose Estimation手動(dòng)姿態(tài)估計(jì)Transformer黃等[102]提出了一種基于Transformer的網(wǎng)絡(luò)，從點(diǎn)集進(jìn)行三維手姿態(tài)估計(jì)。該編碼器首先利用點(diǎn)網(wǎng)(177)從輸入點(diǎn)云中提取點(diǎn)狀特征，然后采用標(biāo)準(zhǔn)的多頭自注意模塊產(chǎn)生嵌入。為了向解碼器公開更多的全局姿態(tài)相關(guān)信息，使用特征提取器如 pointnet [178]提取手部關(guān)節(jié)特征，然后將這些特征作為位置編碼輸入解碼器。類似地，黃等人[103]提出熱網(wǎng)(手對象Transformer網(wǎng)絡(luò)的簡稱)的三維手對象姿態(tài)估計(jì)。前面的方法是通過變換器直接從輸入點(diǎn)云預(yù)測手的三維姿態(tài)，而熱網(wǎng)法則是通過重新建立一個(gè)初始的二維手-物體姿態(tài)，然后將其輸入變換器來預(yù)測手-物體的三維姿態(tài)。因此，使用譜圖卷積網(wǎng)絡(luò)提取編碼器的輸入嵌入。[81] hampaliet al. 建議估計(jì)雙手的三維姿勢給定一個(gè)單一的顏色圖像。具體而言，將雙手關(guān)節(jié)的一組潛在2d 位置的外觀和空間編碼輸入到Transformer中，并利用注意機(jī)制對關(guān)節(jié)的正確構(gòu)型進(jìn)行分類，輸出雙手的3d 姿態(tài)。

[102]: Hand-transformer: Non-autoregressive structured modeling for 3d hand pose estimation. In ECCV, pages 17–33, 2020.[177]: Pointnet: Deep learning on point sets for 3d classification and segmentation. InCVPR, pages 652–660, 2017.[178]: Pointnet++: Deep hierarchical feature learning on point sets in a metric space.NeurIPS, 30:5099–5108, 2017.[103]: Hot-net: Non-autoregressive transformer for 3d hand-object pose estimation. In Proceedings of the 28th ACM International Conference on Multimedia,pages 3136–3145, 2020.[81]: Handsformer:Keypoint transformer for monocular 3d pose estimation ofhands and object in interaction.arXiv preprint arXiv:2104.14639, 2021.

Transformer for Human Pose Estimation人體姿態(tài)估計(jì)變壓器Linet等人[138]提出了一種網(wǎng)格Transformer（METRO），用于從單個(gè)RGB圖像預(yù)測3D人體姿勢和網(wǎng)格。METRO通過CNN提取圖像特征，然后通過將模板人體網(wǎng)格連接到圖像特征來執(zhí)行位置編碼。提出了一種漸進(jìn)降維的多層變壓器編碼器，以逐步降低嵌入維數(shù)，最終生成人體關(guān)節(jié)和網(wǎng)格頂點(diǎn)的三維坐標(biāo)。為了鼓勵(lì)學(xué)習(xí)人類關(guān)節(jié)之間的非局部關(guān)系，METRO在訓(xùn)練期間隨機(jī)屏蔽一些輸入查詢。Yanget al.[253]基于變壓器結(jié)構(gòu)和低級(jí)卷積塊構(gòu)建了一個(gè)可解釋的模型，名為轉(zhuǎn)置。Transformer內(nèi)置的注意層可以捕捉關(guān)鍵點(diǎn)之間的長期空間關(guān)系，并解釋預(yù)測的關(guān)鍵點(diǎn)位置高度依賴于哪些相關(guān)性。Liet al.[133]提出了一種基于令牌表示的人體姿勢估計(jì)（TokenPose）新方法。每個(gè)關(guān)鍵點(diǎn)都被明確地嵌入為一個(gè)標(biāo)記，以同時(shí)從圖像中學(xué)習(xí)約束關(guān)系和外觀線索。Mao等人[156]提出了一個(gè)人體姿勢估計(jì)框架，以基于回歸的方式解決了這項(xiàng)任務(wù)。他們將姿勢估計(jì)任務(wù)轉(zhuǎn)化為一個(gè)序列預(yù)測問題，并通過變換器解決，從而繞過了基于熱圖的姿勢估計(jì)的缺點(diǎn)。Jiange等人[110]提出了一種新的基于變壓器的網(wǎng)絡(luò)，該網(wǎng)絡(luò)可以在無監(jiān)督的情況下學(xué)習(xí)姿勢和運(yùn)動(dòng)的分布，而不是跟蹤身體部位并嘗試暫時(shí)平滑它們。該方法克服了檢測的不精確性，并糾正了部分或整個(gè)骨架損壞。Hao等人[86]提出，在不使用任何手動(dòng)注釋的情況下，根據(jù)一組測試圖像對人體姿勢估計(jì)器進(jìn)行個(gè)性化設(shè)置。該方法在測試期間采用姿態(tài)估計(jì)器來利用特定于人的信息，并使用變換器模型在自監(jiān)督關(guān)鍵點(diǎn)和監(jiān)督關(guān)鍵點(diǎn)之間建立轉(zhuǎn)換。

[138]: End-to-end human pose and mesh reconstruction with transformers. InCVPR, 2021.[253]: Transpose: Keypoint localization via transformer. InICCV, 2021.[133]: Tokenpose: Learning keypoint tokens for human pose estimation.arXiv preprint arXiv:2104.03516, 2021.[156]: Tfpose: Direct human pose estimation with transformers.arXiv preprint arXiv:2103.15320, 2021.[110]: Skeletor: Skeletal transformers for robust body-pose estimation. InCVPR, pages 3394–3402, 2021[86]: Test-time personalization with a transformer for human pose estimation.arXiv preprint arXiv:2107.02133, 2021.

3.2.4 Other Tasks 其他任務(wù)

還有很多不同的高級(jí)/中級(jí)視覺任務(wù)探索了如何使用vision transformer以獲得更好的性能。下面我們簡要回顧幾個(gè)任務(wù)： Pedestrian Detection行人檢測由于在遮擋和人群場景中，物體的分布非常密集，因此在將通用檢測網(wǎng)絡(luò)應(yīng)用于行人檢測任務(wù)時(shí)，通常需要進(jìn)行額外的分析和調(diào)整。Linet等人[139]發(fā)現(xiàn)，當(dāng)直接將DETR或可變形DETR應(yīng)用于行人檢測任務(wù)時(shí)，稀疏均勻查詢和解碼器中的弱注意場會(huì)導(dǎo)致性能下降。為了緩解這些缺點(diǎn)，作者提出了行人端到端檢測器（PED），它采用了一種稱為密集查詢和校正注意場（DQRF）的新解碼器來支持密集查詢，并緩解查詢中嘈雜或狹窄的注意場。他們還提出了V-Match，它通過充分利用可見注釋來實(shí)現(xiàn)額外的性能改進(jìn)。

[139]: Detr for pedestrian detection.arXiv preprint arXiv:2012.06785, 2020.

Lane Detection車道檢測Liuet等人[144]在PolyLaneNet[212]的基礎(chǔ)上提出了一種稱為LSTR的方法，該方法通過使用transformer網(wǎng)絡(luò)學(xué)習(xí)全局上下文來提高曲線車道檢測的性能。與PolyLaneNet類似，LSTR將車道檢測視為用多項(xiàng)式擬合車道的任務(wù)，并使用神經(jīng)網(wǎng)絡(luò)預(yù)測多項(xiàng)式的參數(shù)。為了捕捉車道和全球環(huán)境的細(xì)長結(jié)構(gòu)，LSTR在體系結(jié)構(gòu)中引入了transformer網(wǎng)絡(luò)。樣就可以處理CNN提取的低級(jí)特征。此外，LSTR使用匈牙利損耗優(yōu)化網(wǎng)絡(luò)參數(shù)。如[144]所示，LSTR的性能優(yōu)于PolyLaneNet，準(zhǔn)確率提高2.82%，3.65倍更高的FPS，使用的參數(shù)少5倍。transformer網(wǎng)絡(luò)、CNN和Hungarian Loss的結(jié)合最終形成了一個(gè)精確、快速、微小的車道檢測框架。考慮到整個(gè)車道線通常具有拉長形狀和長距離，Liuet等人[143]利用變壓器編碼器結(jié)構(gòu)進(jìn)行更有效的上下文特征提取。這種transformer-encoder結(jié)構(gòu)極大地提高了提案點(diǎn)的檢測能力，它依賴于上下文特征和全局信息，尤其是在主干網(wǎng)絡(luò)是小型模型的情況下。

[144]: End-to-end lane shape prediction with transformers. InWACV, 2021.[212]: Polylanenet: Lane estimation via deep polynomial regression.arXiv preprint arXiv:2004.10924, 2020.[143]: Condlanenet: a top-to-down lane detection framework based on conditional convolution.arXiv preprint arXiv:2105.05003, 2021.

Scene Graph 場景圖場景圖是場景的結(jié)構(gòu)化表示，可以清晰地表達(dá)場景中的對象、屬性和對象之間的關(guān)系[21]。為了生成場景圖，現(xiàn)有的大多數(shù)方法首先提取基于圖像的對象表示，然后在它們之間進(jìn)行消息傳播。圖R-CNN[252]利用自我注意來整合圖中相鄰節(jié)點(diǎn)的上下文信息。最近，Sharifzadeh等人[196]在提取的對象嵌入上使用了變壓器。Sharifzadeh等人[195]提出了一種新的管道，稱為ExeMa，并使用預(yù)先訓(xùn)練的文本到文本轉(zhuǎn)換轉(zhuǎn)換器（T5）[183]從文本輸入創(chuàng)建結(jié)構(gòu)化圖形，并利用它們改進(jìn)關(guān)系推理模塊。T5模型支持利用文本中的知識(shí)。

[21]: Scene Graphs: A Survey of Generations and Applications.arXiv:2104.01111 [cs], Mar. 2021.[252]: Graph r-cnn for scene graph generation. InECCV, pages 670–685, 2018.[196]: Classification by attention: Scene graph classification with prior knowledge. InProceedings of the AAAI Conference on Artificial Intelligence, volume 35, pages 5025–5033, May 2021.[195]: Improving Visual Reasoning by Exploiting The Knowledge in Texts. arXiv preprint arXiv:2102.04760, 2021.[183]: Exploring the limits of transfer learning with a unified text-to-text transformer.Journal of Machine Learning Research, 21(140):1–67, 2020.

Tracking 追蹤一些研究人員還探索在基于模板的鑒別跟蹤器中使用變壓器編解碼器結(jié)構(gòu)，如TMT[229]、TrTr[282]和TransT[33]。所有這些工作都使用類似暹羅的跟蹤流水線來進(jìn)行視頻對象跟蹤，并利用編解碼器網(wǎng)絡(luò)來取代顯式的互相關(guān)操作，以實(shí)現(xiàn)全局的和豐富的上下文相關(guān)性。具體地說，將變壓器編碼器和解碼器分別分配給模板分支和搜索分支。此外，Sunet等人提出了Transtrack[207]，這是一種在線聯(lián)合檢測和跟蹤管道。它利用查詢鍵機(jī)制跟蹤預(yù)先存在的對象，并在流水線中引入一組學(xué)習(xí)對象查詢來檢測新到來的對象。提出的Transtrack在MOT17和MOT20基準(zhǔn)上分別達(dá)到了74.5%和64.5%的MOTA。

[229]:Transformer meets tracker: Exploiting temporal context for robust visual tracking. InCVPR, pages 1571–1580, 2021.[282]: TrTr: Visual Tracking with Transformer.arXiv:2105.03817 [cs], May 2021. arXiv: 2105.03817.[33]: Transformer tracking. InCVPR, pages 8126–8135, June 2021.[207]: TransTrack: Multiple Object Tracking with Transformer. arXiv:2012.15460 [cs], May 2021. arXiv: 2012.15460.

Re-Identification 對象重新識(shí)別Heet et al.[90]提出TransReID來研究純transformer在對象重新識(shí)別(ReID)領(lǐng)域的應(yīng)用。在將變壓器網(wǎng)絡(luò)引入Object Reid時(shí)，TransReID使用重疊切片來保留面片周圍的局部相鄰結(jié)構(gòu)，并引入2D雙線性插值來幫助處理任何給定的輸入分辨率。通過變壓器模塊和損耗函數(shù)，提出了一個(gè)強(qiáng)基線，以獲得與基于CNN的框架相當(dāng)?shù)男阅堋４送猓O(shè)計(jì)了拼圖拼接模塊(JPM)以便于物體的擾動(dòng)不變和魯棒特征表示，并引入邊信息嵌入(SIE)來編碼邊信息。最終的框架TransReID在個(gè)人和車輛Reid基準(zhǔn)上都實(shí)現(xiàn)了最先進(jìn)的性能。Liuet al.[145]和Zhang et al.[276]都提供了將變壓器網(wǎng)絡(luò)引入基于視頻的個(gè)人Re-ID的解決方案。類似地，這兩種方法都利用分離的變換網(wǎng)絡(luò)來提取時(shí)空特征，然后利用交叉視圖變換來聚合多視圖特征。

[90]: TransReID: Transformer-based object re-identification. InICCV, 2021.[145]: A Video Is Worth Three Views: Trigeminal Transformers for Video-based Person Re-identification.arXiv:2104.01745 [cs], Apr. 2021.[276]: Spatiotemporal Transformer for Video-based Person Re-identification. arXiv:2103.16469 [cs], Mar. 2021. arXiv: 2103.16469.

Point Cloud Learning 點(diǎn)云學(xué)習(xí)最近，也出現(xiàn)了許多其他研究變壓器架構(gòu)用于點(diǎn)云學(xué)習(xí)的作品[57]、[78]、[280]。例如，Guolace等人[78]提出了一個(gè)新的框架，用一個(gè)更合適的偏移注意模塊取代了原有的自我注意模塊，該模塊包括隱式拉普拉斯算子和歸一化細(xì)化。此外，Zhao等人[280]設(shè)計(jì)了一種稱為點(diǎn)變壓器的新型變壓器結(jié)構(gòu)。所提出的自我注意層對點(diǎn)集的排列是不變的，因此適合于點(diǎn)集處理任務(wù)。Point Transformer在3D點(diǎn)云語義分割任務(wù)中表現(xiàn)出很強(qiáng)的性能。

[57]: Point transformer.arXiv preprint arXiv:2011.00931, 2020.[78]: Point cloud transformer.Computational Visual Media, 7(2):187–199, 2021.[280]: Point transformer. In ICCV, 2021.

3.2.5 Discussions

如前幾節(jié)所述，transformers在多個(gè)高級(jí)任務(wù)上表現(xiàn)出了強(qiáng)大的性能，包括檢測、分割和姿勢估計(jì)。在將transformer用于高級(jí)任務(wù)之前，需要解決的關(guān)鍵問題涉及輸入嵌入、位置編碼和預(yù)測損失。一些方法建議從不同角度改進(jìn)自我注意模塊，例如，變形注意[291]、自適應(yīng)聚類[284]和點(diǎn)變換[280]。盡管如此，在高級(jí)視覺任務(wù)中使用變壓器的探索仍處于初步階段，因此進(jìn)一步的研究可能會(huì)證明是有益的。例如，在transformer之前是否有必要使用CNN和PointNet等特征提取模塊以獲得更好的性能？如何像BERT和GPT-3在NLP領(lǐng)域所做的那樣，使用大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)集充分利用vision transformer？有沒有可能預(yù)先訓(xùn)練一個(gè)變壓器模型，并針對不同的下游任務(wù)進(jìn)行微調(diào)，只需進(jìn)行幾次微調(diào)？如何通過結(jié)合特定任務(wù)的先驗(yàn)知識(shí)來設(shè)計(jì)更強(qiáng)大的體系結(jié)構(gòu)？之前的幾項(xiàng)工作已經(jīng)對上述主題進(jìn)行了初步討論，我們希望進(jìn)行更多的進(jìn)一步研究，探索更強(qiáng)大的變壓器，以實(shí)現(xiàn)高水平的視覺效果。

[291]: Deformable detr: Deformable transformers for end-to-end object detection. InICLR, 2021.[284]: End-to-end object detection with adaptive clustering transformer.arXiv preprint arXiv:2011.09315, 2020.[280]: Point transformer. In ICCV, 2021.

責(zé)任編輯：

標(biāo)簽：

上一篇：【環(huán)球熱聞】如何給自己的網(wǎng)站接入谷歌聯(lián)盟？方法步驟
下一篇：最后一頁

相關(guān)推薦：

精彩放送：