高效Transformer、計(jì)算機(jī)視覺的總結(jié)與展望
論文綜述: 文章主旨:在本文中,我們回顧了這些視覺Transformer模型,將它們分為不同的任務(wù),并分析了它們的優(yōu)缺點(diǎn)。我們探討的主要類別包括主干網(wǎng)絡(luò)、高/中級(jí)視覺、低級(jí)視覺和視頻處理。我們還包括有效的Transformer方法,用于將Transformer推進(jìn)基于設(shè)備的實(shí)際應(yīng)用。此外,我們還簡要介紹了計(jì)算機(jī)視覺中的自我注意機(jī)制,因?yàn)樗荰ransformer的基本組成部分。在本文的最后,我們討論了視覺Transformer面臨的挑戰(zhàn),并提供了幾個(gè)進(jìn)一步的研究方向。
其他章節(jié): Transformer綜述(A Survey on Vision Transformer) 閱讀學(xué)習(xí)筆記(一)----transformer的發(fā)展,transformer的基本結(jié)構(gòu)和原理
【資料圖】
Transformer綜述(A Survey on Vision Transformer) 閱讀學(xué)習(xí)筆記(三)–Transformer應(yīng)用的圖像處理與視頻處理的研究
Transformer綜述(A Survey on Vision Transformer) 閱讀學(xué)習(xí)筆記(四)-- 高效Transformer、計(jì)算機(jī)視覺的自注意力、Transformer的總結(jié)與展望
A Survey on Vision Transformer
3. VISION TRANSFORMER 視覺Transformer3.1 Backbone for Representation Learning 表征學(xué)習(xí)的主干網(wǎng)3.1.1 Pure Transformer3.1.2 Transformer with Convolution 卷積Transformer3.1.3 Self-supervised Representation Learning 自監(jiān)督表征學(xué)習(xí)3.1.4 Discussions 3.2 High/Mid-level Vision 高中級(jí)視覺3.2.1 Generic Object Detection 通用對象檢測3.2.2 Segmentation 分割3.2.3 Pose Estimation 姿態(tài)估計(jì)3.2.4 Other Tasks 其他任務(wù)3.2.5 Discussions
3. VISION TRANSFORMER 視覺Transformer
在本節(jié)中,我們將回顧基于Transformer的模型在計(jì)算機(jī)視覺中的應(yīng)用,包括圖像分類、高/中級(jí)視覺、低級(jí)視覺和視頻處理。我們還簡要總結(jié)了自我注意機(jī)制和模型壓縮方法在高效變壓器中的應(yīng)用。
3.1 Backbone for Representation Learning 表征學(xué)習(xí)的主干網(wǎng)
受該Transformer在NLP領(lǐng)域取得的成功啟發(fā),一些研究人員探索了類似模型是否可以學(xué)習(xí)圖像的有用表示。與文本相比,圖像涉及更多維度、噪聲和冗余模態(tài),因此它們被認(rèn)為更難進(jìn)行生成建模。
除了CNN,該Transformer還可以用作圖像分類的主干網(wǎng)絡(luò)。Wuet等人[240]將ResNet作為一個(gè)方便的基線,并使用視覺Transformer來取代卷積的最后一個(gè)階段。具體來說,他們應(yīng)用卷積層來提取低級(jí)特征,然后將其輸入視覺Transformer。對于vision transformer,他們使用一個(gè)標(biāo)記來將像素分組為少量視覺標(biāo)記,每個(gè)標(biāo)記代表圖像中的一個(gè)語義概念。這些視覺標(biāo)記直接用于圖像分類,Transformer用于模擬標(biāo)記之間的關(guān)系。如下圖所示,這些作品可以分為純粹使用transformer進(jìn)行視覺,以及將CNN和transformer相結(jié)合。我們在表3和圖7-8中總結(jié)了這些模型的結(jié)果,以展示主干的發(fā)展。除了監(jiān)督學(xué)習(xí),視覺transformer中還探索了自我監(jiān)督學(xué)習(xí)。
Visual transformers: Token-based image representation and processing for computer vision.arXiv preprint arXiv:2006.03677,2020.
3.1.1 Pure Transformer
ViT.Dosovitskiyet等人[55]最近提出了視覺Transformer (ViT),它是一種純變換器,當(dāng)直接應(yīng)用于圖像塊序列時(shí),可以很好地執(zhí)行圖像分類任務(wù)。它們盡可能遵循transformer的原始設(shè)計(jì)。下圖顯示了ViT的框架。
An image is worth 16x16 words: Transformers for image recognition at scale. InICLR, 2021
要處理2D圖像, i m a g e ∈ R h × w × c image \in R^{\ h×w×c} image∈R h×w×c被重塑成一系列扁平的2D塊(patch): X P ∈ R n × ( p 2 ? c ) X_P \in R^{\ n×(p^2 \cdot c)} XP∈R n×(p2?c) 其中,c表示通道數(shù),(h,w)是原始圖像的分辨率,而(p,p)是圖像塊的分辨率。因此,Transformer 的有效序列長度為: n = ( h ? w ) / p 2 n = (h \cdot w) / p^2 n=(h?w)/p2因?yàn)閠ransformer在其所有層提出使用恒定寬度,所以可訓(xùn)練線性投影將每個(gè)矢量化路徑映射到模型維度,其輸出稱為面片嵌入。
與BERT的[class]標(biāo)記類似,可學(xué)習(xí)的嵌入被應(yīng)用于嵌入補(bǔ)丁的序列。該嵌入狀態(tài)用作圖像表示。在預(yù)訓(xùn)練和微調(diào)階段,分類頭的尺寸相同。此外,將1D位置嵌入添加到面片嵌入中,以保留位置信息。Dosovitskiyet等人探索了位置嵌入的不同2D感知變體,這些變體都沒有比標(biāo)準(zhǔn)的1D位置嵌入產(chǎn)生任何顯著的收益。接頭嵌入件作為編碼器的輸入斷開。值得注意的是,ViT僅使用標(biāo)準(zhǔn)變壓器的編碼器(層標(biāo)準(zhǔn)化位置除外),其輸出先于MLP頭。
在大多數(shù)情況下,ViT是在大型數(shù)據(jù)集上預(yù)先訓(xùn)練的,然后針對較小的下游任務(wù)進(jìn)行微調(diào)。為此,移除預(yù)先訓(xùn)練好的預(yù)測頭,并附加一個(gè)初始化為零的d×k前饋層,其中k是下游類的數(shù)量。在微調(diào)階段使用比訓(xùn)練前更高的分辨率通常是有益的。例如,當(dāng)饋送更高分辨率的圖像時(shí),即使面片大小保持不變,也可以獲得更大的有效序列長度。雖然ViT可以處理任意序列長度,但預(yù)先訓(xùn)練的位置嵌入可能不再有意義。因此,Dosovitskiyet等人根據(jù)預(yù)訓(xùn)練位置嵌入在原始圖像中的位置對其執(zhí)行2D插值。請注意,只有在分辨率調(diào)整和面片提取期間,才會(huì)將有關(guān)圖像2D結(jié)構(gòu)的感應(yīng)偏差手動(dòng)注入ViT。
當(dāng)在中型數(shù)據(jù)集(如ImageNet)上進(jìn)行訓(xùn)練時(shí),ViT會(huì)產(chǎn)生適度的結(jié)果,精確度比同等大小的RESNET低幾個(gè)百分點(diǎn)。由于變壓器缺乏CNN固有的一些感應(yīng)偏差,例如平移等變和局部性,因此在數(shù)據(jù)量不足的情況下,transformer不能很好地概括。然而,作者發(fā)現(xiàn),在大數(shù)據(jù)集(1400萬到3億張圖像)上訓(xùn)練模型超過了歸納偏差。當(dāng)以足夠大的規(guī)模進(jìn)行預(yù)培訓(xùn)時(shí),變壓器在數(shù)據(jù)點(diǎn)較少的任務(wù)上取得了優(yōu)異的效果。例如,當(dāng)在JFT-300M數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練時(shí),ViT在多個(gè)圖像識(shí)別基準(zhǔn)上接近甚至超過了最先進(jìn)的性能。具體來說,它的準(zhǔn)確度達(dá)到了88.36%在ImageNet上。在CIFAR-10達(dá)到99.50%;在CIFAR-100達(dá)到94.55;在VTAB套件的19項(xiàng)任務(wù)中達(dá)到77.16%。
Touvronet al.[219]通過僅在ImageNet數(shù)據(jù)庫上進(jìn)行訓(xùn)練,提出了一種競爭性的無卷積transformer,稱為數(shù)據(jù)高效圖像變壓器(DeiT)。參考視覺轉(zhuǎn)換器DeiT-B與ViT-B的結(jié)構(gòu)相同,使用了8600萬個(gè)參數(shù)。憑借強(qiáng)大的數(shù)據(jù)增強(qiáng)功能,DeiTB的準(zhǔn)確度達(dá)到了83.1%(單一作物評(píng)估)在ImageNet上,無外部數(shù)據(jù)。此外,作者觀察到,使用CNN教師比使用transformer表現(xiàn)更好。具體地說,Deit-B可以在基于令牌的精餾的幫助下達(dá)到TOP-1準(zhǔn)確率84.40%。
Training data-efficient image transformers & distillation through attention. InICML, 2020
Variants of ViT. VIT的變體在VIT范式的指導(dǎo)下,人們提出了一系列VIT的變體來提高視覺任務(wù)的績效。主要途徑包括增強(qiáng)地域性、提高自覺性和建筑設(shè)計(jì)。 原有的視覺轉(zhuǎn)換器擅長捕捉面片之間的遠(yuǎn)程依賴關(guān)系,但忽略了局部特征提取,因?yàn)?D面片被投影到具有簡單線性層的矢量上。近年來,研究人員開始注重提高對局部信息的建模能力[85]、[148]、[26]。TNT[85]進(jìn)一步將補(bǔ)丁劃分為若干子補(bǔ)丁,并引入了一種新的變壓器-變壓器架構(gòu),該架構(gòu)利用內(nèi)部變壓器塊來建模子補(bǔ)丁與外部變壓器塊之間的關(guān)系,以進(jìn)行補(bǔ)丁級(jí)別的信息交換。Twins[43]和CA-T[137]層層交替地執(zhí)行局部和全局注意。Swin Transformers[148],[54]在窗口內(nèi)執(zhí)行局部注意,并為跨窗口連接引入了移位窗口分區(qū)方法。ShuffleTransformer[105]、[63]進(jìn)一步利用空間混洗操作而不是移位窗口劃分來允許跨窗口連接。RegionViT[26]從圖像生成區(qū)域標(biāo)記和局部標(biāo)記,并且局部標(biāo)記通過關(guān)注區(qū)域標(biāo)記來接收全局信息。除了局部關(guān)注外,還有一些工作提出通過局部特征聚合來提高局部信息,如T2T[260]。這些工作展示了視覺變壓器的局部信息交換和全局信息交換的好處。
[85]: Transformer in transformer.arXiv preprint arXiv:2103.00112, 2021.[148]: Swin transformer: Hierarchical vision transformer using shifted windows. InICCV, 2021[26]: Regionvit: Regional-to-local attention for vision transformers.arXiv preprint arXiv:2106.02689, 2021.[43]: Twins: Revisiting the design of spatial attention in vision transformers.arXiv preprint arXiv:2104.13840, 1(2):3, 2021.[137]: Cat: Cross attention in vision transformer.arXiv preprint arXiv:2106.05786, 2021.[54]: Cswin transformer: A general vision transformer backbone with cross-shaped windows.arXiv preprint arXiv:2107.00652, 2021.[105]: Shuffle transformer: Rethinking spatial shuffle for vision transformer.arXiv preprint arXiv:2106.03650, 2021.[63]: Msgtransformer: Exchanging local spatial information by manipulating messenger tokens.arXiv preprint arXiv:2105.15168, 2021.[260]: Tokens-to-token vit: Training vision transformers from scratch on imagenet. InICCV, 2021.
作為transformer的關(guān)鍵組件,自我注意層提供了圖像塊之間全局交互的能力。提高自我注意層的計(jì)算能力吸引了許多研究者。Deep ViT[286]建議建立十字頭通信,以重新生成注意力地圖,以增加不同層的多樣性。KVT[230]引入了k-NN注意,利用圖像補(bǔ)丁的局部性,并通過僅使用頂級(jí)K相似標(biāo)記計(jì)算注意來忽略噪聲標(biāo)記。Refiner[287]探索了高維空間中的注意力擴(kuò)展,并應(yīng)用卷積來增強(qiáng)注意力地圖的局部模式。XCiT[56]跨功能通道而不是令牌執(zhí)行自我注意計(jì)算,這允許高效處理高分辨率圖像。自注意機(jī)制的計(jì)算復(fù)雜度和注意精度是未來優(yōu)化的兩個(gè)關(guān)鍵點(diǎn)。
[286]: Deepvit: Towards deeper vision transformer.arXiv preprint arXiv:2103.11886, 2021.[230]: Kvt: k-nn attention for boosting vision transformers.arXiv preprint arXiv:2106.00515, 2021.[287]: Refiner: Refining self-attention for vision transformers.arXiv preprint arXiv:2106.03714, 2021.[56]: Xcit: Cross-covariance image transformers.arXiv preprint arXiv:2106.09681, 2021.
網(wǎng)絡(luò)體系結(jié)構(gòu)是CNN領(lǐng)域的重要因素。ViT最初的架構(gòu)是由相同形狀的transformer塊組成的簡單堆棧。視覺transformer的新架構(gòu)設(shè)計(jì)一直是一個(gè)有趣的話題。許多視覺變換器模型[232]、[148]、[209]、[61]、[279]、[167]都使用了金字塔狀結(jié)構(gòu),包括PVT[232]、HVT[168]、Swin transformer[148]和PiT[92]。還有其他類型的體系結(jié)構(gòu),例如雙流體系結(jié)構(gòu)[25]和U-net體系結(jié)構(gòu)[237],[17]。神經(jīng)結(jié)構(gòu)搜索(NAS)也被用來搜索更好的transformer結(jié)構(gòu),例如Scaling ViT[269]、ViTAS[205]、AutoFormer[28]和GLiT[24]。目前,vision transformer的網(wǎng)絡(luò)設(shè)計(jì)和NAS主要借鑒CNN的經(jīng)驗(yàn)。在未來,我們期待著視覺轉(zhuǎn)換器領(lǐng)域出現(xiàn)具體而新穎的架構(gòu)。
[232]: Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. InICCV, 2021.[148]: Swin transformer: Hierarchical vision transformer using shifted windows. InICCV, 2021.[209]: Visual parser: Representing part-whole hierarchies with transformers. 2021.[61]: Multiscale vision transformers.arXiv preprint arXiv:2104.11227, 2021.[279]: Aggregating nested transformers.arXiv preprint arXiv:2105.12723, 2021.[167]: Less is more: Pay less attention in vision transformers.arXiv preprint arXiv:2105.14217,2021.[168]: Scalable visual transformers with hierarchical pooling.arXiv preprint arXiv:2103.10619,2021.[92]: Rethinking spatial dimensions of vision transformers. InICCV, 2021.[25]: Crossvit: Cross-attention multi-scale vision transformer for image classification.arXiv preprintarXiv:2103.14899, 2021. [237]: Uformer: A general u-shaped transformer for image restoration.arXiv preprint arXiv:2106.03106, 2021.[17]: Swin-unet: Unet-like pure transformer for medical image segmentation. arXiv preprint arXiv:2105.05537, 2021.[269]: Scaling vision transformers.arXiv preprint arXiv:2106.04560, 2021.[205]: Vision transformer architecture search.arXiv preprint arXiv:2106.13700, 2021.[28]: Autoformer: Searching transformers for visual recognition.arXiv preprint arXiv:2107.00651, 2021.[24]: Glit: Neural architecture search for global and local image transformer. arXiv preprint arXiv:2107.02960, 2021.
除了上述方法,還有一些其他方向可以進(jìn)一步改進(jìn)視覺transformer,例如位置編碼[44]、[242]、標(biāo)準(zhǔn)化策略[220]、快捷連接[215]和消除注意[217]、[158]、[79]、[218]。
[44]: Conditional positional encodings for vision transformers.arXiv preprintarXiv:2102.10882, 2021.[242]: Rethinking andimproving relative position encoding for vision transformer. InICCV,2021.[220]: Going deeper with image transformers.arXiv preprint arXiv:2103.17239,2021.[215]: Augmented shortcuts for vision transformers.arXiv preprint arXiv:2106.15941, 2021.[217]: Mlp-mixer: An all-mlp architecture for vision.arXiv preprint arXiv:2105.01601, 2021.[158]: Do you even need attention? a stack of feedforward layers does surprisingly well on imagenet.arXiv preprint arXiv:2105.02723, 2021.[79]: Beyond self-attention: External attention using two linear layers for visual tasks.arXiv preprint arXiv:2105.02358, 2021.[128]: Object detection based on an adaptive attention mechanism.Scientific Reports, pages 1–13, 2020.
上表格ImageNet代表CNN和vision transformer模型的結(jié)果比較。在[219]、[148]之后,在NVIDIA V100 GPU和Pytork上測量吞吐量,輸入大小為224×224。純Transformer意味著在stem階段只使用幾個(gè)卷積。CNN Transformer意味著在中間層使用卷積。
3.1.2 Transformer with Convolution 卷積Transformer
盡管視覺轉(zhuǎn)換器能夠捕獲輸入中的長期依賴關(guān)系,因此已成功應(yīng)用于各種視覺任務(wù),但在轉(zhuǎn)換器和現(xiàn)有CNN之間仍存在性能差距。一個(gè)主要原因可能是缺乏提取本地信息的能力。除了上述增強(qiáng)局部性的ViT變體外,將變換器與卷積相結(jié)合是將局部性引入常規(guī)變換器的更直接的方法。
有很多工作試圖用卷積來增強(qiáng)傳統(tǒng)的變壓器塊或自我注意層。例如,CPVT[44]提出了一種條件位置編碼(CPE)方案,該方案以輸入標(biāo)記的局部鄰域?yàn)闂l件,并適用于任意輸入大小,以利用卷積進(jìn)行精細(xì)特征編碼。CvT[241]、CeiT[259]、LocalViT[132]和CMT[77]分析了直接從NLP借用變壓器架構(gòu)并將卷積與變壓器結(jié)合在一起時(shí)可能存在的缺點(diǎn)。具體而言,每個(gè)轉(zhuǎn)換器塊中的前饋網(wǎng)絡(luò)(FFN)與卷積層相結(jié)合,卷積層促進(jìn)相鄰令牌之間的相關(guān)性。LeViT[75]回顧了CNN大量文獻(xiàn)中的原理,并將其應(yīng)用于變壓器,提出了一種用于快速推理圖像分類的混合神經(jīng)網(wǎng)絡(luò)。BoTNet[202]在ResNet的最后三個(gè)瓶頸塊中,用全局自我關(guān)注取代了空間卷積,并在實(shí)例分割和對象檢測任務(wù)上顯著改進(jìn)了基線,延遲開銷最小。
[44]:Conditional positional encodings for vision transformers.arXiv preprint arXiv:2102.10882, 2021.[241]: Cvt: Introducing convolutions to vision transformers.arXiv preprint arXiv:2103.15808, 2021.[259]: Incorporating convolution designs into visual transformers.arXiv preprint arXiv:2103.11816, 2021.[132]: ocalvit: Bringing locality to vision transformers.arXiv preprint arXiv:2104.05707, 2021.[77]: Cmt: Convolutional neural networks meet vision transformers.arXiv preprint arXiv:2107.06263, 2021[202]: Bottleneck transformers for visual recognition. InCVPR, pages 16519–16529, 2021
此外,一些研究人員已經(jīng)證明,基于Transformer 的模型可能更難享受良好的數(shù)據(jù)擬合能力[55]、[38]、[245],換句話說,它們對優(yōu)化器的選擇、超參數(shù)和訓(xùn)練計(jì)劃非常敏感。Visformer[38]通過兩種不同的培訓(xùn)設(shè)置揭示了Transformer 和CNN之間的差距。第一個(gè)是CNN的標(biāo)準(zhǔn)設(shè)置,即訓(xùn)練時(shí)間更短,數(shù)據(jù)擴(kuò)充只包含隨機(jī)裁剪和水平翻轉(zhuǎn)。另一個(gè)是[219]中使用的訓(xùn)練設(shè)置,即訓(xùn)練計(jì)劃更長,數(shù)據(jù)增強(qiáng)更強(qiáng)。[245]改變了ViT的早期視覺處理,用標(biāo)準(zhǔn)卷積干替換其嵌入干,并發(fā)現(xiàn)這種改變使ViT更快收斂,并使AdamW或SGD的使用不會(huì)顯著降低準(zhǔn)確性。除了這兩項(xiàng)工作,[75],[77]還選擇在Transformer 頂部添加卷積桿。
[55]:An image is worth 16x16 words: Transformers for image recognition at scale. InICLR, 2021.[38]:Visformer: The vision-friendly transformer.arXiv preprint arXiv:2104.12533, 2021.[245]: Early convolutions help transformers see better.arXiv preprint arXiv:2106.14881, 2021.[219]: Training data-efficient image transformers & distillation through attention. InICML, 2020.[75]: Levit: a vision transformer in convnet’s clothing for faster inference.arXiv preprint arXiv:2104.01136, 2021.[77]: Cmt:Convolutional neural networks meet vision transformers.arXiv preprint arXiv:2107.06263, 2021.
3.1.3 Self-supervised Representation Learning 自監(jiān)督表征學(xué)習(xí)
基于生成的方法。生成性的圖像預(yù)訓(xùn)練方法已經(jīng)存在很長時(shí)間了。Chen等人[29]重新研究了這類方法,并將其與自我監(jiān)督方法相結(jié)合。在此之后,提出了幾項(xiàng)工作[134],[8]來擴(kuò)展基于生成的自監(jiān)督學(xué)習(xí)在視覺轉(zhuǎn)換器中的應(yīng)用。 我們簡要介紹iGPT[29]以證明其機(jī)制。這種方法包括訓(xùn)練前階段和微調(diào)階段。在訓(xùn)練前階段,探索了自回歸和BERT目標(biāo)。為了實(shí)現(xiàn)像素預(yù)測,采用了序列轉(zhuǎn)換器體系結(jié)構(gòu),而不是語言標(biāo)記(如NLP中使用的)。當(dāng)與早期停止結(jié)合使用時(shí),預(yù)訓(xùn)練可以被認(rèn)為是一種有利的初始化或調(diào)節(jié)器。在微調(diào)階段,他們向模型中添加了一個(gè)小的分類頭。這有助于優(yōu)化分類目標(biāo)并調(diào)整所有權(quán)重。
[29]: Generative pretraining from pixels. InInternational Conference on Machine Learning, pages 1691–1703. PMLR, 2020.[8]: Beit: Bert pre-training of image transformers.arXiv preprint arXiv:2106.08254, 2021.[134]: Mst: Masked self-supervised transformer for visual representation.arXiv preprint arXiv:2106.05656, 2021.
使用Transformer 解碼器塊的GPT-2[182]公式。特別地,層規(guī)范先于注意和多層感知器(MLP)操作,并且所有操作都嚴(yán)格在剩余路徑上執(zhí)行。注意操作是唯一涉及跨序列元素混合的操作。為了在訓(xùn)練AR目標(biāo)時(shí)確保適當(dāng)?shù)臈l件作用,Chenet等人將標(biāo)準(zhǔn)的上三角掩模應(yīng)用于n×n注意邏輯矩陣。當(dāng)使用BERT目標(biāo)時(shí),不需要注意邏輯掩碼:Chenet等人將內(nèi)容嵌入應(yīng)用于輸入序列之后的位置置零。在最終的變換器層之后,他們應(yīng)用一個(gè)層范數(shù),并從輸出中學(xué)習(xí)一個(gè)投影到logits,將每個(gè)序列元素的條件分布參數(shù)化。在訓(xùn)練BERT,時(shí),他們干脆忽略了不帶面具的位置上的邏輯。 在微調(diào)階段,他們跨序列維度平均匯集最終層歸一化層的輸出,以提取每個(gè)示例的特征的ad維向量。他們從集合特征中學(xué)習(xí)到類邏輯的投影,并使用該投影來最小化交叉熵?fù)p失。實(shí)際應(yīng)用表明,交叉熵?fù)p失和訓(xùn)練前損失的聯(lián)合目標(biāo)(LAR or LBERT)效果更好。
[182]: Language models are unsupervised multitask learners.OpenAI blog,1(8):9, 2019.
iGPT和 ViT 是將變壓器應(yīng)用于視覺任務(wù)的兩個(gè)開創(chuàng)性作品。Igpt 與 vit-like 模型的區(qū)別主要體現(xiàn)在三個(gè)方面: 1) igpt 的輸入是通過像素聚類得到的一系列調(diào)色板,而 vit 將圖像均勻地分割成若干個(gè)局部塊; 2) igpt 的結(jié)構(gòu)是編碼-解碼框架,而 vit 只有Transformer 編碼器; 3) igpt 利用自回歸自監(jiān)督損失進(jìn)行訓(xùn)練,而 vpt 則通過監(jiān)督圖像分類任務(wù)進(jìn)行訓(xùn)練。
基于對比學(xué)習(xí)的方法。目前,對比學(xué)習(xí)是計(jì)算機(jī)視覺領(lǐng)域最流行的自監(jiān)督學(xué)習(xí)方法。對比學(xué)習(xí)已應(yīng)用于視覺Transformer 的無監(jiān)督預(yù)訓(xùn)練[32] ,[247] ,[126]。 Chenet al. [32]調(diào)查了幾個(gè)基本組成部分對自我監(jiān)督 vit 訓(xùn)練的影響。作者觀察到,不穩(wěn)定性是降低準(zhǔn)確性的一個(gè)主要問題,這些結(jié)果確實(shí)是部分失敗,當(dāng)訓(xùn)練更加穩(wěn)定時(shí),它們可以得到改善。 他們引入了“ moco v3”框架,這是對 moco v1/2 [31][88]的一個(gè)漸進(jìn)式改進(jìn)。具體來說,作者在隨機(jī)數(shù)據(jù)增強(qiáng)下,為每張圖片選取兩種作物。它們由兩個(gè)編碼器 fq 和 fk 編碼,輸出矢量 q 和 k 直觀地表現(xiàn)出 q 的行為像一個(gè)“查詢”,學(xué)習(xí)的目標(biāo)是檢索相應(yīng)的“鍵”。這是一個(gè)最小化對比損失函數(shù)的公式,可以寫成:
這里k是fk和q在同一幅圖像上的輸出,也就是asq的正樣本。setk?包含offk從其他圖像的輸出,稱為q的負(fù)樣本。τ是l2歸一化q,k的溫度超參數(shù)。Moco v3使用自然存在于同一批中的鍵并放棄內(nèi)存隊(duì)列,他們發(fā)現(xiàn)如果批足夠大(例如4096),內(nèi)存隊(duì)列的增益會(huì)遞減。通過這種簡化,對比損耗可以以一種簡單的方式實(shí)現(xiàn)。編碼器fq由主干(如vit)、投影頭和額外的預(yù)測頭組成;而編碼器fk有主干和投影頭,而沒有預(yù)測頭。Fk由fq的移動(dòng)平均來更新,不包括預(yù)測頭。 Moco v3表明,不穩(wěn)定性是訓(xùn)練自監(jiān)督 vit 的主要問題,因此他們描述了一個(gè)簡單的技巧,可以提高穩(wěn)定性在各種情況下的實(shí)驗(yàn)。他們發(fā)現(xiàn)不需要訓(xùn)練貼片投影層。對于標(biāo)準(zhǔn)的維特斑塊大小,斑塊投影矩陣是完全的或過完全的。在這種情況下,隨機(jī)投影應(yīng)該足以保存原始補(bǔ)丁的信息。然而,這個(gè)技巧雖然減輕了問題,但并不能解決問題。如果學(xué)習(xí)率過大,第一層不可能是不穩(wěn)定的根本原因,則模型仍可能不穩(wěn)定。
[32]: An empirical study of training self- supervised vision transformers. InICCV, 2021.[126]: Efficient self-supervised vision transformers for representation learning. arXiv preprint arXiv:2106.09785, 2021.[247]: Self-supervised learning with swin transformers.arXiv preprint arXiv:2105.04553, 2021.[31]: Improved baselines with momentum contrastive learning.arXiv preprint arXiv:2003.04297, 2020.[88]: Momentum contrast for unsupervised visual representation learning. InCVPR, pages 9729–9738, 2020.
3.1.4 Discussions
視覺Transformer 的所有組成部分,包括多頭自注意、多層感知器、快捷連接、層規(guī)范化、位置編碼和網(wǎng)絡(luò)拓?fù)洌谝曈X識(shí)別中起著關(guān)鍵作用。如上所述,已經(jīng)提出了一些工作,以提高視覺變壓器的效果和效率。從圖78中的結(jié)果可以看出,結(jié)合 cnn 和 transformer 可以獲得更好的性能,表明它們通過本地連接和全局連接互補(bǔ)。進(jìn)一步研究骨干網(wǎng)絡(luò)可以改善整個(gè)視覺社區(qū)。至于視覺Transformer 的自監(jiān)督表征學(xué)習(xí),我們?nèi)孕枧υ? nlp 領(lǐng)域追求大規(guī)模預(yù)訓(xùn)練的成功。
3.2 High/Mid-level Vision 高中級(jí)視覺
最近,人們對使用變壓器來完成高/中級(jí)計(jì)算機(jī)視覺任務(wù)的興趣越來越濃厚,比如目標(biāo)檢測[19] ,[291] ,[10] ,[263] ,[166] ,[144] ,車道檢測[144] ,分割[235] ,[228] ,[285]和姿態(tài)估計(jì)[102] ,[103] ,[138] ,[253]。我們在這一節(jié)回顧這些方法。
[19]: End-to-end object detection with transformers. InECCV,2020.[291]: Deformable detr: Deformable transformers for end-to-end object detection. InICLR,2021.[10]: Toward transformer-based object detection.arXiv preprint arXiv:2012.09958, 2020.[263]: Temporal-channel transformer for 3d lidar-based video object detection in autonomous driving.arXiv preprint arXiv:2011.13628, 2020.[166]: 3d object detection with pointformer. InCVPR, 2021.[144]: End-to-end lane shape prediction with transformers. InWACV, 2021.[235]: End-to-end video instance segmentation with transformers. InCVPR,2021.[228]: Max-deeplab: End-to-end panoptic segmentation with mask transformers. InCVPR, pages 5463–5474, 2021.[285]: Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers. InCVPR, 2021.[102]: Hand-transformer: Non- autoregressive structured modeling for 3d hand pose estimation. In ECCV, pages 17–33, 2020.[103]: Hot-net: Non-autoregressive transformer for 3d hand-object pose estimation. In Proceedings of the 28th ACM International Conference on Multimedia, pages 3136–3145, 2020.[138]: End-to-end human pose and mesh reconstruction with transformers. InCVPR, 2021.[253]: Transpose: Keypoint localization via transformer. InICCV, 2021.
3.2.1 Generic Object Detection 通用對象檢測
傳統(tǒng)的目標(biāo)檢測器主要建立在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,而基于變壓器的目標(biāo)檢測由于其優(yōu)越的性能近年來引起了人們的極大興趣。 一些目標(biāo)檢測方法試圖利用Transformer的自我注意機(jī)制,然后增強(qiáng)現(xiàn)代檢測器的特定模塊,如特征融合模塊[271]和預(yù)測頭[41]。基于Transformer的目標(biāo)檢測方法大致可以分為兩類:基于Transformer的集合預(yù)測方法[19]、[291]、[210]、[284]、[154]和基于變壓器的骨干方法[10]、[166],如圖9所示。與基于CNN的檢測器相比,基于Transformer的方法在準(zhǔn)確率和運(yùn)行速度上都表現(xiàn)出了很強(qiáng)的性能。表下顯示了之前在COCO 2012 VAL集合中提到的不同基于Transformer的物體探測器的檢測結(jié)果。
[271]: Feature pyramid transformer. InECCV, 2020.[41]: Relationnet++: Bridging visual representations for object detection via transformer decoder.NeurIPS, 2020.[19]: End-to-end object detection with transformers. InECCV,2020.[291]:Deformable detr: Deformable transformers for end-to-end object detection. InICLR, 2021.[210]: Rethinking transformer-based set prediction for object detection.arXiv preprint arXiv:2011.10881,2020.[284]: End-to-end object detection with adaptive clustering transformer.arXiv preprint arXiv:2011.09315, 2020.[154]: Oriented object detection with transformer.arXiv preprint arXiv:2106.03146, 2021.[10]: Toward transformer-based object detection.arXiv preprint arXiv:2012.09958, 2020.[166]: 3d object detection with pointformer. InCVPR, 2021.
COCO 2017 ValSet上不同變壓器式物體探測器的比較。運(yùn)行速度(Fps)是在NVIDIA Tesla V100GPU上評(píng)估的,?根據(jù)論文中報(bào)告的數(shù)量進(jìn)行了估計(jì)。?VIT主干在ImageNet-21k上進(jìn)行了預(yù)訓(xùn)練。?VIT主干在一個(gè)包含13億幅圖像的私有數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。
Transformer-based Set Prediction for Detection. 基于變壓器的檢測集預(yù)測。作為基于Transformer的檢測方法的先驅(qū),Carionet等人[19]提出的檢測Transformer(DETR)重新設(shè)計(jì)了目標(biāo)檢測的框架。DETR是一種簡單且完全端到端的目標(biāo)檢測器,它將目標(biāo)檢測任務(wù)視為一個(gè)直觀的集合預(yù)測問題,消除了傳統(tǒng)手工制作的組件,如錨生成和非最大抑制(NMS)后處理。如圖10所示,DETR從CNN主干開始,從輸入圖像中提取特征。為了用位置信息補(bǔ)充圖像特征,在將特征輸入編碼器-解碼器轉(zhuǎn)換器之前,將固定位置編碼添加到展平特征中。解碼器使用來自編碼器的嵌入以及學(xué)習(xí)的位置編碼(對象查詢),并生成輸出嵌入。Here是一個(gè)預(yù)定義的參數(shù),通常大于圖像中對象的數(shù)量。簡單前饋網(wǎng)絡(luò)(FFN)用于計(jì)算最終預(yù)測,其中包括邊界框坐標(biāo)和類標(biāo)簽,以指示對象的特定類別(或指示不存在對象)。與原始的transformer不同,DETR是按順序計(jì)算預(yù)測的,DETR是并行解碼對象的。DETR采用二分匹配算法來分配預(yù)測對象和地面真實(shí)對象。如等式17所示,利用匈牙利損失計(jì)算所有匹配對象對的損失函數(shù)。 DETR是一種基于transformer的目標(biāo)檢測框架的新設(shè)計(jì),使社區(qū)能夠開發(fā)完全端到端的檢測器。然而,vanilla DETR帶來了一些挑戰(zhàn),具體來說,訓(xùn)練計(jì)劃較長,小型物體的性能較差。為了應(yīng)對這些挑戰(zhàn),Zhuet al.[291]提出了可變形DETR,它已成為一種流行的方法,顯著提高了檢測性能。變形注意模塊關(guān)注參考點(diǎn)周圍的一小部分關(guān)鍵位置,而不是像transformer中的原始多頭注意機(jī)制那樣查看圖像特征圖上的所有空間位置。這種方法大大降低了計(jì)算復(fù)雜度,并帶來了快速收斂的好處。更重要的是,可變形注意模塊可以很容易地應(yīng)用于融合多尺度特征。變形DETR比DETR具有更好的性能,訓(xùn)練成本降低10倍,性能提高1.6倍更快的推理速度。通過使用迭代邊界盒細(xì)化方法和兩階段方案,可變形DETR可以進(jìn)一步提高檢測性能。
也有幾種方法來處理原始DETR的緩慢收斂問題。例如,Sunet等人[210]研究了DETR模型收斂緩慢的原因,發(fā)現(xiàn)這主要是由于transformer解碼器中的交叉注意模塊。為了解決這個(gè)問題,提出了一種只使用編碼器的DETR,在檢測精度和訓(xùn)練收斂性方面取得了相當(dāng)大的改進(jìn)。此外,為了提高訓(xùn)練穩(wěn)定性和更快的收斂速度,設(shè)計(jì)了一種新的二部匹配方案,并提出了兩種基于變換的集合預(yù)測模型,即TSP-FCOS和TSP-RCNN,以改進(jìn)具有特征金字塔的純編碼器DETR。與原DETR模型相比,這些新模型實(shí)現(xiàn)了更好的性能。Gao等人[71]提出了空間調(diào)制的共同注意(SMCA)機(jī)制,通過將共同注意反應(yīng)限制在接近初始估計(jì)邊界框位置的較高水平來加速收斂。通過將所提出的SMCA模塊集成到DETR中,可以在相當(dāng)?shù)耐评沓杀鞠拢源蠹s10倍更少的訓(xùn)練周期獲得類似的mAP。
鑒于與DETR相關(guān)的高計(jì)算復(fù)雜度,Zheng等人[284]提出了一種自適應(yīng)聚類變換器(ACT),以降低預(yù)訓(xùn)練DETR的計(jì)算成本。ACT使用局部敏感哈希(LSH)方法自適應(yīng)地對查詢特征進(jìn)行聚類,并將注意力輸出廣播到所選原型表示的查詢。ACT用于取代預(yù)先訓(xùn)練的DETR模型的自我注意模塊,無需任何再訓(xùn)練。這種方法大大降低了計(jì)算成本,同時(shí)精度略有下降。通過使用多任務(wù)知識(shí)提取(MTKD)方法,可以進(jìn)一步減少性能下降,該方法利用原始轉(zhuǎn)換器提取ACT模塊,并進(jìn)行幾次微調(diào)。Yao等人[257]指出,DETR中的隨機(jī)初始化是需要多個(gè)解碼器層和緩慢收斂的主要原因。為此,他們提出了有效的DETR,通過一個(gè)額外的區(qū)域建議網(wǎng)絡(luò)將密集先驗(yàn)信息納入檢測管道。更好的初始化使它們能夠只使用一個(gè)解碼器層,而不是六層,從而在更緊湊的網(wǎng)絡(luò)中實(shí)現(xiàn)具有競爭力的性能。
Transformer-based Backbone for Detection. 基于transformer的檢測主干
與通過transformer將目標(biāo)檢測重新設(shè)計(jì)為一組預(yù)測任務(wù)的DETR不同,Bealet al.[10]提出利用transformer作為常見檢測框架(如更快的RCNN[186])的主干。將輸入圖像分割成若干塊,送入視覺變換器,視覺變換器的輸出嵌入特征根據(jù)空間信息進(jìn)行重組,然后通過檢測頭獲得最終結(jié)果。大規(guī)模的預(yù)培訓(xùn)變壓器主干可能會(huì)為擬建的ViT FRCNN帶來好處。還有很多方法可以探索多功能視覺轉(zhuǎn)換器主干設(shè)計(jì)[85]、[232]、[148]、[43],并將這些主干轉(zhuǎn)移到傳統(tǒng)的檢測框架,如視網(wǎng)膜網(wǎng)[140]和Cascade R-CNN[16]。例如,Swin Transformer[148]在ResNet-50主干網(wǎng)上獲得了大約4盒AP增益,在各種檢測框架中具有類似的觸發(fā)器。
[186]: Faster R-CNN: Towards real- time object detection with region proposal networks. InNeurIPS, 2015.[10]: Toward transformer-based object detection.arXiv preprint arXiv:2012.09958, 2020.[85]: Transformer in transformer.arXiv preprint arXiv:2103.00112, 2021.[232]: Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. InICCV, 2021.[148]: Swin transformer: Hierarchical vision transformer using shifted windows. InICCV, 2021.[43]: Twins: Revisiting the design of spatial attention in vision transformers.arXiv preprint arXiv:2104.13840, 1(2):3, 2021[140]: Focal loss for dense object detection. InICCV, 2017.[16]: Cascade r-cnn: Delving into high quality object detection. InCVPR, pages 6154–6162, 2018.
Pre-training for Transformer-based Object Detection. 基于transformer的目標(biāo)檢測預(yù)培訓(xùn)。受NLP中預(yù)訓(xùn)練變換方案的啟發(fā),人們提出了幾種方法來探索基于變換的目標(biāo)檢測的不同預(yù)訓(xùn)練方案[49]、[64]、[9]。Daiet等人[49]提出了目標(biāo)檢測的無監(jiān)督預(yù)訓(xùn)練(UPDETR)。具體而言,本文提出了一種新的無監(jiān)督借口任務(wù)——隨機(jī)查詢補(bǔ)丁檢測來預(yù)訓(xùn)練DETR模型。通過這種無監(jiān)督的預(yù)訓(xùn)練方案,UP-DETR在相對較小的數(shù)據(jù)集(PASCAL VOC)上顯著提高了檢測精度。在有足夠培訓(xùn)數(shù)據(jù)的COCO基準(zhǔn)上,UP-DETR仍然優(yōu)于DETR,這表明了無監(jiān)督預(yù)培訓(xùn)計(jì)劃的有效性。 Fanget al.[64]探索了如何將在ImageNet上預(yù)先訓(xùn)練的純ViT結(jié)構(gòu)轉(zhuǎn)移到更具挑戰(zhàn)性的目標(biāo)檢測任務(wù)中,并提出了YOLOS檢測器。為了處理目標(biāo)檢測任務(wù),建議的YOLOS首先在ViT中刪除分類標(biāo)記,并附加可學(xué)習(xí)的檢測標(biāo)記。此外,利用二部匹配損失對目標(biāo)進(jìn)行集合預(yù)測。通過在ImageNet數(shù)據(jù)集上的這種簡單預(yù)訓(xùn)練方案,所提出的YOLOS在COCO基準(zhǔn)上顯示了具有競爭力的目標(biāo)檢測性能。
[49]: UP-DETR: unsupervised pre- training for object detection with transformers. InCVPR, 2021.[64]: You only look at one sequence: Rethinking transformer in vision through object detection.arXiv preprint arXiv:2106.00666, 2021.[9]: Detreg: Unsupervised pretraining with region priors for object detection.arXiv preprint arXiv:2106.04550, 2021
3.2.2 Segmentation 分割
分割是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要課題,它廣泛地包括全景分割、實(shí)例分割和語義分割等。視覺轉(zhuǎn)換器在分割領(lǐng)域也顯示出了巨大的潛力。
Transformer for Panoptic Segmentation.用于全景分割的TransformerDETR[19]可以自然地?cái)U(kuò)展到全景分割任務(wù)中,并通過在解碼器上附加一個(gè)遮罩頭來獲得競爭性的結(jié)果。Wanget al.[228]建議Max DeepLab使用遮罩Transformer 直接預(yù)測全景分割結(jié)果,而不涉及盒子檢測等替代子任務(wù)。與DETR類似,Max DeepLab以端到端的方式簡化全景分割任務(wù),并直接預(yù)測一組不重疊的遮罩和相應(yīng)的標(biāo)簽。模型訓(xùn)練使用全景質(zhì)量(PQ)類型的損失進(jìn)行,但與之前將變壓器堆疊在CNN主干上的方法不同,MaxDeepLab采用了雙路徑框架,有助于CNN和Transformer 的組合。
[19]: End-to-end object detection with transformers. InECCV, 2020.[228]: Max-deeplab: End-to-end panoptic segmentation with mask transformers. InCVPR, pages 5463–5474, 2021.
Transformer for Instance Segmentation用于實(shí)例分割的TransformerVisTR 是一種基于變換器的視頻實(shí)例分割模型,由 wanget al [235]提出,用于從一系列輸入圖像中產(chǎn)生實(shí)例預(yù)測結(jié)果。提出了一種實(shí)例序列匹配策略,用基本事實(shí)分配預(yù)測。為了獲得每個(gè)實(shí)例的掩碼序列,vistr 利用實(shí)例序列分割模塊對多幀掩碼特征進(jìn)行積累,并用3d cnn 對掩碼序列進(jìn)行分割。Huet al [98]提出了一個(gè)實(shí)例分段轉(zhuǎn)換器(istr)來預(yù)測低維掩碼嵌入,并將它們與地面真值匹配以獲得設(shè)置損失。Istr 使用不同于現(xiàn)有的自頂向下和自底向上框架的循環(huán)細(xì)化策略進(jìn)行檢測和分割。研究了如何實(shí)現(xiàn)更好、更有效的嵌入式學(xué)習(xí)來處理具有挑戰(zhàn)性的多目標(biāo)場景下的半監(jiān)督視頻對象分割問題。一些文獻(xiàn),如[243] ,[52]也討論了使用 transformer 處理分割任務(wù)。
[235]: End-to-end video instance segmentation with transformers. InCVPR, 2021.[98]: Istr: End-to-end instance segmentation with transformers.arXiv preprint arXiv:2105.00637, 2021.[243]: Fully transformer networks for semantic image segmentation.arXiv preprint arXiv:2106.04108, 2021.[52]: Solq: Segmenting objects by learning queries.arXiv preprint arXiv:2106.02351, 2021.
Transformer for Medical Image Segmentation.醫(yī)療圖像分割用TransformerCaoet al. [17]提出了一種用于醫(yī)學(xué)圖像分割的 unet 式純變換器,通過將標(biāo)記化的圖像補(bǔ)丁輸入基于變換器的 u 型編解碼器架構(gòu),該架構(gòu)具有跳躍式連接,用于局部-全局語義特征學(xué)習(xí)。V alanarasuet al. [223]探索了基于變壓器的解決方案,并研究了使用基于變壓器的網(wǎng)絡(luò)結(jié)構(gòu)執(zhí)行醫(yī)療圖像分割任務(wù)的可行性,提出了一種門控軸向注意模型,該模型通過在自注意模塊中引入額外的控制機(jī)制來擴(kuò)展現(xiàn)有的結(jié)構(gòu)。Cell-detr [174] ,基于 detr 泛光分割模型,嘗試使用轉(zhuǎn)換器進(jìn)行細(xì)胞實(shí)例分割。為了增強(qiáng)特征融合,在分割頭中增加了主干 cnn 和 cnn 解碼器之間的跳躍連接。Cell-detr 通過顯微圖像實(shí)現(xiàn)了細(xì)胞實(shí)例分割的最先進(jìn)性能。
[17]: Swin-unet: Unet-like pure transformer for medical image segmentation. arXiv preprint arXiv:2105.05537, 2021.[223]: Medical transformer: Gated axial-attention for medical image segmentation. arXiv preprint arXiv:2102.10662, 2021.[174]: Attention-based transformers for instance segmentation of cells in microstructures.arXiv preprint arXiv:2011.09763, 2020.
3.2.3 Pose Estimation 姿態(tài)估計(jì)
人體姿勢和手部姿勢估計(jì)是研究界非常感興趣的基礎(chǔ)課題。關(guān)節(jié)式位姿估計(jì)類似于結(jié)構(gòu)化預(yù)測任務(wù),目的是從輸入的 rgb/d 圖像中預(yù)測關(guān)節(jié)坐標(biāo)或網(wǎng)格頂點(diǎn)。在這里,我們討論了一些方法[102] ,[103] ,[138] ,[253] ,探索如何利用變壓器建模的人體姿態(tài)和手姿態(tài)的全局結(jié)構(gòu)信息。 Transformer for Hand Pose Estimation手動(dòng)姿態(tài)估計(jì)Transformer黃等[102]提出了一種基于Transformer的網(wǎng)絡(luò),從點(diǎn)集進(jìn)行三維手姿態(tài)估計(jì)。該編碼器首先利用點(diǎn)網(wǎng)(177)從輸入點(diǎn)云中提取點(diǎn)狀特征,然后采用標(biāo)準(zhǔn)的多頭自注意模塊產(chǎn)生嵌入。為了向解碼器公開更多的全局姿態(tài)相關(guān)信息,使用特征提取器如 pointnet [178]提取手部關(guān)節(jié)特征,然后將這些特征作為位置編碼輸入解碼器。類似地,黃等人[103]提出熱網(wǎng)(手對象Transformer網(wǎng)絡(luò)的簡稱)的三維手對象姿態(tài)估計(jì)。前面的方法是通過變換器直接從輸入點(diǎn)云預(yù)測手的三維姿態(tài),而熱網(wǎng)法則是通過重新建立一個(gè)初始的二維手-物體姿態(tài),然后將其輸入變換器來預(yù)測手-物體的三維姿態(tài)。因此,使用譜圖卷積網(wǎng)絡(luò)提取編碼器的輸入嵌入。[81] hampaliet al. 建議估計(jì)雙手的三維姿勢給定一個(gè)單一的顏色圖像。具體而言,將雙手關(guān)節(jié)的一組潛在2d 位置的外觀和空間編碼輸入到Transformer中,并利用注意機(jī)制對關(guān)節(jié)的正確構(gòu)型進(jìn)行分類,輸出雙手的3d 姿態(tài)。
[102]: Hand-transformer: Non-autoregressive structured modeling for 3d hand pose estimation. In ECCV, pages 17–33, 2020.[177]: Pointnet: Deep learning on point sets for 3d classification and segmentation. InCVPR, pages 652–660, 2017.[178]: Pointnet++: Deep hierarchical feature learning on point sets in a metric space.NeurIPS, 30:5099–5108, 2017.[103]: Hot-net: Non-autoregressive transformer for 3d hand-object pose estimation. In Proceedings of the 28th ACM International Conference on Multimedia,pages 3136–3145, 2020.[81]: Handsformer:Keypoint transformer for monocular 3d pose estimation ofhands and object in interaction.arXiv preprint arXiv:2104.14639, 2021.
Transformer for Human Pose Estimation人體姿態(tài)估計(jì)變壓器Linet等人[138]提出了一種網(wǎng)格Transformer(METRO),用于從單個(gè)RGB圖像預(yù)測3D人體姿勢和網(wǎng)格。METRO通過CNN提取圖像特征,然后通過將模板人體網(wǎng)格連接到圖像特征來執(zhí)行位置編碼。提出了一種漸進(jìn)降維的多層變壓器編碼器,以逐步降低嵌入維數(shù),最終生成人體關(guān)節(jié)和網(wǎng)格頂點(diǎn)的三維坐標(biāo)。為了鼓勵(lì)學(xué)習(xí)人類關(guān)節(jié)之間的非局部關(guān)系,METRO在訓(xùn)練期間隨機(jī)屏蔽一些輸入查詢。Yanget al.[253]基于變壓器結(jié)構(gòu)和低級(jí)卷積塊構(gòu)建了一個(gè)可解釋的模型,名為轉(zhuǎn)置。Transformer內(nèi)置的注意層可以捕捉關(guān)鍵點(diǎn)之間的長期空間關(guān)系,并解釋預(yù)測的關(guān)鍵點(diǎn)位置高度依賴于哪些相關(guān)性。Liet al.[133]提出了一種基于令牌表示的人體姿勢估計(jì)(TokenPose)新方法。每個(gè)關(guān)鍵點(diǎn)都被明確地嵌入為一個(gè)標(biāo)記,以同時(shí)從圖像中學(xué)習(xí)約束關(guān)系和外觀線索。Mao等人[156]提出了一個(gè)人體姿勢估計(jì)框架,以基于回歸的方式解決了這項(xiàng)任務(wù)。他們將姿勢估計(jì)任務(wù)轉(zhuǎn)化為一個(gè)序列預(yù)測問題,并通過變換器解決,從而繞過了基于熱圖的姿勢估計(jì)的缺點(diǎn)。Jiange等人[110]提出了一種新的基于變壓器的網(wǎng)絡(luò),該網(wǎng)絡(luò)可以在無監(jiān)督的情況下學(xué)習(xí)姿勢和運(yùn)動(dòng)的分布,而不是跟蹤身體部位并嘗試暫時(shí)平滑它們。該方法克服了檢測的不精確性,并糾正了部分或整個(gè)骨架損壞。Hao等人[86]提出,在不使用任何手動(dòng)注釋的情況下,根據(jù)一組測試圖像對人體姿勢估計(jì)器進(jìn)行個(gè)性化設(shè)置。該方法在測試期間采用姿態(tài)估計(jì)器來利用特定于人的信息,并使用變換器模型在自監(jiān)督關(guān)鍵點(diǎn)和監(jiān)督關(guān)鍵點(diǎn)之間建立轉(zhuǎn)換。
[138]: End-to-end human pose and mesh reconstruction with transformers. InCVPR, 2021.[253]: Transpose: Keypoint localization via transformer. InICCV, 2021.[133]: Tokenpose: Learning keypoint tokens for human pose estimation.arXiv preprint arXiv:2104.03516, 2021.[156]: Tfpose: Direct human pose estimation with transformers.arXiv preprint arXiv:2103.15320, 2021.[110]: Skeletor: Skeletal transformers for robust body-pose estimation. InCVPR, pages 3394–3402, 2021[86]: Test-time personalization with a transformer for human pose estimation.arXiv preprint arXiv:2107.02133, 2021.
3.2.4 Other Tasks 其他任務(wù)
還有很多不同的高級(jí)/中級(jí)視覺任務(wù)探索了如何使用vision transformer以獲得更好的性能。下面我們簡要回顧幾個(gè)任務(wù): Pedestrian Detection行人檢測由于在遮擋和人群場景中,物體的分布非常密集,因此在將通用檢測網(wǎng)絡(luò)應(yīng)用于行人檢測任務(wù)時(shí),通常需要進(jìn)行額外的分析和調(diào)整。Linet等人[139]發(fā)現(xiàn),當(dāng)直接將DETR或可變形DETR應(yīng)用于行人檢測任務(wù)時(shí),稀疏均勻查詢和解碼器中的弱注意場會(huì)導(dǎo)致性能下降。為了緩解這些缺點(diǎn),作者提出了行人端到端檢測器(PED),它采用了一種稱為密集查詢和校正注意場(DQRF)的新解碼器來支持密集查詢,并緩解查詢中嘈雜或狹窄的注意場。他們還提出了V-Match,它通過充分利用可見注釋來實(shí)現(xiàn)額外的性能改進(jìn)。
[139]: Detr for pedestrian detection.arXiv preprint arXiv:2012.06785, 2020.
Lane Detection車道檢測Liuet等人[144]在PolyLaneNet[212]的基礎(chǔ)上提出了一種稱為LSTR的方法,該方法通過使用transformer網(wǎng)絡(luò)學(xué)習(xí)全局上下文來提高曲線車道檢測的性能。與PolyLaneNet類似,LSTR將車道檢測視為用多項(xiàng)式擬合車道的任務(wù),并使用神經(jīng)網(wǎng)絡(luò)預(yù)測多項(xiàng)式的參數(shù)。為了捕捉車道和全球環(huán)境的細(xì)長結(jié)構(gòu),LSTR在體系結(jié)構(gòu)中引入了transformer網(wǎng)絡(luò)。樣就可以處理CNN提取的低級(jí)特征。此外,LSTR使用匈牙利損耗優(yōu)化網(wǎng)絡(luò)參數(shù)。如[144]所示,LSTR的性能優(yōu)于PolyLaneNet,準(zhǔn)確率提高2.82%,3.65倍更高的FPS,使用的參數(shù)少5倍。transformer網(wǎng)絡(luò)、CNN和Hungarian Loss的結(jié)合最終形成了一個(gè)精確、快速、微小的車道檢測框架。考慮到整個(gè)車道線通常具有拉長形狀和長距離,Liuet等人[143]利用變壓器編碼器結(jié)構(gòu)進(jìn)行更有效的上下文特征提取。這種transformer-encoder結(jié)構(gòu)極大地提高了提案點(diǎn)的檢測能力,它依賴于上下文特征和全局信息,尤其是在主干網(wǎng)絡(luò)是小型模型的情況下。
[144]: End-to-end lane shape prediction with transformers. InWACV, 2021.[212]: Polylanenet: Lane estimation via deep polynomial regression.arXiv preprint arXiv:2004.10924, 2020.[143]: Condlanenet: a top-to-down lane detection framework based on conditional convolution.arXiv preprint arXiv:2105.05003, 2021.
Scene Graph 場景圖場景圖是場景的結(jié)構(gòu)化表示,可以清晰地表達(dá)場景中的對象、屬性和對象之間的關(guān)系[21]。為了生成場景圖,現(xiàn)有的大多數(shù)方法首先提取基于圖像的對象表示,然后在它們之間進(jìn)行消息傳播。圖R-CNN[252]利用自我注意來整合圖中相鄰節(jié)點(diǎn)的上下文信息。最近,Sharifzadeh等人[196]在提取的對象嵌入上使用了變壓器。Sharifzadeh等人[195]提出了一種新的管道,稱為ExeMa,并使用預(yù)先訓(xùn)練的文本到文本轉(zhuǎn)換轉(zhuǎn)換器(T5)[183]從文本輸入創(chuàng)建結(jié)構(gòu)化圖形,并利用它們改進(jìn)關(guān)系推理模塊。T5模型支持利用文本中的知識(shí)。
[21]: Scene Graphs: A Survey of Generations and Applications.arXiv:2104.01111 [cs], Mar. 2021.[252]: Graph r-cnn for scene graph generation. InECCV, pages 670–685, 2018.[196]: Classification by attention: Scene graph classification with prior knowledge. InProceedings of the AAAI Conference on Artificial Intelligence, volume 35, pages 5025–5033, May 2021.[195]: Improving Visual Reasoning by Exploiting The Knowledge in Texts. arXiv preprint arXiv:2102.04760, 2021.[183]: Exploring the limits of transfer learning with a unified text-to-text transformer.Journal of Machine Learning Research, 21(140):1–67, 2020.
Tracking 追蹤一些研究人員還探索在基于模板的鑒別跟蹤器中使用變壓器編解碼器結(jié)構(gòu),如TMT[229]、TrTr[282]和TransT[33]。所有這些工作都使用類似暹羅的跟蹤流水線來進(jìn)行視頻對象跟蹤,并利用編解碼器網(wǎng)絡(luò)來取代顯式的互相關(guān)操作,以實(shí)現(xiàn)全局的和豐富的上下文相關(guān)性。具體地說,將變壓器編碼器和解碼器分別分配給模板分支和搜索分支。此外,Sunet等人提出了Transtrack[207],這是一種在線聯(lián)合檢測和跟蹤管道。它利用查詢鍵機(jī)制跟蹤預(yù)先存在的對象,并在流水線中引入一組學(xué)習(xí)對象查詢來檢測新到來的對象。提出的Transtrack在MOT17和MOT20基準(zhǔn)上分別達(dá)到了74.5%和64.5%的MOTA。
[229]:Transformer meets tracker: Exploiting temporal context for robust visual tracking. InCVPR, pages 1571–1580, 2021.[282]: TrTr: Visual Tracking with Transformer.arXiv:2105.03817 [cs], May 2021. arXiv: 2105.03817.[33]: Transformer tracking. InCVPR, pages 8126–8135, June 2021.[207]: TransTrack: Multiple Object Tracking with Transformer. arXiv:2012.15460 [cs], May 2021. arXiv: 2012.15460.
Re-Identification 對象重新識(shí)別Heet et al.[90]提出TransReID來研究純transformer在對象重新識(shí)別(ReID)領(lǐng)域的應(yīng)用。在將變壓器網(wǎng)絡(luò)引入Object Reid時(shí),TransReID使用重疊切片來保留面片周圍的局部相鄰結(jié)構(gòu),并引入2D雙線性插值來幫助處理任何給定的輸入分辨率。通過變壓器模塊和損耗函數(shù),提出了一個(gè)強(qiáng)基線,以獲得與基于CNN的框架相當(dāng)?shù)男阅堋4送猓O(shè)計(jì)了拼圖拼接模塊(JPM)以便于物體的擾動(dòng)不變和魯棒特征表示,并引入邊信息嵌入(SIE)來編碼邊信息。最終的框架TransReID在個(gè)人和車輛Reid基準(zhǔn)上都實(shí)現(xiàn)了最先進(jìn)的性能。Liuet al.[145]和Zhang et al.[276]都提供了將變壓器網(wǎng)絡(luò)引入基于視頻的個(gè)人Re-ID的解決方案。類似地,這兩種方法都利用分離的變換網(wǎng)絡(luò)來提取時(shí)空特征,然后利用交叉視圖變換來聚合多視圖特征。
[90]: TransReID: Transformer-based object re-identification. InICCV, 2021.[145]: A Video Is Worth Three Views: Trigeminal Transformers for Video-based Person Re-identification.arXiv:2104.01745 [cs], Apr. 2021.[276]: Spatiotemporal Transformer for Video-based Person Re-identification. arXiv:2103.16469 [cs], Mar. 2021. arXiv: 2103.16469.
Point Cloud Learning 點(diǎn)云學(xué)習(xí)最近,也出現(xiàn)了許多其他研究變壓器架構(gòu)用于點(diǎn)云學(xué)習(xí)的作品[57]、[78]、[280]。例如,Guolace等人[78]提出了一個(gè)新的框架,用一個(gè)更合適的偏移注意模塊取代了原有的自我注意模塊,該模塊包括隱式拉普拉斯算子和歸一化細(xì)化。此外,Zhao等人[280]設(shè)計(jì)了一種稱為點(diǎn)變壓器的新型變壓器結(jié)構(gòu)。所提出的自我注意層對點(diǎn)集的排列是不變的,因此適合于點(diǎn)集處理任務(wù)。Point Transformer在3D點(diǎn)云語義分割任務(wù)中表現(xiàn)出很強(qiáng)的性能。
[57]: Point transformer.arXiv preprint arXiv:2011.00931, 2020.[78]: Point cloud transformer.Computational Visual Media, 7(2):187–199, 2021.[280]: Point transformer. In ICCV, 2021.
3.2.5 Discussions
如前幾節(jié)所述,transformers在多個(gè)高級(jí)任務(wù)上表現(xiàn)出了強(qiáng)大的性能,包括檢測、分割和姿勢估計(jì)。在將transformer用于高級(jí)任務(wù)之前,需要解決的關(guān)鍵問題涉及輸入嵌入、位置編碼和預(yù)測損失。一些方法建議從不同角度改進(jìn)自我注意模塊,例如,變形注意[291]、自適應(yīng)聚類[284]和點(diǎn)變換[280]。盡管如此,在高級(jí)視覺任務(wù)中使用變壓器的探索仍處于初步階段,因此進(jìn)一步的研究可能會(huì)證明是有益的。例如,在transformer之前是否有必要使用CNN和PointNet等特征提取模塊以獲得更好的性能?如何像BERT和GPT-3在NLP領(lǐng)域所做的那樣,使用大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)集充分利用vision transformer?有沒有可能預(yù)先訓(xùn)練一個(gè)變壓器模型,并針對不同的下游任務(wù)進(jìn)行微調(diào),只需進(jìn)行幾次微調(diào)?如何通過結(jié)合特定任務(wù)的先驗(yàn)知識(shí)來設(shè)計(jì)更強(qiáng)大的體系結(jié)構(gòu)?之前的幾項(xiàng)工作已經(jīng)對上述主題進(jìn)行了初步討論,我們希望進(jìn)行更多的進(jìn)一步研究,探索更強(qiáng)大的變壓器,以實(shí)現(xiàn)高水平的視覺效果。
[291]: Deformable detr: Deformable transformers for end-to-end object detection. InICLR, 2021.[284]: End-to-end object detection with adaptive clustering transformer.arXiv preprint arXiv:2011.09315, 2020.[280]: Point transformer. In ICCV, 2021.
標(biāo)簽:
相關(guān)推薦:
精彩放送:
- []全球熱推薦:NSA是假5G?NSA組網(wǎng)模式有哪些?
- []當(dāng)前動(dòng)態(tài):iPhone怎么把信號(hào)標(biāo)志改成圓點(diǎn)?使用教程來了
- []【環(huán)球熱聞】如何給自己的網(wǎng)站接入谷歌聯(lián)盟?方法步驟
- []環(huán)球觀熱點(diǎn):如何通過Word制作電子賀卡?制作教程
- []天天滾動(dòng):常用計(jì)算機(jī)的外設(shè)有哪些?電腦外設(shè)產(chǎn)品什么品牌好?
- []KMP算法是什么?KMP算法詳解
- []投籃機(jī)投籃有技巧嗎?高手練習(xí)投籃的幾個(gè)技巧
- []斗破蒼穹蕭炎救云韻 蕭炎h熏兒很多人還不知道
- []互補(bǔ)品的需求曲線圖是什么?微觀經(jīng)濟(jì)學(xué)中的供給與需求定律
- []【前沿重器】句子相似度和匹配心法利器
- []焦點(diǎn)快報(bào)!如何下載天地圖離線地圖瓦片數(shù)據(jù)?離線地圖的下載方式
- []全球要聞:神州行是什么?神州行是移動(dòng)還是聯(lián)通?
- []【聚看點(diǎn)】百度指數(shù)是什么意思?其中的數(shù)值又代表什么?
- []高效Transformer、計(jì)算機(jī)視覺的總結(jié)與展望
- []環(huán)球微頭條丨用眼部按摩儀好嗎?有哪些好處?
- []WIN+R:程序運(yùn)行窗口或者打開某個(gè)文件
- []國外拍攝婚禮應(yīng)注意什么?海外攝影師須知常識(shí)
- []即時(shí)焦點(diǎn):正則解析網(wǎng)絡(luò)運(yùn)維數(shù)據(jù)之OneTake 解析網(wǎng)絡(luò)運(yùn)維數(shù)據(jù)
- []環(huán)球觀焦點(diǎn):福州:2022年保租住已開工5萬套 棚戶區(qū)改造新開工1.13萬套
- []當(dāng)前觀察:密云區(qū):加快建設(shè)“五興鄉(xiāng)村”
- []全球今日報(bào)丨黑龍江:實(shí)現(xiàn)電網(wǎng)統(tǒng)一監(jiān)控平臺(tái)現(xiàn)場接入
- []智能電網(wǎng)技術(shù):電力節(jié)能的“法寶”
- []廣東大埔實(shí)施智能電表升級(jí)改造
- []看熱訊:農(nóng)村電網(wǎng)改造 出現(xiàn)了智能電表 沒有偷電的了 卻出現(xiàn)賣電的了
- []【世界播資訊】我全責(zé)保險(xiǎn)公司都賠嗎
- []天天動(dòng)態(tài):行業(yè)透視 | 房企商票逾期快速增加勢頭得到遏制
- []買了車損險(xiǎn)被水淹了保險(xiǎn)賠付嗎
- []公積金不買房怎么貸款
- []全球今亮點(diǎn)!下冰雹保險(xiǎn)公司理賠嗎
- []商業(yè)保險(xiǎn)出院一般多久報(bào)銷
- []天天播報(bào):武漢高科產(chǎn)業(yè)園區(qū)Pre-REITs完成備案 為華中地區(qū)首單
- []全球速訊:一周跌超10%!這家公司2天接待200多家機(jī)構(gòu),聚焦這些問題
- []【世界報(bào)資訊】央行營管部:做好金融支持房地產(chǎn)市場平穩(wěn)健康發(fā)展相關(guān)工作
- []世界今日訊!保利置業(yè)供應(yīng)鏈ABS完成發(fā)行 發(fā)行總規(guī)模4.48億元
- []步步高正式易主 湘潭市國資委將成為實(shí)際控制人
- []步步高控制權(quán)變更落地 湘潭國資將入主
- []天天熱點(diǎn)!成都軌道新增發(fā)行3.64億元供應(yīng)鏈ABS 已累計(jì)發(fā)行7.32億元
- []云南旅游:華僑城、賈博特申請解除2.13億股限售
- []全球熱消息:北京政府工作報(bào)告:支持住房改善等消費(fèi) 老舊小區(qū)綜合整治新開工300個(gè)
- []環(huán)球關(guān)注:上實(shí)發(fā)展:擬核銷應(yīng)收類款項(xiàng)不良資產(chǎn)6519.75萬元
- []環(huán)球即時(shí):奮達(dá)科技:公司控股股東近期大宗交易已完成并進(jìn)行了公告,請查閱巨潮資訊網(wǎng)
- []獲山東國資紓困 山東健康入主奧園珠海最大舊改
- []全球熱議:長沙產(chǎn)投集團(tuán)與華潤置地簽署合作 涉及城市更新、產(chǎn)業(yè)片區(qū)開發(fā)等
- []眾泰汽車:公司目前生產(chǎn)車型中沒有T450
- []世界速遞!檢察院承認(rèn)自首可以追究刑事責(zé)任嗎?
- []全球最資訊丨中華醫(yī)學(xué)會(huì)內(nèi)分泌學(xué)分會(huì)主任委員趙家軍:先省飯錢,后省藥錢,血糖健康多活好多年
- []廣立微:公司嚴(yán)格遵守法律法規(guī)對信息披露的要求并按照規(guī)則及時(shí)披露公司重大事項(xiàng),請以公司公告為準(zhǔn)
- []【聚看點(diǎn)】海通證券:本輪上漲價(jià)值略占優(yōu) 成長有望接力
- []【天天播資訊】香港航空宣布全員加薪;微信在2023還能給旅游業(yè)提供哪些土壤? | 一周速覽
- []【當(dāng)前獨(dú)家】2023年雅閣酒店集團(tuán)首批開業(yè)酒店亮相
- []全球快報(bào):證券經(jīng)紀(jì)業(yè)務(wù)規(guī)范八要點(diǎn):不得使用零傭宣傳 穩(wěn)步推進(jìn)非法跨境業(yè)務(wù)整改
- []世界微速訊:優(yōu)質(zhì)產(chǎn)品仍稀缺 績優(yōu)基金強(qiáng)勢吸金
- []世界熱訊:證監(jiān)會(huì)、央行聯(lián)合發(fā)布新規(guī) 規(guī)范公募基金信息披露電子化
- []天天快訊:基金周報(bào):煤炭板塊逆勢走強(qiáng) 相關(guān)基金收益領(lǐng)先
- []全球球精選!國網(wǎng)寧夏電力上線應(yīng)用電費(fèi)智能核算功能
- []當(dāng)前熱訊:江蘇電科院實(shí)現(xiàn)配網(wǎng)線損 分級(jí)分類數(shù)字化診斷
- []恒華科技BIM技術(shù)助力智慧樓宇建設(shè)
- []環(huán)球消息!養(yǎng)老保險(xiǎn)明細(xì)單在哪兒打印
- []補(bǔ)考費(fèi)有保險(xiǎn)怎么報(bào)銷
- []全球看點(diǎn):如何申請商業(yè)險(xiǎn)墊付
- []【天天新要聞】健康保險(xiǎn)的種類包括哪些
- []今日觀點(diǎn)!中華保險(xiǎn)是國企單位嗎
- []QQ瀏覽器是如何提升搜索相關(guān)性的?
- []全球快訊:1月14日14時(shí),2023春節(jié)檔新片票房預(yù)售突破2000萬
- []焦點(diǎn)資訊:年終獎(jiǎng)稅率表2023
- []當(dāng)前信息:2022年郵政貸款利率
- []【世界快播報(bào)】辦信用卡的條件
- []天天最資訊丨硅寶科技:公司近期生產(chǎn)經(jīng)營情況一切正常,各項(xiàng)工作順利推進(jìn)
- []天地?cái)?shù)碼:公司將根據(jù)《深圳證券交易所創(chuàng)業(yè)板股票上市規(guī)則》認(rèn)真履行披露義務(wù)
- []當(dāng)前視訊!銀河電子:公司充電樁業(yè)務(wù)也基本如此,鑒于其體量較小,對公司整體影響較小
- []天天熱資訊!美聯(lián)新材:1、公司春節(jié)放假具體安排為:1月21日(星期六)至27日(星期五) 放假調(diào)休,共7天
- []丘棟榮20億會(huì)買什么?線索來了!陸彬、施成、李孝華也有動(dòng)作!
- []天天速訊:興業(yè)證券:外資在加倉哪些方向?交易盤配置盤有何差異?
- []焦點(diǎn)精選!雅高進(jìn)軍奢華游輪領(lǐng)域;東航、南航擬從紐交所退市 | 大公司簡報(bào)
- []天天精選!烏蘭察布市工傷死亡賠償包括哪些
- []全球快看:維宏股份:放開之后也就12月份最后三周,因?yàn)橹芷谔蹋蜎]做對比分析
- []環(huán)球看熱訊:首位明星基金經(jīng)理四季報(bào)出爐!大幅加倉寧德時(shí)代和中國平安 看好新能源三類機(jī)會(huì)
- []博菲電氣:截止2022年11月30日公司共有股東10319戶
- []勁韌2022!傳祺全年銷量超36.2萬輛,同比增長11.8%
- []天天新資訊:CFTC商品持倉解讀:投機(jī)者削減美國原油凈多頭頭寸
- []全球觀察:凈賺21.1億-25.1億!愛旭股份去年業(yè)績大幅扭虧為盈!
- []每日速遞:光伏巨頭日賺5000萬,擋不住股價(jià)新低
- []每日短訊:捷報(bào)!京山輕機(jī)再次“敲開”印度市場
- []原來微電網(wǎng)很好懂,一文詳解微電網(wǎng)
- []環(huán)球看熱訊:烽火通信攜手山東電力共創(chuàng)SPN新成果
- []當(dāng)前動(dòng)態(tài):珍酒李渡集團(tuán)港交所遞表 2022年前三季度總收入42.49億元
- []資訊推薦:工地團(tuán)體意外險(xiǎn)怎么買,以下四種方法可購買
- []什么是基本養(yǎng)老賬戶和臨時(shí)養(yǎng)老賬戶
- []當(dāng)前熱文:預(yù)制菜開啟春節(jié)之戰(zhàn),破局立新正在進(jìn)行時(shí)
- []天天動(dòng)態(tài):雙邊公積金什么意思,公積金匯繳的總額
- []鑫享人生15年后怎樣領(lǐng)
- []奧園健康發(fā)布內(nèi)部控制評(píng)估結(jié)果:采取的整改措施充分有效
- []公積金賬戶封存是什么意思,怎么提取
- []全球焦點(diǎn)!民間借貸中明確的事項(xiàng)有哪些?
- []【全球新視野】東箭科技:1月12日公司高管羅軍減持公司股份合計(jì)15.14萬股
- []全球資訊:潤和軟件:1月12日公司高管周紅衛(wèi)減持公司股份合計(jì)52.3萬股
- []世界觀熱點(diǎn):龍佰集團(tuán):1月12日公司高管申慶飛增持公司股份合計(jì)2.31萬股
- []世聯(lián)行董事會(huì):選舉胡嘉為董事長 陳勁松為聯(lián)席董事長
- []連平:房貸利率有望保持在歷史低位
- []愛樂達(dá):1月12日公司高管汪琦減持公司股份合計(jì)11.47萬股
- 每日焦點(diǎn)!什么App軟件里面可以換發(fā)型照相?發(fā)型屋、魔發(fā)相機(jī)和AR魔鏡
- 全球觀天下!系統(tǒng)冗余是什么?冗余的詳情介紹
- 微速訊:nba2012年扣籃大賽冠軍是誰?nba2012年扣籃大賽冠軍名單
- 全球看點(diǎn):如何讓少兒學(xué)好英語字母?26個(gè)英文字母背誦順口溜
- 杭州下沙新城醫(yī)院詳細(xì)地址在哪里?杭州下沙新城醫(yī)院詳細(xì)地址
- 環(huán)球今亮點(diǎn)!西門子PLC7怎么防止錯(cuò)誤操作?西門子PLC梯形圖編程規(guī)則
- 破釜沉舟主人公是誰?關(guān)于破釜沉舟主人公是誰的介紹
- 如何給導(dǎo)師發(fā)郵件?“聯(lián)系導(dǎo)師”的經(jīng)驗(yàn)和教訓(xùn)
- 定時(shí)器和延時(shí)器的區(qū)別 定時(shí)器和延時(shí)器的異步語句
- 【聚看點(diǎn)】華為c8650怎么刷機(jī)?華為c88650的刷機(jī)教程及方法
- B站注冊資本增幅400%至5億 目前由陳睿全資持股
- 光源資本出任獨(dú)家財(cái)務(wù)顧問 沐曦集成電路10億元A輪融資宣告完成
- 巨輪智能2021年上半年?duì)I收11.24億元 期內(nèi)研發(fā)費(fèi)用投入增長19.05%
- 紅棗期貨尾盤拉升大漲近6% 目前紅棗市場總庫存約30萬噸
- 嘉銀金科發(fā)布2021年Q2財(cái)報(bào) 期內(nèi)凈利潤達(dá)1.27億元同比增長208%
- 成都銀行2021上半年凈利33.89億元 期內(nèi)實(shí)現(xiàn)營收同比增長17.27億元
- 汽車之家發(fā)布2021年第二季度業(yè)績 期內(nèi)新能源汽車品牌收入增長238%
- 中信銀行上半年實(shí)現(xiàn)凈利潤290.31億元 期末不良貸款余額706.82億元
- 光伏概念掀起漲停潮交易價(jià)格創(chuàng)新高 全天成交額達(dá)1.29億元
- 上半年生物藥大增45% 關(guān)鍵財(cái)務(wù)指標(biāo)好轉(zhuǎn)營收賬款持續(xù)下降
- 宜華健康:實(shí)控人劉紹喜關(guān)聯(lián)方無償捐贈(zèng)頌陽實(shí)業(yè)已完成工商變更登記手續(xù)
- 公告精選:阿里巴巴有意向取得2.48億股美凱龍股票;南方航空等擬將美國存托股份從紐交所退市
- 英洛華:公司未與貴州習(xí)酒有業(yè)務(wù)合作,無相關(guān)計(jì)劃
- 焦點(diǎn)速讀:2022年12月新發(fā)個(gè)人房貸平均利率4.26%,為有統(tǒng)計(jì)以來最低
- 我愛我家:持股5%以上股東東銀玉衡計(jì)劃減持不超過2%股份
- 天天熱點(diǎn)!融信中國延期寄發(fā)通函 涉融信服務(wù)和秀景園林續(xù)簽服務(wù)框架協(xié)議
- 資訊推薦:建發(fā)合誠:1月11日至1月12日公司高管黃和賓、劉志勛、高瑋琳增持公司股份合計(jì)16.74萬股
- 龍湖2022年累計(jì)交付超11萬套 含50個(gè)城市超140個(gè)項(xiàng)目
- 天天實(shí)時(shí):奧園美谷為子公司融資提供補(bǔ)充擔(dān)保 將番禺奧園廣場房產(chǎn)提供抵押
- 前沿資訊!云南鍺業(yè):目前國內(nèi)尚無權(quán)威機(jī)構(gòu)發(fā)布相關(guān)排名。
- 朗詩綠色管理:2022年累計(jì)銷售額222.87億元
- 棲霞建設(shè)為蘇州卓辰置業(yè)1.5億元借款提供連帶責(zé)任擔(dān)保
- 世界要聞:中原城市領(lǐng)先指數(shù)CCL連升三周最新報(bào)158.23點(diǎn) 確認(rèn)樓價(jià)見底回穩(wěn)
- 消息稱京東考慮將物流地產(chǎn)等2家子公司上市 各自籌集約10億美元
- 全球聚焦:遠(yuǎn)興能源:公司將根據(jù)項(xiàng)目試車情況,穩(wěn)步推進(jìn)產(chǎn)能投放
- 昆船智能:公司尚未布局AIGC
- 全球觀速訊丨富力地產(chǎn)2022年全年銷售收入384.3億元 12月攬金20.4億元
- 沃隆食品IPO:每日堅(jiān)果,還賣得動(dòng)嗎?
- 當(dāng)前快播:金融部門:完善針對30家試點(diǎn)房企的“三線四檔”規(guī)則
- 建發(fā)股份擬63億收購美凱龍29.95%股份 或成為其控股股東
- 新資訊:寶馨科技:若股東所持公司股份涉及權(quán)益變動(dòng),公司會(huì)根據(jù)相關(guān)規(guī)定督促股東及時(shí)履行信息披露義務(wù)
- 協(xié)鑫集成:公司目前經(jīng)營情況正常,關(guān)于公司EPC項(xiàng)目業(yè)績情況請關(guān)注公司定期報(bào)告相關(guān)內(nèi)容
- 【天天時(shí)快訊】金融部門:調(diào)整優(yōu)化并購重組、再融資等5項(xiàng)房企股權(quán)融資措施
- 拓維信息:截至1月10日,公司股東人數(shù)為98731人
- 新賽年,添新績!第四屆“非凡獎(jiǎng)”獲獎(jiǎng)名單揭曉,臥兔網(wǎng)絡(luò)榮獲最佳家電行業(yè)海外網(wǎng)紅營銷獎(jiǎng)!
- 天天速訊:寒潮來襲 我國多地采取多種措施應(yīng)對 保障平安返鄉(xiāng)路
- 財(cái)面兒丨朗詩綠色管理2022年簽約銷售額約222億元
- *ST日海:根據(jù)有關(guān)規(guī)則,公司需在2023年1月31日前披露2022年度業(yè)績預(yù)告
- 世界熱推薦:央行鄒瀾:12月新發(fā)放個(gè)人住房貸款利率平均4.26% 為2008年以來最低
- 聯(lián)防聯(lián)控機(jī)制統(tǒng)一調(diào)度,阿里巴巴牽頭,朱氏藥業(yè)集團(tuán)10萬臺(tái)血氧儀已全部交付
- 播報(bào):億達(dá)中國2022全年銷售額19.5億元 均價(jià)基本持平
- 家居丨建發(fā)股份:擬不超過63億元現(xiàn)金收購美凱龍29.95%股份
- 家居丨美聯(lián)新材股東張朝益累計(jì)減持524.31萬股
- 當(dāng)前視訊!寧波遠(yuǎn)洋:二級(jí)市場的股票價(jià)格波動(dòng)受多重因素影響,公司將積極做好生產(chǎn)經(jīng)營,保持良好的基本面
- 環(huán)球新資訊:朝陽科技:設(shè)立全資子公司星聯(lián)科技是公司在上游配件領(lǐng)域作出的業(yè)務(wù)延伸,目前尚處于前期推進(jìn)階段
- 跨境通:公司股東情況公司會(huì)根據(jù)中國登記結(jié)算公司深圳分公司提供的數(shù)據(jù)定期在互動(dòng)平臺(tái)進(jìn)行
- 恒地古洞北項(xiàng)目改方案
- 1月13日同興環(huán)保漲停分析:碳中和,環(huán)保,鈉離子電池概念熱股
- 1月13日合力泰漲停分析:指紋識(shí)別,智能手表,無線充電概念熱股
- 《2023春節(jié)置業(yè)意向報(bào)告》發(fā)布 超八成意向購房者計(jì)劃春節(jié)看房購房
- 環(huán)球熱消息:1月13日盈方微漲停分析:VR&AR,小米概念股,北斗導(dǎo)航概念熱股
- 東方集團(tuán):公司正在加快推進(jìn)房地產(chǎn)業(yè)務(wù)資產(chǎn)處置和資金回籠,房地產(chǎn)業(yè)務(wù)相關(guān)子公司無上市計(jì)劃
- 華夏幸福:美元債重組債權(quán)人會(huì)議延期至1月16日舉行
- 天天微頭條丨1月13日江蘇華辰漲停分析:新能源汽車,充電樁,光伏概念熱股
- 每日焦點(diǎn)!天地源收購西安高新紅廟村改造項(xiàng)目55%股權(quán) 已完成工商變更登記
- 中國技術(shù)閃耀CES,海信電視斬獲15項(xiàng)權(quán)威大獎(jiǎng)
- 傳祺M8宗師硬剛兩臺(tái)重型大貨車,中國最安全MPV在這里
- 【全球聚看點(diǎn)】安妮股份:公司沒有生產(chǎn)相關(guān)產(chǎn)品
- 短訊!凱樂科技股價(jià)漲停,公司緊急提示風(fēng)險(xiǎn),投資者仍可報(bào)名索賠
- 【全球報(bào)資訊】浙江順泰實(shí)業(yè)2.55億元競得紹興磕下村三宗商住地
- 當(dāng)前速讀:板塊異動(dòng) | 地產(chǎn)利好政策頻出帶動(dòng)家居板塊估值修復(fù) 家居用品概念股盤中走強(qiáng)
- 全球觀天下!【BT金融分析師】Novavax在2022年股價(jià)暴跌93%,分析師稱其苦日子還未到頭
- 天天快訊:1.23億!海南文旅大盤再現(xiàn)違建被罰,官方回應(yīng)“已沒收,辦產(chǎn)權(quán)證要等通知”
- 環(huán)球要聞:微觀這一年?房企|布局大灣區(qū)多城,2022年卻鮮少拿地,靠開發(fā)頂豪走紅的鵬瑞集團(tuán)能否持續(xù)發(fā)力?
- 【全球聚看點(diǎn)】堅(jiān)朗五金:截至2023年1月10日,公司股東數(shù)量為:13,698戶
- 當(dāng)前熱門:朗迪集團(tuán):公司子公司寧波朗迪環(huán)境科技有限公司主營業(yè)務(wù)為空氣過濾網(wǎng),主要應(yīng)用于家用空調(diào)和商用空調(diào)等
- 世界今亮點(diǎn)!多家航司重啟招聘:空姐空少最搶手,有公司開出33萬年薪
- 外國游客銳減99%,京都面臨破產(chǎn)危機(jī),日本旅游業(yè)這三年有多難熬?
- 注意!基金擴(kuò)位簡稱規(guī)則全面落地 這些基金改名 影響有多大?
- 泓博醫(yī)藥:公司是一家合同研發(fā)組織,CRO商業(yè)模式下,知識(shí)產(chǎn)權(quán)通常歸甲方所有
- 銀邦股份:截至2023年1月10日,公司股東戶數(shù)為39,265
- “三朵小花”啟程!代表中國“乘風(fēng)破浪”
- 爭光股份:公司中標(biāo)情況您可查詢參見公開的招標(biāo)平臺(tái)數(shù)據(jù)
- 金融部門將設(shè)立1000億元住房租賃貸款支持計(jì)劃
- 中蘭環(huán)保:目前公司暫無收購光伏企業(yè)和切入電池回收項(xiàng)目的計(jì)劃
- 58同城、安居客《2023春節(jié)置業(yè)意向報(bào)告》:近半意向購房者計(jì)劃1-2年內(nèi)購房
- 掀起新一輪救市大潮:樓市需求端持續(xù)寬松,“因城施策”進(jìn)一步打開
- 一張圖:黃金原油外匯股指"樞紐點(diǎn)+多空占比"一覽(2023/01/13周五)
- 1月13日匯市觀潮:歐元、英鎊和日元技術(shù)分析
- 熱資訊!近七成意向購房者選擇就地買房,返鄉(xiāng)置業(yè)需求下降
- 當(dāng)前通訊!長安期貨原油早評(píng):油價(jià)將震蕩,建議區(qū)間短差
- 焦點(diǎn)速訊:長安期貨貴金屬早評(píng):美國12月通脹指標(biāo)顯著回落,黃金期價(jià)或震蕩偏強(qiáng)
- 焦點(diǎn)資訊:專家稱金價(jià)升至2000美元將開始起飛,下一輪牛市將達(dá)5000美元!
- 天天熱推薦:50個(gè)重點(diǎn)城市房租全部下跌
- NOTAM是什么?為何造成美國全境民航停飛?
- HALO光環(huán)夢想家,自然力量喚醒原生靈感
- 會(huì)議記錄神器,科大訊飛智能錄音筆成為商務(wù)人士首要選擇
- 雞西周邊有哪些旅游景點(diǎn)?雞西旅游攻略
- 實(shí)時(shí):供貨寶馬,三星SDI將在匈牙利建第三家電池工廠
- 誰能百里挑一是什么節(jié)目?誰能百里挑一節(jié)目簡介
- 全球滾動(dòng):五月份比較適合去哪里旅游?五月旅游有哪些推薦?
- 全球觀速訊丨離婚前規(guī)則張小凡結(jié)局怎么樣?離婚前規(guī)則劇情介紹
- 【天天時(shí)快訊】2023年上市銷售?這家PCB上市企業(yè)擬跨界鈉電池
- vankor是什么牌子的表?vankor品牌資料介紹
- 【全球快播報(bào)】關(guān)于意志堅(jiān)強(qiáng)的名言有哪些?分享一些意志堅(jiān)強(qiáng)的名言
- 當(dāng)前短訊!什么是SOA?SOA有哪些用處?
- 全球微速訊:無言無語是什么意思?無言無語是怎么流行起來的?
- 當(dāng)前熱文:2022年民航:回到12年前
- 天天熱資訊!金立e6老是自動(dòng)重啟是什么原因?金立e6老是自動(dòng)重啟怎么辦?
- 穿越到倚天射雕天龍神雕的小說有哪些?分享幾部穿越小說
- 支持四川沼氣開發(fā)項(xiàng)目,安盛助力中國雙碳目標(biāo)
- 實(shí)時(shí)焦點(diǎn):鈉離子新型電池行業(yè)首發(fā)!
- 世界資訊:帝科股份:定增1.86億元投建1000噸TOPCon電池用導(dǎo)電銀漿
- 每日焦點(diǎn)!開年就見百億“頂梁柱”基金經(jīng)理離任,下一站猜想爆棚了?
- 重點(diǎn)聚焦!物業(yè)丨雅生活服務(wù):提名黎家河為獨(dú)立非執(zhí)行董事候選人
- 國中水務(wù):收購款8.5億為公司自有資金
- 上海嘉定區(qū)掛牌2宗小體量商業(yè)用地 總起價(jià)僅3996萬元
- 環(huán)球訊息:平安不動(dòng)產(chǎn)20億元公司債將于1月17日付息 利率3.6%
- 熱議:財(cái)面兒丨華潤置地:2022年實(shí)現(xiàn)合同銷售金額3013.3億元