Swin Transformer迎來30億參數的v2.0,我們應該擁抱視覺大模型嗎?
Swin Transformer迎來30億參數的v2.0,我們應該擁抱視覺大模型嗎?
2021年,獲得 ICCV 最佳論文獎的 Swin Transformer,通過在廣泛的視覺問題上證明 Transformer 架構的有效性,加速了計算機視覺領域基本模型架構的變革。
2021年末,微軟亞洲研究院的研究員們又進一步提出了 Swin Transformer v2.0 版本,新版本訓練了迄今為止最大的稠密視覺模型,并在多個主流視覺任務上大大刷新了記錄,相關論文也已被 CVPR 2022 接收。
研究員們希望借助 Swin Transformer v2.0 展現視覺大模型的“強悍”能力,呼吁整個領域加大對視覺大模型的投入,并為之提供相應的訓練“配方”,從而為視覺領域的科研人員做進一步探索提供便利。那么,Swin Transformer v2.0 有哪些不同?今天就讓我們來一探究竟吧!
人腦是大模型的一個典范。人的大腦擁有著千億量級的神經元數目,和百萬億量級的連接數(參數)。而這樣超大規模的模型為人腦成為目前唯一的通用智能“機器”提供了堅實的基礎。在大容量下,人腦不僅在通常的智能任務中表現卓越,還具備極強的零樣本和少樣本遷移能力,從而可以快速適應新的環境和技能。
最近幾年,自然語言處理(NLP)領域令人難以置信的成功就主要得益于對模型容量的大幅度擴展。短短幾年時間,其模型容量擴大了幾千倍,從3.4億參數的 BERT 模型,進化到了擁有5300億參數的 Megatron-Turing 模型,這些大型語言模型在語言理解和語言生成任務上都取得了長足的進步。同時,語言大模型還被證明具有極強的小樣本甚至零樣本學習能力。
與人腦和 NLP 的模型相比,計算機視覺領域的模型規模仍相對較小。視覺 Transformer 的出現為視覺模型的擴大提供了重要的基礎,此前最大的稠密視覺模型是18億參數的 ViT-G 模型和24億參數的 CoAtNet 模型,它們都曾在 ImageNet-1K 圖像分類任務上刷新了新的記錄。但在更廣泛的視覺任務中,大模型的效果仍然未知。
因此,探索如何進一步擴大視覺模型的規模,以及如何將其應用在更廣泛的視覺任務上,是探索視覺大模型的重要問題?;诖四康?,微軟亞洲研究院的研究員們在 Swin Transformer 的基礎上設計了 Swin Transformer v2.0,它 具有30億參數,是迄今為止最大的稠密視覺模型,可以有效地遷移到需要更高分辨率圖像的各種視覺任務中。通過擴展模型容量和分辨率,Swin Transformer v2.0 已在四個具有代表性的基準上刷新了紀錄,證明了視覺大模型在廣泛視覺任務中的優勢。
論文鏈接:https://arxiv.org/pdf/2111.09883.pdf
1
Swin Transformer打破視覺研究由CNN“統治”的局面
Swin Transformer 的核心思想在于將具有很強建模能力的 Transformer 結構與重要的視覺信號先驗結合起來。這些先驗包括層次性、局部性以及平移不變性等等。Swin Transformer 的一個重要設計是 shifted windows(移位的不重疊窗口),它可以大幅降低計算復雜度,讓計算復雜度隨著輸入圖像的大小呈線性增長;同時不同于傳統的滑動窗,不重疊窗口的設計對硬件實現更加友好,從而具有更快的實際運行速度。
圖1:Sliding windows(滑動窗口)vs. Shifted windows(移位窗口)
事實上,Swin Transformer 不是一個一蹴而就的工作,而是研究團隊四年多在相關方向上不斷堅持的結晶?!叭四X成功的一個關鍵密碼就是其擁有大量的新皮質,新皮質中的神經結構是統一和通用的,這就使得人類不用通過生物進化就可以實現和適應各種新的智能或者環境。在這方面,我們一直看好 Transformer 或者其中的注意力模塊,三年前我們首次嘗試將 Transformer 應用于視覺骨干網絡的設計,并提出了局部關系網絡 LR-Net,但當時的實用性還不足。Swin Transformer 通過引入移位窗口,終于達成了一個實用的視覺 Transformer 骨干網絡,” 微軟亞洲研究院視覺計算組高級研究員胡瀚說。
Swin Transformer 的目標是希望證明視覺 Transformer 能在廣泛的視覺問題中超越此前占據主導地位的 CNN。如今該目標已達成,那么下一步做什么?胡瀚認為,“過去幾年 NLP 領域最重要的發現之一就是擴大模型容量可以持續幫助各種 NLP 任務,并且模型越大,零樣本和少樣本學習的能力越強。所以我們希望探索計算機視覺中能否擁有同樣的性質?!庇谑?,Swin Transformer v2.0 誕生了。
在探索過程中,研究員們發現如下三個問題對于視覺大模型格外重要:
1. 如何解決大模型訓練穩定性的問題
2. 如何將大模型應用于擁有更高分辨率的下游視覺任務的問題
3. 如何減少大模型對標注數據的要求
針對上述三個問題,Swin Transformer v2.0 給出了自己的回答。下面就讓我們來詳細了解一下。
2
30億參數的Swin Transformer v2.0,穩定性與準確性雙提升
在進一步擴大模型容量的過程中,微軟亞洲研究院的研究員們發現訓練過程存在嚴重的不穩定性問題。如圖2所示,隨著原始 Swin Transformer 模型從小變大,網絡深層的激活值會急劇增加,擁有2億參數的 Swin-L 模型,其幅值最高和最低層之間的差異可以達到10^4。當進一步將模型容量擴大到6.58億參數,它會在訓練過程中崩潰。
圖2:各種大小模型的各層激活值。H大小的模型是在自監督學習階段訓練的,而其他規模的模型則是由分類任務訓練的。*表示使用了模型崩潰前第40輪的模型權重。
仔細觀察原始 Swin Transformer 的架構,研究員們發現這是由于殘差分支的輸出直接加回主分支而導致的。原始的 Swin Transformer(以及絕大多數視覺 Transformer)在每個殘差分支的開始都使用了預歸一化(pre-normalization),它可以歸一化輸入的幅值,但對輸出沒有限制。在預歸一化下,每個殘差分支的輸出激活值會直接合并回主分支,并被逐層累加,因而主分支的幅值會隨著深度的增加而越來越大。這種不同層的幅值差異很大程度上導致了訓練的不穩定性。
為了緩解這一問題,研究員們提出了一種新的歸一化方式,稱為 殘差后歸一化(residual-post-normalization)。如圖3所示,該方法將歸一化層從每個殘差分支的開始移到末尾,這樣每個殘差分支的輸出在合并回主分支之前都會被歸一化,當層數加深時,主分支的幅度將不會被累加。實驗發現, 這種新的歸一化方式使得網絡各層的激活值變得更加溫和。
圖3:Swin Transformer v1.0 vs. v2.0
除此之外,研究員們還發現,隨著模型變大,在原始的自注意力計算中,某些層的注意力權重往往會被幾個特定的點所支配,特別是在使用后注意力的情況下。為了緩解這一問題,研究員們還提出了 縮放的余弦注意力機制(scaled cosine attention),它可以取代之前的點乘注意力機制。在縮放的余弦注意力機制中,自注意力的計算與輸入的幅值無關,從而可以產生更溫和的注意力權重。
實驗證明,以上兩種技術不僅使大模型的訓練過程更加穩定,而且還提高了準確性。
3
從低分辨率向高分辨率遷移,看Swin Transformer v2.0
如何克服不良反應
視覺大模型的另一難題在于許多下游視覺任務需要高分辨率的輸入圖像或注意力窗口。由于預訓練往往在低分辨率下進行,所以在高分辨率的下游任務上進行微調的窗口大小會產生顯著變化。目前常見的做法是對位置偏置(position bias)進行雙立方插值,這是一種隨意的簡單處理方式,其效果并不是最佳的。
為了解決這一問題,研究員們提出了 對數空間的連續位置偏置(Log-spaced continuous position bias, Log-spaced CPB)。通過對對數空間的位置坐標應用一個小的元網絡,Log-spaced CPB 可以產生任意坐標范圍的位置偏置。由于元網絡可以接受任意坐標,因此通過共享其權重,一個預訓練好的模型可以在不同的窗口大小之間自由遷移。另一方面,通過將坐標轉化到對數空間,在不同的窗口分辨率之間遷移所需的外推率要比使用原始線性空間坐標的外推率小得多,如圖4所示。
圖4:Log-spaced CPB vs. Linear spaced CPB
借助 Log-spaced CPB,Swin Transformer v2.0 實現了模型在不同分辨率之間的平滑遷移。當把預訓練分辨率從224像素縮小到192像素時,其結果也不會受到影響,并且計算速度還提升了50%,顯著降低了訓練類似體量的模型的成本。
模型容量和分辨率的擴大也導致了現有視覺模型的 GPU 顯存消耗過高。為了解決顯存問題,研究員們結合了幾個重要的技術,包括零冗余優化器(zero-redundancy optimizer)、后向重計算(activation check-pointing)以及新提出的順序自我注意計算力機制(sequential self-attention computation)。有了這些技術,大模型和大分辨率下的 GPU 顯存消耗明顯減少,而其對訓練速度的影響卻很小。
4 自監督學習SimMIM,
解決視覺大模型的數據饑餓問題
訓練越大的模型往往需要越多的數據,而相比 NLP,計算機視覺領域缺乏蘊含人類監督信息的數據來支撐大模型的訓練。這就要求視覺領域在訓練大模型時,要減少對標注數據的依賴,需要在更少量數據的情況下探索大模型。對此,研究員們通過 引入自監督學習的掩碼模型 SimMIM 來緩解這一問題。如圖5所示,SimMIM 通過掩碼圖像建模(masked image modeling)來學習更好的圖像表征。它采用隨機掩碼策略,用適度大的掩碼塊對輸入圖像做掩碼;同時,通過直接回歸來預測原始像素的 RGB 值;由于該模型的預測頭很輕,所以只需要一層線性層即可。
圖5:SimMIM 自監督學習方法示意圖
SimMIM 非常簡單且高效,借助 SimMIM,Swin Transformer v2.0 降低了對標注數據的需求,最終只用了7000萬張帶有噪聲標簽的圖像就訓練了30億參數的模型。
5 有圖有真相:v2.0性能“強悍”,
在四大基準上均創新紀錄
通過擴展模型容量和分辨率,Swin Transformer v2.0 在四個具有代表性的基準上均刷新了紀錄,證明了視覺大模型在廣泛視覺任務中的優勢:在 ImageNet-V2 圖像分類任務上 top-1 準確率為84.0%;在 COCO 物體檢測任務上為63.1/54.4 box/mask mAP;在 ADE20K 語義分割上為59.9 mIoU;在 Kinetics-400 視頻動作分類的 top-1 準確率為86.8%。
表1:ImageNet 圖像分類的性能
表2:COCO 物體檢測的性能
表3:ADE20K 語義分割的性能
表4:Kinetics-400 視頻動作分類的性能
5 視覺大模型發展的三道坎:
數據匱乏、學習方法和通用性
Swin Transformer v2.0 在眾多視覺任務中的“強悍”性能證明了視覺大模型的潛力,同時,為視覺大模型提供了一個可行的訓練“配方”。微軟亞洲研究院的研究員們期望 Swin Transformer v2.0 可以為視覺領域的科研人員們做進一步前沿探索提供便利,并借此激勵整個領域加大對視覺大模型的投入。
“我還是比較看好視覺大模型的”,胡瀚表示,“大模型已經證明通過增加模型容量可以持續提升性能的能力,其小樣本甚至零樣本能力也十分驚艷,而小樣本能力對于實現通用智能非常關鍵”。
當然,胡瀚也認為視覺大模型仍舊面臨一些挑戰,“ 一是數據問題,視覺領域可用于訓練的有效數據相比 NLP 領域還是有不小的差距。自監督是一個潛在的解決方法,但目前的自監督方法包括 SimMIM/BEiT/MAE/PeCo 等等都還不能利用好更大的數據,也就是證明更多的圖像數據能幫助訓練更好的模型?!?
“ 二是,學習方法上還需要突破?,F在在訓練大模型方面,學界和業界對于自監督、圖像分類和多模態方法均有所嘗試,也取得了一些效果,但這些離我們真正解決問題還差的很遠”。
“ 三是,如何建立視覺通用模型的問題還未知?,F如今的視覺大模型大多還是依賴于預訓練和微調的方式,不同的視覺應用仍需要依賴于不同的模型,如何能真正建立視覺的通用模型,用一個模型解決大部分問題,這還需要科研人員做大量的探索?!?
視覺大模型的未來很光明,但也充滿了挑戰。微軟亞洲研究院的研究員們期待更多同仁一起努力,推進視覺大模型的更多進展。
相關論文:
- Swin Transformer V2: Scaling Up Capacity and Resolution
https://arxiv.org/abs/2111.09883
- SimMIM: A Simple Framework for Masked Image Modeling
https://arxiv.org/abs/2111.09886
- Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
https://arxiv.org/abs/2103.14030
Local Relation Networks for Image Recognition
https://arxiv.org/abs/1904.11491
相關 GitHub 鏈接:
- https://github.com/microsoft/Swin-Transformer
- https://github.com/microsoft/SimMIM
- 標簽:private電影下載
- 編輯:孫世力
- 相關文章
-
Swin Transformer迎來30億參數的v2.0,我們應該擁抱視覺大模型嗎?
Swin Transformer迎來30億參數的v2.0,我們應該擁抱視覺大模型嗎? 2021年,獲得 ICCV 最佳論文獎的 Swin Transformer,通過在…
-
575萬獎金!2022年數學界「諾貝爾獎」發布,拓撲學大師獲獎
575萬獎金!2022年數學界「諾貝爾獎」發布,拓撲學大師獲獎 恭喜拓撲學大師脫穎而出。 作者 | 西西 編輯 | 陳彩嫻 3月22日…
- 3年連發5篇SCI論文,第三方醫療機構為科研注入“活水”
- 巨大飛躍!給英偉達1.6萬億個晶體管,它就能承托全球互聯網流量
- Redmi K50 Pro簡評:原神機身涼颼颼 三星E4 2K直屏獨此一家
- 萬門大學創始人疑似跑路,回顧創業路處處是雷,在線AI課程也在重災區
- 寶潔官方發文稱“女人腳臭是男人的5倍”;小鵬汽車被曝霸王條款