來源:超能網
大部分玩家買顯卡之前都會看看天梯榜,不過由于每次新卡出來測試的時候驅動不一樣、平臺不一樣,會導致不同時間的測試結果都拿在一起比較的話會稍微有些不嚴謹,盡管仍然能反映出不同顯卡的排名等等,但是我們的讀者都知道我們的天梯榜單并不僅僅是排名,而是非常量化的數據。
所以這樣累計下來難免會與當下的實情略有差異,故而在本世代顯卡的英偉達安培架構顯卡家族與AMD RDNA 2架構顯卡家族接近尾聲的時間點,我們將這些顯卡在同一個驅動、同一個平臺下進行一次橫評。
這樣既是為這一代之爭做個總結,也是為近期需要購買顯卡的朋友做個參考,畢竟下一代顯卡面臨高端卡功耗奇高以及中低端卡仍需時日發布的問題,還是有不少人會在當下節點選擇這一代顯卡的,最后本次橫評也用來順便校準一下我們的顯卡天梯榜使之更為準確。由于我們的天梯榜數據是以傳統光柵化游戲性能為參考的,所以這次游戲測試只比較傳統光柵化游戲性能,而之后會針對N卡最新一代GPU再出一篇光線追蹤游戲性能的橫評。
SM單元的進化
RTX 30系顯卡上的SM單元相比RTX 20系的,最大變化是加倍了針對傳統計算的FP32單元、引入第二代RT Core以及第三代Tensor Core。
大家都知道在Turing架構中,NVIDIA整數型(INT32)和單精度浮點型(FP32)兩種不同的數據類型交給兩種不同的ALU進行計算。不過現代游戲應用中最為常見的還是FP32,因此為了提高計算效率NVIDIA在NVIDIA Ampere 架構上引入了可同時支持INT32或FP32兩種數據類型的新ALU。也就是說,現在有兩條不同的數據路徑,一條能夠同時處理整數或者單精度浮點,另一條則單純處理單精度浮點計算。
負責進行實時光線追蹤運算的專用硬件單元RT Core在NVIDIA Ampere 架構上也更新到了第二代,最主要是增加了動態模糊的加速運算支持。NVIDIA在其中新加入的插值算法可以在保證動態模糊精確性的同時提高了實時光線追蹤效率,官方表示最高可達8倍于上代的速度。另外在基礎的BVH計算上,第二代RT Core也可以比第一代快2倍。
Tensor Core這個負責運行AI計算的硬件單元在NVIDIA Ampere 架構上也升級到了第三代。其實之前發布的A100計算卡上已經用上了新的第三代Tensor Core,它能夠提供比第二代Tensor Core高出4倍的效能,不過游戲卡上面的Tensor Core進行了一定的精簡,其FP16 FMA計算的吞吐量只有GA100核心中的Tensor Core的一半。
而第三代Tensor Core帶來的更強勁AI運算有些什么用呢? 答案就是DLSS。DLSS的全稱是Deep Learning Super Sampling,翻譯成中文就是深度學習超級采樣,它的作用是通過降低游戲內的渲染分辨率,同時以拉伸來提高顯示分辨率,例如1080P的渲染分辨率以及4K(2160P)的顯示分辨率,來達成提升幀數的目的。
此外,將不同類型的計算交給不同的單元去處理是從NVIDIA Volta架構就開始采納的一種理念,當時引入的Tensor Core分流了很多AI相關的運算,而在其后引入的RT Core又將實時光線追蹤相關的計算給分流了。但在Turing架構GPU上做不到全部運算都能夠并行執行,到了Ampere架構上,NVIDIA提升了GPU內部各種單元之間的并行性,現在傳統計算單元、RT Core和Tensor Core這三大單元可以同時工作,在原本基礎上繼續縮短幀渲染時間。
再之后就是HDMI 2.1這個備受期待的新輸出端口了。在HDMI 2.1之下,顯卡可以用單線材做到8K60Hz或者4K120Hz的輸出。對于想用大尺寸電視打游戲的玩家來說是一個不錯的福音。
NVIDIA Reflex
伴隨RTX 30系顯卡一同發布的,有一個對于電競游戲,或者更仔細地說對于電競選手來說很重要的新東西,那就是NVIDIA Reflex。那么這個NVIDIA Reflex到底是什么東西呢?其實它是分為兩部分的,一部分是硬件,一部分是軟件。
硬件部分是Reflex Latency Analyzer,它其實可以視作為LDAT的一個進階版本,是直接預安裝在顯示器里的,可以用來測量玩家從點擊鼠標直到畫面出現變化之間的時間差,也就是整套系統的所有延遲。
而軟件部分則是NVIDIA Reflex SDK。這個NVIDIA Reflex SDK的作用是降低以及測量渲染延遲的,開發者可以直接整合到游戲內。而在開啟其低延遲模式后,可以讓CPU與顯卡同步,大幅度減少渲染序列,從而降低渲染延遲。
三大改進點
RDNA 2架構三大改進點:
·高頻率設計:RDNA 2架構相比RDNA 1架構實現了同功耗下30%的MAX頻率提升;
·無限緩存設計:可以消除帶寬瓶頸,極大的提升了等效帶寬并降低功耗,有助于提升能耗比;
·支持DX12U、DS API:緊隨時代潮流,讓A卡支持光追等高級API特性。
RDNA 2架構是一個強大的游戲架構,相比RDNA 1代架構主要有三個大改進。首先AMD在RDNA 2上實現了突破性的高頻率設計,在擁有高頻率的同時維持較好的能耗表現。其次AMD專門為RDNA 2研發了革命性的AMD Infinity Cache無限緩存技術,無限緩存在提供非常可觀的等效帶寬的同時還更節能,能耗表現更上一層樓。第三個改進點就是支持了DX12 Ultimate的高級特性,包括DXR、DirectStorage等API,讓AMD的顯卡也加入到支持DX12 Ultimate的大家族中。
先來看頻率改進,RDNA 2實現了突破性的高頻率設計,雖然與RDNA都是相同的7nm制程工藝但是進步巨大(到了RX 6500 XT和RX 6400還進一步升級了制程,采用6nm制程,是臺積電7nm的改進版)。通過這張圖表我們可以看到,以每個計算單元CU為例RDNA 2架構實現了相同功耗30%的頻率提升,而如果是相同的頻率則功耗只有RDNA的一半還少一些,也就是能耗比提升50%以上。
RDNA 2上AMD發明了全新的無限緩存技術,RDNA 2通過"無限緩存"大帶寬、低功耗的幫助實現了IPC的提升、同時提高工作頻率,完成每個時鐘指令的功耗也下降明顯。
RDNA 2架構上第三個改進點就是支持更多的高級特性。AMD在RDNA 2上終于全面支持了DirectX 12 Ultimate、DirectStorage API等高級特性,讓A卡也可以使用諸如DirectX光線追蹤、可變速率著色、網格著色器、采樣器反饋等技術。
FSR技術的加入
在RX 6700 XT和Radeon RX 6500 XT發布之間的這段時間,FSR技術終于落地,AMD FSR技術是通過超分辨率來達到拉伸畫面,再加上銳化,從而達到提高幀數之余又可以保持不錯畫面質量的目的,對標的是英偉達的DLSS技術。
AMD FSR總共有超高質量(Ultra Quality)、質量(Quality)、平衡(Balance)以及性能(Performance)這幾個模式。這4個模式相對應的,就是4個不同的拉伸分辨率。以4K(2160P)為例,性能模式的輸入分辨率是1080P,平衡模式是1270P,質量是1440P,而超高質量則是1662P。對于定位入門級的顯卡來說,FSR技術的加持尤其重要,可以幫助用戶獲得更好的游戲體驗。
我們的測試平臺是基于酷睿i9-12900K搭建,盡量減少CPU瓶頸,顯卡選擇方面包括所有的NVIDIA的Ampere架構桌面顯卡以及AMD這邊的所有RDNA 2架構桌面顯卡,一共是21張。
收集顯卡不易,我們優先選用公版顯卡或者公版頻率的顯卡進行測試,其中N卡方面GeForce RTX 3060 Ti到GeForce RTX 3090之間,除了GeForce RTX 3080 12GB這一款是用的一張索泰GeForce RTX 3080-12G6X PGF OC顯卡之外,其他都是公版顯卡,GeForce RTX 3050和GeForce RTX 3060本來就沒有公版卡,這兩個型號我們都收集到了影馳的金屬大師Mini顯卡,最后對于GeForce RTX 3090 Ti,用的是一張影馳GeForce RTX 3090 Ti名人堂超頻實驗室限量版。
AMD顯卡方面,除了Radeon RX 6950 XT是一張技嘉Radeon RX 6950 XT GAMING OC 16G顯卡之外,其他都是XFX訊景的顯卡,大多也是OC版顯卡,所以頻率相對更高,代表的性能也更好,總得來說AMD這邊的代表顯卡可能平均有優勢一點。
測試方面筆者將通過3DMark理論性能測試、實際游戲測試以及功耗測試三個主要方面進行測試。其中實際游戲測試的情況有必要說明一下,起初打算的是分三個分辨率,然后將所有顯卡都分別在三個分辨率下進行實測。
不過這樣會導致兩個問題,一是低端入門級顯卡跑4K分辨率的話會出現極低的幀數,不僅沒有實際意義而且極低的幀數會導致誤差較大,不能準確的體現出與其他顯卡的性能差距;二是高端顯卡比如GeForce RTX 3090 Ti跑1080p分辨率的話,由于CPU的瓶頸,也不能正確的體現出與入門級顯卡的性能差距。
所以本著購買顯卡時正確選擇顯卡的思路——先確定需要什么分辨率的游戲環境,再在一定范圍內選擇顯卡——本次實際游戲測試部分會將顯卡分為三組,分別是面向1080p游戲環境的、面向2K分辨率游戲環境的以及面向4K分辨率游戲環境的。
然后在各種定位的卡只跑其目標分辨率的基礎上,將更高一級目標分辨率的顯卡中性能最低的一張也參加降一級的分辨率游戲測試,這樣就可以以此為錨最后將所有21張顯卡的性能準確的統一反映出來。另外,再次強調一下,我們的天梯榜數據是以傳統光柵化游戲性能為參考的,所以這里的游戲測試只比較傳統光柵化游戲性能。
我們以3DMark作為顯卡基準性能測試,測試項目包括Fire Strike、Fire Strike Extreme、Fire Strike Ultra、Time Spy、Time Spy Extreme以及Port Royal六個項目。其中Fire Strike、Fire Strike Extreme、Fire Strike Ultra三個項目分別測試的是顯卡在DX11游戲中的1080p分辨率、2K分辨率和4K分辨率下的性能指數,Time Spy、Time Spy Extreme兩個項目則是顯卡在DX12游戲中的2K分辨率和4K分辨率下的性能指數,Port Royal是測試的顯卡實時光線追蹤的性能指數,具體成績見下表,表中所列成績均為3DMark顯卡單項的得分。
3DMark基準測試結果主要反映了這么幾個情況:一是對于DX11 API來說,競品之間A卡表現更好,對于DX12 API來說,競品之間N卡表現更好,說簡單點就是A卡玩老游戲比較占優勢,而N卡對于新游戲比較占優勢;二是就光追性能來說,N卡這邊完全是大大的領先,說簡單點就是如果看重光追性能的話無腦選N卡就是了,另外光追性能方面由于顯存太小以及本身芯片性能羸弱,Radeon RX 6400和Radeon RX 6500 XT這兩者卡的光追性能對于游戲應用來說幾乎等于沒有。
游戲畫質設置為預設里面的最高畫質,不開啟光線追蹤,也不開FSR和DLSS,此外默認不是全屏的手動改為全屏,默認開啟了垂直同步的手動關閉垂直同步,除此之外其他選項均為默認設置,均采用游戲自帶的Benchmark輸出結果。
游戲的選擇方面,涵蓋了代表最新單機大作類的游戲比如《看門狗:軍團》、《極限競速:地平線5》這樣的,也有代表網絡游戲類的比如《最終幻想14》、《戰爭雷霆》這樣的,還有代表了較老一代的單機游戲比如《孤島驚魂5》、《極限競速:地平線4》這樣的,以覆蓋玩家玩不同游戲的情況。
1080P分辨率
面向1080P分辨率游戲環境的顯卡中A卡主要是Radeon RX 6650 XT及以下的顯卡,N卡主要是GeForce RTX 3050和GeForce RTX 3060,這里還加入了一張GeForce RTX 3060 Ti來對比。
Radeon RX 6400和Radeon RX 6500 XT這兩張顯卡與其他卡有很大的差距,這兩張卡要想有較完美的游戲體驗,那么只能玩網絡游戲類了,比如《最終幻想14》中Radeon RX 6400和Radeon RX 6500 XT分別可以達到70幀和97幀。對于壓力較大的最新單機大作則很難有較好的體驗,比如《看門狗:軍團》中Radeon RX 6400和Radeon RX 6500 XT分別僅為24幀和34幀,在《極限競速:地平線5》中更是分別只有23幀和24幀。
不過對于這中間的一些游戲,比如較老的、對配置要求不高單機大作,他們有的也能有較好的游戲體驗,比如《孤島驚魂5》中Radeon RX 6400和Radeon RX 6500 XT分別也可以達到63幀和84幀。其實這兩張卡最主要的問題還是顯存太小,4GB的顯存放在如今確實太捉襟見肘了。
其他的幾張卡相對來說差距就沒有那么大了,不過GeForce RTX 3050還是可以單獨拿出來分為一檔,GeForce RTX 3050除了壓力較大的最新單機大作難以有完美的體驗之外(比如《看門狗:軍團》47幀),大部分游戲還是可以很流暢的以最高畫質運行的。
而如果想在1080p分辨率下普遍有較好的游戲體驗,那么N卡還是起碼GeForce RTX 3060吧,A卡則起碼是Radeon RX 6600。
2K分辨率
面向1440P也就是2K分辨率游戲環境的顯卡中A卡主要是Radeon RX 6700 XT及Radeon RX 6750 XT這兩張,N卡主要是GeForce RTX 3060 Ti到GeForce RTX 3070 Ti這三張,這里還加入了一張Radeon RX 6800來對比。
在1440P也就是2K分辨率這塊市場下,這些卡的差距相比1080p分辨率下小了很多(除了拿來對比的Radeon RX 6800這張4K守門員),盡管不同游戲中顯卡的性能表現排序稍有不同,但是普遍來說GeForce RTX 3060 Ti是最低的,而即使是最低的GeForce RTX 3060 Ti也在所有游戲中都至少取得了60幀以上的幀數,最低的幀數是61.7幀,來自《全面戰爭:三國》這款游戲,而其他的卡更是可以無壓力的暢玩2K分辨率。
4K分辨率
面向4K分辨率游戲環境的顯卡中A卡主要是Radeon RX 6800及以上的顯卡,N卡主要是GeForce RTX 3080及以上的顯卡。
說起來,統計的時候才發現4K分辨率的市場是發布型號最多的一塊市場,這讓我不懷好意的想是不是因為這個市場的附加值最高,所以各家都推出較多型號來增加消費者的選擇成本,來賺取更多的消費者剩余。
當然,也可以往好處想就是這個市場如果型號少的話,價格跳躍就太大,往好了說是讓這一檔中各種預算的消費者都可以買到預算相近的產品,但是說白了也是盡量的榨取消費者剩余。當然,這都是題外話了。
4K分辨率下Radeon RX 6800和GeForce RTX 3090 Ti這兩張是要單獨拉出來的,這兩張是明顯與其他卡差距較大的兩張。Radeon RX 6800在每一個游戲的表現中都是這部分性能最低的,然而它并不能滿足這部分的所有4K分辨率下的游戲都有超過60幀的流暢度,比如《看門狗:軍團》僅有47幀,《全面戰爭:三國》更是只有37.9幀,考慮到這樣的成績,如果打算體驗4K游戲的話,Radeon RX 6800我是比較不推薦的。
GeForce RTX 3090 Ti在這部分的表現很亮眼,它在很多游戲中都相比僅次于它的第二名有超過10%的領先,與其他顯卡之間微弱差距的情況相比,有點鶴立雞群的感覺,不過這張卡一定程度上算是英偉達炫技的產品,因為它實在售價太高昂了。
將以上的游戲實測結果匯總之后,就可以得到這21張顯卡之間相對的性能幅度了,同天梯榜一樣,這里將最強的GeForce RTX 3090 Ti定位參考標準100%,可以看到性能最低的Radeon RX 6400僅有其16.6%的性能,最強與最弱之間差距達到了6倍多。而Radeon RX 6800這張卡雖然AMD是宣傳為面向4K游戲環境的,但是個人覺得還是把它定位在面向2K游戲環境的得了吧,它與其他4K梯隊的差距太遠了。
通過我們手中的PCAT套件,可以分別精確地測量顯卡PCI-E、外接電源接口瓦特數,顯卡最大功耗在3DMark Time Spy壓力測試中獲得。
參測顯卡的功耗實測如上,不過需要注意的是,由于參測顯卡有公版頻率方案的和OC版的顯卡,其實并不適合代表芯片型號之間的差距,這里列出來只是給大家看看。
同時筆者也匯總了這些型號的官方標稱的TGP/TBP,一般來說采用公版頻率方案的"丐版"非公顯卡實測會是這個功耗左右。
為了盡可能準確,這里能耗比的計算采用的功耗都是官方標稱的TGP/TBP,而性能則取自于前面匯總的實際游戲性能指數,總得來說,由于A卡方面幾乎都是OC版顯卡,所以這樣計算的結果對于大部分A卡是有利的,不過如果采用實測功耗則會更加不準確,所以也沒辦法了,而且對于A卡內部的比較,這個計算還是很有參考性的。
相比較絕對性能的新高度來說,筆者更看重能耗比的進步,認為能耗比高低是比性能高低更能體現一款顯卡是否更先進的標志(以實際發售的性能和功耗值,不談以極低功耗換取高能耗比的方法),因為對于大多數用戶來說,絕對性能提升到新高度意義不大,因為那些高端顯卡實在太貴了,但是新的架構換來的能耗比提升卻是可以收益的。
從能耗比方面可以看到,表現最好的一款型號是Radeon RX 6600,而這在筆者當時首發測試的時候就提到過了——"Radeon RX 6600給我印象最深的是其亮眼的能耗比表現,要知道GeForce RTX 3060可是170W的整卡功耗,Radeon RX 6600在僅有其77%的功耗下可以在傳統光柵化游戲中達到與GeForce RTX 3060非常相近的游戲表現,憑這一點來說,可以認為針對傳統光柵化游戲來說Radeon RX 6600是比GeForce RTX 3060更先進的顯卡。"
所以如果你看重能耗比表現,Radeon RX 6600其實是一個非常好的型號。Radeon RX 6400雖然能耗比也幾乎一般好,但是Radeon RX 6400性能太差,實用性大大降低,就主流級顯卡來說,Radeon RX 6600這款型號確實挺不錯的。當然,前提是你不看重光追性能,還是最前面就說過的,如果看重光追性能表現,同樣的預算選擇N卡才是對的。
說到N卡的話,N卡方面能耗比最好的就是GeForce RTX 3070這個型號了,屬于中高端型號,跟Radeon RX 6600不在一個市場區間,其實這樣的結果對于消費者挺好的,也就是說如果你預算有限的話,就別追求什么光追這種極致的畫面體驗了,一張Radeon RX 6600其實挺合適的。而如果你追求光追體驗的話,那么建議至少以一套中高端的平臺來避免整個游戲體驗有短板,所以預算也建議中高級別,這樣的話GeForce RTX 3070就挺合適這部分玩家的,這兩個型號算是筆者比較推薦的兩個型號了,剛好一個N卡一個A卡,一個主流檔、一個中高檔,其實應該這就覆蓋了絕大部分游戲群體了。
最后,筆者搜集了近期電商平臺上各款型號顯卡的最低的典型價格,這里統計的是最低價格所以就沒管什么品牌和頻率了,價格方面可以看到以Radeon RX 6400為基準的話,最貴的GeForce RTX 3090 Ti是它的10.9倍,跨度可以說很大了,而其實從Radeon RX 6400到GeForce RTX 3080 Ti之間的那么多顯卡價格依次增幅還不算很大,而Radeon RX 6950 XT、GeForce RTX 3090和GeForce RTX 3090 Ti這三張則是突然就貴的離譜。
我們對于性價比的計算公式定為:性能1.3/價格0.9*500+10。從結果可以看到A卡表現非常亮眼,占據了前三甲,不過這也是因為本次性能方面只關注了傳統光柵化性能的原因。
這里要強調一下的是,不同與能耗比的測試結果,性價比受制于價格的波動在不同時間點可能會出現不一樣的結果,讀者參考的同時建議主要關注當下的價格來自己計算確認一下更好。
時間至此,關于本世代顯卡的英偉達安培架構顯卡家族與AMD RDNA 2架構顯卡家族的戰爭算是落下帷幕了,這篇文章其實就算是給這兩年之爭做的一個總結。總得來說,目前英偉達還是處在明顯的領先地位,而AMD通過合適的產品和價格定位在入門及主流檔附近形成了不錯的差異化競爭,這個大體形勢和之前可以說是一樣——也就是說入門及主流檔選A卡,中高端及高端顯卡選N卡。
具體的話,建議還是根據自己期望的游戲分辨率的環境來選擇顯卡,如果是1080p分辨率的話,Radeon RX 6600是筆者最建議的一張顯卡,考慮到目標人群的基數,綜合上性能、價格、能耗比表現,這張卡也是筆者認為這一代顯卡中最優秀的一張顯卡,而且性能低于Radeon RX 6600的顯卡型號除了有特殊需求,否則筆者也不太建議購買,Radeon RX 6600算是這一代獨顯的起步門檻。
2K分辨率的話,最推薦的是GeForce RTX 3060 Ti或者GeForce RTX 3070,根據預算選擇其中之一就好,如果實在糾結,或者預算模糊,我更加推薦GeForce RTX 3070,因為GeForce RTX 3060 Ti相比較來說性能還是與Radeon RX 6600差距不夠大,有點不上不下的感覺,而GeForce RTX 3070綜合來說是2K分辨率解決方案中最好的一張,性能足夠支撐的起來,而且能耗比排名N卡第一。
4K分辨率的話,我比較推薦GeForce RTX 3080 12GB或者GeForce RTX 3080 Ti,推薦GeForce RTX 3080 12GB算是較多的還是考慮到性價比的原因,而GeForce RTX 3080 Ti則是綜合了性能表現和價格。
最后,根據本次的測試結果,我們也相應的修正了一下我們的顯卡天梯榜,使得其與實際情況更加相符。如果以上的購買建議不能解決你的問題,也歡迎參考我們的顯卡天梯榜選擇適合自己需求的顯卡。
關于這些顯卡的光追性能對比,請留意我們接下來的測試。