南通大学生命科学学院
南通大学生命科学学院论坛已经更新,新名字为生科小屋,百度就可以找到了。地址skxw.co.cc或者skxw.sourceforge.net。欢迎光临哦!

AMD Radeon HD 7970显卡深度评测

向下

AMD Radeon HD 7970显卡深度评测

帖子 由 苍玥孤狼 于 周六 三月 17, 2012 3:50 am

历史总是惊人地相似,AMD在推出首款DirectX 11显卡以后,再次领先NVIDIA推出首款DirectX 11.1显卡—Radeon
HD 7970。这款产品对AMD来说具有划时代的意义,因为它和之前HD 2000~HD
6000系列的任何一款显卡都不同,采用了革命性的GCN图形架构,给出了未来AMD显卡的发展方向。再加上它是第一款采用28nm工艺和支持PCI-E
3.0的显卡,这使得它想不火都难。


架构演变:HD 7970的革命之路


从HD 2000系列开始,一直到HD
5000系列,AMD(ATI)显卡在架构上一直没有本质性的改变,始终采用的是VLIW5设计。新产品只是在上一代产品上小幅修改,并没有实质性的突
破。到了Cayman核心的HD 6900系列,AMD意识到既有的架构在DirectX
11游戏和不少应用中出现了瓶颈,一味堆砌核心规格并不能显著提升显卡的性能。于是我们看到,HD 6900系列首次作出了尝试。它将VLIW
5改进到VLIW
4,去掉了一个较大的ALU.trans单元,实现了四个对等的流处理单元,计算效率得到了提升。这样的设计,曾被我们称之为“自R600以来最大的架构
变革”。不过就在我们以为AMD将会遵循Cayman的“VLIW
4改革步伐”,对下一代产品进行改良和突破时,AMD却悄然推出了采用GCN(Graphics Core
Next)全新架构、代号为Tahiti核心设计的HD 7900系列显卡,实现了华丽的转身。

从今天来看,AMD推出Cayman更像是一次在改革路上的投石问路之举,真正的革命则是在Tahiti上。Tahiti的革命之处在于将AMD长
久以来坚持的VLIW架构彻底抛弃,为AMD打开了迈向未来通用计算的大门。从目前的计算趋势来看,通用计算在游戏中被大量使用后,将成为显卡性能的约束
性因素。对通用计算支持不好的显卡,在遇到需要进行通用计算处理的任务时,如多光源等较复杂的计算时性能会明显下降。目前DirectX
11游戏越来越多,需要应用到通用计算的场合也越来越多,因此AMD选择在这个时候彻底改革架构是相当明智的。另一方面,GPU计算蓬勃发展的时代已经来
临,GPU将在高性能计算领域发挥更重要的作用。而AMD过去的VLIW 5、VLIW
4架构的产品在这方面的表现并不好,远远不如NVIDIA。因此AMD欲搭上GPU计算这班高速列车的话,就势必对图形架构进行大刀阔斧的变革。

GCN图形架构解读


目前,采用Tahiti核心的主要有HD 7970和HD 7950。AMD首先发布的是HD
7970,定位于AMD单核心显卡中的旗舰产品,将接替之前的Radeon HD
6970。它在国内的官方定价为4299元,内建2048个流处理算术逻辑单元、32个CU阵列、128个纹理单元以及32个ROP(光栅处理单元),最
大浮点计算能力达到了3.79TFLOPs。该卡搭载3GB/GDDR5/384bit显存,核心频率和显存频率分别为925MHz和5500MHz。根
据AMD给出的数据,HD
7970在PowerTune最大满载功耗下是250W,一般游戏满载功耗是210W,最低功耗只有3W,需要8pin+6pin的外接供电。

HD 7950作为采用Tahiti核心的另一款产品,并没有随HD 7970一起发布。目前的消息是,AMD将在1月底或者2月初发布HD
7950。其流处理算数逻辑单元从2048个缩减到1792个,也就是屏蔽了4个CU单元。不过好在它的显存位宽依旧维持在384bit,显存容量保持在
3GB不变(下游厂商也可以缩减到1.5GB)。接下来,就让我们从图形架构层面来看看Tahiti的革命性变化吧。

_________________
——


♣️J ♥️半朵悠莲♥️
avatar
苍玥孤狼
小学生
小学生

帖子数 : 87
积分 : 2662
威望 : 6
年龄 : 25
地点 : 主校区#26.117
注册日期 : 12-02-21

返回页首 向下

回复: AMD Radeon HD 7970显卡深度评测

帖子 由 苍玥孤狼 于 周六 三月 17, 2012 3:51 am

CU单元:基于SIMD阵列的MIMD架构



AMD称GCN在架构设计上为“基于SIMD阵列的MIMD架构(GCN is a MIMD architecture with a SIMD

array)”。从AMD的官方表态上我们可以看出,GCN本身并没有彻底地转向MIMD,而是保留了SIMD的特征。那么AMD是如何在保留SIMD特
征的基础上采用MIMD架构的呢?



Tahiti拥有32组CU单元


为了解释这个问题,我们先抛开GCN架构的外围部分,从AMD宣称的CU单元,也就是“Compute
Unit”计算单元开始了解。在AMD公布的架构图中,CU单元被表示成32组黑色的、命名为GCN的块。这32组CU单元占据了架构图的绝大部分面积。
从单个CU单元来看,每个CU单元中有64个ALU(算术逻辑)单元,Radeon HD
7970标称的2048个流处理算术逻辑单元就是这样来的(32×64=2048个)。也就是说,这2048个ALU单元就是GCN架构的基础运算单元。



采用全新设计的CU单元


再进一步分析下去,每一个CU单元中,最主要的是矢量计算单元,也就是Vector
Unit。这个单元中有4个16路的SIMD计算子模块(每个SIMD模块拥有16个ALU,一共组成16路,可以处理同时并行的16个乘加指令计算),
还配备了4个64KB的矢量寄存器(每个SIMD计算子模块各1个)。这4个16路的SIMD计算子模块是CU的数据执行基础。从单个CU的角度来看,1
个CU在每个时钟周期内可以执行4个不同的16路矢量线程,可以称为MIMD(多指令多数据流)。而这4个矢量线程在执行时每个线程内都使用的是16路的
SIMD计算子模块,因此GCN在最底层上采用了单指令多数据流的设计方式。


这样一来,我们就不难理解AMD为什么称自己的产品设计为“基于SIMD阵列的MIMD架构”了。AMD依旧使用了SIMD阵列作为数据执行基础,
但在更高一级的层面上采用了四路SIMD单元并行的设计方案。在实际数据操作中,AMD设计的线程调度器会每次派发64粒度的线程给CU单元,CU单元将
其直接分配给由4个16路SIMD组成的计算单元计算,在最理想的情况下一个CU单元一个周期就可以执行64粒度的线程操作。


相比上一代Cayman采用的VLIW
4架构,虽然它看起来都是每个周期可以执行四次操作,但实际上Cayman这四次操作是有一定的“关联度”的。因为这四次操作必须来自一条指令。如果来的
指令只需要3个或者2个ALU计算,那么剩余的ALU只有闲置。但是在GCN这里,如果来的指令需要3个ALU计算,由于底层的四个16路的SIMD单元
没有强制的捆绑关系,因此可以自由处理,理论效率接近100%。举个简单例子来说,如果有2个指令,分别同时需要2个ALU计算,在Cayman的单个
VLIW
4单元执行时,这2个指令必须分两次执行。但是在GCN的CU上,可以一次执行来自两个指令的4个ALU操作,因此效率大大提升。我们举出这个孤立的例
子,仅仅为了说明GCN的数据执行效率的变化,在实际处理中,AMD会采用各种手段来尽量优化分配指令,保证高效率——这并不是本文讨论的重点,我们只需
要看到GCN在效率上相对前代产品的超高表现即可。总体而言,GCN与VLIW4(VLIW5)有一定关联,都采用并行运行方式,但两者在执行方式上却截
然不同。采用VLIW设计的产品,使用的是提取指令级(ILP)的并行方式,GCN则采用线程级并行(TLP)方式,省略了指令打包、派送、解包的过程。


说完了最重要的计算单元,CU中还有一些其它部分值得我们注意。比如除了矢量计算单元外,每个CU中还有一个用于执行整数、媒体指令和浮点原子操作
的标量单元。这个标量单元拥有4KB的标量寄存器。此外,还有与数据分支指令有关的分支和信息单元、程序调度管理单元、纹理拾取模块、纹理滤波单元、共享
的64KB只读本地数据缓存和16KB可读写L1数据缓存。这些部分在GCN架构的合理调配下,组成了精巧而灵活的CU单元。


缓存:更灵活有效的缓存设计



在之前的Fermi上,我们看到了NVIDIA设计的极为优秀、层级鲜明、灵活可读取的缓存设计,这对通用计算来说帮助相当明显。不过当时AMD的Cayman采用比较保守的VLIW 4架构,缓存设计也基本没有太多亮点。这也是Cayman通用计算能力较差的原因之一。


在新的Tahiti上,AMD彻底改进了GPU的缓存方案,采用了类似Fermi的多级高速缓存搭配。在上一部分对CU的介绍中,我们看到了CU设
计了缓存单元。实际上CU中的缓存仅仅是整个GCN架构缓存设计的一部分。除了每个CU中的标量单元和矢量单元都有自己的独立缓存外,每4个CU单元还可
以共享16KB的矢量缓存以及32KB的指令缓存。另外每个CU还拥有16KB的L1可读写缓存,所有L1缓存都可以通过全局数据存储进行共享,这样32
个CU一共拥有512KB的L1缓存。


除了L1缓存外,GCN还设计了可读写的L2缓存。L2缓存直接连接了显存控制器和L1缓存。每个显存控制器通道上连接的L2缓存都通过64bit
位宽的总线和L1相连接,每个通道的L2缓存的容量为128KB。目前GCN架构的Radeon HD
7970拥有6个64bit的显存控制器,组成了384bit的显存带宽,因此L2缓存总量为768KB。



Tahiti使用了丰富的缓存设计


Tahiti如此设计L2缓存还带来了一个优势,那就是它的缓存可以与CPU内存数据同步,这样在通用计算中能大幅度提高GPU和CPU的数据交换
能力。除此之外,Tahiti也能够支持X86虚拟内存功能。这个功能的主要作用是将GPU的显存映射为CPU的内存,CPU可以直接读取GPU显存中的
数据,速度要比读取调用内存、硬盘中的数据速度快很多,能大幅度降低延迟。



Tahiti使用了丰富的缓存设计


纵观GCN的缓存设计,Tahiti形成了自己多层级的、可读写的缓存存取方案,不但大大改善了GCN架构的通用计算效能,也顺带提升了GCN架构在多种应用环境下的实际表现,让存储成为计算瓶颈的可能性大大降低。


曲面细分、ROP等功能:继续增强



在基本了解了AMD是如何设计GCN的核心部分、CU单元以及缓存设计后,我们从宏观角度来观察这颗芯片的其他方面的设计情况。


首先从架构顶端来看,GCN虽然和之前的Cayman比较类似,但加入了两个被称作ACE的引擎。ACE全称是Asynchronous
Compute
Engine,异步计算引擎。它的作用是调配管理所有的线程和任务队列,根据任务优先级优化和排序,并最终将这些任务发配给CU单元进行计算。这大大增强
了Tahiti对任务的优化排序能力,更有效地降低了计算中的无谓浪费和等待时间,同时也提升了缓存的使用效率。从数据处理的本质来看,图形计算依旧是顺
序执行,GPU需要按照处理顺序一步一步地执行操作。ACE单元虽然不能像X86的CPU那样做到乱序执行,但至少能在目前有限的操作空间内大幅度提升
GPU的效率。从互联角度来看,ACE联系了几乎所有的全局缓存、几何引擎以及指令处理单元。这也说明了其重要性。


AMD显卡的曲面细分能力一直为人所诟病,为此在AMD在Cayman上设计了双几何处理引擎,以加强曲面细分的性能。在Tahiti上,AMD继
续沿用了这种设计,并宣称该双几何处理引擎从Cayman的第八代进化到第九代。根据AMD提供的官方数据来看,新的几何处理器引擎在加入了ACE的控
制、提高了缓存设计以及强化了相关单元的情况下,相比Cayman至少可以达到1.8倍左右的性能提升(在5级的曲面细分下),最多可以达到4倍的提升
(在14级曲面细分系数下)。在更高的曲面细分系数如20级以后,至少也有3.5倍的性能提升。


接下来是Tahiti的ROP和显存控制器设计。以Radeon HD
7970为例,这款显卡拥有32个ROP单元,每周期可以执行32个色彩处理以及128个Z/Stencil处理。从参数来看,虽然ROP数量相比上代
Cayman的产品没有提升,但和ROP性能有关联的显存带宽得到了提升—这是AMD近年来首次采用384bit显存位宽,相比上代256bit提升了约
50%。再加上AMD一贯的高频率显存,采用GCN架构的Radeon HD
7970的显存带宽高达264GB/s。更高的显存带宽,在对显存带宽渴求度比较高的应用如抗锯齿、高分辨率等计算中,会有比较明显的性能提升。


AMD的新功能:全面看HD 7970



在看完有关GCN架构的相关知识后,我们接下来将展示GCN架构目前唯一一款产品——HD 7970的一些新技术和新功能。


28nm加持:晶体管数量最多的产品



AMD在工艺上的把握相比NVIDIA要更为激进一些。基本上近年来的新工艺都是AMD抢先使用并推出成品上市,例如最早采用40nm工艺的HD
4770。在28nm上,如果单纯从发布时间看,AMD这次至少领先NVIDIA一个季度左右。Radeon HD
7970就是AMD首先尝试了T***C的28nm HP工艺的代表产品。


T***C在28nm工艺上首次采用了HKMG(高K金属栅极)和Gate-last两种技术。首先,高K金属栅极之前在英特尔的45nm产品上就开
始采用。其主要特点是采用高介电质材料,提高栅极介电常数,可以更好地分隔栅极和晶体管的其他部分,和大幅度降低漏电电流。T***C是首次使用HKMG材
料于晶体管制造中,并且是更为精细的28nm产品,难度可想而知。其次,Gate-last技术和之前技术的不同在于,需要进行高温退火等多个步骤,最后
才形成金属栅极。这种新技术可以将晶体管的门限电压控制得相当出色,在保持晶体管密度不变外,还能够带来额外的硅应变力。不过这些新技术也有一定问题。主
要是新工艺生产的晶体管的产品结构很难实现平整化,必须要在设计端就开始进行调整和改动。在这一点上,AMD肯定没有少花功夫,在产品设计之初就应该和
T***C进行了深入的合作,并且最终将这些合作结果反映在实际产品中。目前T***C的28nm产品分为四种,Tahiti采用的是代号为28HP的
High-K金属栅极(HKMG)的高性能工艺。该工艺用于制造高性能处理器和GPU产品,拥有最好的每瓦特性能,频率也可以得到2GHz以
上,NVIDIA也有可能选择这个工艺制造自己的下一代GPU。



采用28nm工艺生产的Tahiti核心


从最终产品来看,HD 7970在拥有43亿晶体管的情况下,核心面积比40nm的HD 6970反而更小,仅有365平方毫米(HD
6970是389平方毫米)。这样计算下来,晶体管增加60%,面积缩小了6%。可见T***C的新工艺相比上代产品有大幅度进步,几乎拥有40nm工艺2
倍的晶体管密度。另外,HD
7970不但核心面积更小,功耗更低,超频能力也相当强悍。默认电压下突破1GHz比较轻松,而更高的频率如1.2GHz、1.3GHz也不少见。联想到
AMD在HD
7970的PCB上减省了一相供电和GPU核心如此强大的超频潜力,我们有理由相信AMD在未来将推出更高频版本的产品来应对NVIDIA的竞争。



显卡生产工艺的进化


不过新工艺早期毕竟存在一些风险,AMD早在12月底就在国外纸面发布了HD
7970,国内的上市日期则一拖再拖到2011年1月9号,才正式发布和上市。根据一些渠道消息,第一批销售的Radeon HD
7970的数量并不多,可能还存在T***C良率较低、产能不足的影响在内。



台积电的28nm工艺栅极平面图


加了0.1:首款支持DirectX 11.1的显卡



这次除了架构上的变化外,HD 7970还能够支持最新的DirectX 11.1。目前来看,DirectX
11.1暂时没有什么用处,因为它要等到Windows 8发布的时候才会正式面世。不过AMD自从在Radeon
X800系列的DirectX支持上吃了亏以后,从此紧跟微软步伐,不但首发了DirectX 11产品,这次也特别首发了DirectX
11.1的产品,足以看出AMD对DirectX的重视程度。


一般来说,DirectX产品中带0.1的版本改进都颇小,基本上是增添一些附加功能。在之前的DirectX 10到DirectX 10.1上,增加了一些对光影处理的内容,而采用它的游戏也屈指可数。这次在DirectX 11.1上,情况也差不多。


DirectX 11.1最重要的改进在于3D立体技术被写入D3D
API中。这样一来,游戏厂商开发支持3D立体视觉的游戏就更为简单。目前市场上比较流行的3D立体效果,除了NVIDIA的3D
Vision外,还有AMD和厂商联合推广的HD3D,这些技术本身都带有一定的厂商倾向性。但DirectX
11.1加入了对3D立体技术的支持,使得业界有了一个统一标准。不过DirectX 11.1对3D立体技术的支持并非是封闭和排他的,DirectX
11.1不排斥第三方3D立体方案,厂商可以自由选择。其他方面,DirectX
11.1比较重要改进的有目标独立光栅化等功能,不过对普通用户来说暂时看不出有太多视觉上的改变,还有如FP64双精度浮点支持等对普通用户来说就更为
遥远了。


在更底层方面,DirectX 11.1带来了新的Windows显示驱动模型WDDM 1.2,以及新的DirectX图形基础架构DXGI
1.2。这些新技术和新架构主要在于改善GPU本身的自由度和控制能力。相信很多用户,特别是使用AMD显卡的用户都遇到过这种情况:在GPU失去响应的
时候,系统经常会重置整个GPU,带来的是屏幕瞬间黑屏或者短暂地失去响应。虽然很少丢失数据,但也给用户带来了诸多不便。在WDDM
1.2和Windows
8的共同作用下,GPU被分成很多个区域,这些区域在遇到问题的时候会只重启区域本身,而不影响别的区域。这样一来对用户的影响就小很多,甚至完全没有任
何感觉就完成了对出现错误的GPU的重置行为。


总的来说,DirectX 11.1的改进很小,本身没有太多在图形优化上的重头内容,只能算是一次功能的增加,因此玩家目前完全不需要在意DirectX 11.1的支持问题。


3.0时代:首款支持PCI-E 3.0的显卡



PCI-E总线也是发展速度相当快的技术标准。从早期的PCI-E 1.0每通道单向250MB/s的第一代产品,到现在PCI-E
3.0每通道单向速度1GB/s。PCI-E用每代翻番的严格要求完成了速度飞跃,Radeon HD 7970就是首款采用了PCI-E
3.0总线的显卡产品。


从技术角度来看,PCI-E 3.0本身除了速度更快、带宽更高外,在功耗、数据传输等方面都作出了相应的改进。对显卡来说,PCI-E
3.0除了提供给单卡更充足的数据带宽外,对多卡系统比如SLI和CrossFireX等也有相当强的实际意义。它大幅降低了数据传输的性能瓶颈,能够支
持更多显卡互联,发展前景相当广阔。但就目前来看,PCI-E带宽还没有成为阻碍显卡性能发挥的瓶颈,暂时来说PCI-E
3.0的意义还不大,只有等到未来进一步有新显卡诞生后,PCI-E 3.0高带宽的优势才能逐渐体现出来。


新架构性能如何?HD 7970性能测试




曲面细分性能是HD 7970重点改善的地方


究竟采用号称革命性架构的HD 7970的性能如何?在本章节中,我们将为你呈现HD 7970的各方面性能表现。接下来,我们将组建以英特尔Core i7 3960X处理器为主的平台,对HD 7970及相关显卡进行全方面的测试。


测试平台



处理器英特尔Core i7 3960X
主板ROG玩家国度Rampage Ⅳ Extreme
显卡HD 7970、HD 6990、HD 6970、HD 6950、
HD 7970 CrossFireX(3Way CrossFireX、4Way CrossFireX)、
GTX 580、GTX 590(都采用公版显卡,运行在公版频率下)
内存金邦DDR3 2133 4GB×4
电源长城金牌巨龙1250
系统Windows 7 64bit旗舰版


我们将选取3DMark 11、3DMark
Vantage这两个权威的显卡基准测试软件,对参测显卡的理论基准性能进行测试。同时,会用Unigine Heaven Benchmark
2.5对参测显卡的理论曲面细分性能进行考量,来看看对曲面细分性能进行优化过的HD
7970会有怎样的表现。在游戏选择方面,我们精选了8款有代表性的游戏。有发布不久的《上古卷轴5:天际》,有代表了最新的DirectX
11技术的《失落的星球2》、《尘埃3》,也有人气游戏大作《使命***:现代战争3》,更有号称“显卡杀手”称号的《地铁2033》、《孤岛危机2》。为
了考察HD 7970在通用计算方面的改进,我们选取了GPCBenchmarkOCL和ComputeMark这两款软件对其进行测试。



点击查看清晰大图


HD 7970 VS. HD 6970:压倒性优势



从VLIW 5到VLIW 4,再到GCN,HD 7970完成了华丽的转身。新架构使得它完胜上一代旗舰产品HD
6970,整体领先幅度达到了30%以上。例如在《尘埃3》、《地铁2033》(均运行在1920×1080、最高画质)的测试中,HD
7970的领先幅度分别达到了33%和48%。甚至它在一些项目的测试中,领先幅度高达50%以上。例如在3DMark Vantage
Extreme和《失落的星球2》的测试中,HD 7970的领先幅度分别为53%和67%。HD 7970领先HD 6970并不意外,HD
7970无论是流处理器算术逻辑单元、核心频率、显存带宽、显存容量等主要影响显卡游戏性能的规格参数都远远领先HD 6970。


HD 7970 VS. GTX 580:优势明显



HD 7970借助新架构所得的优势不仅仅体现在与HD 6970的对比中,它还全面领先了曾经的单核心旗舰王者GTX
580,领先幅度在15%左右,优势比较明显。例如在《尘埃3》、《战地3》、《失落的星球2》、《地铁2033》中,HD
7970的领先幅度分别达到了12%、15%、17%、29%。特别是在《失落的星球2》、《地铁2033》这两款“The Way It's
Meant To Be Played”游戏中,HD 7970一改以往AMD显卡不给力的印象,性能大幅领先GTX 580。


出现这样的结果,除了HD
7970采用全新的架构、采用线程级并行(TLP)方式,效率更高,以及加入了丰富的缓存设计之外,还和其采用384bit显存位宽有关。近年来,AMD
显卡的顶级显卡无一例外都采用的是256bit显存位宽,导致其显存带宽不敌同档次的NVIDIA显卡(采用384bit显存带宽)。以同为单核心旗舰的
HD 6970和GTX 580为例,前者虽然显存频率高达5500MHz,但受限于256bit显存位宽,显存带宽只有176GB/s。而GTX
580的显存频率虽然只有4008MHz,但得益于384bit显存位宽,使得其具备了192.4GB/s的显存带宽。而现在HD
7970采用了384bit位宽,显存带宽达到了264GB/s,远远领先GTX 580,整体性能更强也就在情理之中了。


另外,我们注意到HD 7970在《地铁2033》的领先幅度达到了29%,超出了HD 7970领先GTX
580的平均领先幅度。这是因为《地铁2033》是一款以“高纹理”设计见长的游戏,而HD 7970在HD
6970的基础上增加了32个纹理单元,达到了128个纹理单元,纹理单元数量刚好是GTX 580的一倍。因此,HD
7970能够在这款号称“显卡杀手”的游戏中获得更明显的优势。


HD 7970 VS. HD 6990:性能差距不算大



GCN新架构的采用,使得HD 7970具备了和上一代AMD双核心旗舰HD
6990比拼的能力。整体来看,在总共11个3D性能测试项目中,HD
7970在《失落的星球2》、《上古卷轴5:天际》这两个项目中领先HD6990,领先幅度在10%左右;在《使命***:现代战争3》、《孤岛危机2》这
两个项目中互有伯仲;在3DMark Vantage Extreme、《地铁2033》等余下的7个测试项目中落后HD
6990,落后幅度在18%左右。






HD 7970 4Way CrossFireX将是玩家冲击记录的利器


虽然我们对采用新架构的HD 7970充满了期待,不过由于规格上的差异较大,其性能仍然不敌双核心的HD 6990。但作为一款单核心的产品,HD 7970已经初步具备了挑战HD 6990的实力,让人不容小觑。


HD 7950性能预测:落后HD 7970 10%~15%?



虽然HD 7950尚未发布,但这并不影响我们对其进行性能预测。HD 7950和HD 7970相比,主要是流处理算术逻辑单元数量缩减到1792个,被屏蔽了4个CU单元,显存位宽和显存容量保持不变,分别为384bit和3GB。


考虑到HD 7950和HD 7970的规格差异不算大,主要是流处理算术逻辑单元数量被缩减了。结合HD 6970和HD
6950之间的性能差距,以及综合我们过去对AMD顶级单核心显卡和次一级单核心显卡的评测经验,我们大胆预测HD 7950的综合游戏性能将落后HD
7970 10%~15%。


另一方面,结合本次11个3D游戏测试项目来看,HD 7970的性能领先HD 6950 50%左右。再加上上文我们对“HD
7950的综合游戏性能将落后HD 7970 10%~15%”的预判,我们推测HD 7950的综合游戏性能将领先HD 6950 35%~40%。


HD 7970 CrossFireX:效率大爆发



两块HD 7970组成的CrossFireX系统的效率和性能,将是HD 7970的又一个看点。从测试结果来看,我们可以用“惊艳”来形容HD
7970 CrossFireX系统的效率。众所周知,借助DirectX 11的统一渲染架构和AMD自身的优化,AMD HD 5000、HD
6000系列显卡的CrossFireX效率节节攀高,HD
6850(6870)CrossFireX就是典型代表。不过这主要是针对中高端产品而言,而由于种种原因顶级的单核心显卡组建的CrossFireX效
率反而没有那么明显。


而HD 7970在采用新的GCN架构、使用线程级并行(TLP)方式以后,可以一次执行来自两个指令的4个ALU操作。而之前采用VLIW
4、VLIW 5架构的AMD显卡则需要分两次来执行上述操作。显然,HD
7970的执行效率得到了大幅提升,这种提升显著反映在CrossFireX的执行效率上。可以看到,HD 7970
CrossFireX在绝大部分测试项目中,相对于HD
7970都保持了90%,甚至100%的性能提升——这样超高的执行效率对单核心的旗舰显卡来说是非常难得的。例如在3DMark 11
Extreme、Unigine Heaven Benchmark 2.5、《尘埃3》、《战地3》、《异形大战铁血战士》、《地铁2033》上,HD
7970 CrossFireX的提升效率都非常接近100%或者已经达到了100%。


HD 7970 3Way CrossFireX、4Way CrossFireX:3DMark 11 Extreme分数破万



对那些发烧玩家和以冲击记录为目的的玩家来说,他们更关心HD 7970 3Way CrossFireX、4Way
CrossFireX的性能表现。测试结果表明,HD
7970多路CrossFireX系统的确可以大幅提升3DMark等基准测试软件的性能。在3DMark 11 Extreme测试中,HD 7970
3Way CrossFireX较HD 7970、HD 7970 CrossFireX分别提升了183%和45%;HD 7970 4Way
CrossFireX较HD 7970、HD 7970 CrossFireX、HD 7970 3Way
CrossFireX分别提升了265%、87%、29%。值得一提的是,HD 79704Way
CrossFireX取得了X10037的高分数。同样地,多路CrossFireX在Unigine Heaven Benchmark
2.5测试中亦有上佳的表现。



用HD 7970组建的三屏系统,可以在高分辨率下获得更舒适的游戏体验。


不过在实际游戏中,多路CrossFireX的表现相对就比较差了。这其中,HD 7970 3Way
CrossFireX的游戏表现稍好,例如在《尘埃3》测试中,相对HD 7970、HD 7970 CrossFireX,HD 7970 3Way
CrossFireX的性能分别提升了121%、20%。而HD 7970 4Way
CrossFireX的表现则比较糟糕了,在总共5个游戏测试项目中,除了《异形大战铁血战士》以外,在另外4个测试项目中性能不但没有提升,反而有所下
降。这个测试成绩也和过去我们对AMD显卡的多路CrossFireX系统的测试结果基本吻合。这再次说明,如果单纯从提升游戏性能的角度出发,最多只需
要组建3Way CrossFireX,4Way CrossFireX已经没有实际意义了。4Way
CrossFireX的意义在于可以显著提升3DMark的分数,帮助玩家冲击记录。


表3:HD 7970组建多路CrossFireX的成绩




HD 7970
3Way CrossFireX
HD 7970
4Way CrossFireX
3DMark 11 ExtremeX7789X10037
Unigine Heaven Benchmark 2.5 1920×1080
Shader(High)、Tessellation(Extreme)
150.2174.2
《尘埃3》

1920×1080、最高画质212.2(153.4)N/A
1920×1080、最高画质、8AA 204.25(153)204.25(153)N/A
《失落的星球2》

1920×1080、最高画质122.2(31)102(41)
1920×1080、最高画质114.5(30)97.7(39)
《异形大战铁血战士》

1920×1080、高画质、16AF280.5(173)342(214)
《战地3》

1920×1080、最高画质、16AF164.8(122)160.5(110)
1920×1080、最高画质、4AA、16AF133.8(120)157(96)
《孤岛危机2》

1920×1080、超高画质、DX11、高材质纹理85.6(74)73.5(38)
1920×1080、最高画质、DX11、高材质纹理100(98)100(97)
PC待机功耗123W127W
PC满载功耗988W1243W


在测试中,我们注意到对A卡进行了特别优化的《异形大战铁血战士》,对多路CrossFireX支持得很好。以HD 7970 3Way
CrossFireX为例,它的性能分别领先HD 7970、HD 7970 CrossFireX 198%和49%。即使是HD 7970 4Way
CrossFireX,相对HD 7970 3Way CrossFireX亦有22%的性能提升,相对HD
7970则有高达264%的性能提升。不难看出,多路HD 7970系统在该游戏的提升幅度基本和3DMark等基准测试软件的结果相符合。


另一方面,多路CrossFireX在测试中也遇到了一些问题。例如HD 7970 4Way
CrossFireX在运行《尘埃3》时,不断出现死机问题,无法获得测试结果;同样的情况也出现在其他游戏中,只是在其他游戏中,我们可以通过重新启动
游戏、反复测试等手段来获得测试结果,而《尘埃3》却无法做到。总体而言,我们建议那些打算组建HD 7970
CrossFireX的用户,如果你不是“跑分党”的话,从功耗、效率和价格综合考虑,组建HD 7970 CrossFireX是最合适的,HD
7970 3Way CrossFireX 、4Way CrossFireX意义不大。



HD 7970 4Way的3DMark 11 Extreme分数破万


HD 7970(CrossFireX)三屏表现:基本令人满意



Eyefinity作为AMD独有的多屏显示技术,在游戏、金融等许多领域有广泛的应用前景,一些游戏发烧玩家以Eyefinity技术为基础,组
建三屏系统,以获得更高的分辨率和更好的游戏体验。因此我们特意组建了三屏系统,来看看HD
7970能否具备在5760×1080超高分辨率下流畅运行游戏的实力。从4个游戏和一个基准测试软件的测试结果来看,HD
7970的性能损失比较严重,普遍在50%以上。例如在《尘埃3》、《孤岛危机2》中,三屏下的HD 7970的性能较单卡性能分别下降了53%
和60%。好在HD
7970的性能足够出色,除了《孤岛危机2》以外,它在余下4个游戏中都保持了40fps的帧率(包括在抗锯齿模式下),基本满足了流畅运行游戏的需求。


表4:HD 7970(CrossFireX)在三屏下的游戏性能




HD 7970HD 7970 CrossFireX
Unigine Heaven Benchmark 2.5 1920×1080
Shader(High)、Tessellation(Extreme)
21.543
《尘埃3》

1920×1080、最高画质45(37.53)83.76(70)
1920×1080、最高画质、8AA40(33.75)76(64.8)
《失落的星球2》

1920×1080、最高画质45.4(31)81.8(54)
1920×1080、最高画质 4AA36.7(22)66.6(33)
《异形大战铁血战士》

1920×1080、高画质、16AF45.3(23)89(46)
《孤岛危机2》

1920×1080、超高画质、DX11、高材质纹理18.6(16)36(32)
1920×1080、最高画质、DX11、高材质纹理36(33)67(58)


此外我们还组建了HD 7970 CrossFireX系统,在三屏下进行了游戏测试。HD 7970
CrossFireX在三屏下依旧延续了超高的效率,相比HD
7970单卡在三屏下的性能有近100%的性能提升,流畅运行游戏没有任何问题。不过由于驱动优化的问题,在使用CrossFireX系统运行在三屏下
时,不时会出现游戏无故退出,或者需要多次启动游戏才能运行的问题。


HD 7970:通用计算能力攀新高



HD
7970除了大幅提升游戏性能之外,其通用计算方面的改进尤其令人关注。究竟在使用了新架构、改进了执行效率,和增加了丰富的缓存设计以后,它的通用计算
性能能否有大幅提升呢?我们使用GPCBenchmarkOCL和ComputeMark这两款软件对其进行测试。GPCBenchmarkOCL是一款
基于OpenCL的测试软件,可以全面测试和评估GPU在通用计算方面的性能以及底层的性能。例如可以测试出GPU的峰值计算性能,GPU在各种实用算法
中的实际性能。ComputeMark在技术上基于由Jan Vlietinck开发的Fluid3D
Demo,号称可以“百分之百测试DX11Compute Shader的基准测试工具”。它在一般情况下能够调动99%的GPU资源,可以深度测试HD
7970的通用计算性能。



HD 7970的核心频率可以轻松超频至1000MHz以上,并通过FurMark稳定测试。


两款测试软件的结果都表达出一个明确的信号:HD 7970在新架构和丰富的缓存设计的帮助下,通用计算性能提升到一个令人吃惊的地步。从GPCBenchmarkOCL的测试来看,HD 7970的总分分别领先HD 6970、GTX 580高达176%和58%。



新版的催化剂控制中心拥有更丰富和人性化的界面


例如在全局存储器、局部存储器的子项测试中,HD 7970都有出色的表现。特别是局部存储器的子项测试,HD
7970的多层缓存架构体系使得它在该项测试中获益良多,性能领先HD 6970高达524%。这是因为HD 6970仍然采用的是VLIW
4架构,没有引入缓存设计,测试大幅落后也就在情理之中了。而和同样具备丰富的缓存设计的GTX 580相比,HD
7970也不逞多让,也获得了51%的领先优势,从侧面反映出HD 7970高效的缓存架构设计。



HD 7970 4Way CrossFireX在FurMark拷机时,四颗GPU核心的温度明显提升了不少。


GTX 580唯一占优势的是双精度的实际计算性能。首先是双精度浮点运算子项,HD 7970领先GTX 580达310%,反映出HD
7970优秀的双精度浮点运算性能。但在常用数学方法(双精度)子项上,GTX 580却反而领先HD 7970 20%。这说明虽然GTX
580的双精度浮点运算性能不如HD 7970,但在一些常见应用方面的双精度性能却领先HD
7970。双精度性能主要和高性能计算有关,这个测试结果也和GTX 580在高性能计算领域的地位相吻合。


在ComputeMark测试方面,HD 7970继续着良好的势头,分别领先HD 6970、GTX 580达109%和80%。这说明,HD 7970的Compute Shader性能更强,在加速图形后期处理、随机访问等方面的效率更高。


HD 7970的曲面计算能力:比GTX 580更强



坦白说,HD 7970相对于HD 6970在有关曲面细分性能的硬件规格上并没有作明显的改进和提升,但AMD却宣称HD
7970的曲面细分性能有了长足的进步。我们利用Unigine Heaven Benchmark 2.5对HD
7970进行测试后发现,它的曲面细分性能很强,性能分别领先HD 6970、GTX 580达78%和19%,一改HD 5000、HD
6000系列显卡曲面细分性能低下的局面。


表5:HD 7970与相关显卡在通用计算性能方面的对比




HD 7970HD 6970GTX 580
ComputeMark311714931730
GPCBenchmarkOCL6145.52223.33883.4
全局存储器225.5126.6208.6
局部存储器238.539.1158.1
单精度浮点运算377.9123.6187.4
双精度浮点运算1056.80257.2
常用数学方法(单精度)563.1422.8965.3
常用数学方法(双精度)1164.701401.6
图像处理1573.7889.9417.9
密码学945.2621.3287.2


HD 7970在没有明显提升有关曲面细分性能的硬件规格的情况下,仍然大幅提升了其在Unigine Heaven Benchmark
2.5下的性能,主要原因有两个。一则是,HD 7970的硬件规格得到了长足提升,综合3D性能明显得以加强(Unigine Heaven
Benchmark 2.5除了侧重曲面细分的测试以外,还有大量其他场景,可以综合测试显卡的3D性能);二则是,HD
7970使用了全新的GCN架构,优化了执行指令的方式,整体效率更高,从而提升了它的曲面细分性能。


HD 7970的超频表现:上1GHz无压力



28nm工艺究竟会给HD 7970带来怎样的超频表现呢?我们利用催化剂控制中心,轻松将HD 7970超频至1125MHz、6300MHz,3DMark 11 Exreme模式的性能提升了18%。而且此时其GPU满载温度也只有80℃,PC满载功耗为393W。


HD 7970的功耗、温度表现:控制得不错



采用28nm工艺生产的HD
7970的PC待机功耗为为117W,是参测显卡中表现最好的。在PC满载功耗方面(使用FurMark进行拷机),HD
7970所在的平台达到了422W,比HD 6970、GTX 580所在的平台分别高了36W和8W。虽然HD
7970采用的是28nm工艺,但考虑到其硬件规格参数有大幅的提升,而且还将PC满载功耗基本控制在和上一代同档次显卡的水平,我们认为它的功耗控制还
是基本令人满意的。


温度表现方面,HD
7970借助28nm工艺将待机温度和满载温度分别控制在32℃和79℃上,这个测试结果在同档次显卡中属于很优秀的表现。相对而言,由HD
7970组成的CrossFireX系统的PC功耗就比较高了。以HD 7970
CrossFireX为例,它的PC满载系统功耗达到了690W。好在两颗Tahiti核心的温度并不高,分别为32℃和86℃,在可以接受的范围内。


不过HD 7970 3Way Cros sFi reX、4Way
CrossFireX的表现就没有那么好了,它们的PC满载功耗分别达到了988W和1243W。HD 7970 4Way
CrossFireX在满载状态下,四颗核心的满载温度更是分别达到了79℃、88℃、87℃、92℃。


首批抵达《微型计算机》评测室的HD 7970显卡一览



迪兰HD7970 3G






核心频率 925MHz
显存频率 5500MHz
价格 4699元


蓝宝HD7970 3G






核心频率925MHz
显存频率5500MHz
价格4699元


镭风HD7970龙蜥版3072M






核心频率925MHz
显存频率5500MHz
价格4299元


HD 7970:自我超越,全面胜利



如果非要用一个字来形容HD 7970的话,“新”是非常合适的:全新的图形架构、全新的游戏性能、全新的曲面细分性能、全新的功耗表现、全新的交火效率、全新的生产工艺。


没错,HD
7970是一款从里到外都是全新的产品,实现了自我超越,是一场全面的胜利。AMD在认识到未来图形发展的趋势和自身的不足后,终于抛弃了沿用多年的
VLIW架构。而事实证明,这是卓有成效的。无论是图形计算还是通用计算,它都达到了一个新的高度,单卡卡皇的地位毋庸置疑。特别是通用计算,它设计了丰
富的缓存结构,无疑更适合进行这方面的工作,具备了进军高性能计算领域的潜力。虽然该显卡在硬件层面上已经做好了拥抱通用计算的准备,并在一些理论测试软
件上获得了不俗的成绩,但要获得市场和行业用户的认可还有一个较长的过程。友商NVIDIA之所以在高性能计算市场上节节开花,除了借助专为通用计算进行
优化的Fermi以外(硬件层面),还拥有丰富的、基于CUDA开发的一整套软件。而AMD目前在这方面还无法和NVIDIA相抗衡。另外,据我们所知在
整个HD 7000系列产品中,暂时只有高端显卡采用了全新的GCN架构,中低端产品依旧会坚持VLIW 4甚至VLIW
5的架构,更专注于游戏性能。这和NVIDIA在中低端产品上剔除有关高性能计算单元、更注重游戏性能的做法有异曲同工之处。


而HD 7950虽然还没有发布。但据悉,AMD将从它发布伊始就开放非公版授权,届时会有大量非公版涌现。当然,真正的高手是无惧挑战的。HD
7970马上就将遇到挑战者—代号为“开普勒”的NVIDIA下一代产品即将发布。届时又将是一场激动人心的王者之争,预知胜负,敬请关注~

_________________
——


♣️J ♥️半朵悠莲♥️
avatar
苍玥孤狼
小学生
小学生

帖子数 : 87
积分 : 2662
威望 : 6
年龄 : 25
地点 : 主校区#26.117
注册日期 : 12-02-21

返回页首 向下

返回页首


 
您在这个论坛的权限:
不能在这个论坛回复主题