想要 显著 处理器 的提升性能,无外乎四种方法:改进微处理器架构、增加处理器核心数量、提升频率以及增加二级缓存。而就目前的使用环境来说,有的时候增加处理器核心数量并不能很好的带来性能提升,而架构更新一般属于整代产品更新之际才能出现。因此在需要沿用数年相同架构的处理器来说,主频和二级缓存则成为了提升性能,拉开产品差距的主要手段。

你能看的出来哪个是老肉哪个是新肉么?
Intel Penryn 45nm 处理器虽然在架构上与之前的酷睿处理器架构差别不大,但是一些改良还是让新一代的 Intel 45nm 处理器有了更好的表现。比如增添的 47 条影音多媒体指令 (SSE4 指令集,架构的优化,更高的主频,更大的二级缓存,更低的功耗,等等
下面简单的讲下 45nm penryn 同老 core 性能上的优势
在 Intel 的酷睿 2 双核心处理器设计中,每个独立的核心都有自己的一级缓存,酷睿微架构透过核心内部的 “Shared Bus Router” 来共享的二级缓存,例如当一个核心处理完数据并将其存放在二级缓存中时,另外一颗核心便可通过 “Shared Bus Router” 来读取另一个核心存放在二级缓存中的数据,这样的数据读取和交换速度要远远大于通过前端总线进行数据传递,而 L2 & DCU Data Pre-fetchers 及 Deeper Write output 缓冲存储器的采用更是加大了缓存的命中率, “Shared Bus Router” 和 “Bandwidth Adaptation” 技术还分别优化了数据传输排程和共享前端总线时候的效率。这也是酷睿微架构具有优异性能的一大原因。虽然具有上述这些技术让酷睿微架构具有强劲的性能,但是面对通过前端总线进行数据交换的四核心处理器来说,酷睿微架构的性能发挥却收到了一定的制约。
Penryn 45nm 处理器的二级缓存容量相比 65nm 的二级缓存增加了 50% ,双核心产品二级缓存容量最大可达至 6MB 、四核心更是达到了 12MB , Intel 也是考虑到了四核心的一些限制问题,因此提升到了 24 路组相联 (24-way set Associative) ,令二级缓存命中率进一步提升,从而让性能获得更好表现。
此外, Penryn 45nm 处理器加入了名为 “ 增强高速缓存拆分负载功能 (Split Load Cache Enhancement)” 的全新技术。当需要数据读取时,如果数据位于两个不同的高速缓存当中时,将会对在高速缓存中的数据进行拆分,让一个高速缓存进行数据读取,其速度要高于数据在两个高速缓存中进行读取和处理要快上许多。该技术我们可以看成是酷睿微架构中高速智能缓存技术的增强版本。
原有的酷睿微架构可以支持每个周期同时处理 4 个指令,并且重新使用了较高效率的 14 层 “Pipeline Stages” (流水线处理站)。
Penryn 45nm 处理器在原有的架构上对除法器进行了改良, Intel 称其为 “Fast Radix-16 Divider 快速 Radix-16 除法器 ” 。改良之后的除法器在运行科学计算、三维坐标转换和其他数学密集型运算的时候,会带来比原来高两倍的运算速度,并可以加速浮点和整数运算的速度。其重要原理就在于,通过 Radix-16 除法器的采用,使得当面对基数提升到 16 的运算时,该功能会每次运算出 4 位商值,将运算延迟缩短了一倍。
Intel 在酷睿微架构中加入 128Bit-SIMD 整数运算 (Interger Arithmetic) 及 128bit SIMD 双倍精准度浮点运算 (Floating-Point Operations) 单元。旧有的处理器执行 128Bit 的 SSE 、 SSE2 及 SSE3 指令时,需要把指令分拆为 2 个 64Bit 指令,在 2 个频率周期完成,但酷睿微架构则只需要一个频率周期便能完成,执行效率提升了一倍。经过多年的推广, SSE 指令集已经被目前的绘图、影音、压缩、加密、数学运算等应用所广泛采用,而单周期 128Bit 的处理器能力则成倍地提高了运算效率。
Penryn 45nm 处理器在这些方面也进行了改良,其加入全新 Super Shuffle Engine (超级流水线引擎),可以让 SSE 指令更具效率的运行。以往在处理 128Bit 宽度的字节 (Byte) 、字 (Word) 及双字 (DWord) SSE 数据时,是无法在一个周期内完成,而超级流水线引擎的加入可让这些不同性质的 128Bit SSE 指令,在 1 个周期内便可完成,减低延迟及吞吐量。
SSE 4.1 指令集

在 Penryn 45nm 处理器中, Intel 加入了全新的 SSE4.1 指令集, SSE4 指令集目前分为 4.1 和 4.2 两个版本。其增强指令主要针对向量绘图运算、 3D 游戏、视音频编码加速及协同处理加速方面。
Intel 指出,加入的 SSE4 指令集让 Penryn 45nm 处理器增加了 2 个不同的 32Bit 向量整数乘法运算单元,并加入 8 位无符号 (Unsigned) 最小值及最大值运算,以及 16Bit 及 32Bit 有符号 (Signed) 运算。在面对支持 SSE4 指令集的软件时,可以有效的改善编译器效率及提高向量化整数及单精度代码的运算能力。同时, SSE4 改良插入、提取、寻找、离散、跨步负载及存储等动作,令向量运算进一步专门化。
SSE4还加入了六条浮点运算指令,支持单精度、双精度浮点运算及浮点产生操作,可立即转换其路径模式,大大减少延误,这些支持将会在3D游戏及对浮点运算能力非常敏感的领域起到积极的效果。
此外,SSE4指令集还加入了串流式负载指令,能够提升帧缓冲区的读取数据频宽,理论上可获取完整的快取缓存行,即每次读取64Bit而非8Bit,并可以将其保存在临时缓冲区内,让支持SSE4指令集的读取频宽效能提升最高至8倍。
以上皆为理论知识,下面让我们通过测试来感受一下全新的INTEL 45NM PENRYN所带来的惊喜吧。
平台介绍 :
AMD平台
CPU: AMD Athlon 64 X2 6400+ (Socket AM2, 3.0GHz, 2x1024KB L2, Windsor) , 65 纳米
主板: ASUS M2R32-MVP (Socket AM2, AMD 580X)
内存: 2GB DDR2-800 with 4-4-4-12-1T timings (GEIL 大黑龙)
显卡XFX GeForce 8800GTX (PCI-E x16)
硬盘: Western Digital WD1500AHFD (SATA150)
操作系统: Microsoft Windows Vista x86
Intel Core 2 Duo E8500 (LGA775, 3.16GHz, 1333MHz FSB, 6MB L2, Wolfdale) , 45 纳米
Intel Core 2 Duo E8400 (LGA775, 3.0GHz, 1333MHz FSB, 6MB L2, Wolfdale) , 45 纳米
Intel Core 2 Duo E8200 (LGA775, 2.66GHz, 1333MHz FSB, 6MB L2, Wolfdale) , 45 纳米
Intel Core 2 Duo E6850 (LGA775, 3.0GHz, 1333MHz FSB, 4MB L2, Conroe) , 65 纳米
Intel Core 2 Duo E6750 (LGA775, 2.66GHz, 1333MHz FSB, 4MB L2, Conroe) , 65 纳米
主板: ASUS P5k-E (LGA775, Intel p35, DDR2 SDRAM)
内存: 2GB DDR2-1066 with 5-5-5-15 timings (Geil 大黑龙)
显卡:XFX GeForce 8800GTX
硬盘: Western Digital WD1500AHFD (SATA150)
操作系统: Microsoft Windows Vista x86
(SYSMARK2007介绍: SYSmark系列出自Bapco组织,之所以称其为组织是因为Bapco是一家专门面向企业的非盈利性组织,既然属于非盈利性组织那么她的公正性就不会像FutureMark那样受到各种利益和隶属关系的纠缠,也更容易做到真实和公平。由于合作关系广泛其SYSmark评测软件也具有广大普遍性。其合作厂商包括了各种硬件、软件厂商以及著名媒体包括:AMD、Apple、ARCintuition、Atheros Communications、CNET、Compal Electronics、Dell、Hewlett-Packard、Intel、Lenovo、Microsoft、NVIDIA、Toshiba、VNU Business Publications Limited(UK)、ZDNet以及Ziff Davis Media等16家。
而相对于现在流行的PCMark系列,SYSmark的特点就是以真实、贴切的应用软件以及模拟真实用户在计算机上的操作来得出计算机的性能数据。这样做的优势就是可以更好的结合实际而不必让用户对于像PCmark得分一样的测试结果感到困惑。
SYSmark将经常使用到的软件的应用分成了4大类,包括电子学习、视频制作、办公效率、3D建模。让用户可以方便的知道计算机在自己常用领域的表现如何。这样就可以做到贴切的反映计算机的整体性能。而PCmark系列所采用的测试插件全部由自己开发,不具有普遍性和与其他软件的可比性,所以其测试结果对于反映真实系统性能是不够严谨的。)






3DMark06 CPU 子项得分

DirectX 10 游戏大作
Crysis (末日之战)
游戏介绍:
一直为玩家津津乐道的第一人称射击游戏《孤岛惊魂》 (FarCry) 的续作《末日之战》 (Crysis) 早已公布,这是德国游戏开发商 Crytek 继《孤岛惊魂》之后,精心打造的第二款热点大作,该作将于今年秋季上市。在微软的 PDC 大会上, Crytek 就展示了一段使用 DirectX10aPI 的 CrytekEngine2引擎的视频,视频包括了动态的日夜循环、阳光透射、实时软阴影、软粒子以及完全互交可毁坏的环境,容积云和高级着色器技术等特性。





测试成绩如下:

unreal tournament3(虚幻竞技场3)
游戏介绍:
虽然说等待了很长时间,但是最终我们还是盼来了Epic第一款基于PC的 Unreal Engine 3,虽然目前离最终版的Unreal Tournament 3 推出还有一些时日,不过在上周推出的beta版 游戏 就占用了我们不少时间进行相关的基准测试。通过这款出色的游戏, Epic公司的 Unreal Engine 3可以说是真正让我们体验到了新一代游戏的感觉,同时通过此次的试玩也让我们真正感觉到新游戏对于 CPU 及显卡的要求已经明显要高于 Valve公司的 Source引擎,虽然对硬件的要求还没有达到像Oblivion那样变态,但是UE3也确实现可以算得上是当前对电脑硬件要求最高的游戏之一。

测试成绩如下:

可以说这两个游戏基本上能体现出目前主流DX10级别游戏的效果了。




E8000系列(45纳米)相对E6000系列(65纳米)的优势在这里已经显而易见,在SSE4被软件开发商普遍采用后,这一结果还会向有利Wolfdale的方向倾斜。
CPU功耗对比:
|
空闲 |
满载 | |
|
Core 2 Duo E8500 |
3.4 |
33.4 |
|
Core 2 Duo E8200 |
2.5 |
27.7 |
|
Core 2 Duo E6850 |
6.6 |
51.7 |
|
Core 2 Duo E6550 |
4.9 |
40.3 |
|
Athlon 64 X2 6000+ |
29.4 |
114.6 |
总结:
|
Core 2 Duo E8500 |
Core 2 Duo E8400 |
Core 2 Duo E8200 | |
|
Codenme |
Wolfdale | ||
|
Nominal frequency |
3.16 GHz |
3.0 GHz |
2.66 GHz |
|
Bus frequency |
1333 MHz | ||
|
Multiplier |
9.5x |
9x |
8x |
|
L2 cache |
6MB | ||
|
Packaging |
LGA775 | ||
|
Maunfacturing process |
45nm | ||
|
Core strpping |
C0 | ||
|
TDP |
65 W | ||
|
Vcore |
1.15-1.225 V | ||
|
Enhanced Halt State(C1E) Technology |
Yes | ||
|
Enhanced Intel Speedstep |
Yes | ||
|
Execute Disable Bit |
Yes | ||
|
Intel EM64T |
Yes | ||
|
Intel Thermal Monitor 2 |
Yes | ||
|
Intel Virtualization Technology |
Yes | ||
新架构,制造工艺的提升,更大的二级缓存,使得E8000系列的CPU异常的强大连自家前辈也不在话下,从数据上来看虽然性能上只有4%-11%的一个提升,但是相对的功耗更低了,基本上又低了差不多40%,这样一来零噪音的被动散热基本可以实现了。另外,虽然是新品上价,但“高贵不贵”。以E6550与E8200为例,E8200系列有着比E6550更高的主频与更大的二级缓存,但是两者的售价却基本相同。而且E8000系列无论是性能还是功耗上却更胜一踌。当新处理器和老处理器达到了相同的价位的时候,也就预示着老的产品将光荣的退役了。Core 2 Duo E8500将取代今天的Core 2 Duo E6850;Core 2 Duo E8400将取代今天的Core 2 Duo E6750;C ore 2 Duo E6550 也 将会被Core 2 Duo E8200所取代。也就是说,用不了多久,消费者就可以用目前老处理器的价格买到性能更高的新产品了。