Merom vs. Yonah : 性能及特性比较(1)
关键词:Intel Merom Yonah
导言:Intel新一代Core架构移动CPU Merom的特性及与Yonah的性能比较
8月27日,Intel新一代Core架构移动处理器Merom正式登场,将移动计算机性能推升至新纪元,那么,Merom和Yonah在架构上究竟有何不同、Centrino平台Napa Refresh与即将在2007年Q2面市的Santa Rosa之间差异何在以及Santa Rosa将能带来怎么的性能变化?请看HKEPC的对比测试。
全新Core架构 : Intel Merom移动CPU
继服务器处理器WoodCrest及桌面处理器Conroe陆续面市后,新一代Core架构移动处理器Merom亦正式登场,虽然Intel声称全新Core架构整合移动平台的省电高效率及上代桌面平台Netburst的性能,并为多核心应用作出优化,但Core架构却很难找到半点Netburst的影子,由于其设计接近90%是基于Mobile架构的Yonah而作出改良,仅保留Netburst架构的Prefectching,英特尔此举明显希望为上代Netburst的失误给予完美的下台阶。

尽管Intel Core架构是基于移动平台的Yonah核心所设计,但却有超过7成的架构和线路被重新改良,并加入5项主要的改革,包括Intel Wide Dynmaic Execution、Intel Intelligent Power Capability、Intel Advanced Smart Cache、Intel Smart Memory Access及Intel Advanced Digital Media Boost。
Intel Wide Dynamic Execution : Merom处理器拥有4组Decoder (3 Simple decoders + 1 Complex Decoders),比上代Yonah核心多出1组(2 Simple Decoders + 1 Complex Decoders), 可多处理1组Simple Coder指令,进一步提升每周期的执行效率及提升处理器的能源效益。
虽然Merom的Pipeline Stage由Yonah的13 Stage轻微上升至14 Stage,但Merom的Branch Predictor Bandwitdh提升20Bytes(Yonah为16Bytes), 因此其分支预测的能力及准确性效率保持相若。
此外, Merom处理器不单保留了Micro-op Fusion技术,并同时追加全新的 Macro-Fusion 技术,在之前的CPU架构中,每个指令被送来时其译码及执移动作是完全独立的,但Intel Core架构则可以让常见的指令组,如1个Compare指令配随后拥有1个Jump指令,组合成单一的Micro-Op指令,这令Merom处理器在特定情况下每个周期有运算5组指令,据Intel表示,大部份x86程序,约每10至15个指令就会出现1组可透过Macro -Fusion被组合,因此减少了程序执行所需运算时间、提升性能却不会增加处理器的功耗,为此Intel亦改良ALU(Arithmetic Logic Unit)部份以支持Macro-Fusion技术。
Intel Intelligent Power Capability : 相对于Yonah,Merom处理器的晶体管数目大幅提升,理论上这会造成功耗相对增加,Intel为了让Merom处理器的功耗表现保持在合理水平,在Merom中加入了Ultra Fine Grained省电设计,细微的逻辑控制机能独立开关各运算单元,只有需要时才会被开启,避免闲置时出现不必要的功耗浪费,称为 Sleep Transistors技术,此外,把核心各个Buses及Array采用独立控制其VCC电压,当此部份被闲置时,将会被运作于低功耗模式中,因此 Merom处理器在功耗表现可保持和Yonah处理器相约。
Intel Adcanced Smart Cache : 早在Yonah处理器中,Intel已加入了Smart Cache架构,通过核心内部的Shared Bus Router共享相同的L2 Cache,而Merom进一步加强Prefetch能力,每颗核心均拥有3个独立Prefetchers (2 Data and & 1 Instruction) 及2个L2 Prefetchers,能同时地监测Multiple Streaming及Strided Acess Patterns。在L2缓存方面,Merom比比Yonah增加了一倍,至 16-Way 256Bit 4MB容量,但Latechy却保持在12-14ns之间,令Merom处理的Cache架构性能进一步提升。
Intel Smart Memory Access : 为了提升内存读取效率, Merom处理器加入全新的称为Memory Disambiguation的内存读取技术,通过Out of Order过程把内存读取次序作出分析,当发现某数据是完全独立,则可让它提早执行以减少处理器的等候时间减少闲置,同时减低内存读取的延迟值。
Intel Adavanced Digital Media Boost : Merom处理器拥有128Bit-SIMD interger arithmetic及128bit SIMD双倍精准度Floating-Point Operations。传统的处理器设计只有64Bit的SIMD interger arithmetic及Floating-Point Operations,因此在执行 128Bit的SSE、SSE2及SSE3指令时,需要把指令分拆为2个64Bit指令,并需要2个频率周期完成,但Core架构则只需要1个频率调期便能完成,执成效率提升达1倍,现时SSE指令集已经十分普遍地用于主流的软件中,包括绘图、影像、音像、加密及数学运算等用途,单周期128Bit处理器能力以频率以外的方法提升性能,令处理器拥有高能源效益表现。
| Core架构 (Merom) |
移动双核架构 (Yonah) |
上代双核架构 NetBurst |
移动双核架构 AMD Mobile | |
| L2 缓存 | 共享L2缓存 更高的带宽 |
共享L2缓存 | 独立L2缓存 | 独立L2缓存 |
| L2 缓存大小 | 4MB | 2MB | 2MB x 2 | 512KB x 2 |
| SSE吞吐量 | 128Bit/Cycle 8 Flops/Cycle |
64Bits/Cycle 4 Flops/Cycle |
64Bits/Cycle 4 Flops/Cycle |
64Bit/Cycle 4 Flops/Cycle |
| Issue Width | 4 Issue | 3 Issue | 3 Issue | 3 Issue |
| Pipeline Stage | 14 Stage Macro & Micro Fusion |
13 Stage Micro Fusion |
31 Stage | 12 Stage 部分 Micro Fusion |
| 系统总线 | 最高800MHz | 最高667MHz | 最高1066MHz | 800MHz HT |
| 节能特性 | Ultra Fine Power Gating Deep C4 |
Aggressive Power Gating Deep C4 |
Power Gating | Power Gating Deep C4 |
| Memory Access | Improved Prefetch Memory Disambiguation |
Baseline Prefetch | Baseline Prefetch | 集成内存控制器 |
| 共10页: 1 [2] [3] [4] [5] [6] [7] [8] [9] [10] 下一页 |

搜索