|
 |
英特尔Nehalem亮点概述 |
 |
| PQI总线 |
DDR3内存 |
三级缓存 |
超级程 |
SEE4.2 |
更多 |
Nehalem架构最大的改进之一就是摒弃了FSB前端总线传统的并行传输方式,转而采用基于PCI Express串行点对点传输技术的通用系统接口(CSI),也就是英特尔所称的Quick Path互联系统架构。Quick Path将包括集成的内存控制器技术以及改善的系统组件间通信链路,类似对手AMD的Inter connect及Crossbar设计,而且在多处理器作业下,每颗处理器可以互相传送数据,并不需经过芯片组,从而大幅提升整体系统性能。
Quick Path能双向串联点对点传输,它可提供与FSB相近的延迟(Latency),可让软件及操作系统管理,并且针对部份Streams(Threading、ISOC、LT/VT) 及out of order requests作出了优化。QuickPath的传输速率为6.4Gbps,双向最高速合共10.8GT/s ,相比AMD采用的Hyper-Transport 3.0的速度更高。
另外,Quick Path还有很大的升级空间,据英特尔称,在整合新的Quick Path技术后,Nehalem每个处理器核心都将拥有集成的内存控制器和高速互联,把处理器和其他组件连接起来,动态可扩展的互联带宽,可以全面释放Nehalem的性能。
|
Nehalem集成内存控制器IMC(Integrated Memory Controller),可以支持三通道的DDR3内存,运行速度是外频×8,内存位宽从128位提升到192位。Core i7 965至尊版由于外频是166MHz,因此支持三通道DDR3-1333内存,这样总共的峰值带宽就可以达到32GB/s(3×64bit×1.33GT/s÷8),达到了Core 2的3倍。
Nehalem的IMC通过乱序执行来为DDR3三通道降低延迟,并让其每条通道都能够独立操作,这也使得内存的兼容性大大提高,组建三通道的门槛相对降低。目前DDR3内存的价格不断下调,为玩家采用DDR3平台创建了非常好的契机。随着Nehalem全面转入DDR3平台,这也意味着内存革命随着到来。 |
|
Nehalem处理器重新设计了缓存结构,引入了L3缓存。Nehalem的L1缓存的设计与酷睿微架构相同,而L2缓存则采用超低延迟的设计,但容量大大降低,每个内核仅有256KB,新加入的L3缓存采用共享式设计,首批发布的Core i7配备了8MB L3缓存。
Nehalem处理器的L3缓存完全开放,由4颗核心共享,这点与K10的设计是一样的。据英特尔表示,Nehalem完整地集成了4个核,并带有一个包含与共享3级Cache。一个中央队列在Nehalem的四个核与非核区域之间充当交叉开关和仲裁器。L3 Cache集成存储控制器和QPI链接。从性能的角度看, 包含式L3 Cache是一个理想的结构因为他能在片上事务中保持Cache一致性。片上的通信会在低延迟和低功耗上受益。另外,最后一级Canche共享,会降低重复。 |
|
Nehalem配备了并发多线程技术Simultaneous Multi-Threading(SMT)技术(即英特尔的超线程技术),可有效提升多线程工作负载的性能,多线程运算效能比上代酷睿Penryn性能高出不少。Nehalem微构架的SMT功能支持每内核同时运行两条线程,照此计算,一个四核处理器可同时运行8条线程。
SMT技术能够在不高的功耗下提高性能,而且软件也已经支持这个技术。两年前发布的Conroe却没有采用SMT技术,可能也与SMT技术的实现不易有关,另外与Conroe没有足够的存储和处理器内联带宽来支持SMT技术也有一定的影响。
SMT技术所带来的性能的提升是非常明显的,一个物理核心通过SMT技术模拟出两个逻辑处理器,处理器处理多线程运算时,每个逻辑处理器均独立运行,一个逻辑处理器运行线程时,另外一个逻辑处理器运行其它线程,换句话就是尽最大可能地利用CPU的效能。当然,SMT技术也会带来争抢资源的问题。而得益于Nehalem内置三通道内存控制器,内存带宽相当惊人的特点,相信Nehalem可以很好的解决这一问题。 |
|
SSE指令集对处理器的重要性不言而喻。在去年英特尔发布的Penryn处理器上,最吸引人关注的就是其加入了对SSE 4.1指令集的支持。英特尔的SSE4(流式单指令多数据扩张)指令集包含了54条新指令,其中Wolfdale/Penryn实现了其中的47条指令集,称作SSE 4.1,而剩下的7条SSE4指令将在代号Nehalem架构的45纳米处理器上开始实现。SSE 4.1的引入主要是为了提升x86处理器在视频编缉、图形处理等效能。
而在Nehalem上,SSE4指令集再度扩展为SSE4.2,其在SSE 4.1的基础上新加入的7条指令集。据英特尔表示,SSE4.2指令包括了传处理的指令,一个CRC指令和一个popcount。串指令全是微代码,其对性能改进有限。CRC指令被用于计算校验和,这对存储和网络是有用的。SSE4.2指令集的加入,可以有效提升XML,sring和文本处理的性能。 |
|
提升预判单元性能,增加第二组分支照准缓存
全新的1366针脚接口。
快速Radix-16分频器和Super Shuffle engine,加强FPU性能。
New SSE4.2 Instructions (新增加SSE4.2指令)
Turbo Mode (自动超频)
Improved Lock Support (改进的锁定支持)
Additional Caching Hierarchy (新的缓存层次体系)
Deeper Buffers (更深的缓冲)
Improved Loop Streaming (改进的循环流)
Simultaneous Multi-Threading (同步多线程)
Faster Virtualization (更快的虚拟化)
Better Branch Prediction (更好的分支预测)
微架构优化:支持64-bit模式的宏融合,提高环形数据流监测器性能,六个数据发射端口等
提升虚拟机性能:Nehalem相对65nm Core 2在双程虚拟潜伏上有60%的提升,而相对45nm Core 2产品提升了20%
|
|
|
|
|