第三章 LPDDR2:速度与功耗的双重突破
3.1 LPDDR2的研发动力与标准化历程
进入2007年至2009年,移动市场发生了深刻变革。苹果iPhone的发布彻底改变了智能手机的产品定义,ARM Cortex-A8处理器的千兆赫兹化、Android操作系统的崛起,以及高清视频播放、3D游戏等应用的兴起,使得移动设备对内存带宽和容量的需求呈现断崖式上升。原有LPDDR1标准显然无法支撑这一波性能需求,JEDEC因此加快了下一代LPDDR标准的制定工作。

https://www.practicallynetworked.com/ios-history/
LPDDR2标准(JESD209-2,后更新至JESD209-2E)于2009年由JEDEC正式发布。相比LPDDR1,LPDDR2实现了质的飞跃:不仅将数据速率提升了3至4倍,还将工作电压从1.8V降至1.2V,并引入了许多架构上的改进,使其成为2010年代初期移动设备的主流存储器标准。

https://en.wikipedia.org/wiki/LPDDR
LPDDR2的研发集中了当时主要存储器厂商的技术实力。三星、海力士、尔必达(后被美光收购)在各自的工程团队基础上,向JEDEC提交了大量技术提案。从公开的JEDEC会议记录可以看出,LPDDR2的诸多新特性(如可变突发长度BL4/BL8、改进的时序参数可编程性、更完善的DBI数据总线反转机制等)都经历了激烈的技术讨论和反复修订,最终收敛为统一规范。
3.2 LPDDR2的关键技术改进
LPDDR2在技术架构上相对LPDDR1进行了全面升级,以下从多个维度详细分析其核心改进。
(一)工作电压的大幅降低。LPDDR2将核心工作电压从1.8V降至1.2V(VDDCA,1.8V用于CA总线),VDDQ降至1.2V。电压降低约33%,根据P∝V²的关系,在相同频率下动态功耗理论上可降低约55%。这一电压的实现得益于半导体工艺的进步(从130nm/90nm迁移至45nm/40nm CMOS),更先进的工艺节点允许在更低电压下可靠工作,同时提供更低的漏电流。值得注意的是,LPDDR2实际上还区分了S(标准)型和N(NVM兼容)型,N型主要针对与NOR Flash共用控制器的场景,电压特性略有不同。
(二)数据速率的显著提升。LPDDR2的数据速率从LPDDR1的最高533Mbps/pin大幅提升至最高1066Mbps/pin(即DDR-1066),工作频率上限达到533MHz(DDR方式双沿采样)。实际部署中,早期LPDDR2产品通常工作在400MHz至533MHz,提供约6.4Gbps至8.5Gbps的系统总带宽(以64位总线计算)。部分LPDDR2-S4版本甚至将数据速率提升至1066Mbps/pin,为高端移动SoC提供充足的带宽储备。
(三)突发长度的灵活化。LPDDR2引入了可变突发长度,支持BL4和BL8两种模式(通过模式寄存器配置)。BL8模式下,每次读写操作可以传输8个连续数据字(相当于一次传输一个高速缓存行,对于常见的64字节Cache Line而言),提高了有效带宽利用率,降低了总线开销。BL4模式则保留了与早期控制器的兼容性,并在某些低延迟优先的场景下使用。
(四)内部Bank数量的增加。LPDDR2将内部Bank数量从LPDDR1的4个增加至8个(LPDDR2-S4/S8分别对应不同配置),更多的Bank允许内存控制器更好地交错(interleave)访问请求,隐藏行激活(RAS)和预充电(Precharge)的等待时间,从而提高实际带宽利用率。8-Bank配置在多媒体应用中尤为重要,因为视频解码、图像处理等操作具有较强的空间局部性,不同的数据块往往分布在不同的Bank中。
(五)地址命令总线的演进。LPDDR2首次引入了统一的10位CA(命令/地址)总线,通过CA总线串行传输命令和地址信息,替代了LPDDR1中较为分散的地址引脚方案。这一改变减少了SoC端的引脚数量,简化了PCB布线,并为后续LPDDR3/4中更进一步的CA总线优化奠定了基础。
(六)更完善的数据总线反转(Data Bus Inversion,DBI)。DBI是一种降低数据总线功耗的技术手段:当某次传输中0比特的数量多于1比特时,发送端对数据进行取反(bit-wise inversion)后再发出,并通过独立的DBI信号线通知接收端进行反向解码。由于CMOS电路在信号由低变高(0→1跳变)时消耗更多功耗(充放电过程),DBI可将每次传输的1比特密度控制在50%以下,从而降低数据总线的平均功耗。LPDDR2改进了DBI的实现机制,使其在不同数据模式下均能有效工作。
3.3 LPDDR2的容量扩展方案
随着智能手机内存需求突破512MB屏障,LPDDR2在容量扩展方面也进行了相应改进。LPDDR2采用行地址扩展和Bank分组技术,支持单颗芯片容量从256Mbit扩展至8Gbit,覆盖了从低端到旗舰移动设备的全部容量需求。
值得关注的是LPDDR2的Die Stacking(裸片堆叠)技术。为了在不增加封装面积的前提下扩大单颗存储颗粒的容量,三星、海力士等厂商开始将多个DRAM裸片(die)堆叠在单一BGA封装内,通过TSV(硅穿孔)或Wire Bonding(金属引线键合)连接。4-die堆叠的LPDDR2封装可在与单die相同的封装占用面积(footprint)内提供4倍的容量,这对面积极为紧张的智能手机设计至关重要。三星于2011年推出了业界首款采用4-die堆叠的1GB LPDDR2封装产品,标志着移动存储器进入多裸片堆叠时代。
在封装技术方面,LPDDR2时代还见证了PoP(Package-on-Package)封装的大规模普及。PoP将应用处理器(AP)封装和存储器封装垂直堆叠:下层为SoC BGA封装,上层为LPDDR2+NAND组合的MCP封装,两者通过顶部焊球阵列连接。PoP方案极大地缩短了SoC与存储器之间的信号路径(物理距离不到1mm),降低了信号延迟和功耗,同时将整个存储子系统压缩在约100mm²的PCB面积内。苹果A4(用于iPhone 4)、高通Snapdragon S4等主流SoC均采用了PoP封装方案。

混合逻辑-存储器堆叠:底部为逻辑器件(如CPU)封装,上部为存储器封装
3.4 LPDDR2的应用生态与市场地位
LPDDR2在市场上取得了空前的成功,成为2010年至2014年间绝对主流的移动存储器标准。其应用范围横跨智能手机、平板电脑、移动互联网设备(MID)、车载信息娱乐系统乃至早期的可穿戴设备。
在旗舰智能手机领域,苹果iPhone 4/4S/5、三星Galaxy S/S2/S3系列、索尼Xperia Z系列、华为Ascend P系列等代表性产品均搭载LPDDR2内存,容量从512MB逐步提升至2GB。平板电脑方面,苹果iPad 1代至iPad mini(第一代)、三星Galaxy Tab系列、谷歌Nexus 7(2012)均使用LPDDR2内存,总线宽度通常为64位,提供约12Gbps的峰值带宽。
在应用处理器生态方面,高通Snapdragon 600/800、三星Exynos 4210/4412/5250、NVIDIA Tegra 3/4、德州仪器OMAP4/5等主流移动SoC均集成了对LPDDR2的原生支持,部分SoC还针对LPDDR2的时序特性进行了内存控制器的深度优化,通过动态频率调整(DVFS)、低功耗链路培训(Low Power Link Training)等技术进一步降低实际功耗。
在性能基准方面,一台搭载LPDDR2-1066(双通道64位)的Android旗舰设备可提供约17Gbps的理论峰值带宽,远超LPDDR1时代的约2Gbps,为Full HD(1920×1080)视频硬件解码、高帧率3D游戏渲染提供了充足的带宽基础。这一性能水平使移动设备的图形性能得以在这一时期快速追赶桌面级GPU,推动了移动游戏市场的爆发式增长。
第四章 LPDDR3:精炼与延伸
4.1 LPDDR3的定位与背景
LPDDR3是LPDDR系列发展中的一个"过渡型"标准,定位于LPDDR2和即将到来的LPDDR4之间,主要目标是在LPDDR2的架构基础上进一步提升数据速率并优化功耗,同时保持向下兼容性,降低产业迁移成本。JEDEC于2012年发布LPDDR3标准(JESD209-3),该标准的制定历程相对较短,主要是对LPDDR2规范的扩展和增强,而非颠覆性的架构重设计。
推动LPDDR3研发的主要因素包括:第一,高分辨率显示技术的快速普及,Full HD甚至2K分辨率屏幕开始进入旗舰手机,帧缓冲区数据量翻倍,对带宽需求的拉动效应显著;第二,移动GPU的快速进化,ARM Mali、Imagination PowerVR、高通Adreno等系列GPU的着色器计算能力快速提升,对带宽的渴望与日俱增;第三,SoC中CPU核心数量的增加,从双核到四核乃至八核配置,多核并发访问内存的压力增大;第四,先进工艺节点(28nm HP/HPM)的普及为进一步降低工作电压提供了条件。
LPDDR3的最大数据速率达到2133Mbps/pin(DDR-2133),相较LPDDR2最高的1066Mbps/pin翻了一番,以双通道64位总线计算,峰值带宽可达约34Gbps。工作电压维持在1.2V VDD/VDDQ,相比LPDDR2并无改变(部分规格允许VDD降至1.15V),但通过内部架构优化在相同电压下实现了更高的速率。
4.2 LPDDR3的技术特性详解
LPDDR3在技术层面引入了多项针对高速操作的优化措施,以下逐一详述。
(一)数据速率提升与PHY优化。LPDDR3将最高数据速率从LPDDR2的1066Mbps/pin提升至2133Mbps/pin,时钟频率上限达1066MHz。为支持如此高的数据速率,LPDDR3对物理层(PHY)设计提出了更严格的要求,包括更精准的时钟-数据关系校准(training)、更低的输出驱动阻抗选项(部分配置降至30Ω)、以及改进的DQ-DQS对齐机制。在SoC端,实现LPDDR3所需的PHY设计比LPDDR2更为复杂,需要更精密的PVT(工艺、电压、温度)补偿电路。
(二)突发长度固定为BL8。LPDDR3取消了LPDDR2支持的BL4选项,统一采用BL8的突发长度。这一变化反映了移动应用对高效大块数据传输的偏好,BL8与典型的64字节Cache Line完美对齐(以64位总线计算,BL8 = 8次传输 × 8字节 = 64字节),有助于最大化总线效率。
(三)写入延迟的调整。LPDDR3调整了写入延迟(Write Latency,WL)的配置选项,使内存控制器可以更灵活地根据实际时序余量配置写入时机,平衡性能与可靠性。
(四)CA总线改进。LPDDR3保留了LPDDR2的CA总线设计,但对命令集进行了适当扩充,增加了对新特性的命令支持。值得一提的是,LPDDR3还引入了CA奇偶校验(Parity)特性(可选),允许检测CA总线上的单比特错误,提升数据完整性,这对于正在向更广泛应用场景渗透的移动存储器而言是有益的可靠性增强。
(五)更细粒度的ZQ校准。LPDDR3对ZQ校准(输出驱动和ODT阻抗的校准过程)进行了改进,支持更频繁的校准周期(Short ZQ Calibration),使驱动阻抗在温度变化时保持更精确的匹配,减少信号反射和误码,对提升高速下的信号完整性具有重要意义。
(六)温度感知功耗管理增强。LPDDR3扩展了Temperature Controlled Refresh(TCR)的温度范围和档位划分,提供更精细的刷新频率调整能力。同时,部分LPDDR3规格引入了片上温度传感器(自温度感知功能),允许存储器主动报告自身温度给控制器,无需外部测温,从而更准确地实施TCR策略。
4.3 LPDDR3与ePoP封装的深度融合
LPDDR3时代,封装技术与存储器性能的协同演进达到了前所未有的深度。ePoP(embedded Package on Package,嵌入式堆叠封装)技术开始在旗舰智能手机中得到广泛应用,其中三星为苹果定制开发的多款PoP产品代表了当时的最高水准。

苹果A7处理器(2013年,采用TSMC 28nm工艺)搭配的1GB LPDDR3内存,其PoP封装方案将SoC裸片和两颗LPDDR3裸片(共2×512MB)整合在一个约12mm×12mm的堆叠封装中,SoC与LPDDR3之间的信号路径仅约600微米,极大地降低了寄生电容和电感,为实现2133Mbps/pin的高速操作提供了良好的信号完整性条件。这一方案后来演变为苹果在A系列处理器上持续采用的技术路线,直至向自研LPDDR5转型。
另一项值得关注的封装进步是TSV(Through Silicon Via,硅穿孔)技术在LPDDR3量产中的逐步应用。TSV允许在DRAM裸片内部以垂直方向穿刺的金属通孔代替传统的金属引线键合,实现更短的连线路径和更高的连接密度。采用TSV技术的叠die LPDDR3封装可以在更低的叠层总高度内集成更多裸片,同时改善热耗散(金属TSV的导热性优于键合线),为存储器在高负载下的热管理提供支持。

https://zh.wikipedia.org/wiki/File:High_Bandwidth_Memory_schematic.svg
在移动领域之外,LPDDR3也开始进入超薄笔记本电脑(即苹果MacBook Air开创的这一类别)领域。由于超薄本同样对空间和功耗有严格限制,LPDDR3成为这类设备上焊接在主板上的存储器的选择之一(如MacBook Air 2013-2015款采用板载LPDDR3内存)。英特尔从Haswell平台开始将LPDDR3控制器集成到处理器内部,并推动了LPDDR3在轻薄本市场的规模应用。
4.4 苹果与LPDDR3的深度合作
苹果在LPDDR3时代与存储器供应商(主要是三星、海力士、美光的移动DRAM部门)建立了深度合作关系,共同推进存储器性能与功耗优化的极限。苹果A系列处理器从A5(使用LPDDR2)到A8/A8X(使用LPDDR3)的演进,伴随着存储器带宽从约12Gbps提升至约25Gbps,为iOS平台的图形性能飞跃提供了关键支撑。
苹果在LPDDR3应用中的一个独特贡献是对Memory Channel的精细化调优。苹果的SoC内存控制器团队与存储器厂商紧密协作,针对A系列处理器的实际访问模式对时序参数(tRCD、tRP、tCL等)进行了极为细致的优化,使实际带宽利用率和延迟特性显著优于JEDEC规范的保守值。这种"超出规范"的优化被业界称为"定制时序"(Custom Timing),是苹果存储器设计能力的体现。

iPad Air和iPad Air 2(分别搭载A7和A8X处理器)是LPDDR3在大屏幕平板上的代表性应用。iPad Air 2搭载的A8X处理器使用了128位LPDDR3接口(4通道×32位),峰值带宽超过25Gbps,支持2048×1536分辨率的Retina显示屏的高帧率渲染。这一配置的功耗表现同样出色,整机TDP控制在约10W以内,远低于同性能等级的x86平板方案。
待续。。。

179

被折叠的 条评论
为什么被折叠?



