要点:
1,虽然每个小组可以优化局部功耗,但单个团队不可能创建出一个低功耗设计。反之,任何一个小组都可能摧毁这种努力。
2,功率估计是一种精确的科学。但是,只有当你拥有了一个完整设计和一组正确的矢量后,这种概念才为真。
3,对任何问题而言,处理器通常是能效最低的方法,但因为它们具备了功能多重性,一般可以用最小面积获得实现。
4,电源分配网络应能够在不损及电压完整性的情况下,维持负载。
过去十年来,功率已经成为一个关键的设计考虑,并在工程师设计与验证系统方面带来了一些巨大的挑战。物理学不再提供免费便车。
功率是能量被消耗的速率,这在十年前还不是热门,但今天已是一个重要的设计考量。系统的能耗会带来热量、耗尽电池、增加电能分配网络的压力,并且加大成本。移动计算的发展最先推动了对降低能耗的期望,但能耗的效应现在已远远超出这个范围,可能在业界带来一些最大的结构性变化。对于服务器农场、云计算、汽车、芯片,以及依赖于能源获取的泛在式传感器网络,这都是一个关键性问题。
突然改变的原因是,物理学已把工艺技术带到了90nm以下尺度。但是,随着结点尺寸越来越小,电压降低,从而造成功率的相应下降。通常,即使开发人员增加了更多功能,功率预算也会保持不变。在更小尺度下,电压的缩放更加困难,无法维持。当电压接近于阈值电压时,开关时间就会增加。为补偿这一问题,设计人员会降低阈值电压,但这样做显著增加了泄漏电流和开关电流。
设计流程中的每个阶段都对功耗有影响,从软件架构到器件物理。虽然每个小组都可以做局部的功耗优化工作,但没有一个团队可以单独创建出一个低功耗设计。反之,任何一个团队都可能摧毁低功耗的努力。这种状况就产生了一种对协同与交叉学科工具的新需求。功率问题不再止于芯片。它们遍及互连结构、电路板与系统设计、电源控制器等诸方面。当前的EDA工具并非按功率概念而建立,这意味着设计人员要采用改进型方法,而不是从头开始的新方法。
物理原理的角色
一只芯片消耗的功率是开关(或动态)功率和无源(或泄漏)功率之和。功率的动态成分源于设计的容性负载。当某个线网从0转换到1时,这个成分通过一个PMOS晶体管充电。从电源获得的能量等于容性负载与电压平方的乘积。系统将这个能量的一半存储在电容中;另一半则耗散在晶体管上。对于从1至0的转换,不会从电源获得更多能量,但电荷要耗散在NMOS晶体管上。假设结点以频率F变化,则动态功率为FCLVDD2,其中,CL是容性负载,VDD是电压。虽然也存在其它形式的动态功率,但它们要小得多。
由于电压是平方项,因此降低电压有相当显著的效果。不幸的是,性能也与电压相关,因为增加电压会增加栅极的驱动VGS-VT,其中VGS是栅源电压,VT是阈值电压。使用较陈旧的技术时,泄漏功率并不明显。但随着器件尺度的减小,很多区域中的泄漏变得更加显著,包括栅极氧化物隧穿、亚阈值电压、反偏结点、栅极导致的漏极泄漏,以及因热载流子注入而产生的栅极电流等。
二氧化硅是常用的绝缘材料。在低厚度水平下,电子可以隧穿它。这种关系是指数型的,意味着厚度减半,泄漏增至四倍,在晶体管尺度降到130nm以下之前,这还不是一个问题。用高k电介质代替二氧化硅可以提供相近的器件性能,获得更厚的栅级绝缘体,从而降低了这个电流。
晶体管有一个栅源阈值电压,低于这个电压时,通过器件的亚阈值电流就会呈指数倍下降。当降低电源电压以减少动态功耗时,阈值电压也减小,从而使栅极电压摆幅低于器件关断的阈值。亚阈值传导会随栅极电压呈指数式变化。
在扩散区和阱之间,或在阱与基材之间的一个反偏构造,会产生小的反偏结泄漏。在MOS晶体管漏极结上的高电场效应会产生栅极导致的漏极泄漏,这通常要用制造技术来处理。栅极电流泄漏的原因是短沟道器件的阈值电压漂移,并与器件中的高电场有关。对这个效应的控制主要也是靠制造技术。
设计人员要在动态功耗和静态功耗之间做一个折中。降低电压会减小动态功耗,但增加了静态功耗。我们来看一只手机内的典型芯片。当器件工作时,泄漏要占所消耗功率的大约10%;其它90%是动态功耗。但当手机处于待机模式时(可能占到总时间的90%),芯片中的动态功耗就很少。因此,尽量减小两种功耗有着相同的重要性。
各种器件的功耗方面在持续地改进。例如,在相同频率下,三星的28nm低功耗工艺比45nm低功耗工艺的动态功耗与待机功耗都减少了35%,与采用45nm低功耗的系统单芯片设计相比,28nm工艺在相同频率下的动态功耗降低了60%。台积电28nm高性能低功耗工艺的待机功耗要比其40nm低功耗工艺低40%以上。同时GlobalFoundries公司为其28nm结点提供了三种功率水平(图1)。
图1,台积电的28-HPL工艺待机功耗较40-LP工艺低40%以上。而Global Foundries则为其28nm结点提供了三种功率水平
摩尔定律继续有效,芯片在每个器件中封装了更多功能。据Open-Silicon的营销总监Colin Baldwin称,客户可以用近似的单位成本和两倍的性能,设计出下一代器件,虽然总功耗会增加,但单只器件的功耗是下降的。时钟频率是另外一个缓慢上涨的变量,但在很多市场上增速都慢于工艺。Open-Silicon发现,大多数用户试图在略微增加总体功耗的情况下,集成更多的功能。因此,要维持相同的总功耗,就要看设计流程的其它部分中可以节省的能耗。
优化与比较
设计包含了估算与优化。估算可以对多个可能的实现选择做出比较。另外,优化可以自动完成,或者可以在各种抽象水平上,用工具辅助完成。Apache/Ansys应用工程总监Arvind Shanmugavel认为,只有当拥有了一个完整设计和一组正确的矢量时,功率估算才是一种精确的科学。在未完成设计以前,根据定义,所有事物都是一种即将在设计中发生的估计。在设计早期的功率预算阶段,应着眼于大的和相对的变化,而不是绝对的值。Atrenta公司的工程总监Venki Venkatesh认为,可以预期在RTL(寄存器传输级)到硅片之间有20%的偏差,而从门到硅片有10%的偏差。
如果某个工具表示, 一种可能的方案会较另一种方案消耗更少的总能量,则这种概述一定是正确的;否则,工具就可能促使选择了次级的方案。与面积和性能不同,功率是矢量相关的,因此可能需要运行多次仿真,来获得有关设计活动的一种典型性样本。例如,考虑两种选择,一种是为音频处理器加随机数据,一种是用更多的典型语音数据。图2给出了一个有限脉冲响应滤波器中几个寄存器的转换动作(参考文献1)。对于一个不会破坏数据相关性的架构,语音数据开关电容的次数要比随机输入数据少80%。由于这些临时的相关性,运行顺序可能造成切换动作的巨大差异。
图2,对于一个不会破坏数据相关性的架构,语音数据开关电容的次数要比随机输入数据少80%。由于这些临时的相关性,运行顺序可能造成切换动作的巨大差异。
不过, 有些公司认为可以用统计方法获得近似值, 即采用来自计数器或其它可识别逻辑片的预期活动。现在, 功耗优化有很多种方式,大多数为RTL或以下。Shanmugavel称,时钟门控是尽量减少动态功耗的常见技术。切断某个电路的时钟,可阻止一个设计中时钟或寄存器的切换动作。另一种技术是采用电压岛,它降低了设计的工作电压,从而使开关元件的动态功耗前后比值为电压前后比值的平方。设计者将电压岛用于芯片的某些区域,这些区域的性能与速度不是关键,这样可以节省功耗。
DVFS(动态电压/频率缩放)是迄今最为复杂的动态功率控制技术。这种方法会根据负载的需求,改变有效工作电压和频率。在高负载情况下,电压与频率处于额定状态,芯片或设备为满负荷工作。在低负载情况下,电压或频率缩减,以低速工作,从而获得了较低的动态功耗。设计者可通过软硬件方案的组合,实现这种技术。
片芯上的稳压器满足了对多种动态与静态功率的需求。各IC通常有片外的稳压模块,可提供动态状态下需要的电压与电流。但是,设计者越来越多地采用片芯上的稳压器,因为电压域的数量在增加,这些电压域更快响应需求的要求也在增加。
堆叠IC间的相互通信尽量减少了信号互连,它是低功耗设计中一种新兴的趋势。Apache的Shanmugavel认为,制造商一般是将处理器和存储器堆叠在一个硅插入层上, 用TSV(硅通孔)做连接。这些插入层提供了片芯之间的低电容信号互连,从而降低了I/O的动态功耗。随着3D IC的成本开始下降,以及设计者对于热效应有了更多的理解,整个行业都将出现一个向3D IC的迁移。
要尽量减少静态功耗, 设计者可以采用电源门控方法,为一个待机状态的设备节省最多的泄漏功耗。关闭功能单位的时钟可降低动态功耗,但单元仍然有泄漏功耗。设计者必须在设计实现以前,了解有关电源门控的几个折中问题。
减少泄漏功耗的一种最古老技术是用高阈值电压门代换标称阈值电压的门。在CMOS中,亚阈值泄漏与阈值电压成反比。较高阈值电压器件的泄漏包络低于较小阈值电压的器件,但付出的代价是较大的延迟。设计者必须做一个仔细的权衡分析,才能用此技术获得最佳的减少泄漏效果。
另外一种降低静态功耗的方法是有源反偏,它是增加CMOS门中基材结点的偏置电压,从而降低泄漏电流。这种偏置技术根本上是在待机模式期间增加一个单元或整个芯片的阈值电压,从而减少泄漏功耗。为了感受一下这些技术的采纳率,Synopsys通过自己的一个“全球用户调查”,收集了用户数据(图3)。
图3,为了感受一下这些技术的采纳率,Synopsys通过自己的一个“全球用户调查”,收集了用户数据。例如,最左上方一栏表示10%的受访者拥有数据中心和网络,作为采用反偏置或阱极偏置的主要应用。注意百分比大于100,因为调查会收到多个答案。
除RTL优化以外,设计者还在开发一些能在系统级上做估算和架构研究的工具。功率是一个系统级的问题,有些设计者发现,不能用今天做芯片组装和验证的自下而上方法来看待功率问题。过去,设计者设计芯片是为了获得最大的灵活性,以现在设计芯片的成本,这种灵活性仍是一个重要的考虑方面。但和其它所有方面一样,灵活性也会带来成本。对任何问题而言,处理器通常是能效最低的方法,但因为它们具备了功能多重性,一般可以用最小面积获得实现。
验证
功率还增加了另一层复杂性,这就是设计者必须做验证。它需要额外的工具支持,制造商们现在正匆忙地在市场上推出这些工具。功率会在设计中增加一些新的器件,如隔离逻辑、功率开关、电平转换器以及保持单元等。
不过,Synopsys 小功率验证营销总监Krishna Balachandran认为, 功率优化也可能牵涉到顺序RTL转换,必须用源RTL作验证。缺少这种验证可能导致芯片上的系统不工作,或泄漏高于预期值。仿真方法可能太慢,没有性价比,且不彻底,从而不能对功率优化做完全的验证覆盖。传统形式等效工具的目标通常是组合式变换的验证,不适合于功率优化所需要的那种改变。大多数商用的形式验证工具还受制于容量和性能的限制,必须克服这些限制,才能处理低功耗设计的复杂电源架构,以及数百种电源域。为满足这些新的要求,必须发展一类具有大容量和高性能的全新形式等效工具,目标是对顺序变换的验证。
Eve - USA 的总经理LauroRizzatti表示,功率优化也给EDA供应商带来了挑战。很多低功耗技术通常都不能取得与RTL仿真或模拟的一致,它抽象了电压的任何概念。设计者必须改造这些数字工具,使其支持功率目标以及低功耗优化实现技术。
电源分配网络
Silicon FrontlineTechnology公司营销副总裁Dermott Lynch认为, 功率器件的典型运行效率在70%~90%,从而有10%~30%的总系统损耗。而Rambus公司半导体业务部副总裁兼首席技术官Ely Tsern补充说,比较积极的功率模式转换配合精细的电源域,会使局部供电电流有更快的转换,从而给敏感的局部电路带来更大的di/dt电源噪声,尤其是那些模拟电路。
但Shanmugavel警告说,在任何情况下,电源分配网络都应能够在不损及电压完整性情况下,维持负载的供电。例如,当一个全局时钟转换和一个功能单元上电去完成某项工作时,就出现了一个瞬态电流的需求。这种瞬态电流可能是额定电流的3倍~5倍,具体要看功能模块情况,这给电源分配网络带来了一个巨大的负荷,必须验证在这些情况下,网络上的瞬态电压噪声。