曾几何时,要验证FPGA的逻辑设计,可以先编译、写入,然后按下评估板上的复位按钮。但是,随着FPGA规模的增大,这种被Xilinx公司软件产品营销总监Hitesh Patel 称为“blow and go”(逃生法)的验证方式已不能满足要求。要做出一个近乎完美的有百万个门的设计,达到可以从封装引脚就可以调试的地步,成功的机会非常之渺茫。因此,FPGA设计组也开始采取ASIC设计组已使用多年的方法,采用基于软件的设计模拟。
但是这种方法也引出了一系列重要的问题: FPGA设计中模拟的作用应该跟在ASIC设计中一样吗?验证人员是否还是要在某个时刻将设计装入产品FPGA并马上开始测试它?如果是这样,这个时刻是在什么时候?为了弄清设计团队现在都在做什么,我们询问了一些工作中与FPGA用户关系最紧密的人。作为参考,我们还询问了几个在验证过程中采用FPGA 原型来进行ASIC设计团队,以了解他们的意见。
优点和缺点
多数人讨论验证流程时,首先会比较模拟和在FPGA内验证的优劣。尽管有经验的读者可能会觉得乏味,本文也还是采用类似的模式。
模拟的一个很大的优点自然是它的访问能力。该方法可以以时钟周期分辨率观察RTL (寄存器传输层)设计中任何信号。只要有必要,对设计状态的控制可以达到任何水平。达到可观性和可控性的唯一限制就是对RTL的了解程度和对模拟环境的掌握程度。你可以在有限的设计领域交互式地工作,也可以构建运行好几天的大型试验。构建的模拟项目运行相对较快,所以可以快速地对很多东西进行试验。
模拟的另一优点是现在的多数模拟环境都可以很好地使用OVL(开放验证库,Open Verification Library)或SystemVerilog断言。经常可以找到直接的方法将这些断言输入到模拟环境中。随着基于断言的验证日益普遍,这点就越发重要。此外,通过模拟环境还可以将设计的激励和测量部分与设计本身分割开。这看起来似乎不是主要问题,但是,在密集验证工作中,这一特点对于保证设计的完整性会很重要。
但是,模拟比较慢。“如果你在做一个有2百万或3百万个门的块,模拟非常好,” 硬件仿真设备厂商Eve的营销副总裁Lauro Rizzatti说。“但是,在有多个块的层次,模拟会变慢,最终达到完全不可用的程度。”
设计的复杂度并不是唯一的限制因素。Altera公司技术营销高级经理Phil Simpson指出,如果设计本身就需要大量数据来进行验证,即使在块的级别模拟也会变得不实用。他以视频编解器为例说明这个问题。在视频编解器中内部状态非常之多,所以可能只有在15分钟的视频短片中间才能表露出问题。但是,对15分钟高清视频压缩和解压的模拟会非常费劲。
对电路内方法的讨论
FPGA 内验证方法的优劣与模拟正好相反。首先, 显然FPGA 很快。人们经常可以以全速运行设计。不过,在某些情况下,这样做就意味着时序收敛问题会较多,超乎设计早期预期的程度。另外,与模拟不同,将多个模块综合到设计中时,FPGA 并不会降速。这样就可以测试整个设计,而非单个块,并且可以以大量的实际数据集来运行测试,而不是采用精心编制的测试用例。
由于FPGA速度较快,而且它的I/O部件就是实际应用所需要的I/O部件,所以也可以采用系统中测试设计:可以在装入目标系统的FPGA开发板上测试,或者,如果目标PCB(印刷电路板)可以用的话,就在目标PCB上测试。这样的测试可以消除测试用例是否能够如实反映设计工作环境的疑虑。另外,在实际使用的电路板上测试设计可以暴露出I/O方面的问题——例如电气问题、信号完整性问题,或是在高速串行协议下不兼容问题。这些问题用其他方法几乎无法检测,而系统内测试则会形成一个软件测试平台,带来额外的好处。
这些优点都是系统级验证方面的。但Altera公司的Simpson指出:在芯片内测试块也有一些有用的优点。“一旦将某个块装入FPGA,就可以使用嵌入式处理器核(如Nios)来辅助调试过程,” Simpson说。“例如,处理器核可以使数据进出芯片,可以控制测试时序。这样,在块周边电路还没做好的时候就可以单独测试某个块。”
“在我们的自有IP(知识产权)开发部门,我们编写了在Nios核上运行的事务处理器,以此来生成伪随机测试,” Simpson 接着说。“据我所知,这样的做法在用户中还不普遍,但它非常有价值。”
既然FPGA有这么多优点,您可能会觉得疑惑:直接将编好的核装入FPGA、为它编写一个试件(test fixture),然后开始测试 ,这样做会有什么问题呢?这个问题的答案在于FPGA的一些缺点。
FPGA的缺点
最明显的突出的问题是可见性。理论上说, FPGA中每个逻辑元件都可以通过芯片的调试接口观察。但是,厂商估计只有一半的FPGA用户在设计中加入了调试接口并将其用于验证。考虑到内置调试口提供的功能是如此强大,这非常令人吃惊。Xilinx公司的Patel认为,随着FPGA规模变大,人们会更普遍地使用调试接口。
因此,在多数情况下,如果想观测设计中的某个信号,就必须先把它引出到一个引脚,然后用逻辑分析仪分析它。由于逻辑分析仪的特点,可能还需要引出大量其他信号,如内部时钟。这样做就会有很多额外的工作,另外,如果要观测的信号是一个与I/O块相隔甚远的快信号,可能还必须降低FPGA上的时钟频率。因此,一些经理认为:在原始验证方案中包括对FPGA信号可观性的要求是很重要的。
访问信号所需的附加设计工作是该方法的一个缺点。芯片内部节点的激励和观测还涉及另一个问题,那就是需要修改设计、重建和重新综合测试,因此有可能导致设计和测试部分不能清楚地分割开。如果不能仔细地将调试代码和设计代码分开和切实做好版本控制,就可能无法跟踪这些修改,有可能发生类似于外科医生把手术工具留在患者体内的情况。
另外,建立测试的时间也是个弱项。规模较大的设计中,综合时间并不短,而插入测试设备、重建、重新综合和重新绘图的时间也会是个重要因素,可以影响到是否进行某个试验。这里采用增量综合(Incremental-synthesis)工具会有所帮助,但是对于有2千万个门的设计,构造和合成过程可能需要一晚上的时间。
最后,将测试平台从模拟环境转向FPGA环境也有问题。此时,激励模块需要有电路,而非一组模拟命令。观测某个节点需要的不仅是命令,还需要有电路和物理仪器。尽管基于断言的验证被越来越多的人接受,但似乎还没人开发出哪种方法可以系统性地将断言从模拟环境移植到FPGA。 “现在还没有可以自动将断言移植到FPGA的解决方案,但是我们收到的对该功能的要求在不断增加,” Simpson说。
覆盖尺度也是一个弱项。虽然对于模拟环境正在开发完善的工具来测评验证覆盖情况和来自不同类工具的熔断测量值(fuse measurement),但在FPGA领域,几乎就没什么覆盖的概念,也没有现存的工具可用于测评测试设计的覆盖情况并将数据报告给中心覆盖收敛(coverage-closure)系统。
对ASIC开发组的观察
因此,简言之,每种方法都有优缺点。根据这些信息,有经验的ASIC设计组(即经常在其验证流程中采用FPGA者)是如何在模拟测试和基于FPGA的测试间做出平衡的呢?
视频处理器厂商Ambarella有一个例子来回答这个问题。执行副总裁Didier LeGall 说,“多数情况下,我们根本就不使用FPGA 仿真。根据我们的经验,必须得有非常成熟的RTL仿真才会有用。但是,目前流程阶段,将设计输入 FPGA和建立测试平台(的过程)是一件事倍功半的事。”
但是,实际应用情况可能会使LeGall 的看法有所调整。Ambarella 公司的SOC (片上系统) 用于以高帧速率处理高清视频和10M像素静止图像,需要采用非常快的内部时钟和复杂的算法。但是,LeGall 在对FPGA 仿真做出评论后,又对整个验证过程的目标提出了一个非常有趣的看法。“新推出IC成功的关键不在于完美的验证工作,” LeGal说。“而在于软件”:也就是说,要知道设计中哪部分比较容易出问题,并且在开始,而不是事后,就做好软件解决计划。这种策略下,验证工程师经过广泛的基于FPGA的测试所获得的很多信息的确会变得比较没用。
LSI Corp的存储元件部门提出了另一个观点。该部门的副总裁和总经理Bill Wuertz叙述了他们是如何做SCSI (小型计算机系统接口)和SAS (串行连接)控制器的。
Wuertz 说LSI采用了几乎是并行的过程,一个验证小组进行模拟实现一些目的,而另一组则采用FPGA实现另外一些目的。“在设计早期,我们建立一个称为试验 RTL(trial RTL)的步骤,” Wuertz 说。“我们要知道RTL基本工作正常、各个块互相已连接好,这是第一个点。在此阶段,验证工作分为两个方向。模拟小组编写他们的工具所用的设计,并继续对单个的块进行模拟。另一个组,即系统工程组,则通过综合RTL得到内部开发FPGA 版——我们现在正在设计第五代板卡——然后开始在系统级进行彻底的压力测试。”
如Wuertz所述,这两个组具有不同的工作目的。模拟组要努力确保电路正确。系统组通常不考虑电路,但要确保芯片在变化异常大和非常复杂的存储网络环境下可以工作。Wuertz 说FPGA 原型会与一屋子的磁盘和磁带驱动器相连运行几天的测试。“这些测试已经过了20多年的发展,”他说。“我们知道,可能需要对不同磁盘驱动器组合进行很长时间的测试后才可以产生暴露设计问题的时间匹配异常情况。”
LSI 已开发了自有的将两种环境联系起来的内部工具。例如,通过这些工具,系统组可以捕捉到导致故障的跟踪数据,并将此数据转换为模拟组可用的激励文件。反过来说,模拟组可以根据它在设计中所发现的危险,给系统组发出提醒。在两个工作于不同环境的验证组间建立联系是LSI公司两方向测试方法的关键。在整个过程中,两个组会交换数据,而且,最后设计晶粒需要两个组的结论。
一种可为大家接受的方法
根据与FPGA厂商和用户的讨论,我们可以看到对模拟和仿真(图1)混合验证流程大家基本达成一致意见。这种流程首先对设计开始元件块级的模拟——不是传统上ASIC所用的那种穷举式的力求完美的模拟,而更像是对实际情况进行检查。其目标是验证元件块可用、引脚工作基本正确、在实验环境中可满足FPGA 的时序需要。
在此阶段,很多开发组将某个版本的块转入FPGA并开始更为彻底的电路中测试。如果此电路块(如视频编解器)需要很长的高速数据流来验证功能或是包括高速I/O功能,则该方法尤为常见。在其他情况下,继续对块进行模拟工作,直到所有问题都经过验证,可以进行集成为止。
根据大家的一致意见,当开发组开始将块集成时——建立试验系统时——FPGA 才真正被更多人使用。这里,可能就是因为设计太大才无法进行快速模拟,或是对于已知可正常工作的块,在FPGA上解决集成问题可能要比在模拟器上效率更高点。
但是,根据大家的意见,从模拟转到仿真并不是单步的可逆步骤。正如软件开发中并行进行模拟一样,模拟工作在系统仿真期间也在继续。多数开发组利用FPGA 仿真捕捉和隔离缺陷,然后将其送回模拟组诊断。在FPGA上做详细诊断是非常痛苦的工作。
这里先总体叙述当前的情况,然后指出该方法的几个严重缺点。首先,在两个环境间来回传送测试平台数据很困难。似乎还没有方法可以将创建测试的模拟指令自动映射到实施同一测试的 FPGA 结构。第二,各大 FPGA 厂商都可提供的嵌入式RISC核资源似乎远没有得到充分利用,它可以管理数据和控制测试,但是又是与模拟测试平台分开的。理论上说,模拟组可以将其转为嵌入式处理器核的C代码,而不是转为FPGA的RTL。第三,没有简单的途径可以将FPGA 试验中开发组收集的数据送回模拟平台。最后,随着模拟领域基于断言的验证工作不断增多,FPGA 侧急需一种类似的基于断言的工具。
基于 FPGA的仿真系统销售厂商对这些问题提出了应对措施(见附文《解决覆盖空隙的一些思路》),证明了这些问题是确实存在的。这里的例子有Eve公司的系统;模拟加速器,如GateRocket;以及“big- iron”(大型的)仿真盒,如Cadence的Palladium。至于这个基础平台会发展为FPGA验证领域常见的那种专用板卡级仿真平台,还是仍然会是昂贵的加速器和仿真系统的一种变形,我们尚无法知道。
附文解决覆盖空隙的一些思路
人人都喜欢FPGA 内仿真的速度。但是在FPGA中建立系统、控制和观测试验的难度过大,这常常迫使人们将费力费时的测试工作转回到模拟环境中。在实际中,有些人会搭建一个验证平台,结合FPGA执行速度高和模拟方法易于构造和访问数据的优点。毫不奇怪,有些厂商已经瞄准了这个目标。
首次这么做还是 ASIC时代早期的事,这也就是 “big-iron”逻辑仿真系统。从效果上说,这些系统就是一组专用的巨型计算机,其中由定制微处理器或定制可编程元件分别模拟或仿真逻辑操作。这类系统的代表是Cadence Palladium。此系统执行速度为模拟的很多倍,同时其厂商声称它对被测设计的访问能力至少与模拟相当。但是,这些系统的容量有限,不会比通常模拟的块规模大很多——除非你有非常多的钱。这些设备是主要的耗资设备,因此多数最终设计面向FPGA的设计团队都无力支付高昂的费用。
近年来,有大量系统进入市场(例如Eve等公司的产品),这些系统可以在使用商业FPGA的简单环境下进行逻辑仿真。这类系统具有不同的特点,有些是小型化巨型机仿真系统,有些基本上就是带支持调试软件的FPGA评估卡。在所有情况下,它们都试图提供一个设计中逻辑开销低于big-iron仿真系统的 FPGA执行环境。由于逻辑开销较低,通常基于FPGA的系统运行速度可以比巨型机仿真系统快一到几个数量级。总的来说,运行速度越快,保留的模拟的方便性就越少。但是,当单个FPGA的设计(包括调试开销)变得过大时,它们就会表现出局限性。将设计分区是很复杂的,而且经常涉及到FPGA间信号的多路复用,这会将所有工作都拖慢。
这些系统中,确实提供了将测试平台和数据在FPGA 系统和模拟环境来回传送所需的软件支持。例如,Eve就报道说正在开展工作,以便能将断言也导入到其环境中。
GateRocket 的系统是一个很有趣的产品,它使当前的这个状况发生了改变。该公司将其定位为既可以充当模拟加速器,也可以充当电路中仿真器。作为模拟加速器时,该系统会试图插入用户的模拟环境,加速耗时的RTL (寄存器传输级) 逻辑部件的模拟,而不会影响模拟环境的特性。如果假设90/10法则正确(也就是说,90%模拟时间花在10%的代码上),通过这种加速能力,可以使验证工程师们继续使用模拟环境,将其用于在无加速时基本无法实现的检验流程中。GateRocket声称,该系统可以支持名为“可综合断言子集”的特性。