原标题:三巨头3nm/2nm“大乱斗”
几家芯片制造商和无晶圆厂设计公司正在芯片工艺制程上互相竞争,开发 3nm和2nm的下一个逻辑节点工艺与芯片,但将这些技术投入批量生产既昂贵又困难。
巨头之间的竞争提出新的问题,这些新节点投入量产究竟需要多长时间,为什么需要这些新的节点工艺。
迁移到下一个节点确实可以提升性能并减少功耗和面积(PPA),但这已不再是实现PPA的唯一方法。实际上,缩小特性对PPA的好处可能不如最小化系统间的数据移动多。由于设备是为特定应用而设计的,因此需要考虑的因素有许多,例如不同类型的高级封装、硬件和软件更紧密集成以及处理不同数据类型和功能的混合处理元件。
随着越来越多的设备连接在一起,越来越多可用程序的出现,我们看到数据呈指数级增长,还看到了完全不同的工作负载,随着数据和不同使用模型的不断发展,可以预计未来的工作负载会有更多变化。英特尔副总裁设计支持部总经理加里·巴顿(Gary Patton)在SEMI最近召开的先进半导体制造大会的一次主题演讲中表示:“这种数据演进正在推动硬件革命,对计算的需要也与以往不同。技术节点向前演进是绝对的,但这还不够,我们还需要解决系统级的异构集成,工艺技术设计的协同优化、软硬件之间的优化,更重要地,需要持续推动人工智能和新的计算技术。”
因此,尽管晶体管水平性能仍然是一个重要因素,但在从前沿来看,它只是众多因素中的一个,不过至少在可预见的未来里,这依然是最大的芯片制造商不愿意放弃或让步的竞争。三星最近披露了关于其即将推出3nm工艺的更多细节,该工艺基于下一代晶体管类型,称为全栅极(GAA)FET。本月,IBM开发了一种基于GAA-FET的2nm芯片。另外,台积电正在开发3nm和2nm,英特尔也在开发更先进的工艺,所有这些公司都在开发一种称之为纳米片FET的GAA FET,其性能优于当今的FinFET晶体管,但也更难制造、更加昂贵。
图1:平面晶体管与FinFET以及GAA FET,来源:Lam Research预计3nm的生产将于2022年中开始,2nm的生产将在2023年或2024年之前完成,因此业界需要为这些技术做好准备。不过目前的情况令人疑惑,关于新节点和新功能的官方公告并不完全像它们看起来的那样。一方面,行业继续在不同的节点上使用传统的编号方案,但术语并没有真正反映出哪家公司领先,另一方面,芯片制造商在所谓的3nm节点上朝着不同的方向发展,并不是所有3nm技术都一样。
这样做的好处是每个新节点都是特定应用。在过去的几个工艺节点中,晶体管密度提升正在放缓,且性价比在不断下降,而且很少有公司能够负担得起仅基于最新节点的产品设计和制造能力。另一方面,开发这些工艺的成本飞涨,配备先进晶圆厂的成本也在飞速增长。如今,三星和台积电是仅有的两家能够制造7nm和5nm芯片的供应商。
此后,晶体管结构开始发生变化。三星和台积电正基于当今的FinFET生产7nm和5nm的芯片,三星将转向3nm的纳米片FET,英特尔也在开发GAA技术,台积电计划将FinFET扩展到3nm,然后在2024年左右迁移到2nm纳米片FET。
IBM也正在开发使用纳米片的芯片,但是该公司已经几年没有生产自己的芯片了,目前将其生产外包给三星。
逐渐混淆的工艺节点命名规则
近十年来集成电路行业一直试图跟上摩尔定律,力争每18到24个月芯片中的晶体管密度翻一番。晶体管就像芯片中的开关一样,由源极、漏极和栅极组成。在具体功能实现中,电子从源极流向漏极,并由栅极控制。有些芯片在同一个设备中有数十亿个晶体管。
尽管非常艰难,芯片制造商还是以18到24个月的周期推出了一种晶体管密度更高的新工艺技术,从而降低每个晶体管的成本。以这种节点节奏,芯片制造商将晶体管的规格扩展了0.7倍,从而使该行业在同等功率的情况下提供40%的性能提升和50%的面积缩减,这个公式催生了快而新且功能更丰富的芯片。
每一个节点都有一个数字标识。几年前,节点的命名基于一个关键晶体管指标,即栅极长度。“例如,基于0.5微米技术节点生产的晶体管,栅极长度就是0.5微米”,Lam Research大学项目负责人Nerissa Draeger解释说。
随着时间的推进,栅极长度缩放速度变慢,并在某些时候,它与相应的节点名称并不匹配。Draeger说:“多年来,技术节点的定义不断发展,现在被认为更像是一个世代的名字,而不是任何关键维度的衡量标准”,Draeger说。
一段时间以来,节点名称已经成为纯粹的营销名称。例如,5nm是当今最先进的工艺,但5nm的规格还没有达成一致,3nm、2nm等也是如此,当供应商对节点使用不同的定义时,就更让人困惑了。英特尔正以10nm工艺生产芯片,这大致相当于台积电和三星的7nm工艺。
多年来,供应商或多或少地遵循国际半导体技术路线图(ITRS)定义晶体管微缩规格。2015年,ITRS的工作被叫停,业界只能自己定义规格。取而代之的是,IEEE实施了设备和系统的国际路线图(IRDS),该路线图的重点是延续摩尔定律(More Moore)和超越摩尔定律(More Than Moore)。
Draeger说:“不变的是,我们期望节点扩展能够带来更好设备性能,更高的电源效率和更少的制造成本。”
这并非易事,多年来,供应商一直使用传统的平面晶体管来开发芯片,但这一结构在10年前的20nm处就已经触礁。平面晶体管仍用于28nm / 22nm及以上的芯片制造,但业界需要一种新的解决方案,这也就是为什么英特尔在2011年推出了22nm的FinFET,晶圆制造厂紧随其后推出了16nm / 14nm的FinFET。在FinFET中,电流的控制是通过在Fin的三个边的每个边上实现一个栅极来完成的。
FinFET使业界能够继续进行芯片微缩,但它们也更复杂、功能更小,导致设计成本不断攀升。根据IBS首席执行官汉德尔·琼斯(Handel Jones)的说法,设计一款“主流” 7nm芯片的成本为2.17亿美元,而设计一款28nm芯片的成本为4000万美元。在这种情况下,成本是在一项技术投产后的两年或两年以上后确定的。
7nm及以下,静态泄漏再次成为问题,功率和性能效益也开始减少。现在,性能提升在15%到20%的范围内。
在制造方面,FinFET需要更复杂的工艺、新材料和不同的设备。这反过来又会提高制造成本。”如果你把45nm和5nm进行比较,今天我们会看到晶圆成本增加了5倍。这是由于所需处理步骤增加所致”,TEL America副总裁兼副总经理本·拉特萨克(Ben Rathsack)说。
随着时间的推移,拥有生产尖端芯片资源或能够看到其价值的公司越来越少。如今,GlobalFoundries、三星、中芯国际、台积电、UMC和英特尔正在生产16nm/14nm的芯片(英特尔称之为22nm)。但只有三星和台积电有能力制造7nm和5nm的芯片。英特尔仍在开发7nm及更高版本,中芯国际也在开发7nm。
从FinFET转向纳米片
在3nm及以下时,微缩变得更加困难。开发可靠且符合规范的低功耗芯片面临一些挑战。此外,IBS的数据显示,开发主流3nm芯片设计的成本高达5.9亿美元,而5nm器件的成本为4.16亿美元。
在制造方面,代工厂的客户可以在3nm走两条不同的路,但同样要面临艰难的选择和各种权衡。
台积电计划通过缩小5nm FinFET的尺寸来将FinFET扩展到3nm,尽可能实现无缝过渡。IBS的琼斯说:“ TSMC计划在2022年第三季度为苹果公司提供3nm FinFET的量产,计划在2023年实现高性能计算。”
不过,这是一项短期策略。当鳍片宽度达到5nm(等于3nm节点)时,FinFET将接近实际极限。根据新的IDRS文件,3nm节点相当于16nm至18nm的栅极长度,45nm的栅极间距和30nm的金属间距。相比之下,5nm节点相当于18nm至20nm的栅极长度,48nm的栅极间距和32nm的金属间距。
一旦FinFET碰壁,芯片制造商将迁移到纳米片FET。三星从一开始就采用3nm的纳米片FET,根据IBS的数据,该产品定于2022年第四季度实现生产。
IBS还称,台积电计划在2024年推出2nm的纳米片FET。英特尔也在开发GAA。多家无晶圆厂设计公司正在研究3nm和2nm器件,苹果等公司计划将该技术用于下一代器件。
纳米片FET是从FinFET进化而来的。在纳米片中,来自FinFET的鳍被放在其侧面,然后被分成单独的水平片。片与片之间形成通道。第一纳米片FET将可能具有3个左右的片,用一扇门包裹着所有的薄片或通道。
纳米片在结构的四个侧面上实现了栅极,比FinFET能够更好地控制电流。Leti的高级集成工程师Sylvain Barraud说:“除了具有更好的栅极控制能力(与FinFET相比)以外,GAA堆叠的纳米片FET还具有更高的有效沟道宽度,从而提供了更高的DC性能。”
相对于FinFET,纳米片FET还具有其他优势。在FinFET中,器件的带宽被量化,这影响了设计的灵活性。在纳米片中,IC供应商有能力改变晶体管中片的宽度。例如,具有更宽薄片的纳米片提供了更多的驱动电流和性能。窄的纳米片具有较小的驱动电流,但占用的面积较小。
“宽范围的可变纳米片宽度提供了更大的设计灵活性,对于FinFET来说由于鳍片数量不连续,更加灵活的设计性是不可能的。最后,由于使用不同的功函数金属,GAA技术还提出了多种阈值电压特性”, Barraud说。
首批3nm器件开始以早期测试芯片的形式出现,在最近的一次活动中,三星披露了基于3nm纳米片技术的6T SRAM的开发。这个设备解决了一个主要问题,SRAM微缩了器件的面积,但同时也增加了位线(BL)电阻。作为响应,三星将自适应双BL和电池供电辅助电路集成到SRAM中。
三星研究员Taejoong Song在论文中说:“提出了一种全能的SRAM设计技术,该技术可以在功耗、性能和面积之外,更自由地提高SRAM容限。此外,提出了SRAM辅助方案来克服金属电阻,从而最大限度地提高了GAA器件的优势。”
同时,IBM最近展示了一种处于测试阶段的2nm芯片。该器件基于纳米片FET,可以集成多达500亿个晶体管,每个晶体管由三个纳米片组成,每个纳米片的宽度为14nm,高度为5nm。总的来说,该晶体管具有44nm的接触多晶硅间距和12nm的栅极长度。
IBM仍在研发中,目标是在2024年推出该芯片。但在任何节点上,纳米片器件在投入生产之前都面临若干挑战。IBM混合云研究副总裁Mukesh Khare说:“挑战的数量没有限制。我想说最大的挑战包括泄漏。如何降低功率?当薄板厚度为5nm且通道长度为12nm时,如何提高小尺寸的性能?如何在2nm内获得合理的RC效益?最后,芯片必须优于先前的节点。”
制造纳米片FET是困难的。“在全能门纳米片/纳米线中,我们必须在看不见的结构下进行处理,而在该结构下进行测量更具挑战性。这将是一个更加困难的过渡,” Lam Research计算产品副总裁David Fried说。
在工艺流程中,纳米片FET首先在衬底上形成超晶格结构,外延工具在衬底上沉积硅锗(SiGe)和硅(Si)的交替层。
这需要极端的过程控制。“对每一对Si / SiGe的厚度和成分进行在线监测至关重要,这些参数是器件性能和量产良率的关键。” Bruker产品营销总监Lior Levin说。“
下一步是在超晶格结构中开发微小的垂直鳍片。然后,形成内垫片,形成源极/漏极,接着进行沟道释放工艺。栅极被开发出来,形成纳米片FET。
图2:堆叠纳米片FET的工艺流程。资料来源:Leti/半导体工程晶体管微缩竞争之外,异构集成竞争同样激烈
晶体管微缩只是方程式的一部分。伴随晶体管未做竞争的持续,异构集成方面的竞争也同样激烈,许多最先进的架构不仅包含在单个制程节点上开发单片芯片,还包含许多处理元件,包括一些高度专用的元件和不同类型的存储器。
英特尔的巴顿说:“分布式计算正在推动另一个趋势,即越来越多特定领域的体系结构。我们看到的另一个趋势是从整体上分解出特定领域的体系结构,主要由人工智能驱动,并且为提高效率而量身定制。”
将复杂模块集成到一个封装中的先进封装方式正在发挥作用。“现在,封装创新开始在提高产品性能方面发挥更大的作用。”巴顿说。
“从一个节点到另一个节点的性能、功率和面积肯定涉及到更多因素,” Arm公司技术副总裁兼专家Peter Greenhalgh说:“如果世界仅依靠晶圆厂来获得全部收益,您将非常失望。Arm提供了一种LEGO设计。该乐高积木被添加到其他乐高积木中,以构建一个非常有趣的芯片。有许多昂贵的方法可以做到这一点,但也将在一定程度上实现商品化和协调化。”
向异构架构过渡的同时,还扩展了边缘范围,涵盖了从物联网设备到各种级别的服务器基础架构的所有方面,以及Google、阿里巴巴、AWS和Apple等系统公司将设计自己的硬件,以优化庞大数据中心内部特定数据流。这掀起了狂热的芯片设计活动,将定制和非定制硬件,非标准程序包以及各种方法(例如内存和近内存处理)结合在一起,这些方法过去从未获得过广泛的关注。它还着重于如何对处理进行分区,哪些组件和流程需要在微体系结构中确定优先级,以及基于特定异构设计的各种组件的最佳工艺节点是什么。
Greenhalgh说:“视频加速就是一个很好的例子。如果您是一家云服务器公司,并且要进行大量的视频解码和编码,那么您就不想在CPU上这样做。您要在其中放置视频加速器。这是一个范式转变。”
因此,存有更多不同种类的处理器元件,还有一些扩展是现有处理器核心的开发。
Synopsys的高级市场营销经理Rich Collins表示:“我们一直有能力通过添加自定义指令或连接自定义加速器扩展架构(用于ARC处理器)。现在的不同之处在于,越来越多的客户正在利用这一优势。人工智能是一个时髦的词,它意味着很多不同的东西,在这个术语后面,我们看到了很多变化,越来越多的公司在标准处理器上添加了神经网络引擎。”
这些变化不仅仅是技术上的,也需要芯片公司内部做成一些改变。从各种工程师团队的组成到公司本身的结构。
英飞凌汽车高级副总裁Shawn Slusser表示:“过去,你会发明一堆产品,将它们放在一堆数据手册中,然后人们会尝试找到它们。由于设备的复杂性和使用寿命,这种方法不再见效。现在,我们正在研究一种更像是半导体超级市场的模型。如果你想将现实世界与数字世界联系起来,那么一切都可以在同一个地方得到,包括产品、人员和专业知识。”
较大的公司一直在内部发展这种专业模式,这在苹果的M1芯片中很明显。M1是使用台积电的5nm工艺开发的,它集成了Arm V8内核、GPU、自定义微体系结构、神经引擎和图像信号处理器,所有这些都集成在一个系统级封装中。尽管该设计的性能可能不如使用标准行业基准的其他芯片那样出色,但运行Apple应用程序的性能和功耗方面的改进显而易见。
根据行业估计,截至今天已有约200家公司正在开发或已经开发出加速器芯片,其中有多少能存活还不得而知,最终走向解体是不可避免的。在边缘,汽车、安全系统、机器人、AR / VR甚至智能手机生成的数据太多,无法将所有数据发送到云端进行处理。它花费的时间太长,并且需要太多的功耗、内存和带宽。很多数据都需要进行预处理,硬件处理这些数据的优化程度越高,电池寿命就越长、功耗也就越低。
这就是为什么风险投资在过去几年中一直向硬件初创公司投入资金的原因。在接下来的12到24个月内,预计该领域投资将显著减少。
Flex Logix首席执行官Geoff Tate表示:“合理推断,随着公司进入市场并与客户互动,这一窗口将开始关闭。在接下来的12个月中,投资者将开始获得真正的数据,看看哪种架构真正获胜。在过去的几年里,谁拥有最好的PPT是关键。客户将加速视为运行神经网络模型的必要条件,对于模型来说,它将运行多快,需要多少功率以及要花费多少成本? 他们将依据这些条件选出最适合自己比赛或符合条件的模型。”
设计也在云端发生变化。在云计算中,更快的处理以及准确确定处理地点的能力可能会对能效以及数据中心的容量产生重大影响。例如,不只是将DRAM连接到一颗芯片上,DRAM还可以在许多服务器之间共享,从而使工作负载可以分布在更多计算机上。这不仅为负载平衡提供了更高的粒度,而且还提供了散热的方式,从而减少了对冷却的需求,并有助于延长服务器的使用寿命。
Rambus资深研究员、发明家史蒂文·伍(Steven Woo)说:“其中一些数据中心中有成千上万台服务器,全球有数以万计的数据中心。现在,你得想办法将它们捆绑在一起。有一些新技术即将问世。一种是DDR5,它具有更高的电源效率,更遥远一点的是Compute Express Link(CXL)。长期以来,能够放入服务器的内存量是有限的,但现在由于能够在云中执行更多工作并租用虚拟机,工作负载的范围要大得多。CXL使你能够在系统中拥有基本配置,还可以扩展可用的内存带宽和容量。因此,现在你可以突然支持比以前更大范围的工作负载。”
结论
争夺更加先进的几个制程节点的竞争仍在继续。剩下的问题是,当公司可以通过其他方式获得足够的收益时,哪些公司愿意花时间和金钱在这些节点上开发芯片。
不同市场的经济和动态正在迫使芯片制造商评估如何以最大的投资回报率来最好地应对市场机会,在某些情况下,这可能远远超出开发先进芯片的成本。实现不同目标有很多选择,到达同一目标的方法通常也不止一种。