全球芯片持续短缺，半导体制造商如何扩大AI部署？

2021-04-12由公羊易绿发布于科技

图源：图虫

编者按：本文来自微信公众号机器之能（ID： almosthuman2017），作者机器之能，创业邦经授权转载。

从研究、设计到生产销售，人工智能/机器学习(AI/ML)有潜力为半导体公司在每一个步骤产生巨大的商业价值。但是，麦肯锡最近对半导体设备制造商的调查显示，只有大约30%的受访者表示，他们已经通过AI/ML创造了价值。值得注意的是，这些公司在AI/ML人才、数据基础设施、技术和其他促进因素方面进行了大量投资，并且已经完全扩大了它们的初始用例。其他的受访者(约70%)仍处于AI/ML的试点阶段，进展已经停滞。

麦肯锡相信，AI/ML在半导体行业的应用将在未来几年内急剧加速。现在采取措施扩大规模将使公司充分利用这些技术的好处。

需要说明的，本文所说的设备制造商，主要包括集成设备制造商(IDMs)、无厂半导体公司（fabless）、代工厂和半导体组装和测试服务商（SATS）。

AI 在应对未来挑战中的作用

由于对资本的高要求，半导体公司处于赢者通吃或赢者通吃的环境中。因此，他们一直试图缩短产品生命周期，积极追求创新，以更快地推出产品，保持竞争力。但赌注也越来越高。随着每一个新技术节点的出现，费用都会上升，因为随着结构变小，研究和设计投资以及生产设备的资本支出都会大幅增加。

例如，65纳米芯片的研究和设计成本大约2800万美元，如今前沿5纳米节点的研发设计成本已经暴增到大约5.4亿美元(表1)。与此同时，相同节点的fab建设成本已经从4亿美元增加到54亿美元。

表1：芯片设计以及工厂建设成本，随着芯片日益复杂而水涨船高。

随着公司试图提高研究、芯片设计和制造的生产率，同时加快上市时间，AI/ML正成为整个价值链上越来越重要的工具。麦肯锡研究表明，现在，AI/ML每年为半导体公司贡献50亿至80亿美元的息税前利润(表2)。数字令人印象深刻，但仅反映出AI/ML在行业内全部潜力的10%左右。

未来两到三年内，AI/ML每年可能产生350亿到400亿美元的价值。在更长的时间范围内——未来四年或更长时间内——这一数字可能会上升到每年850亿至950亿美元。这一数字相当于该行业当前5000亿美元年收入的20%，几乎相当于2019年1100亿美元的资本支出。

虽然这种价值很大一部分将不可避免地传递给客户，但获取这种价值的竞争优势，尤其是对早期的先行者来说，将是不可能被忽视的。

表2：长远来看，人工智能可以为半导体公司带来850亿到950亿美元的收益。

半导体行业的AI/ML用例

AI/ML的落地案例横跨了半导体设备制造商的整个价值链(表3)。有些案例还会勾连多个价值链条环节，比如，需求预测和库存优化领域的案例，会与制造、采购、销售和运营计划产生关联。

表3：全面案例热图。

从整个行业来看，制造环节将从AI/ML中获得最大的价值(表4，长期来看，降本达38%)。鉴于半导体制造涉及的资本支出、运营支出和材料成本，这一结论并不奇怪。最大相对开支减少将发生在研究和设计方面（降本28%-32%），主要是由于芯片设计和验证的自动化。

表4：制造业将从AI/ML中获得最大的价值。最大的相对开支减少将发生在研究和设计领域。

1、制造中的AI/ML用例

作为一个大型制造企业，人力和生产等制造成本一直居高不下。生产制造也是半导体行业最大的成本驱动因素，而AI/ML用例将带来最大的价值——约占总价值的40%。它们可以降低成本，提高产量，或者增加工厂的生产能力。从长远来看，麦肯锡估计他们将降低生产成本(包括销售成本和折旧)高达17%。以下是几个例子。

调整工具参数。定义工艺配方时，半导体公司通常会指定一个恒定的时间范围。但是，对某些个别晶圆来说，设定的时间范围会出现系统性或者统计意义上的波动，因此，工艺过程会在已经产生所需结果（例如特定的蚀刻深度）之后，继续运行，进而增加时间，浪费甚至损坏芯片。

为了实现更高的精度，半导体公司可以使用现场工具传感器数据、计量读数和先前工艺步骤中的工具传感器读数，从而允许机器学习模型捕捉工艺时间和结果之间的非线性关系，如蚀刻深度。收集的数据可能包括蚀刻过程中的电流、光刻过程中的光强和烘烤过程中的温度。有了这些模型，可以在每个晶片或每个批次的基础上实现最佳工艺时间，以缩短处理时间，提高产量，或两者兼得，从而降低销售成本(COGS)和提高吞吐量。

晶圆片外观检查。芯片是非常精密的产品，在生产过程中质量检测压力巨大，每一道工序的质检都相当重要。传统生产主要通过在前端和后端生产过程的早期检测缺陷来帮助确保质量。例如，使用摄像头、显微镜或扫描电子显微镜。但是，传统系统无法对这些图像缺陷进行精细的分类与定位，仍然需要人工下载每张图片判定种类及其潜在影响，以及后续工艺如何处理。不仅容易出现错误和积压，也将生产成本不断推高。

先进的计算机视觉深度学习技术使现代晶圆检测系统成为可能，通过训练，系统可以自动检测和分类晶圆上的缺陷，其准确性与人类检查员相当，甚至更好。专门的硬件(如张量处理单元)和云服务使计算机视觉算法的自动化培训成为可能。这反过来又允许更快的操作、实时推断和可伸缩的部署。

通过这种方法，公司可以获得对潜在工艺或工具偏差的早期洞察，允许他们更早地发现问题并提高产量，同时降低成本。

比如，在华星光电，导入AI判片（不过，这里是面板生产），一整个面板的片子识别速度已经做到15毫秒左右，而人工大概需要五分钟。同时，缺陷识别准确率已超过90%，超过人类。最开始人员替代只有二三十人，团队用了两年时间提升系统，现在替代数量达到140人，未来总体可以替代50%人力。

2、研究和芯片设计中的AI/ML用例

AI/ML用例可以帮助半导体公司优化他们的投资组合，并在研究和芯片设计阶段提高效率。通过消除缺陷和超差的过程步骤，公司可以避免耗时的迭代，加速成品率的上升，并降低维持成品率所需的成本。它们还可以自动处理与物理布局设计和验证过程相关的耗时过程。

尽管我们还没有达到AI/ML加速可以应用到设计和芯片设计所有阶段的地步，但是，也没有反例证明它不能随着时间的推移进一步渗透。麦肯锡预测，AI/ML最终可能会将目前的研发成本基础降低28%至32%，甚至高于制造业的预期收益。

集成电路设计中的自动良率学习。如果在集成电路（IC）设计过程中出现失误，半导体公司必须根据制造商的反馈进行多次昂贵且复杂的迭代。

半导体公司可以通过部署ML算法来识别组件故障中的模式，预测新设计中可能出现的故障并提出最佳布局以提高良率来避免此问题。在此过程中，借助基于AI的分析，将IC设计分解为关键组件。然后，算法将这些组件结构与现有设计进行比较，以识别单个微芯片布局内的问题位置并改善设计。因此，AI和ML辅助设计可以大大降低COGS，提高终端产量，并缩短新产品的上市时间。它还可以减少维持最终产量所需的精力。

例如，有的公司通过引入预测及认知技术，由过去依赖设计师和工程师的个人经验，转移到利用AI提高设计效率，降低验证成本。通过输入历史数据和相关参数，系统会自动获得设计结果，并在模拟器上预测设计效果，在人类工程师配合下快速修正设计。而且，人工智能通过学习，还能给设计者带来一些新的想法和创造力。这也是目前一个比较好的AI/ML落地方向。

其他领域。所有其他功能，包括计划、采购、销售和定价，都将受益于AI/ML用例。通常，这些用例并不特定于半导体行业，而是部分地建立在其他行业中，因此允许更快地实现。总的来说，将AI/ML用例应用到其他功能上可以产生高达200亿美元的年价值。

AI/ML大规模成功实施的六个关键因素

半导体公司进行AI / ML转换并大规模部署用例，麦肯锡建议关注六个推动因素：战略路线图的制定，人才战略，敏捷交付，技术，数据以及采用和扩展（表5）。

表5：六个赋能因素对于AI规模化实施来说，非常关键。他们分别是：路线图、人才与组织、技术、数据、采纳与扩展以及敏捷交付。

1、创建战略路线图

最重要的是，扩展AI/ML的努力必须成为公司的战略优先事项。最初的工作涉及协调数据，在优先使用案例上达成共识，并鼓励合适的业务，数据科学和工程技术人才之间的协作，这些工作太大了，因此无法作为一个自下而上的项目获得成功。

理想情况下，最好将AI/ML工作与明确的业务目标联系在一起，使业务部门和业务职能部门共同致力于成功实现转型。

例如，公司可以为预测性维护案例项目确定要节省的成本，并适当提供资源。节省下的成本将有助于赞助案例并提供适当资源，使其能够实现其业务目标。这样的收获将极大激励职能部门支持AI / ML的实施。设定明确的业务目标还可以帮助公司衡量每个案例项目随着时间变化带来的收益。

根据定义的目标，公司应确定特定的业务领域和价值杠杆，这将是他们的重点。然后，他们可以选择相关案例，以允许他们使用这些杠杆。

在确定用例优先级时，公司应强调其总价值，可行性和实现价值的时间。随着经验和能力的增长，他们可以承担其他案例，这些案例往往更难实现，或者需要更长时间才能实现。在确定潜在案例价值时，公司应研究经常被忽视的杠杆，例如与缩短上市时间和提高质量相关的竞争优势。这样的细节将使他们能够准确地确定计划的大小和优先级。

在确定了优先事项之后，半导体公司必须为其AI/ML计划分配足够的资源，并研究与具备互补技能的第三方的支持性合作关系，而不是试图自己重新发明轮子。一些更大的公司可能有能力在内部开发大多数功能，以及从他们庞大的工具群中获得足够的数据来训练AI/ML模型，使他们能够完全控制所有相关的知识产权。

考虑到所需的资源，较小的参与者可能会发现，在可用的地方利用商业上可用的解决方案，或与他人合作开发或共享算法，或创建联合数据共享平台，以增加培训模型可用的信息量，都是有益的。潜在合作伙伴的例子包括其他半导体设备制造商、电子设计自动化公司、超大规模云供应商或设备OEM。

2、人才战略

大多数成功实现AI/ML的公司都创建了一个集中的组织，如卓越中心(COE)专注于此类活动。该组织为所需的新人才提供了清晰的家园，并负责定义通用标准并建立最佳实践和知识的中央存储库。一些领先的半导体公司已经对AI / ML COE进行了大量投资，其中包括数百名工程师。

在为中央团队雇用技术人员时，半导体公司应仔细权衡角色组成，以确保其具有从试点到全面扩展用例的正确能力。例如，试行AI / ML用例需要数据科学家和数据工程师，但是需要ML工程师，基础架构设计师或全栈开发人员来推动扩展。通常，半导体公司没有拥有这些资质的员工，必须从外部招聘他们。

集中式AI / ML功能无法与将部署用例的业务和功能隔离开来。为了建立联系，具有业务/运营领域专长的人员，如研发设计师、流程工程师和设备工程师，应该包括在AI/ML功能中。这些团队成员在识别AI/ML用例中扮演关键角色，并在组织内充当AI/ML解决方案的大使。

同样，成功的公司将确保本地站点(无论是工厂还是职能部门)为他们的AI/ML团队增加数据科学专业知识。受训成为「数据公民」的员工可以与AI/ML COE的专家角色共同工作，以领导用例选择并支持跨功能团队中的实现。

3、敏捷交付

为了避免AI/ML案例因为使用或规模有限而陷入「概念验证」的螺旋陷阱，团队应该专注实现业务价值，并着重于迭代改进。

敏捷方法是软件开发的核心，它可以帮助半导体公司实现这一目标。尽管AI/ML开发涉及到大量发现和探索，半导体公司也应该从使用者那里得到持续反馈。许多敏捷团队都通过利用「垂直分片」方法获得了成功，该方法包括在第一个或第二个sprint中创建一个端到端分析管道，包括数据吸收、建模、建议开发和部署到用户(通常是企业所有者或在工厂工作的工程师)。这种垂直分割的方法可能与许多既定的做法相反，因为半导体公司通常只有在完全确定这种转变将带来完美结果的情况下，才会在制造工程方面做出改变。

从运营的角度来看，敏捷团队是有益的，因为他们减少了对团队外部人员的依赖。通常，很难避免这种依赖关系，因为数据所有者、AI/ML专家和IT基础设施之间通常存在组织划分。但是，敏捷AI/ML团队是跨界的，并且包含了用例所需的所有专业知识，即使一些成员只包含在有限数量的sprint中。敏捷团队还可以利用自助服务资源，比如访问数据和基础设施。

向敏捷AI/ML交付的转变应该尽快发生，如果高层领导给予支持，公司试图改变思维方式和流程，那么，这种转变将更有可能获得牵引。

4、技术

在晶厂内部，成功的公司会建立一个连接层，用于实时访问相关数据源，包括生产和测量工具、辅助设备、设施等。工具OEM可以帮助确保这种连接性，这对于制造用例是特别重要的。

半导体公司也需要一个通用的数据集成层。在开发环境中部署分析引擎和用例之前，这一层首先结合数据。为了获得最好的结果，半导体公司必须找到方法，将来自不同工具供应商的数据和用例结合起来，以限制复杂性，并防止多个物联网堆在平行的竖井中。

成功的公司将利用edge和云计算来支持他们的AI/ML用例。由于一些工具会生成大量数据，因此实时应用程序通常需要边缘计算能力(在工具内或接近工具的地方部署AI/ML用例)。云解决方案提供了规模经济，并使不同工厂之间的链接成为可能，增加了用例的培训数据池。(半导体公司历来都对数据安全持谨慎态度，因此它们可能会限制将敏感数据部署到本地解决方案中。)

5、数据

半导体公司在每个晶圆厂都有几百种工具，其中一些会产生数兆兆字节的数据，要检查每一条信息是不可能的。为了确保最大的有效性和效率，参与者必须对可能支持多个用例的数据进行优先级排序，因为这将比单个计划有更大的影响。

即使玩家限制所分析的信息数量，他们的AI/ML计划仍然需要大量的时间和资源，例如AI/ML团队中有足够数量的数据工程师。需要严格的数据治理策略，以确保现有数据和新生成的数据立即可用，始终保持高质量和值得信赖。成功的公司通常有一个专门的数据治理团队，以确保数据一致性以及新数据和现有数据的质量。

6、采用和扩展

从设计阶段开始，半导体公司应严格关注优先使用案例的可扩展性。必须尽早包括来自多个站点或工厂的专家，以确保以后可以在各个位置部署用例。

一些半导体公司正在晶圆厂领域内设立焦点小组，以计划扩大规模。对于特定领域，他们选择一个晶圆厂作为主要站点，然后确定用例，从其他晶圆厂收集需求，创建实施计划，并确保知识转移。如前所述，半导体公司将需要在全面扩展后根据其用例的价值来优先考虑部署用例。

其次，半导体公司在开发和扩展用例时应确保整个组织遵循标准和最知名的方法（BKM）。在整个组织中规范和强制使用BKMs可以确保解决方案的持续和改进，允许机器学习在站点间获得最大的规模。通常，中央AI/ML团队负责监督这项关键任务。

最后，半导体公司必须将用例无缝集成到最终用户的数字化工作流程中，以确保采用。许多公司都忽略了这一步骤，但是这种疏忽会带来严重的后果。在我们的调查中，近一半的半导体设备制造商表示，缺乏集成是扩展AI / ML用例的第二大问题。如果组织在AI/ML功能和业务端之间形成紧密的联系，那么，在最初设计用例时就会更容易从用户的角度考虑问题。

本文为专栏作者授权创业邦发表，版权归原作者所有。文章系作者个人观点，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系