闪迪HBF新专利曝光：打破访存限制的新路径

【天极网DIY硬件频道】在AI大模型参数量呈指数级爆炸的今天，算力早已不是唯一的瓶颈，访存带宽的限制，令HBM(高带宽内存)以惊人的速度成为通用计算芯片的标配，但它也在诸多方面受限于高昂的成本、有限的容量以及复杂的封装工艺。

而就在最近，存储巨头闪迪(SanDisk)的一项新专利(US 12,430,274 B2)HBF(High Bandwidth Flash，高带宽闪存)技术曝光，为打破"内存墙"提供了一种极具想象力的方案，试图通过一种激进的3D堆叠架构，将计算芯片与NAND闪存直接"焊"在一起。

闪迪官方投资者日PPT展示的HBM与HBF对比

HBF：用NAND的容量，追赶HBM的速度

要理解闪迪的方案，我们首先得弄明白HBF是什么。在传统的认知里，NAND闪存虽然容量大、成本低，但速度相对慢上许多，通常只能作为SSD用来做数据仓库;而HBM虽然快如闪电，但受限于DRAM的物理特性，容量上限较低。目前主流的HBM解决方案单栈容量通常为32至64GB，这对于顶级AI模型无异于杯水车薪。

为了解决这个问题，闪迪推出了HBF技术。它的核心理念其实很简单：既然HBM是通过TSV(硅通孔)技术把DRAM叠起来，那为什么不能把NAND也叠起来呢？HBF正是基于这一思路，通过垂直堆叠多层NAND闪存，并利用TSV进行连接，形成统一的内存堆栈。得益于NAND天生的容量优势，HBF的单栈容量可以轻松扩展至4TB，在同等成本下，容量可达HBM的8至16倍。且根据闪迪的官方模拟数据，HBF在读取特定AI模型权重时，其性能表现仅比HBM低2.2%。

这背后也离不开 CBA(CMOS directly Bonded to Array，直接键合阵列)技术，将大容量NAND闪存阵列与CMOS逻辑层直接键合为一体，在大幅提升存储密度的同时，也为高速数据传输奠定了基础。第一代HBF产品的读取带宽已达1.6 TB/s，单栈容量为512GB(16层堆叠)，物理封装尺寸与HBM4高度兼容。而根据闪迪的路线图，第二代和第三代HBF的读取带宽将分别超过2 TB/s和3.2 TB/s，单栈容量也将分别提升至1TB和1.5TB。

HBF堆叠架构示意图，展示了16层NAND Core Die通过TSV与Logic Die连接，再经中介层与GPU/CPU/SoC对接的完整封装结构(来源：Tom's Hardware)

激进的新专利：计算与存储"肩并肩"

然而，HBF并非完美无缺。NAND闪存在系统架构中距离计算核心较远，数据访问的物理延迟依然存在，这限制了HBF在对延迟极度敏感的工作负载中的适用性。为了彻底解决这一问题，闪迪提出了一种全新的3D堆叠架构：将一块基于CBA技术构建的NAND闪存模块，直接放置在AI加速器或GPU等计算芯片的正下方，实现物理上的直接键合。整个集成堆叠随后被安装于中介层之上，而原本占据C位的HBM芯片栈，则被安置在该组合堆叠的一侧或多侧。

我们可以用AMD的3D V-Cache技术来做一个类比。AMD通过在CPU核心上方或下方直接堆叠SRAM缓存，极大地缩短了数据传输的物理距离，从而大幅提升了游戏场景下的缓存命中率与整体性能。闪迪的新专利有着异曲同工之妙，只不过他们堆叠的不是几十MB的SRAM缓存，而是容量高达数TB的NAND闪存。这种"贴面"式的物理键合，使得计算芯片与海量存储之间的数据通路被压缩至极致。

在这种架构下，HBM负责处理那些需要即时响应、高速读写的小规模数据;而NAND闪存负责承载海量的AI模型权重和读写密集型工作负载。两者各司其职，在系统层面同时优化了带宽、延迟与能效表现。