DeepSeek开源TileKernels,Engram和mHC生产级内核首次公开,为新一代模型铺路
据动察 Beating 监测,DeepSeek 以 MIT 许可证开源 TileKernels,公开一批面向大模型训练和推理的 GPU 底层计算代码,其中部分已用于内部生产环境。GPU 内核(kernel)是直接在显卡上运行的计算程序,决定模型训练和推理的速度上限。TileKernels 全部用 Python 编写,依赖 GPU 内核专用语言 TileLang 自动完成底层优化,不需要手写 CUDA C++。DeepSeek 称多数内核已接近硬件性能极限。库中包含两个未出现在 DeepSeek-V3 和 R1 论文中的架构组件的生产级内核。Engram 是 DeepSeek 今年 1 月论文提出的条件记忆模块,通过哈希查表以 O(1) 复杂度检索静态知识(如实体、固定短语),与 MoE 的条件计算互补,为模型主干卸载记忆负担;Manifold HyperConnection(mHC)改进了字节 Seed 团队 2024 年提出的 HyperConnection,用双随机矩阵约束解决大规模训练时的信号发散问题。两者此前只有论文和演示代码,TileKernels 首次提供了可直接用于训练的高性能实现,说明 DeepSeek 已在为将这些组件集成到新一代模型做工程准备。库还覆盖 MoE 路由与门控、多种低精度量化(FP8、FP4 等)、批量转置等常规环节。代码可通过 `pip install tile-kernels` 安装,运行需要 H100/H200 或 Blackwell 系列 GPU。
