DeepSeek开源TileKernels，Engram和mHC生产级内核首次公开，为新一代模型铺路

据动察 Beating 监测，DeepSeek 以 MIT 许可证开源 TileKernels，公开一批面向大模型训练和推理的 GPU 底层计算代码，其中部分已用于内部生产环境。GPU 内核（kernel）是直接在显卡上运行的计算程序，决定模型训练和推理的速度上限。TileKernels 全部用 Python 编写，依赖 GPU 内核专用语言 TileLang 自动完成底层优化，不需要手写 CUDA C++。DeepSeek 称多数内核已接近硬件性能极限。库中包含两个未出现在 DeepSeek-V3 和 R1 论文中的架构组件的生产级内核。Engram 是 DeepSeek 今年 1 月论文提出的条件记忆模块，通过哈希查表以 O(1) 复杂度检索静态知识（如实体、固定短语），与 MoE 的条件计算互补，为模型主干卸载记忆负担；Manifold HyperConnection（mHC）改进了字节 Seed 团队 2024 年提出的 HyperConnection，用双随机矩阵约束解决大规模训练时的信号发散问题。两者此前只有论文和演示代码，TileKernels 首次提供了可直接用于训练的高性能实现，说明 DeepSeek 已在为将这些组件集成到新一代模型做工程准备。库还覆盖 MoE 路由与门控、多种低精度量化（FP8、FP4 等）、批量转置等常规环节。代码可通过 `pip install tile-kernels` 安装，运行需要 H100/H200 或 Blackwell 系列 GPU。