从K-mer到自适应词元：厦门大学林琛团队让AI自动学习「基因功能边界」

原创于 2026-07-02 22:13:08 发布 · 333 阅读

本内容遵循CC 4.0 BY-SA版权协议

在生命科学与生物医学领域，高通量测序技术使基因组数据指数增长。当海量序列远超传统方法解析能力时，人工智能，尤其是深度学习和语言模型，正成为解读基因组「天书」的核心工具。AI 不仅能高效处理巨量数据、挖掘非编码区的调控语法，还在基因功能预测、疾病标志物、蛋白质结构和药物靶点等方面展现巨大潜力。AI 的持续创新正推动基因组学从「数据读取」走向「功能理解」。

在 2026 年第八届北京智源大会上，厦门大学林琛教授在「AI+健康 & 医疗」论坛中，以《用自适应「词元」解读基因组语言》为题，从基因组序列的本质出发，系统阐述了如何将 DNA 序列视为一种有待解读的「生命语言」，并创新性地引入自适应「词元（token）」机制。报告深入探讨了如何通过构建可动态调整的基因组「词典」，使AI模型能够更精准地捕捉 DNA 序列中不同尺度的功能单元与调控语法，从而实现对基因组语言的高效解读与功能理解。

HyperAI 在不违原意的前提下，对林琛老师的演讲分享进行了整理汇总，以下为演讲实录。

基因组基础模型的发展、分词困境与核心挑战

基础模型的概念已为大家所熟知。它起源于自然语言处理领域，核心特征在于大规模预训练结合下游任务微调。在 NLP 中，由于语言天然存在词序列，典型的流程是：分词形成词序列，输入 Transformer 等序列模型，通过 Next Token Prediction 或 Mask Token Prediction 等预训练任务，学习适用于各类任务的通用表征。这一范式在自然语言处理中取得了巨大成功，也启发了其他领域的研究者——如果将 DNA 序列视为「生命的语言」，那么是否可以将 NLP 中成熟的方法论迁移至基因组学？

沿着这一思路，近年来涌现出许多面向 DNA 序列的基因组基础模型。从 2020 年基于 Transformer 的 BigBird，到 2026 年发表于 Nature 的 Evo 2（其初代工作曾于 2024 年发表于 Science），学界关注的焦点主要集中在如何通过改进模型架构以获得更长的上下文——从 2020 年的 4K 长度提升至 Evo 2 的 1M 长度，提升幅度达 250 倍。

然而，我们课题组前期的回溯分析发现，在相同架构下，预训练长度并非越长越好；同时，分词策略对长序列建模能力的影响同样显著。有时，某种分词策略在短序列上的表现甚至优于另一种策略在长序列上的效果，这提示我们：模型能力的提升不能仅依赖架构和上下文窗口的扩展，分词这一基础环节可能才是真正的瓶颈所在。

既然如此，现有分词策略的表现如何？我们对 Kmer 与 BPE 这两种当前经典的分词策略进行了系统评估，发现二者并不存在绝对的全面优势。更为关键的是，这些策略在应用于 DNA 序列时存在根本性的方法论缺陷。自然语言的词间有天然分隔符（如空格），而 DNA 序列缺乏此类显性分隔符，且其语法规则隐晦，难以直观理解。

具体来看，现有工作的局限各有不同：以单核苷酸为词元的方案，好比逐字阅读，效率受限且计算开销大；Kmer 分词（无论重叠与否）则可能破坏真实的生物语义，如同机械地三字或五字一读，完全无视基因组中功能元件的天然边界；另有一些工作借鉴 NLP 中的 BPE 方法，基于统计频率进行分词，虽然数据驱动，但其所得词元的生物学意义尚未得到充分验证。

由此可见，现有分词方法普遍割裂了生物语法，限制了模型泛化性。我们希望能在无监督条件下，自动发掘具有生物学意义的「词源」，使其能对应真实的生物功能元件。但这一目标面临双重挑战：若引入监督信号，虽能引导分词，但依赖昂贵标注且易过拟合，难以发现未知规律；若无监督，则需在海量组合空间中搜索，且离散分词会给梯度回传带来困难。这些正是本工作试图解决的核心问题。那么，我们如何突破这些障碍？接下来介绍我们的解决方案。

GenArt模型：自适应变长分词架构与专家导向微调框架

为解决上述问题，我们训练了名为 GenArt（Genome Art，基因组艺术）的模型，在涵盖 15,000 余个物种、总计 530 亿个碱基的预训练数据上完成训练，并发布了 3.5 亿和 10 亿参数量的两个版本。其核心特点在于支持自适应变长分词，能够在无监督条件下自动发掘具有生物学意义的词源边界。

模型架构主要包含三个层次：前端采用基于 Transformer 的单核苷酸编码层，将原始 DNA 序列映射为上下文感知的连续表示；中间嵌入自适应分词层，利用多尺度卷积提取局部特征，并通过 Gumbel Softmax 在相邻碱基位置判断是否切分，实现梯度可导的离散分词决策；后端采用 Encoder-only 的 Transformer 主干，对分词后的词元序列进行全局建模。整个模型端到端可微，使得分词决策能够根据预训练损失进行优化，而无需依赖任何外部标注信息。

整体上下文窗口虽非极长（设计为 4K，与早期 BigBird 相当），但我们进一步引入了可选的专家导向微调框架。其设计灵感来源于阅读时的「精读」与「泛读」策略：允许领域专家根据任务特性控制分词粒度，例如转录因子的结合位点呈尖峰信号，宜采用更精细的分词以捕捉单碱基分辨率信息；而组蛋白修饰则呈现广谱信号，适当放粗粒度反而有助于捕获宏观模式。这一框架通过在微调阶段引入可调的分词超参数，实现了通用模型与领域先验知识的有机融合，且不改变预训练模型的主体结构。

全面超越、消融分析、物种多样性及缩放规律

我们在 9 大类共 33 个下游任务上对标了 Evo 2。结果显示，GenArt 仅使用了 Evo 2 约 5% 的参数量和 0.3% 的训练数据，GPU 开销与训练时间降低了数百倍，却在各项任务上均实现了性能超越。尤为值得关注的是，在长序列任务上 GenArt 表现稳定，优于专门的 SPICE 模型，表明其分词策略并未因上下文窗口较短而损失长程建模能力。

消融实验表明，移除自适应分词模块、改用单核苷酸输入会导致性能显著下降，这直接验证了自适应分词的有效性。通过对词元表征的 t-SNE 可视化可见，GenArt 学到的表征在不同任务间界限清晰——即便在未微调的预训练模型中，这种区分性已然存在，微调后则更为显著。特别地，对于最难区分的增强子预测与剪切位点预测任务，其他模型，即使同样支持变长分词，学到的词元边界高度相似，而 GenArt 能为这两项任务学习到截然不同的词源表征。这一差异表明，GenArt 并非简单地学习统一的「最优」分词边界，而是能够根据任务需求自适应调整词源的语义粒度。

关于预训练物种多样性的影响，我们通过控制变量实验发现：增加预训练物种数虽略微降低模型在人类基因组任务上的性能，但显著提升了在酵母、小鼠及病毒等非人类任务上的表现，并大幅降低了跨任务性能的标准差（降低 3%），说明物种多样性增强了模型的泛化能力。关于模型缩放，随着参数量从 1 亿增至 10 亿，模型性能稳步提升，注意力分布的变异系数下降，表明模型具备了更宏观的「注意力视野」。值得注意的是，平均词元长度随参数量增加而递减，说明模型并非依赖更长的词元来提升性能，而是通过全局注意力动态拼装长距离语义，这是一个反直觉但颇具启发性的发现。

引入专家导向微调策略后，各任务 MCC 指标均获得一致提升，且不同任务（如尖峰模式的 H3K4me3 与广谱模式的其他表观遗传标记）呈现出显著不同的分词参数偏好，验证了定制化词源的有效性。这些实验从多个维度证明了 GenArt 在性能、泛化能力和灵活性上的优势。

生物学功能边界验证

最后，我们验证了模型自动捕获功能元件边界的能力。对于需要单碱基精度的甲基化位点，召回率达 0.8；对于多碱基的功能元件（如 CDS、增强子、CpG 岛等），平均召回率达 0.629。在无监督方法中，这一精度提升了 10 倍，且词元长度多集中在 3-8 个碱基，高度符合生物学 Motif 的规律。全基因组范围内的召回率稳定在 0.5-0.7 之间，表明分词边界与真实注释高度吻合，而这一切均来自无监督学习，模型从未接触过任何功能元件的标注信息。

总结而言，本工作证明了在无显式监督下，可通过生物学驱动的方式学习生物元件的真实功能边界，填补了强监督分割与纯统计语言模型之间的空白。我们提出的通过分词超参数桥接通用大模型与领域专家模型的范式，对于基因组学以外的其他序列建模任务也具有普遍参考意义。

但当前工作的局限性在于：第一，虽发现了高特异性新词元，但仍需湿实验验证其功能；第二，受限于 Transformer 架构，上下文窗口仍有扩展空间，后续可探索线性注意力或状态空间模型以突破该瓶颈；第三，表征依赖下游微调，零样本泛化能力有待提升。

关于林琛教授及其团队

林琛教授是人工智能与数据科学领域的杰出学者，目前为厦门大学教授、博士生导师。她的研究工作主要聚焦于人工智能、数据挖掘及其在交叉学科的应用，尤其以「AI for Science」为鲜明特色，致力于将最前沿的人工智能方法应用于生物医学领域。

在学术成就方面，林琛教授以通讯作者在Nature Machine Intelligence、 Nature Communications 和人工智能的旗舰会议和期刊上发表论文超过 100 篇，以通讯作者身份获得 NeurIPS 2024 最佳论文奖亚军和 ICIC 2024 最佳论文奖，并获IEEE青年科学家奖和河南省科技进步一等奖。她主持了包括国家自然科学基金重点项目在内的多项国家级科研项目，同时获得腾讯、华为、百度、阿里巴巴、蚂蚁集团等头部科技企业的科研基金支持。

在科研落地方面，林琛教授团队研发的算法在支付宝、手机淘宝，蚂蚁在线诊疗、OceanBase数据库系统，OpenGauss数据库系统、福建电网数据系统实际部署，产生直接经济效益数十亿元。

参考链接：

1.厦大信息学院林琛加盟同济-网大论坛 - Powered by Discuz!

2.同济大学主页平台管理系统林琛--中文主页--首页

3.林琛团队在自动化生物医学研究领域取得新进展-厦门大学健康医疗大数据国家研究院

标签

#人工智能