虚拟细胞,又一重大进展!
近日,AI制药公司Tahoe Therapeutics震撼发布了其第一代虚拟细胞模型Tahoe-x1。
该模型在超过30亿参数,可学习基因、细胞和药物的统一表示,在与癌症相关的单细胞生物学基准中实现最先进的性能(SOTA),可预测各种干细胞、癌细胞和免疫细胞对药物、细胞因子或基因扰动的反应。
目前该模型已开源,代码和工作流已上传至GitHub及Huggingface,预印本也已上传。
arxiv:https://www.biorxiv.org/content/10.1101/2025.10.23.683759v1
github:https://github.com/tahoebio/tahoe-x1
Huggingface:https://huggingface.co/tahoebio/Tahoe-x1
今年2月,Taho还发布了全球首个十亿级扰动单细胞数据集——Tahoe-100M,一经开源发布便轰动了业界。
虚拟细胞(AIVC),被誉为计算生物学的下一个圣杯。
“女版巴菲特”木头姐发布的《Big Ideas 2025》报告认为,单细胞组学与AI的结合将推动虚拟细胞的发展,重塑药物发现的方式。
越来越多的顶尖科学家和研究机构,正将研究重心转向更复杂的细胞层面,发布了多个数据集和模型。

随着行业生态正在不断前进和完善,我们离真正的虚拟细胞模型,越来越近了。
虚拟细胞也符合Scaling Law吗?
过去几年,我们经历了大模型的巨大飞跃,模型参数不断增长,性能越来越强悍。
这背后基于一个巨大的前提:Scaling Law(缩放法则)。
它的核心在于,拥有更多的计算、更多的数据则带来更好的模型,并由此形成良性循环。
但它是否适用于复杂的系统生物学,例如打造一个能够学习细胞和基因如何受到扰动的模型?
到目前为止,有两大要素阻碍了这一发展:
(1)缺乏大型、多样化的单细胞数据
(2)缺乏能够覆盖十亿参数的计算效率模型
第一个问题已经得到了初步的解决,当然也是Tahoe的成果。
今年2月,该公司发布并开源了全球首个十亿级扰动单细胞数据集——Tahoe-100M,包含50 个癌症模型和 1,100 个药物扰动的 1 亿个单细胞。
该数据集一经发布就引发行业震动,下载量已接近20万次。
如今,Tahoe想要挑战第二个障碍了。
近期发布的Tx1,则是第一个在扰动丰富的单细胞数据上训练的超十亿参数、计算高效的基础模型。
它的计算效率也比以前的细胞模型高出3-30×,即高出此前基础模型的3倍到30倍。
Tahoe还针对生物建模,量身定制了最前沿的大语言模型技术,包括FlashAttention v2、全分片数据并行性 (FSDP)、流数据集和混合精度训练等。
更酷的是:我们重新设计了模型核心的注意力机制。
例如 FlashAttention v2架构下,Tahoe能实现完全密集的注意力——更简单、更快速,并且仍然具有很高的内存效率。
模型性能如何?
Tahoe甚至表示,Tx1 正在成为虚拟细胞的模型基准。
当然谁都能吹一波自家的模型,但Tx1的模型性能究竟如何?
在核心的预测基因方面,Tx1展现出了最先进的性能。
在预测基因必需性方面,根据 DepMap 数据集的测量,Tx1实现了最先进的性能,匹配或超过线性基线,并优于所有其他模型。
该基准反映了该模型识别亚型特异性遗传依赖性的能力,这是发现新靶点的关键一步。
同样,Tx1 擅长推断标志性的致癌基因。根据MSigDB(分子特征数据库)的测量,展示了捕获肿瘤进展核心转录特征的能力,这种能力可以极大地加速科学家对癌症如何发展和对治疗做出反应的理解。
Tx1还具有强大的零样本泛化能力。结合训练后框架,可以预测看不见的细胞类型和患者环境中的药物反应,在跨生物环境中都有效。
踩上虚拟细胞风口
为什么虚拟细胞如此重要?被誉为生物学的下一个圣杯?
Arc Institute的首席技术官Dave Burke曾经做过这样的比喻:
DNA就像是细胞的ROM,编码了基础程序;而rnRNA则更像是RAM,它的表达水平会根据细胞所处的环境、压力、疾病状态而实时动态调整。
构建“虚拟细胞”模型,本质上是在推断细胞的CPU——即细胞响应输入的运算逻辑。只有理解了这个CPU,我们才能反向求解:要让一个癌细胞恢复健康,我应该输入什么样的指令——即药物或基因编辑。
正是如此,我们需要研究生物学中更高层次的模型。
尽管蛋白质模型进展非常快,但它们的行为最终是在整个细胞的复杂网络中展现的。而细胞模型通过模拟细胞行为,是当前最好的选择之一。
想象一下未来,可以针对人体细胞的虚拟模型筛选和优化新的候选药物,从而大大减少传统临床前测试的时间、成本和伦理复杂性。
目前,有多个科研团体、非营利组织都致力于推动虚拟细胞的技术生态,包括Arc Institute、Xaira Therapeutics、陈-扎克伯格倡议(CZI)等。
Tahoe Therapeutics则是商业公司中,技术以及开源精神的佼佼者。
Tahoe成立于2022年,总部位于美国加州。不过,那时候公司还叫做Vevo Therapeutics,但因为公司名称被抢注,不得不更名为Tahoe。
公司核心团队建立在加州大学旧金山分校的科学突破上,除CEO Nima Alidoust毕业于普林斯顿大学外,其他联合创始人均来自该校,包括CSO Johnny Yu以及联合创始人Hani Goodarzi、Kevin Shokat。
今年以来,公司发布了关于虚拟细胞的多项进展,并获得了资本关注。
8月,Tahoe获得了3000万美元融资。当前该公司的总融资达到4200万美元,估值突破1.2亿美元(约合人民币8.6亿元)。
该公司在成立后不到三年就能够推出Tahoe-x1这样的重磅模型,主要归功于其背后的Mosaic平台。
传统的药物筛选一次只能针对一种癌症模型,效率低下,而该平台能将来自不同患者(例如肺癌、胰腺癌等)的癌细胞汇集到一个可重复培养的“马赛克肿瘤”中。
利用该技术能在同一个实验里,一次性测试数百种药物对数十种不同遗传背景的癌细胞的影响,实现了数据生成效率的指数级提升。
这样的能力让公司数据集从其他竞品中脱颖而出,今年六月Arc Institute刚发布的开源虚拟细胞模型State,就使用了Tahoe-100M 作为训练数据的一部分。
虽然实现“虚拟细胞”还需要几年时间,不仅需要大规模的数据,其算力需求也将远超当前上限。
但有Tahoe、Arc Institute、Xaira Therapeutics、陈-扎克伯格倡议(CZI)这样顶尖的团队,该领域正在朝着这一愿景飞速靠近。