斯坦福+哈佛医学院：虚拟细胞图像生成基础模型

张开发

• 2026/4/5 18:04:08 • 15 分钟阅读

分享文章

摘要构建能在计算机中模拟细胞行为的虚拟细胞是计算生物学的核心目标。本文提出款图像生成模型CellFluxV2可预测化学与遗传扰动下细胞形态的变化。CellFluxV2的核心创新在于通过流匹配flow matching学习同一实验批次内「未扰动细胞→扰动细胞」的分布级转换从而分离真实扰动效应与干扰性批次效应。该模型整合大方法学进展相较于基于扩散模型和生成对抗网络GAN的基线模型图像保真度最高提升77%同时保持与真实图像相当的生物保真度。通过规模化扩展CellFluxV2建立了图像基虚拟细胞建模领域的首个缩放定律证实模型性能随数据集规模和模型容量的增加而持续提升。此外扩展后的模型能良好泛化至分布外扰动并具备项全新能力批次效应校正与细胞状态插值。这些结果表明CellFluxV2是推动虚拟细胞研究的强大基础模型为计算机内药物筛选in silico drug screening开辟了新机遇。https://github.com/yuhui-zh15/CellFluxV2#细胞成像 #扰动 #虚拟细胞 #流匹配 #生成模型结果基于流匹配的分布级转换图1CellFluxV2概述(a) 目标CellFluxV2旨在计算机中预测化学或基因扰动诱导的细胞形态变化。本示例中扰动效应为核尺寸减小。(b) 数据数据集包含高内涵筛选实验图像目标孔施加化学或遗传扰动对照孔不施加扰动。对照孔提供先验信息与目标图像形成对比可识别真实扰动效应如核尺寸减小同时校准与扰动无关的系统性偏差即批次效应如颜色强度变化。(c) 问题建模CellFluxV2将该任务建模为分布到分布问题多对多映射源分布为对照图像目标分布为同一批次内的扰动图像。(d) 流匹配CellFluxV2采用流匹配——种最先进的分布到分布转换生成框架。模型学习个神经网络以逼近速度场通过求解常微分方程ODE实现源分布向目标分布的连续转换。与CellFluxV1相比本文引入大关键改进潜空间建模、两阶段训练和噪声插值这些技术有效缓解了分布学习中的数据稀疏问题。(e) CellFluxV2算法训练阶段神经网络vθ在潜空间中学习将对照细胞图像x₀~p₀映射到扰动图像x₁~p₁的速度场。中间状态Tₜ沿 x₀到真实位移x₁-x₀的线性插值采样结合 t~U[0,1]和噪声增强。训练分阶段进行第阶段从噪声到目标分布第阶段从对照到目标分布。(f) 推理阶段训练后的场v₀通过数值积分ODE时间步长t0,0.1,...,1利用学习到的速度更新每个步骤的状态将对照状态x₀转换为扰动状态x₁。损失函数L使预测速度vθ(xₜ,t,c)与真实速度x₁-x₀匹配。最先进性能图2CellFluxV2大幅优于基线模型(a) 图像保真度CellFluxV2实现更优的图像保真度表现为显著更低的整体和条件FID/KID值。(b) 单扰动结果针对6种代表性化学扰动和3种遗传扰动CellFluxV2生成的图像更准确能更好地捕捉扰动效应以FID值衡量。(c) 生物保真度CellFluxV2实现更优的生物保真度表现为更高且接近真实水平的作用机制MoA预测准确率。(d) 方法消融实验CellFluxV2的优异性能源于对流匹配的创新改进包括潜空间建模、两阶段训练和噪声插值。(e) 定性结果定性分析进一步证实CellFluxV2具有更优的视觉和生物保真度。表1 CellFluxV2评估结果(a) 主要结果CellFluxV2优于基于GAN和扩散模型的基线模型在化学、遗传及混合扰动大数据集的细胞形态预测任务中实现最先进性能。指标衡量生成样本与真实样本的距离值越低表现越好。FIDₒ整体 FID评估所有图像FID_c条件FID为各扰动类型结果的平均值。KID值已乘以100以便可视化。(b) 单扰动结果针对6种代表性化学扰动和3种遗传扰动CellFluxV2生成的图像更准确能更好地捕捉扰动效应以FID值衡量。(c) 作用机制MoA分类在BBBC021数据集上训练分类器从细胞形态图像预测药物的作用机制MoA并评估生成图像的准确率/F1值。CellFluxV2的准确率/F1值显著高于其他方法与真实图像高度一致能有效反映扰动的生物学效应。(d) 分布外泛化在BBBC021数据集上针对训练中未见过的新型化合物CellFluxV2生成细胞形态图像时仍保持良好性能。(e) 消融实验各组件均对CellFluxV2的最终性能有贡献凸显其重要性。缩放定律图3CellFluxV2规模化扩展揭示虚拟细胞建模的首个缩放定律(a) 数据缩放随着数据量增加基础模型使用3%至100%的数据性能持续提升。(b) 模型缩放随着模型尺寸增大使用100%数据从微型到超大尺寸性能持续提升。综上建立了虚拟细胞建模领域的首个实证缩放定律证实模型性能随数据规模和模型尺寸的增加而显著提升。除分布内性能外规模化还增强了模型对分布外图像源和扰动的泛化能力凸显其作为虚拟细胞建模稳健基础的潜力。(c) 定性结果以秋水仙素为扰动的定性分析进一步证实随着数据量和模型规模的增加生成质量显著提升秋水仙素会使细胞呈现更球形或圆形的形态。表2 生物学缩放定律本文建立了生物学领域的首个实证缩放定律证实模型性能以FID值衡量随数据规模上半部分和模型尺寸下半部分的增加而显著提升。除分布内性能外规模化还增强了模型对分布外图像源和扰动的泛化能力凸显其作为虚拟细胞建模稳健基础的潜力。分布外泛化图4CellFluxV2对分布外OOD扰动和成像条件展现出稳健的泛化能力(a) 图像保真度指标模型能泛化至分布外成像条件和扰动图像保真度指标FID/KID与分布内性能相当。(b) 生物保真度指标模型能泛化至分布外成像条件和扰动生物保真度指标如作用机制MoA平均精度均值与分布内结果接近且接近真实水平。全新能力批次效应校正图5CellFluxV2具备批次效应校正的全新能力(a) 不同批次的定性结果CellFluxV2以对照图像为初始输入可生成批次特异性预测。对比不同批次的预测结果能凸显真实扰动效应细胞尺寸变小同时过滤虚假批次效应细胞密度变化。(b) 不同批次细胞的PCA可视化将生成图像、真实扰动图像和对照图像通过PCA投影到低维空间按批次标识着色。CellFluxV2生成的图像与对应批次紧密聚类与同一批次的真实图像和对照图像重叠。(c) 作用机制MoA准确率结果当以正确批次为条件时CellFluxV2生成的图像对应的MoA分类准确率显著高于以不同批次为条件的结果。全新能力细胞状态插值图6CellFluxV2具备细胞状态插值的全新能力(a) 插值定性结果利用连续速度场CellFluxV2可在种细胞状态间实现平滑的双向插值为动态生物学进程提供独特视角。(b) 插值轨迹的PCA可视化将插值图像和真实图像的CellProfiler特征通过PCA投影到低维空间。对照组、目标组和中间状态分别代表对照细胞、经48小时扰动的细胞和经24小时扰动的细胞的CellProfiler嵌入。其他彩色点T₁-T₆对应中间时间点收集的生成细胞。插值图像清晰呈现从对照组到目标组的平滑过渡中间时间步样本与真实中间状态细胞紧密聚类。坐标轴为前个主成分括号内为解释方差比例。详细总结思维导图CellFluxV2以流匹配flow matching为核心框架针对数据稀疏问题引入3大创新方法形成完整技术链数据集详情核心性能指标优于GAN/扩散基线参考CellFluxV2 : An Image Generative Foundation Model for Virtual Cell Modelingdoi: https://doi.org/10.64898/2026.01.19.696785260119CellFluxV2.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。

斯坦福+哈佛医学院：虚拟细胞图像生成基础模型

最新文章

翻译神器：translategemma-27b-it本地部署与使用全攻略

NVIDIA Profile Inspector：解锁显卡潜能的高级配置工具

Mac上给开源鸿蒙App签名的保姆级教程：从DevEco Studio自动生成到手动配置build-profile.json5

Spring Security 7中的JWT认证全解析：从零搭建安全API的完整流程

串口高频RFID读卡器T6系列操作指南：DESFIRE芯片卡密钥管理与文件读写实战

XUnity.AutoTranslator完全指南：如何在5分钟内为Unity游戏添加自动翻译

推荐文章

OpenClaw云端集成Skill流程：2026年部署、配置大模型百炼APIKey、接入钉钉/QQ/飞书/微信

Python flask django高校餐饮档口管理系统的设计与实现

超实用指南：3步打造可移植版waifu2x-caffe

Go语言的JSON处理技巧

2025届毕业生推荐的AI科研平台推荐榜单

前端性能监控吐槽：别再让你的网站慢得像蜗牛！

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

Agent 独立记忆机制设计的必要性与四层架构方案（为什么 Agent 需要设计独立的记忆机制？）

华为设备实战：如何避免路由引入导致的次优路径和环路（附配置示例）

Slurm-web：如何通过3个核心组件构建现代化的HPC集群Web管理平台

保姆级教程：PX4 EKF调参实战，手把手教你搞定Q、R矩阵（附避坑指南）

[避坑] 昇腾 310P NPU 容器化部署：CANN 8.0 与 openEuler 环境变量配置全解析

网络攻击原理与常用方法

告别Text组件！用DoTween为Unity的TextMeshPro实现丝滑打字效果（附完整代码）

利用快马平台生成智能爬虫框架，自动处理反爬与调度，效率提升数倍

如何快速掌握DamaiHelper：新手也能轻松抢到演唱会门票的完整指南

如何用Unpaywall扩展解决学术文献获取难题？面向研究者的开源工具效率提升指南

Windows Defender的MsMpEng.exe为什么总在“瞎忙”？从机制到应对的深度解读

iperf3 Windows终极指南：5步实战网络性能测试与优化

斯坦福+哈佛医学院：虚拟细胞图像生成基础模型

最新文章

翻译神器：translategemma-27b-it本地部署与使用全攻略

NVIDIA Profile Inspector：解锁显卡潜能的高级配置工具

Mac上给开源鸿蒙App签名的保姆级教程：从DevEco Studio自动生成到手动配置build-profile.json5

Spring Security 7中的JWT认证全解析：从零搭建安全API的完整流程

串口高频RFID读卡器T6系列操作指南：DESFIRE芯片卡密钥管理与文件读写实战

XUnity.AutoTranslator完全指南：如何在5分钟内为Unity游戏添加自动翻译

推荐文章

OpenClaw云端集成Skill流程：2026年部署、配置大模型百炼APIKey、接入钉钉/QQ/飞书/微信

Python flask django高校餐饮档口管理系统的设计与实现

超实用指南：3步打造可移植版waifu2x-caffe

Go语言的JSON处理技巧

2025届毕业生推荐的AI科研平台推荐榜单

前端性能监控吐槽：别再让你的网站慢得像蜗牛！

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台 植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统