本文介绍由美国马萨诸塞州波士顿哈佛医学院系统生物学系系统药理学实验室的MohammedAlQuraishi等人发表于NatureMethods的研究成果:研究人员报道了可微程序与分子和细胞生物学结合产生的新兴门类:“可微生物学”。本文作者介绍了可微生物学的一些概念并作了两个案例说明,展示了如何将可微生物学应用于整合跨生物实验中产生的多模态数据,解决这一存在已久的问题将促进生物物理和功能基因组学等领域的发展。作者讨论了结合生物和化学知识的ML模型如何克服稀疏的、不完整的、有噪声的实验数据造成的限制。最后,作者总结了它面临的挑战以及它可能扩展的新领域,可微编程仍有很多可发挥的空间,它将继续影响科技的发展。
1
简介
得益于神经网络和深度学习的快速发展,机器学习(ML)及其在人工智能(AI)中的应用在过去十年中经历了巨大的变化。深度学习演变出了一类可学习模型:可微程序,可微编程的出现是基于基础科学和软件工程中的四个要素:更好的模式识别器、定制建模的兴起、联合优化和稳定的可微编程框架(例如TensorFlow、Pytorch和JAX),它在分子和细胞生物学、蛋白质结构测定和转化生物医学等领域产生了深远的影响。
可微程序可以将针对特定自然科学领域的数学方程与通用的、基于实验数据训练的机器学习组件相结合。将可微程序用于对分子和细胞生物学的研究,形成了新兴的“可微生物学”,在可微生物学中,对小型、特殊(例如一次实验试验)抑或是一般、复杂(例如蛋白质折叠)的问题都可以有效地建模,并且利用基础科学知识能够克服稀疏的、不完整的、有噪声的数据所带来的限制。端到端的可微程序的一个重要特点是,它们可以进行从输入到输出的联合优化。这使得将传统上需要单独处理的任务(如数据预处理)统一到模型中成为可能。预处理需要对原始数据进行转换,再根据经验提取重要的信息。这种类型的“特征工程”通常是不透明的,缺乏记录文档,并且难以扩展。而可微程序不强调特征工程,而是透明地将现象建模到学习系统中,包括引入抽象概念,如溶液中分子的平移或旋转不变性、多肽骨架的化学性质等。为了实现这一点,可微程序使用了从物理学和化学的传统模型中得出的逻辑和方程。另外,不同于传统数学模型使用少量拟合变量(其中许多具有物理意义)进行参数化,可微程序的可学习组件(例如神经网络)可以有数百万甚至数十亿个变量。训练(优化)包括学习这些参数。
本文作者介绍了可微生物学的三个概念:生物模式、机械先验和数据先验,并作了两个案例说明:蛋白质结构预测、均匀化PPI数据,展示了如何将可微生物学应用于整合跨生物实验中产生的多模态数据,解决这一存在已久的问题将促进生物物理和功能基因组学等领域的发展。作者还总结了它面临的挑战以及它可能扩展的新领域,可微编程仍有很多可发挥的空间,它将继续影响科技的发展。
2
结果
可微生物学的三个概念
在生物学背景下,可微编程有三大概念原语:生物模式、物理和机械或生物物理先验以及实验和数据采集先验。先验对模型进行了限制,并允许使用较小的数据集,最有用且可靠的先验是基于已被充分接受和理解的物理和化学系统特征的先验,例如多肽链中允许的键角范围。从过于复杂、难以理解而无法显式建模的数据映射中学习的模式识别器,可以与先验结合使用。
生物模式
模式识别器是最成熟的可微编程工具,目前它已应用于学习视网膜基底、识别并分割拥挤环境(如组织)中的细胞边界,以及从多重免疫荧光图像中预测新细胞的状态。模式识别器的复杂性通常由输入的结构决定,固定尺寸的二维(2D)网格表示的图像(例如由传统电子相机收集的图像)是最简单的输入,并且具有平移不变性,可以通过数据增强作为模型训练中的先验信息。‘图像’不需要局限于视觉模式。例如,编码残基协同进化的蛋白质内接触图谱已被用作卷积神经网络(CNN)的输入来预测蛋白质结构。将2D网格推广到更高的维度,例如,通过将3D空间离散成大小相等的立方体,,已经产生了可以对高分子量大分子进行操作的模式识别器,能够预测蛋白质功能和蛋白质-药物复合物的亲和力。
尺寸随输入数据而变化的可变尺寸网格(例如由不同长度的DNA序列组成的一维网格),是复杂性的再次提升。树和其他类型的图,可以表示交互网络和分子,不仅在长度上不同,而且在结构上也不同,可以使用图卷积网络(GCN)进行学习。GCN已被用于学习从分子到蛋白质结合亲和力的映射,并用于硅化学逆合成。综上所述,神经网络的关键优势在于它能够识别在小尺度和大尺度上发生的多向相互作用。
大多数当代ML应用程序
热点文章
最近更新