酶优化-训练¶
酶优化-训练(Enzyme Optimization-Training)功能允许用户根据自定义上传的数据,对模型进行微调和定制化。用户需提供待优化的酶序列及已知突变体的实验结果,平台将对这些实验数据进行深入分析,并进行模型更新和再训练。微调之后,模型能够更准确地预测突变对酶的酶活性,pH 稳定性,热稳定,立体选择性,可溶性等酶学特性的影响,从而更有效地辅助酶的改造与优化。
功能亮点¶
-
先进算法: GeoEnzyme 采用自主研发的先进预训练大模型作为基础模型,进行高效的微调训练,以提升模型性能。
-
一键运行: 用户只需提供适当的实验数据,GeoEnzyme 将自动选择最佳优化目标和训练参数,并启动训练流程。无需具备 AI 模型训练经验,用户即可轻松完成从模型训练到推理的全流程。
-
定制服务: 在通用大模型的基础上,GeoEnzyme 针对特定酶数据进行微调,开发出专门服务于特定酶类别的定制模型。与通用大模型相比,定制模型在特定目标上的性能更为出色。
任务输入¶
要提交酶优化-训练任务,请打开项目编辑器并从"蛋白设计"(Protein Design)下拉菜单中选择"酶优化-训练"(Enzyme Optimization-Training)。将会出现如下任务提交表单:
-
Dataset file(数据集文件): 提供已有的实验结果汇总,作为模型训练数据,需以 CSV 文件格式上传。数据可以包含以下列:
-
Sequence column(序列): 包含实验中起点酶及其突变体的序列。请确保所有序列均来自同一起点酶,并将起点酶的相关实验数据置于所有突变体之前。所有序列的长度应保持一致。
-
Activity column(酶活性): 实验测得的酶活性数据。可以使用 Kcat、Kcat/Km 等酶动力学常数表示,也可以使用转化率或标准酶活单位等表示。需保证所有数据在单位统一,在数值上有正确的相对大小关系。训练过程中会自动忽略所有空白行。
-
pH column(pH值): 实验环境中的 pH 值,范围为 0-14。当 pH 未知时可不填。为提高 pH 稳定性预测的准确性,建议对每一组 pH 条件提供多组突变体的活性数据。
-
Temp.(℃) column(温度): 实验环境中的温度,范围为 0-100。当温度未知时可不填。为提高热稳定性预测的准确性,建议对每一组温度条件提供多组突变体的活性数据。
-
%e.e. column(e.e.值): 反应产物的对映异构体过量。
-
当产物仅有一个手性中心时,e.e. 值为目标产物与副产物的过量百分比。例如,若目标产物为 S,副产物为 R,且 S:R=90:10,则 e.e. = (S-R)/(S+R) = 80。
-
当产物有多个手性中心时,请填写目标产物相对主要副产物的过量百分比。例如,若目标产物为 SS,副产物有 SR,RS 和 RR,且 SS:SR:RS:RR=90:10:1:5,则 e.e. = (SS-SR)/(SS+SR) = 80。所有突变体的 e.e. 值计算方式应与起点酶保持一致。
-
-
Solubility column (可溶性): 实验测得的酶可溶性数据。要求值大于 0,数值越大表示可溶性越好,并保证所有数据相对大小关系正确。
-
-
Reactants(反应物): 酶促反应中的反应物,需以 SMILES 表达式输入。每行输入一个 SMILES,支持输入手性分子。输入方式详见使用 Ketcher。
-
Products(产物): 酶促反应中的目标产物,输入格式与Reactants相同。
-
By-reactants(副反应物): 上传数据包含 e.e. 值时,用于表示在酶促反应中的副反应物,输入格式与Reactants相同。副反应物与反应物之间除手性外应完全相同;如果反应物不带手性,或手性不影响反应,则副反应物与反应物应完全一致。
-
By-Products(副产物): 上传数据包含 e.e. 值时,用于表示在酶促反应中的副产物,输入格式与Reactants相同。副产物与产物之间仅手性构型不同。当产物中有多个手性中心时,请填写野生型酶催化产物与主要副产物对应的手性异构体。
-
Job Name(任务名称): 任务的名称。请注意,任务名称必须在项目内唯一。
模型 & 参数¶
点击Show Parameters按钮展开模型和参数设置。
您可以使用我们自研的 GeoEnzyme 模型作为基础模型来运行本任务。参数如下:
- #epochs(轮次): 模型微调过程中迭代的轮次,最大取值为 20。
结果¶
训练模型¶
训练完成后,可以通过点击表格右上角的""按钮来使用新模型进行推理。
表格中展示了模型训练结果的总览,包含以下列:
-
Task(训练任务): 模型训练的具体任务。模型根据上传的数据集内容,自动判断需要进行训练的任务类型。
-
Best PearsonR(皮尔逊相关系数): 模型训练中使用的评价指标之一。皮尔逊相关系数用于评估模型预测值与真实值之间的线性相关性,值越接近 1 表示模型的预测性能越好。
-
Best SpearmanR(斯皮尔曼相关系数): 模型训练中使用的评价指标之一。斯皮尔曼相关系数用于评估模型预测值与真实值之间的相关性,值越接近 1 表示模型的预测性能越好。
评价指标
在模型训练中,GeoEnzyme 更优先关注斯皮尔曼相关系数而非皮尔逊相关系数。这是因为斯皮尔曼侧重于排名的相关性,而 GeoEnzyme 的目标是能够在各种性质下准确的对突变进行排序,并非预测具体数值。
训练曲线¶
结果页面将为每个任务生成一个表格,展示训练曲线,具体内容如下:
-
Epoch(轮次): 模型训练的具体迭代次数,显示训练过程中每轮的进展。
-
PearsonR(皮尔逊相关系数): 训练过程中,该轮次的模型在验证集上的皮尔逊相关系数。
-
SpearmanR(斯皮尔曼相关系数): 训练过程中,该轮次的模型在验证集上的斯皮尔曼相关系数。
-
Selected(模型选择): 训练完成后最终选择的模型,使用 “Y” 进行标注,表示该模型为最佳模型。