酶优化-训练¶

酶优化-训练（Enzyme Optimization-Training）功能允许用户根据自定义上传的数据，对模型进行微调和定制化。用户需提供待优化的酶序列及已知突变体的实验结果，平台将对这些实验数据进行深入分析，并进行模型更新和再训练。微调之后，模型能够更准确地预测突变对酶的酶活性，pH 稳定性，热稳定，立体选择性，可溶性等酶学特性的影响，从而更有效地辅助酶的改造与优化。

功能亮点¶

先进算法: GeoEnzyme 采用自主研发的先进预训练大模型作为基础模型，进行高效的微调训练，以提升模型性能。
一键运行: 用户只需提供适当的实验数据，GeoEnzyme 将自动选择最佳优化目标和训练参数，并启动训练流程。无需具备 AI 模型训练经验，用户即可轻松完成从模型训练到推理的全流程。
定制服务: 在通用大模型的基础上，GeoEnzyme 针对特定酶数据进行微调，开发出专门服务于特定酶类别的定制模型。与通用大模型相比，定制模型在特定目标上的性能更为出色。

输入¶

要提交酶优化-训练任务，请打开项目编辑器并点击左侧边栏中的"New Job（新建任务）"按钮，然后选择"Protein Design（蛋白设计）"任务组中的"Enzyme Optimization-Training（酶优化-训练）"。任务提交表单将在新标签页中打开。

Dataset file（数据集文件）: 提供已有的实验结果汇总，作为模型训练数据，需以 CSV 文件格式上传。数据可以包含以下列：
- Sequence column（序列）: 包含实验中起点酶及其突变体的序列。请确保所有序列均来自同一起点酶，并将起点酶的相关实验数据置于所有突变体之前。所有序列的长度应保持一致。
- Activity column（酶活性）: 实验测得的酶活性数据。可以使用 Kcat、Kcat/Km 等酶动力学常数表示，也可以使用转化率或标准酶活单位等表示。需保证所有数据在单位统一，在数值上有正确的相对大小关系。训练过程中会自动忽略所有空白行。
- pH column（pH值）: 实验环境中的 pH 值，范围为 0-14。当 pH 未知时可不填。为提高 pH 稳定性预测的准确性，建议对每一组 pH 条件提供多组突变体的活性数据。
- Temp.(℃) column（温度）: 实验环境中的温度，范围为 0-100。当温度未知时可不填。为提高热稳定性预测的准确性，建议对每一组温度条件提供多组突变体的活性数据。
- %e.e. column（e.e.值）: 反应产物的对映异构体过量。
  - 当产物仅有一个手性中心时，e.e. 值为目标产物与副产物的过量百分比。例如，若目标产物为 S，副产物为 R，且 S:R=90:10，则 e.e. = (S-R)/(S+R) = 80。
  - 当产物有多个手性中心时，请填写目标产物相对主要副产物的过量百分比。例如，若目标产物为 SS，副产物有 SR，RS 和 RR，且 SS:SR:RS:RR=90:10:1:5，则 e.e. = (SS-SR)/(SS+SR) = 80。所有突变体的 e.e. 值计算方式应与起点酶保持一致。
- Solubility column (可溶性): 实验测得的酶可溶性数据。要求值大于 0，数值越大表示可溶性越好，并保证所有数据相对大小关系正确。
Reactants（反应物）: 酶促反应中的反应物，需以 SMILES 表达式输入。每行输入一个 SMILES，支持输入手性分子。输入方式详见使用 Ketcher。
Products（产物）: 酶促反应中的目标产物，输入格式与Reactants相同。
By-reactants（副反应物）: 上传数据包含 e.e. 值时，用于表示在酶促反应中的副反应物，输入格式与Reactants相同。副反应物与反应物之间除手性外应完全相同；如果反应物不带手性，或手性不影响反应，则副反应物与反应物应完全一致。
By-Products（副产物）: 上传数据包含 e.e. 值时，用于表示在酶促反应中的副产物，输入格式与Reactants相同。副产物与产物之间仅手性构型不同。当产物中有多个手性中心时，请填写野生型酶催化产物与主要副产物对应的手性异构体。
Job Name（任务名称）: 任务的名称。请注意，任务名称必须在项目内唯一。

模型 & 参数¶

您可以使用我们自研的 GeoEnzyme 模型作为基础模型来运行本任务。参数如下：

#epochs（轮次）: 模型微调过程中迭代的轮次，最大取值为 20。

结果¶

在文件与任务管理器面板中点击任务结果，查看任务结果。

Enzyme Optimization Training Results — 任务结果: 酶优化-训练

训练模型¶

训练完成后，可以通过点击表格右上角的""按钮来使用新模型进行推理。

表格中展示了模型训练结果的总览，包含以下列：

Task（训练任务）: 模型训练的具体任务。模型根据上传的数据集内容，自动判断需要进行训练的任务类型。
Best PearsonR（皮尔逊相关系数）: 模型训练中使用的评价指标之一。皮尔逊相关系数用于评估模型预测值与真实值之间的线性相关性，值越接近 1 表示模型的预测性能越好。
Best SpearmanR（斯皮尔曼相关系数）: 模型训练中使用的评价指标之一。斯皮尔曼相关系数用于评估模型预测值与真实值之间的相关性，值越接近 1 表示模型的预测性能越好。

评价指标

在模型训练中，GeoEnzyme 更优先关注斯皮尔曼相关系数而非皮尔逊相关系数。这是因为斯皮尔曼侧重于排名的相关性，而 GeoEnzyme 的目标是能够在各种性质下准确的对突变进行排序，并非预测具体数值。

训练曲线¶

结果页面将为每个任务生成一个表格，展示训练曲线，具体内容如下：

Epoch（轮次）: 模型训练的具体迭代次数，显示训练过程中每轮的进展。
PearsonR（皮尔逊相关系数）: 训练过程中，该轮次的模型在验证集上的皮尔逊相关系数。
SpearmanR（斯皮尔曼相关系数）: 训练过程中，该轮次的模型在验证集上的斯皮尔曼相关系数。
Selected（模型选择）: 训练完成后最终选择的模型，使用 “Y” 进行标注，表示该模型为最佳模型。

酶优化-训练¶

功能亮点¶

输入¶

模型 & 参数¶

结果¶

训练模型¶

训练曲线¶

GeoBiologics