蛋白质结构预测¶
蛋白质结构预测是一项根据氨基酸序列预测蛋白质三维结构的任务。由于结构决定功能,蛋白质结构预测在生物学和医学领域具有至关重要的作用。在这里,我们提供两种先进的蛋白质结构预测方法:ESMFold 和 AlphaFold2-Multimer v3。
功能亮点¶
-
灵活配置: 支持单一序列预测(ESMFold)以及多序列比对和结构模板预测(AF2-Multimer v3)。后者能直接预测多肽链蛋白的结构,对于蛋白质-蛋白质对接尤为有益,尤其是在目标蛋白是同聚物或PDB中存在相似蛋白质的情况下。
-
批量预测: 支持在云端对多条序列进行批量预测,同时可以选择使用Amber松弛法(可选)。
-
图形界面: 无需配置环境或使用命令行;仅需在图形界面中点击即可完成结构预测。
ESMFold¶
输入¶
要提交蛋白质结构预测任务,请打开项目编辑器并从"结构建模"下拉菜单中选择"蛋白质结构预测"。
-
Proteins(蛋白质): 输入单链蛋白质序列的列表。您可以在输入框中输入序列,也可以上传 FASTA 文件 (点击 "" 按钮)。 每条链将独立预测。
- : 在输入中添加新的蛋白质序列。
- Protein Name(蛋白质名称): 蛋白质的名称。默认为第i个序列的"蛋白质{i}"。要更改名称,请将鼠标悬停在蛋白质名称上方,然后点击 "" 按钮。
-
Job Name(任务名称): 任务的名称。请注意,任务名称在项目中必须是唯一的。
参数¶
-
# cycles(循环次数): 要运行的循环次数(0-4)。默认值为 4,即训练中使用的次数。
-
Relax structure(松弛结构):是否使用Amber对模型生成的蛋白质进行松弛(默认为 false)。
-
chunk size(块大小): 如果非 None(默认),则分块计算注意力。较低的值将降低内存使用量,但会牺牲速度。
结果¶
在文件与任务管理器面板中点击任务结果,查看任务结果。 结果摘要存储在CSV文件中,可以通过点击结果表格右上角的 "" 按钮下载。
结果表格包含以下列:
- name(名称): 与输入中的 FASTA 标签相同。
- sequence(序列): 与输入中的 FASTA 序列相同。
- plddt: 为生成的蛋白质预测的 lDDT(局部距离差异测试)评分。数值越高则效果越好。 每个残基的 lDDT 评分存储在输出 .pdb 文件的 b-factor 中。您可以通过将 Cartoon 表示法(Polymer 组件)的颜色主题更改为"原子属性>不确定性/无序"来查看它们。
- ptm: 为生成的蛋白质预测的 TM(模板建模)评分。数值越高则效果越好。
在最右边的列中,您可以点击 "" 按钮查看预测的结构。 如果您启用了"松弛"选项,您会在下拉菜单中找到两个文件:一个是未松弛的结构,另一个是松弛后的结构。
AlphaFold2-Multimer v3¶
输入¶
要提交蛋白质结构预测任务,请打开项目编辑器并从"结构建模"下拉菜单中选择"蛋白质结构预测"。 接下来,选择“显示参数”以显示模型和参数选项。将模型从 “ESMFold” 更改为 “AlphaFold2-Multimer v3”。
-
Proteins(蛋白质): 以 FASTA 格式输入蛋白质序列。您可以在输入框中输入序列,也可以上传 FASTA 文件 (点击 "" 按钮). 每个蛋白质(可能是多链的)都会独立预测。
- : 在输入中添加新的蛋白质序列。
- Protein Name(蛋白质名称): 蛋白质的名称。默认为第 i 个序列的"蛋白质 {i}"。要更改名称,请将鼠标悬停在蛋白质名称上方,然后点击 "" 按钮.
- Chain ID(链ID): 标识蛋白质中链的单个字符。默认为按字母顺序排列的大写字母。您可以在 "Chain
- Add Chain(添加链): 向蛋白质中添加新的链。AF2-Multimer 可以预测多链蛋白质的结构。我们建议链数不超过 9 条,总残基数不超过 1000。
-
Job Name(任务名称): 任务的名称。请注意,任务名称在项目中必须是唯一的。
参数¶
- # cycles(循环次数): 要运行的循环次数(1 - 48)。默认为 16。
- Relax structure(松弛结构): 是否使用Amber对模型生成的蛋白质进行松弛(默认为 false)。
- MSA mode(MSA模式): 用 MMSeqs2 从 UniRef 序列数据库以及可选的环境序列中搜索MSA。有效选择有 "MMSeqs2 (UniRef + Environmental)"(默认),"MMSeqs2 (UniRef)", "Single sequence (No MSA)"。
- Pair mode(配对模式): 多链 MSA 设置。配对:使用来自同一物种的配对序列。非配对:对每个链使用单独的 MSA。有效选择为 "Unpaired", "Paired", "Unpaired + Paired"(默认)。
结果¶
在文件与任务管理器面板中点击任务结果,查看任务结果。 结果存储在CSV文件中,可以通过点击结果表格右上角的""按钮下载。
结果表格包含以下列:
- name(名称): 与输入中的 FASTA 标签相同。
- sequence(序列): 与输入中的 FASTA 序列相同。
- plddt: 为生成的蛋白质预测的 5 个 AF2 模型的 lDDT(局部距离差异测试)评分。数值越高则效果越好。 每个残基的 lDDT 评分存储在输出 .pdb 文件的 b-factor 中。您可以通过将 Cartoon 表示法(Polymer 组件)的颜色主题更改为"原子属性>不确定性/无序"来查看它们。
- ptm: 为生成的蛋白质预测的 5 个 AF2 模型的 TM(模板建模)评分。数值越高则效果越好。
在最右边的列中,您可以点击 "" 按钮查看预测的结构。 如果您启用了"松弛"选项,您会在下拉菜单中找到两个文件:一个是未松弛的结构,另一个是松弛后的结构。