梅根·E·沃尔什 | 詹妮弗·麦克拉里·格罗 | 马克·R·伯格伦德 | 王静瑶 | 帕里迪·阿格拉瓦尔 | 凯西·杰克·史密斯 | 谢卡尔·K·维斯瓦纳特 | 卡尔·D·莱尔德 | 克里斯安索斯·E·古纳里斯
美国宾夕法尼亚州匹兹堡市,化学工程系及先进过程决策中心,邮编15213
合成肽药物在多种治疗领域越来越受欢迎。工业规模制造合成肽的主要方法是固相肽合成(SPPS)工艺,该方法通过将所需的氨基酸序列依次添加到固体树脂上来构建肽。可以说,SPPS是一个复杂的过程,涉及许多步骤和自由度。在这项工作中,我们提出了一个基于仿真的优化框架,以确定任何给定肽构建的最佳操作参数,如原料用量和批次时间。利用基于Python的工具,根据该过程的反应网络制定了详细的仿真模型,并用于确定特定操作点的关键性能指标,如成本、产量和纯度。然后,该仿真模型被用作无导数优化方法的基础,使我们能够确定每次肽构建的最佳原料用量和反应时间。基于一组基准多循环肽构建的全面计算研究展示了我们的框架在降低成本、提高产量和纯度方面的能力,并能够管理这些指标之间的权衡。总体而言,这一计算工具有助于制药行业的从业者快速识别有前景的操作条件,以便进一步通过实验进行验证。
**引言**
合成肽在制药行业中越来越受到关注,因为它们可以用于治疗多种疾病,包括糖尿病、骨质疏松症、前列腺癌、肠易激综合症等。合成肽通常由多达40个氨基酸组成,包括非天然氨基酸,被视为中等大小的分子。由于其大小,合成肽相比传统的小有机分子和大单克隆抗体分子具有多种优势,如更高的效力、选择性和特异性,以及较低的毒性。鉴于合成肽所提供的优势,预计未来将有大量肽类药物上市,因此需要一种高效的大规模制造方法。
工业上最常用的合成肽方法是固相肽合成(SPPS)工艺,该方法由梅里菲尔德于1963年首次提出,他后来因此获得了诺贝尔化学奖。SPPS工艺包括多个循环,在这些循环中,目标肽在固体树脂支撑物上生长。选择的固体树脂支撑物应能适当地与液体试剂溶剂化,以实现有效的反应速率,通常采用具有多孔凝胶结构的交联聚合物珠子。在SPPS工艺的每个循环中,有三个主要步骤,如图1所示。第一步是脱保护,即去除树脂上或树脂上生长链上的保护基团(如9-芴基甲氧羰基(Fmoc)或叔丁氧羰基(Bmoc),以暴露胺基。哌啶是常用的Fmoc脱保护反应试剂,尽管也可以使用其他碱,如吡咯烷、1,5-二氮杂环[5.4.0]十一-7-烯(DBU)和1,5-二氮杂环[4.3.0]九-5-烯(DBN)。脱保护反应后,清洗树脂以去除任何残留的液相物质。第二步中,进入的胺基保护氨基酸通过偶联剂进行活化,目的是用更好的离去基团替换氨基酸羧基中的羟基,从而提高其亲电性。一些氨基酸活化方法包括生成活化酯、酰卤或对称酸酐。在活化酯的情况下,常用的偶联剂包括O-苯并三唑-N,N,N′,N′-四甲基脲六氟磷酸盐(HBTU)或N,N′-二异丙基碳二亚胺(DIC),并结合添加剂乙基氰羟基亚氨基乙酸酯(Oxyma)。第三步是偶联,其中活化氨基酸的羧基取代现有肽链中的暴露胺基,形成新的共价酰胺键。经过中间清洗步骤去除反应器中的残留试剂,并可选地进行封端步骤,使未反应的位点在未来循环中不再具有反应性,直到所有氨基酸按所需顺序添加完毕,此时肽链在酸的作用下从树脂上切割下来。每个循环的步骤都在不溶于树脂的溶液中进行,常用的溶剂是二甲甲酰胺(DMF)和二氯甲烷(DCM),也有探索使用N-甲基-2-吡咯烷酮(NMP)、N-丁基吡咯烷酮(NBP)和2-甲基四氢呋喃(2-MeTHF)等更环保的替代品。
**合成肽在制药行业的应用**
合成肽在制药行业中越来越受到关注,因为它们可以用于治疗多种疾病。合成肽通常由多达40个氨基酸组成,包括非天然氨基酸,被认为是中等大小的分子。由于它们的大小,合成肽相比传统的小有机分子和大单克隆抗体分子具有多种优势,如更高的效力、选择性和特异性,以及较低的毒性。随着合成肽的优势,预计未来将有大量肽类药物上市,因此需要一种高效的大规模制造方法。
**SPPS工艺**
工业上最常用的合成肽方法是固相肽合成(SPPS)工艺,该方法由梅里菲尔德于1963年首次提出,他因此获得了诺贝尔化学奖。SPPS工艺包括多个循环,在这些循环中,目标肽在固体树脂支撑物上生长。选择的固体树脂支撑物应能适当地与液体试剂溶剂化,以实现有效的反应速率,通常采用具有多孔凝胶结构的交联聚合物珠子。在SPPS工艺的每个循环中,有三个主要步骤:第一步是脱保护,即去除树脂上或树脂上生长链上的保护基团;第二步是活化,即将胺基保护氨基酸与偶联剂反应;第三步是偶联,即活化氨基酸的羧基取代现有肽链中的胺基,形成新的共价酰胺键。
**SPPS工艺的复杂性**
尽管SPPS工艺已在工业上得到广泛应用,但它非常复杂,涉及许多步骤和决策,工艺开发团队在规划合成肽的组装时必须做出这些决策。最重要的是,该工艺容易发生多种不良反应,这些反应可能会产生杂质,从而降低产量和纯度。SPPS工艺中常见的杂质包括缺失、添加、异构体和封端加合物等。缺失是由于偶联不完全导致氨基酸未包含在目标肽序列中,可能是由于偶联时间不足或氨基酸活化不完全所致。此外,添加杂质(也称为双重添加)可能是由于偶联后的氨基酸过早脱保护,使得第二个氨基酸分子在同一循环中连续偶联到同一肽链上。异构体杂质通常发生在氨基酸在偶联到生长肽链之前发生环化反应时。封端加合物通常与偶联剂DIC有关,因此称为DIC加合物。在使用酸不稳定的树脂时,DIC加合物可能会形成,使链的末端变得不再具有反应性。虽然用酸从树脂上切割最终肽是标准程序的一部分,但我们注意到在酸性Oxyma添加剂存在的情况下,中间肽链可能会过早断裂。
**优化SPPS工艺**
鉴于肽类药物的增加和SPPS工艺的复杂性,需要一种高效的方法来筛选操作条件,以帮助工艺开发科学家找到构建所需肽的最佳方式。因此,本工作的目标是研究SPPS工艺的详细建模和优化技术,并开发一个有效的决策框架,供科学家和工程师在新型肽类药物的研发过程中进行化学、制造和控制(CMC)活动时使用。具体来说,本工作的贡献有两个方面:首先,我们基于提出的SPPS工艺动力学反应网络实现了一个详细的仿真工具,用于计算肽构建指标,如成本、产量、纯度等;其次,在第二部分工作中,我们优化了SPPS工艺,以确定最佳操作条件,如每个循环的初始试剂量和反应时间,以实现降低成本或最大化产量等目标。为此,我们采用了无导数优化方法中的详细仿真工具。
**SPPS工艺建模**
SPPS工艺在一系列半连续反应器中进行,采用Fmoc化学方法,使用DIC偶联剂和Oxyma添加剂,溶剂为DMF,脱保护步骤使用哌啶。虽然有一些新的SPPS工艺方法包括额外的反应器,但这里我们关注的是每次构建过程中重复使用的两个常见反应器设置。如图2所示,第一个反应器(反应器A)用于预活化步骤,而第二个反应器(反应器C)包含固体树脂,偶联反应在此发生。在整个构建过程中,始终使用相同的两个反应器容器,固体相物质在反应器C内生长。
**多循环肽构建**
在每个循环i ∈ {1, 2, ..., N}中,反应器A在循环开始时加入所需的氨基酸(AAi)以及指定量的DIC和Oxyma。混合物经过适当时间的活化反应后,反应器A中的所有内容物(包括活化的氨基酸(AAi.Oxyma)和任何未反应的氨基酸)被送入反应器C,其中装有固体相物质,使活化的氨基酸与它们偶联。所有活化反应在反应器C中继续进行,同时进行偶联。偶联完成后,液体溶液从反应器中排出,装有固体相肽链的树脂被清洗以去除任何残留的液相物质,并为下一个循环做准备。在循环之间,还可以选择进行封端步骤,以封住循环末尾的未反应位点,防止杂质在后续循环中传播。然而,在大规模合成肽的生产环境中,仅对少数特定循环进行有意封端,因为在整个构建过程中这样做不仅不切实际,还可能导致产量显著损失,从而增加成本和时间。因此,在本工作中我们假设不进行此类有意封端步骤,但可以将其作为我们仿真框架的可选功能。我们进一步假设脱保护过程完全转化,即所有位点在下一个循环的活化步骤之前都会被脱保护。我们做出这一简化假设是因为大多数缺失杂质通常是由于偶联不完全引起的,但无论如何,我们的模型可以很容易地调整以明确考虑脱保护反应。最后一个循环结束后,产生的固体相物质从树脂上切割下来并送入下游分离步骤。
**肽构建指标**
对于每个肽构建,模型中计算了构建指标,如总时间、产量、成本、纯度和产量等,具体内容如下表所示。SPPS模拟模型中涉及的集合、(输入)参数和(输出)变量列表
符号 | 描述
-----------------------------------
B | 树脂伪物种类别 ≔ {目标, 删除, 异构体, 封端, 惰性}
I | 肽构建中的循环 ≔ {1, 2, ..., N}
J | 每个循环中的原材料 ≔ {AA, Oxyma, DIC}
P | 每个循环中的阶段 ≔ {A1, A2, C2, C3}
RA | 激活反应
RC | 耦合反应
Rp | 第p阶段的反应
Sp | 第p阶段反应中涉及的物种
参数:
cEQ | 设备使用的成本(每时间单位)
ci | 第i循环中使用的总溶剂成本
Eji | 第i循环中最初加入反应器A的原材料j的当量
Fpi | 第i循环第p阶段进入反应器的体积流量
Fpiout | 第i循环第p阶段离开反应器的体积流量
k | 反应r的速率常数
l | 树脂装载量
Pthres | 优化构建可接受的纯度阈值
tover | 整个肽构建的固定开销时间(所有循环)
ti | 第i循环中A1阶段的持续时间
tP2 | 第i循环中A2和C2阶段同时进行的持续时间
tP3 | 第i循环中C3阶段的持续时间
tPCP | 第i循环的后处理时间
VA,init | 反应器A中的初始溶剂体积(所有循环相同)
Vi,init | 第i循环中反应器C中的初始溶剂体积
α | 双目标优化的权重参数(成本与产量)
μi | 第i循环中反应器C中哌啶的初始浓度
νresin | 第i循环中的树脂总量
ρi | 第i循环中的树脂膨胀系数
σji | 第i循环中物种j的价格
σresin | 树脂的价格
ψsr | 反应r中物种s的化学计量系数(产物>0;反应物<0)
ωi | 第i循环中氨基酸电荷中的水分百分比
变量:
C | 每单位产品的总成本(性能指标)
COP | 运营总成本
CRM | 原材料总成本
Ctotal | 肽构建总成本
mi | 第i循环C2阶段开始时树脂上固相物种s的量
ni | 第i循环后树脂伪物种类别b的量
P | 最终产品纯度
PMI | 目标肽构建的“耦合PMI”
Rr | 反应r的速率 [s]
pi(t) | 第i循环第p阶段过程中物种s的浓度 [s]
piin | 第i循环第C3阶段结束时物种s的浓度 [s]
piin | 第i循环第p阶段过程中加入反应器的物种s的浓度 [s]
T | 产量(性能指标)
ti | 第i循环的总时间
ttotal | 整个肽构建的总时间(所有循环)
Vpi(t) | 第i循环第p阶段过程中溶剂的体积 [s]
Vif | 第i循环第C3阶段结束时的溶剂体积 [s]
Y | 最终产品产量
γi | 第i循环开始时属于伪物种类别b的AA0树脂的比例
ξpi | 第i循环第p阶段过程中氨基酸与活性位点偶联的转化率
总反应时间(tiRXN)是循环中所有反应阶段持续时间的总和,考虑了当反应器A的内容物转移到反应器C时的排放和装载同时发生的情况。关于反应阶段的更多信息,请参见文后“模拟框架”部分。每个循环的时间(ticycle)在方程中给出,同时也考虑了后处理时间(tiPCP),其中包括各种后处理步骤所花费的时间,包括任何数量的洗涤。总时间(ttotal)包括所有循环的循环时间(set I),以及整个肽构建的任何额外开销时间(tover),这包括完成清洁反应器和干燥树脂等任务的固定时间以及其他物流。最后,产量(T)可以视为一个性能指标(需要最大化),在方程中定义为N循环肽构建时间内生成的目标产物摩尔数(nNtarget)。
1tiRXN = tiP1 + tiP2 + tiP3
2ticycle = tiRXN + tiPCP
3ttotal = ∑i∈I(ticycle) + tover
4T = nNtarget
ttotal
构建的总成本(Ctotal)包括原材料成本(CRM)和运营成本(COP),如方程所示。这两个成本组成部分都包括变量成本(取决于循环)和固定成本(在整个肽构建过程中适用,与循环次数无关)。每个肽构建循环i的变量原材料成本基于最初加入反应器A的反应物量(set J={AA, Oxyma, DIC})和每种原材料j的价格(σji)。
# 肽构建的固定原材料成本基于最初加入反应器C的树脂成本。方程总结了构建过程中的总原材料成本,其中Eji是每个循环i开始时加入反应器A的原材料j的当量(即,每摩尔树脂的摩尔数),νresin是树脂的总量,σresin是树脂的每单位重量价格,lresin是树脂装载量(每单位重量的摩尔数),ci溶剂是每循环的溶剂成本,包括用于耦合、脱保护和洗涤的溶剂成本。总运营成本在方程中累积,其中设备的每时间成本(cEQ)分配给变量时间和固定时间。每摩尔产品的总构建成本(C)在方程中给出,构成了我们的第二个性能指标(需要最小化)。
5Ctotal = CRM + COP
6CRM = ∑i∈I(∑j∈J(σjiEjiνresin) + cisolvent) + σresinνresinlresin
7COP = cEQttotal
8C = Ctotal / nNtarget
在现有树脂结合肽链上的活性位点在任何循环开始时被脱保护后,通常会在循环结束时产生五种可能的结果。这些结果包括活性位点与所需氨基酸结合、与所需氨基酸的异构体结合(异构体杂质)、保持未反应状态(删除杂质)、被DIC加合物封端或通过故意的封端步骤封端(封端杂质),或者与整个肽链一起从树脂上切割下来。为此,我们引入了五种伪物种来跟踪附着在树脂上的链的演变:(1) 目标,具有完整长度和正确氨基酸序列的链;(2) 异构体,具有完整长度但至少有一个异构体替换的链;(3) 删除,长度不足的链;(4) 被DIC加合物封端的链;(5) 惰性,链过早切割后产生的非反应性树脂位点。请注意,在这项工作中,我们省略了对添加杂质的跟踪,因为在使用DIC/Oxyma化学条件下,这些杂质通常可以忽略不计。
鉴于上述内容,我们定义了两个与最终产品质量相关的额外肽构建指标,即产品纯度和产量。产量(Y)是指从可以产生的最大目标链量中产生的目标产品量,即最初加入反应器C的树脂量,如方程所示。纯度(P)定义为产生的固相物种总量中目标链的比例,其中包括构建过程中产生的各种杂质,如方程所示。请注意,惰性伪物种不计入P的定义中,因为它们不会进入下游分离过程。在我们的工作中,我们将纯度视为一个约束,与必须满足的最低阈值相关。我们强调这个阈值对应于色谱分离前的所需纯度,因此是最终产品纯度的下限。
9Y = nNtarget / νresin
10P = nNtarget / (nNtarget + nNisomer + nNdeletion + nNcapped)
在结束本节之前,我们强调将附着在树脂上的肽链汇总为少数几种伪物种的动机是为了简化模型中需要跟踪的物种数量,从而提高计算可行性。实际上,假设我们从初始干净的树脂开始,这将需要在N循环构建后跟踪O(3N)条链。我们通过跟踪循环中形成的五种伪物种来避免这种情况,循环开始时的活性位点总量确定为前几循环中生成的所有反应性伪物种(即目标、异构体和删除)的总和。新形成的物种在循环结束后适当地分配到它们的伪物种类别中。后续部分中的反应网络和更新每个类别累积量的方程进一步阐明了这一点。
**反应网络**
我们模型中使用的反应网络是典型SPPS循环定义的一部分,包括在氨基酸预激活和耦合步骤期间发生的所有反应,无论是否需要,适用于构建中的所有循环。由于大部分杂质生成发生在这一时间,因此激活和耦合反应是动力学模型的重点。
反应网络在表2中呈现,并在后续部分中对反应进行了说明。
2. 我们SPPS过程中的所有激活(RA)和耦合(RC)反应
# 名称 | 反应 | 速率定律
-----------------|-------------------
r a1 | AA + DIC → ka1 | AA.DIC
r a1 = k a1[AA][DIC]
r a2 | AA.DIC + Oxyma → ka2 | AA.Oxyma + Urea
r a2 = k a2[AA.DIC][Oxyma]
r a3 | AA.DIC + H2O → ka3 | AA + Urea
r a3 = k a3[AA.DIC][H2O]
r a4 | Oxyma + DIC → ka4 | Oxyma.DIC
r a4 = k a4[Oxyma][DIC]
r a4rev | Oxyma.DIC → ka4rev | Oxyma + DIC
r a5 | Oxyma.DIC → ka5 | Cyclic + HCN
r a5 = k a5[Oxyma.DIC]
r a6 | AA.Oxyma + H2O → ka6 | AA + Oxyma
r a6 = k a6[AA.Oxyma][H2O]
r a7 | Oxyma.DIC + H2O → ka7 | Oxyma + Urea
r a7 = k a7[Oxyma.DIC][H2O]
r a8 | AA.Oxyma → ka8 | DAA.Oxyma
r a8 = k a8[AA.oxyma]
r a9 | AA.DIC → ka9 | DAA.DIC
r a9 = k a9[AA.DIC]
r a10 | DAA.DIC + H2O → ka10 | DAA + Urea
r a10 = k a10[DAA.DIC][H2O]
r a11 | DAA.Oxyma + H2O → ka11 | DAA + Oxyma
r a11 = k a11[DAA.Oxyma][H2O]
r a12 | DAA + DIC → ka12 | DAA.DIC
r a12 = k a12[DAA][DIC]
r a13 | DAA.DIC + Oxyma → ka13 | DAA.DIC + Urea
r a13 = k a13[DAA.DIC][Oxyma]
耦合反应(仅限于反应器C):
r c1 | AA.Oxyma + AA0.Resin → kc1 | AA.AA0.Resin + Oxyma
r c1 = k c1[AA.Oxyma][AA0.Resin](1−ξ)
r c2 | AA.DIC + AA0.Resin → kc2 | AA.AA0.Resin + Urea
r c2 = k c2[AA.DIC][AA0.Resin](1−ξ)
r c3 | DAA.DIC + AA0.Resin → kc3 | DAA.AA0.Resin + Urea
r c3 = k c3[DAA.DIC][AA0.Resin](1−ξ)
r c4 | DAA.Oxyma + AA0.Resin → kc4 | DAA.AA0.Resin + Oxyma
r c4 = k c4[DAA.Oxyma][AA0.Resin](1−ξ)
r c5 | AA0.Resin + DIC → kc5 | CAP.AA0.Resin
r c5 = k c5[DIC][AA0.Resin](1−ξ)
r c6 | Pip + AA.Pxyma → kc6 | AA.Pip + Oxyma
r c6 = k c6[pip][AA.Oxyma]
r c7 | Pip + AA.DIC → kc7 | AA.Pip + Urea
r c7 = k c7[Pip][AA.DIC]
r c8 | Pip + DAA.Oxyma → kc8 | DAA.Pip + Oxyma
r c8 = k c8[Pip][DAA.Oxyma]
r c9 | Pip + DAA.DIC → kc9 | DAA.Pip + Urea
r c9 = k c9[Pip][DAA.DIC]
r c10 | Oxyma + AA0.Resin → kc10 | AA0 + IN.Resin + Oxyma
r c10 = k c10[Oxyma][AA0.Resin]
r c11 | Oxyma + AA.AA0.Resin → kc11 | AA.AA0 + IN.Resin + Oxyma
r c11 = k c11[Oxyma][AA.AA0.Resin]
r c12 | Oxyma + DAA.AA0.Resin → kc12 | DAA.AA0 + IN.Resin + Oxyma
r c12 = k c12[Oxyma][DAA.AA0.Resin]
每种物种的摩尔浓度写在括号中,与一个阶段和一个循环相关联,但为了便于表述,相关的下标[·]pi被省略了。
我们还注意到随着肽在树脂上生长,由于试剂进入树脂孔隙的扩散速率降低,传输限制的重要性。
为了捕捉这些限制对反应速率的影响,我们遵循了Wang等人提出的动力学模型。因此,所有速率定律都被假设为基本反应,除了考虑质量传递抑制的反应r c1–r c5。反应器C的转化率(ξpi)在每个阶段p和循环i中跟踪,根据公式:
11ξpi = 1 − [AA0.resin]pi[AA.AA0.resin]pi + [AA0.resin]pi
其中[AA0.resin]pi和[AA.AA0.resin]pi分别是具有活性位点的总现有树脂结合肽和新耦合到现有树脂结合肽的氨基酸的摩尔浓度。
**激活反应**
反应机制包含13个激活反应(set RA),包括所需的和不所需的反应。所需的反应只有两个,即r a1和r a2。在反应r a1中,耦合剂DIC与氨基酸反应形成活化中间体O-acylisourea(AA.DIC)。该物种会迅速与Oxyma添加剂反应,生成活化酯(AA.Oxyma)和尿素。其余的活化反应是不希望发生的,可以分为三类:(1)d-异构体的生成;(2)环状副产物和氢氰酸的生成;(3)水的分解。我们注意到,在此过程中还会发生一些次要的副反应,例如对称酸酐的生成等,但它们的速率常数通常小几个数量级,因此对整个动力学系统的贡献很小。因此,我们没有将它们包含在反应网络中,以避免不必要的复杂性增加。第一类不希望发生的活化反应会导致d-异构体的生成。具体来说,反应r a8和r a9显示活化酯(AA.Oxyma)和活化中间体(AA.DIC)发生互变异构,形成它们的d-异构体对应物(DAA.Oxyma,DAA.DIC)。反应r a12显示氨基酸的d-异构体(DAA)与DIC反应,也生成d-异构体活化中间体(DAA.DIC)。一旦形成这些物种,它们可以进一步与可用的Oxyma添加剂反应,生成d-异构体活化酯和额外的尿素,如反应r a13所示。氧杂二唑环状副产物(以下简称Cyclic)和有害的氢氰酸(HCN)的生成来自第二类不希望发生的活化反应。反应r a4是一个可逆反应,其中DIC偶联剂和Oxyma添加剂相互反应生成一个结合物种(Oxyma.DIC)。后者随后在反应r a5中生成不需要的物种。第三类不希望发生的活化反应考虑了由于系统中存在少量水而导致的活化物种分解的可能性。反应r a3和r a10显示活化中间体(AA.DIC)及其d-异构体对应物(DAA.DIC)与水分解,生成相应的非活性氨基酸和尿素。同样,反应r a6和r a11将活化酯(AA.Oxyma)及其d-异构体(DAA.Oxyma)分解为其相应的非活性氨基酸形式,同时释放一些Oxyma回到混合物中。反应r a7显示结合偶联剂物种(Oxyma.DIC)分解为Oxyma和尿素。
在偶联机制中有12个额外的反应(集合RC),其中只有两个是期望的。期望的偶联反应包括r c1和r c2,其中活化酯(AA.Oxyma)或活化中间体(AA.DIC)与反应器内现有树脂结合的肽链上的活性位点反应,分别生成偶联链(AA.AA0.Resin)和Oxyma或尿素。其余的偶联反应是不希望发生的,可以分为四类:(1)d-异构体偶联;(2)活性位点的封端;(3)活化物种与哌啶的分解;(4)从树脂上切割链。第一类不希望发生的偶联反应包括反应r c3和r c4。遵循与期望的氨基酸偶联相同的机制,活化酯(DAA.Oxyma)和活化中间体(DAA.DIC)的d-异构体对应物可以与现有树脂结合的肽链上的活性位点偶联,生成相应的偶联物种(DAA.AA0.Resin)和Oxyma或尿素。第二类不希望发生的反应是活性位点的封端,包括反应r c5。活化物种在哌啶(Pip)的存在下也可能分解,哌啶可能由于脱保护后反应器清洗不完全而少量存在。反应r c6、r c7、r c8和r c9显示哌啶与活化酯及其d-异构体对应物的反应,生成氨基酸和哌啶的结合物种(AA.Pip或DAA.Pip)以及Oxyma或尿素。这些结合的氨基酸和哌啶物种不能再与反应器中的固相物种的活性位点偶联。最后一类不希望发生的偶联反应导致由于系统中存在少量水而使活化物种分解。反应r c10和r c11显示活化中间体(AA.DIC)及其d-异构体对应物(DAA.DIC)与水分解,生成相应的非活性氨基酸和尿素。类似地,反应r c6和r c11将活化酯(AA.Oxyma)及其d-异构体(DAA.Oxyma)分解为其相应的非活性氨基酸形式,同时释放一些Oxyma回到混合物中。反应r c7显示结合偶联剂物种(Oxyma.DIC)分解为Oxyma和尿素。
在偶联机制中有12个额外的反应(集合RC),其中只有两个是期望的。期望的偶联反应包括r c1和r c2,其中活化酯(AA.Oxyma)或活化中间体(AA.DIC)与反应器内现有树脂结合的肽链上的活性位点反应,分别生成偶联链(AA.AA0.Resin)和Oxyma或尿素。其余的偶联反应是不希望发生的,可以分为四类:(1)d-异构体偶联;(2)活性位点的封端;(3)活化物种与哌啶的分解;(4)从树脂上切割链。第一类不希望发生的偶联反应包括反应r c3和r c4。与期望的氨基酸偶联机制相同,活化酯(DAA.Oxyma)和活化中间体(DAA.DIC)的d-异构体对应物可以与现有树脂结合的肽链上的活性位点偶联,生成相应的偶联物种(DAA.AA0.Resin)和Oxyma或尿素。第二类不希望发生的反应是活性位点的封端,包括反应r c5。活化物种在哌啶(Pip)的存在下也可能分解,哌啶可能由于脱保护后反应器清洗不完全而少量存在。反应r c6、r c7、r c8和r c9显示哌啶与活化酯及其d-异构体对应物的反应,生成氨基酸和哌啶的结合物种(AA.Pip或DAA.Pip)以及Oxyma或尿素。这些结合的氨基酸和哌啶物种不能再与反应器中的固相物种的活性位点偶联。最后一类不希望发生的偶联反应导致生长中的链从树脂上切割,如反应r c10、r c11和r c12所示。在Oxyma添加剂的存在下,现有肽链(AA0.Resin)和新偶联的链(AA.AA0.Resin或DAA.AA0.Resin)可以从某些类型的树脂上切割下来,留下惰性树脂(IN.Resin)。后者留在固相中,而切割的链(AA0、AA.AA0和DAA.AA0)与Oxyma一起返回液相。惰性树脂物种在未来的循环中不再反应,而液相链将在循环结束时随着反应器的排空而被洗掉。
如表2所示,活化反应和偶联反应的反应网络的速率定律被假设为基本反应,除了活化氨基酸的偶联(r c1、r c2)、其d-异构体对应物(r c3、r c4)以及偶联机制中DIC封端加合物(r c5)与树脂的反应。这些反应通过伪抑制速率定律进行建模,以解释随着肽链在树脂上生长,新物种与活性位点反应的抑制。我们强调上述反应网络足够通用,可以应用于任何氨基酸偶联,特别是酰胺键的形成。然而,如果有相关的动力学信息,就有机会在选定的循环中扩展这个网络,以纳入任何适用的侧链反应和/或涉及进料中的杂质反应。为了便于阐述,在这项工作中,我们省略了侧链反应,并假设纯氨基酸的充电。
本节介绍了我们在计算工作中使用的方法和工具。我们首先讨论了在给定操作条件下模拟该过程的框架,然后讨论了如何将其作为优化框架的基础,以优化这些条件。
我们实现了一个用于详细模拟SPPS过程的框架,该框架基于表2中呈现的一系列反应网络的动力学模型——每个构建周期都有一个这样的模型。在整个过程的每个周期内,总时间被划分为几个阶段,以考虑反应时间和反应器的正确充放电。这些阶段定义如下:(A1)活化反应在反应器A中开始;(A2)反应器A的内容物被排放到反应器C中;(C2)反应器C被反应器A的内容物填充;(C3)所有反应持续到最终反应时间。注意,阶段A2和C2是同时进行的,但每个阶段关注不同的反应器容器。我们独立模拟每个阶段随时间变化的浓度。因此,我们首先模拟阶段A2中所有物种随时间的浓度,并使用这些浓度作为阶段C2模拟的相应物种的入口浓度。在给定周期的模拟结束时,我们假设反应器C中的液体溶液已被完全排出,只留下固相物种,这些物种将用于确定下一个周期模拟的初始条件。
微分方程模拟每个阶段p中物种浓度和溶剂体积随时间的变化,如方程所示。需要注意的是,这些方程适用于每个特定的循环i。在模拟过程中,每个特定循环i都应用这些方程。在反应器A中没有偶联反应发生,但活化反应在反应器C中继续进行;即RA1=RA2=RA且RC1=RC2=RA∪RC。参数ψsr对应于每个物种s的化学计量系数,Rr是每个反应r的相应速率(见表2)。虽然反应器A中没有偶联反应发生,但活化反应在反应器C中仍然继续进行;也就是说,RA1=RA2=RA且RC1=RC2=RA∪RC。参数ψsr对应于每个物种s的化学计量系数,Rr是每个反应r的相应速率。虽然方程适用于每个循环i中涉及的每个物种s(集合Sp),但方程适用于每个循环i的每个阶段(集合P)。有关每个阶段Sp中相关物种、化学计量系数以及上述方程如何为特定物种实例化的代表性示例,请参见支持信息。
表3提供了每个阶段微分方程的参数输入和初始条件,包括阶段的时间域、进入和离开反应器的体积流量、初始溶剂体积以及每个阶段中物种的初始浓度。这里,我们假设每次氨基酸充电时可以向反应器A中引入少量水(ωi ww以wt%计),因此我们用非零的水浓度初始化阶段A1。在阶段C2中,我们根据上一个循环阶段C3结束时各自的摩尔量(mi s)初始化反应器C中携带的固相物种的浓度,即AA0.Resin、CAP.AA0.Resin和IN.Resin。在初始化第一个循环时,我们假设从干净的树脂开始,因此m1 AA0.Resin = νresin,m1 CAP.AA0.Resin = 0,m1 IN.Resin = 0。此外,在每个循环开始之前的脱保护步骤中,反应器C中可能残留少量哌啶,我们用相应的浓度(μi pip)初始化阶段C2。
我们还强调了在每个循环的清洗和脱保护步骤之后,一些溶剂会残留在树脂中,这被称为膨胀效应。树脂中保留的溶剂量增加会导致整个构建过程中试剂的稀释,从而在后续循环中反应速率变慢。为了考虑这一点,我们更新当前循环i中反应器C的初始体积,使其超过上一个循环的初始体积,增加新保留的溶剂量ρi νresin;即ViC,init=∑i′=1iρi′νResin,其中ρi是每个循环i中每摩尔树脂的溶剂体积膨胀系数。请注意,即使在第一个循环之前的反应之前,树脂通常也会发生初始膨胀,即ρ1 > 0,这是在初始脱保护和清洗步骤中将树脂浸入溶剂时发生的。
在SPPS过程建模部分引入的五个伪物种帮助我们跟踪每个循环中固相物种的演变,这取决于杂质的类型及其与目标肽的分离性。然后,在一个循环的结束时,我们可以根据循环结束时的各自浓度,使用方程式适当地将总活性位点分配给每个伪物种类别。这里需要提到的是,如果想要模拟不完整的脱保护步骤,这些方程式可以适当扩展以考虑由此来源产生的额外删除杂质。
18nitarget=γitarget[AA.AA0.Resin]ifVif
19nideletion=[AA0.Resin]ifVif+γideletion([AA.AA0.Resin]if+[DAA.AA0.Resin]if)Vif
20niisomer=γitarget[DAA.AA0.Resin]ifVif+γiisomer([AA.AA0.Resin]if+[DAA.AA0.Resin]if)Vif
21nicapped=[CAP.AA0.Resin]ifVif
22niinert=[IN.Resin]ifVif
请注意,为了限制需要解决的微分方程的总数,AA0.Resin 聚合了所有具有活性位点的链,包括目标、删除和异构体伪物种。为此,引入了一组因子 γi_b 来表示在循环 i 开始时属于每个伪物种类别 b 的活性位点的比例。假设树脂是干净的,这些比例在第一个循环中被初始化为 γ1_target = 1 和 γ1_deletion = γ1_isomer = 0,并根据反应产生的相应伪物种的数量在后续循环中更新;即 γi_b = n_i–1_b /(n_i–1_target + n_i–1_deletion + n_i–1_isomer) 对于所有 i > 1。
我们的 SPPS 仿真模型包括了适用于给定肽构建的所有阶段和所有循环的每个物种的所有微分方程,可以使用 SciPy 包中的现有积分器在 Python 中轻松解决。我们使用这种方法在计算结果部分生成并展示了一系列仿真结果。虽然这样的仿真结果可以让实践者对实际应用中的特定肽构建获得有价值的见解,但它们可能会对现有的 SPPS 过程进行一些改进。然而,仅仅依赖用户提供初始试剂电荷和反应时间(对于所有循环)的仿真器在探索更广泛的操作条件范围和为全新的肽设计最优 SPPS 过程时可能会显得繁琐和/或有限。实际上,这需要一种更复杂的方法来按需优化操作条件,这正是我们在本文下一节的重点。
SPPS 过程优化方法的目标是确定操作者可以适当操纵的某些过程条件的最佳设置,即各种过程自由度,以便以优化感兴趣的性能指标的方式构建所需的肽。更具体地说,我们优化框架中的设计变量是加载到反应器 A 中的每种反应物的初始浓度,即氨基酸 (E-AA,i)、偶联剂 (E-DIC,i) 和添加剂 (E-Oxyma,i),以及每个循环 i 中偶联反应的持续时间(特别是阶段 C3 的变量时间 t_i_P3)。确切的优化公式显示在方程式 –27 中,并在下面进行解释。
这个优化公式使用一个复合目标来最小化成本并最大化所需肽构建的产量,同时受到纯度阈值约束。权重参数 α ∈ [0, 1] 在两个目标之间取得平衡,较大的 α 值强调成本,而较小的 α 值则更注重产量。为了缓解目标缩放问题,我们在每个项中使用了相应指标与其单目标优化下的最优结果之间的相对差异,分别用 C* 表示最小成本,T* 表示最大产量。函数 SPPS(·) 是在仿真框架部分描述的 SPPS 仿真框架,它在这里作为一个黑盒模型,可以计算总成本 (C)、过程产量 (T) 和最终产品的纯度 (P),对于任何相关的设计变量选择,即每个循环 i 的阶段 C3 持续时间 (t_i_P3) 和三种原材料 j(氨基酸、Oxyma、DIC)的初始当量 (E_ji)。此外,为了避免牺牲纯度的解决方案,我们还包含了一个明确的约束,要求最优解的纯度不低于给定的纯度阈值 (P_thres)。最后,对每个自由度施加了适用的下限和上限,以反映任何既定的操作范围。
如上所述,上述优化问题适合通过任何无导数优化算法来解决。对于这项工作,我们选择了 NOMAD 4,这是一个众所周知且免费提供的优化包,它实现了网格自适应直接多搜索 (MADS) 方法,我们在计算研究中发现它工作得令人满意。
本节展示了一系列研究,这些研究展示了我们的仿真和优化框架在适当定义的基准测试中的使用情况,这些基准测试首先进行了描述。在每种情况下,都提供了整个构建的精确指标,以及用于可视化构建过程中循环动力学和固相演变的图表。
定义了十二种氨基酸类型,涵盖了各种真实的氨基酸行为,以测试计算框架。假设的依赖于氨基酸的反应包括氨基酸异构化 (r_a8 和 r_a9) 和偶联 (r_c1, r_c2, r_c3, 和 r_c4)。所有其他反应都假设与涉及的氨基酸类型无关,因此在每个实例中具有相同的动力学。
为了表示每种氨基酸类型适用的动力学,我们将使用“AA-CD”这一命名法,其中“C”代表偶联速率,“D”代表 d-异构体形成的速率。偶联速率基于循环达到 99% 可接受转化率所需的时间,并有三个选项,分别是快速、中等和慢速,其时间顺序分别为几分钟、几小时和几天。d-异构体形成速率基于在一定时间后产生的异构体杂质的量,并具有类似的选项,以及一个称为“None”的选项,表示给定氨基酸不可能发生异构化。例如,氨基酸类型 AA-MF 对应于具有中等偶联速率的氨基酸,因此它可以在几小时内完成循环的转化,同时在同一时间框架内其活性位点有 1% 转化为 d-异构体,这是一个相当快的异构化速率。表 4 总结了上述分类,共得到 12 种不同的氨基酸类型。
为了涵盖不同氨基酸偶联和异构化动力学范围内的行为,我们开发了参考反应速率。
# 反应速率
符号 “C”/“D”
达到 99% 转化所需的时间
生成 % 异构体杂质所需的时间
快速 F 分钟
1% 在几小时内
中等 M 小时
1% 在几天内
慢速 S 天
0.1% 在几天内
None N [未定义]
0%(从不)
虽然我们省略了在每种情况下实现所需行为的确切动力学常数的细节,但我们提供了一些指导原则,说明如何根据这些参考类型对不同的氨基酸进行分类。特别是,氨基酸的偶联速度可以根据其类型、它所偶联的 N-末端氨基酸的类型和/或在适用循环中肽在树脂上的长度来估计。例如,一个在第二循环中因其偶联速度被分类为“F”的氨基酸,在第十循环中再次添加时可能被分类为“M”。然而,重要的是要强调这些因素不依赖于为循环选择的具体操作条件,因此可以在实例化适用的动力学模型之前预先进行分类。另一方面,选择异构化速度更为直接,因为它仅取决于要添加到链中的氨基酸类型及其在偶联发生之前在液相中发生异构化的倾向。例如,文献表明组氨酸在 SPPS 过程中非常容易发生异构化,导致大量的异构体杂质。因此,组氨酸可以用“F”分类来表示异构体杂质的生成。相反,甘氨酸不会发生异构化,特别是使用 DIC/Oxyma 化学时,因此可以用“N”异构体生成分类来表示。总的来说,这 12 种氨基酸参考类型涵盖了广泛的氨基酸行为,可以替代使用确切的动力学常数来映射到任何构建中。
使用这 12 种标准化的氨基酸类型,我们定义了 12 个单循环基准测试,用于测试模型。此外,通过组合这些测试,我们还开发了十个五循环基准实例,如表 5 所示,以进一步测试我们的框架在多循环肽构建上的表现。这些五循环实例大致分为三类:包括链中所有氨基酸具有相同 d-异构体形成率的构建(基准测试 1–4)、具有相同偶联率的构建(基准测试 5–7),或具有随机氨基酸类型组合的构建(基准测试 8–10)。
# 用于测试多循环肽构建的五循环基准实例
| # | 描述 | 循环 1 | 循环 2 | 循环 3 | 循环 4 | 循环 5 |
| --- | --- | --- | --- | --- | --- |
| 1 | 无 d-异构体形成 | AA-SN | AA-FN | AA-MN | AA-MN |
| 2 | 中等 d-异构体形成 | AA-MM | AA-SM | AA-FM | AA-SM |
| 3 | 慢速 d-异构体形成 | AA-SS | AA-SS | AA-MS | AA-FS |
| 4 | 快速 d-异构体形成 | AA-MF | AA-FF | AA-MF | AA-FS |
| 5 | 中等偶联 | AA-MN | AA-MS | AA-MM | AA-MF |
| 6 | 慢速偶联 | AA-SS | AA-FS | AA-SS | AA-SN | AA-SM |
| 7 | 快速偶联 | AA-FN | AA-FF | AA-FN | AA-FS |
| 8 | 随机 | AA-SM | AA-FN | AA-MF | AA-FM |
| 9 | 随机 | AA-MMA | AA-SN | AA-FS | AA-FN |
| 10 | 随机 | AA-MN | AA-SN | AA-MS | AA-SM |
第二列提供了肽中包含的氨基酸之间的任何共同点。
为了规范生产能力和成本数据,产量和成本指标是相对于某个参考结果进行标准化的,该参考结果的产量为每时间单位 (t.u.) 1 摩尔产品,总成本为每摩尔产品 1 货币单位 (m.u.)。更具体地说,对于单循环仿真,这些指标是相对于平均氨基酸测试案例 (AA-MM) 进行标准化的,而基准测试 8 将作为五循环构建的参考。质量指标,如纯度和产量,没有进行标准化。此外,在报告优化操作条件时,氨基酸、偶联剂和添加剂的初始试剂电荷是按照之前肽活动中的参考实验研究使用的比例来报告的。
标准操作协议也影响了这些活动中实施的反应时间。特别是,遵循标准协议时,激活反应在阶段 A1 中进行总共 20 分钟 (t_i_P1),然后在阶段 A2 和 C2 中转移反应混合物,额外进行 10 分钟 (t_i_P2)。阶段 C3 中的反应时间 (t_i_P3) 取决于氨基酸类型,并假设循环的目标转化率至少为 99.5%,对于慢速、中等和快速偶联剂,分别大约在 24 小时、6 小时和 0.5 小时。然而,我们注意到在实践中必须至少有 2 小时的 C3 阶段时间来进行样品处理,然后批次才能进入下一步。这本质上导致快速偶联剂在样品处理完成之前就有额外的强制反应时间。在本文的其余部分,我们将这些试剂充电和相关反应时间称为“PRC”。
所有单循环基准都是在之前的参考活动条件下使用 SPPS 进行仿真的。首先,我们专注于 AA-MM 基准实例来详细讨论结果。我们选择这种氨基酸是因为它具有中等偶联和 d-异构体形成速率,因此可以被视为“平均”氨基酸。由于这个案例研究关注的是单循环,我们运行仿真时忽略了过程级别的固定成本 (t_over = σresin = 0),以便更清楚地看到可变成本对过程的影响。我们还假设所有单循环构建都是在干净的树脂上执行的。我们注意到,平均来说,这些运行大约需要 0.15 秒的计算时间,表明单循环仿真非常高效,可以作为多循环仿真的基础。图 3 显示了 AA-MM 基准仿真期间主要物种浓度的演变。从A1阶段的反应器A开始,初始反应物AA、Oxyma和DIC发生反应,形成活化酯AA.Oxyma。在A1阶段结束时,A2阶段和C2阶段同时开始,将反应器A中的内容物排出以填充反应器C。随着反应器C的填充,树脂AA0.resin上的活性位点迅速与氨基酸结合,生成更长的肽链AA.AA0.resin。当反应器C的填充完成后,C3阶段开始,反应持续进行直到最终反应时间。这里提出的AA-MM基准案例需要大约6.5小时的总反应时间来达到目标转化率。
3. 单循环AA-MM基准模拟中浓度的演变。图表显示了反应器A(顶部)和反应器C(底部)中的关键物种。虚线表示循环不同阶段的转换。
如图3所示,反应器C会产生少量杂质,例如与活性位点结合的异构体(DAA.AA0.Resin)、被封端的活性位点(CAP.AA0.Resin)或惰性物质(IN.Resin),而在循环结束时仍有少量活性位点未发生反应(AA0.Resin)。这些物种反映了AA-MM添加结束时树脂的状态(伪物种的比例),结果是98.5%的目标转化率、0.6%的异构体、0.5%的删除、0.2%的封端和0.3%的惰性物质。即使这些杂质的数量很少,也会影响产品的质量,导致AA-MM基准的产率为98.5%,纯度为98.7%。
为了便于视觉比较,支持信息中的结果将这些浓度曲线与基于不同结合速率的氨基酸模拟结果进行了对比。我们注意到,尽管总反应时间有显著差异,但不同基准下的浓度演变趋势相似。特别是,活性位点在反应器C中迅速被消耗,几乎在短时间内就达到了接近最终的转化率,而剩余的时间(在慢结合情况下长达22小时)仅用于将最终转化率提高1-2%。这与Wang等人提出的非线性抑制动力学行为一致。表6总结了我们针对每种氨基酸类型的单循环构建的模拟结果。
6. 每种氨基酸基准的单循环结果,显示了在先前参考活动条件下的模拟结果
# 氨基酸类型
AA-SN AA-SS AA-SM AA-SF
最终转化率 0.995 0.995 0.995 0.995
纯度 0.989 0.988 0.978 0.959
产率 0.981 0.980 0.970 0.959
总反应时间(小时) 24 24 24 24
吞吐量(mol产品/t.u.) 0.54 0.53 0.53 0.53
总成本(m.u./mol产品) 1.41 1.41 1.42 1.44
原材料成本(% 总成本) 38 38 38 38
运营成本(% 总成本) 62 62 62 62
7. 每种氨基酸基准的单循环结果,显示了在先前参考活动条件下的模拟结果
# 氨基酸类型
AA-MN AA-MS AA-MF
最终转化率 0.995 0.995 0.995 0.995
纯度 0.993 0.992 0.987 0.982
产率 0.990 0.990 0.985 0.979
总反应时间(小时) 6.6 6.6 6.5 6.5
吞吐量(mol产品/t.u.) 1.00 1.00 1.00 1.00
总成本(m.u./mol产品) 0.99 1.00 1.00 1.01
原材料成本(% 总成本) 53 53 53 53
运营成本(% 总成本) 47 47 47 47
8. 每种氨基酸基准的单循环结果,显示了在先前参考活动条件下的模拟结果
# 氨基酸类型
AA-FN AA-FS AA-FM
最终转化率 1.00 1.00 1.00 1.00
纯度 0.999 0.998 0.995 0.991
产率 0.998 0.997 0.994
总反应时间(小时) 2.5 2.5 2.5 2.5
吞吐量(mol产品/t.u.) 1.26 1.26 1.26 1.25
总成本(m.u./mol产品) 0.90 0.90 0.90 0.90
原材料成本(% 总成本) 58 58 58 58
运营成本(% 总成本) 42 42 42 42
基准测试按照耦合速度从上到下排列,异构体形成速度从左到右排列。吞吐量和总成本均以AA-MM基准研究为基准进行了归一化。
通过检查这些结果,我们发现随着耦合速度的加快,纯度和产率也随之提高。这与反应网络中的几个因素有关,包括循环结束时未反应的活性位点减少,以及生成惰性和封端杂质的反应时间减少。另一方面,随着d-异构体形成速率的增加,由于异构体杂质的增加,纯度和产率值下降。此外,成本和吞吐量呈反比关系,耦合速度越快,吞吐量越高,生产成本越低,这与预期一致。最后,我们验证了总反应时间符合我们关于参考耦合速度的定义(见表4)。需要澄清的是,根据前一节讨论的标准操作协议,报告的总反应时间包括至少两个半小时的预激活和产品采样时间。因此,在先前参考活动条件下,慢速和中等耦合剂的反应时间分别为大约24小时和6.5小时,而快速耦合剂的反应迅速达到最终转化率,但仍需要总共2.5小时的预激活和样品处理时间。
五循环模拟结果
在表5中提出的十个五循环基准测试上测试了模拟能力。基准测试8将作为详细讨论的基准。在这些案例研究中,包括了固定成本(t over > 0 和 σresin > 0),因为它们可以代表多循环构建。平均而言,每个五循环基准模拟大约需要0.4秒的计算时间,表明这种类型的模拟可以作为本文后面讨论的无导数优化方法中的黑盒函数。
在多循环模拟中,主要是一系列单循环模拟,其中树脂从上一个循环结束时的状态开始。我们跟踪每个循环中的五个伪物种类别,并生成图表来显示树脂的演变。图4显示了基准测试8的树脂演变情况,目标转化率下降,同时杂质在整个构建过程中形成。图表中的放大部分显示每个单独的杂质都低于初始树脂的2.5%。五循环基准测试8模拟的结果表明,整体纯度为94.4%,产率为92.4%,这与实际应用中的工艺性能预期一致。
4. 在五循环构建过程中固相伪物种的演变。图表放大部分显示了特定杂质的形成情况。
所有使用先前参考活动条件的五循环基准测试模拟的结果都在表7中呈现(列“PRC”)。首先,我们观察到总反应时间(包括所有循环的反应时间)在所有基准测试案例中从14小时到121小时不等,其中最短和最长的过程时间分别对应于序列中所有氨基酸都快速(基准测试7)和缓慢(基准测试6)的情况。值得注意的是,每个循环的反应时间与单循环模拟的结果一致,但由于树脂膨胀导致了一些溶剂的保留,从而稀释了反应物,使得后续循环的反应时间略有减慢。
7. 使用(1)先前参考活动条件下的模拟和(2)同时强调成本和吞吐量的优化(α = 1/2)并在相同纯度阈值下的五循环基准测试结果比较
# 空单元格
基准测试1 基准测试2 基准测试3 基准测试4 基准测试5
空单元格
PRCOpt.(Δ) PRCOpt.(Δ) PRCOpt.(Δ) PRCOpt.(Δ) PRCOpt.(Δ) PRCOpt.(Δ)
纯度 0.964 0.964 (0.000) 0.928 0.928 (0.000) 0.966 0.966 (0.000) 0.915 0.915 (0.000) 0.948 0.913 (0.000)
产率 0.942 0.962 (+0.020) 0.907 0.925 (+0.019) 0.945 0.964 (+0.018) 0.901 0.912 (+0.012) 0.936 0.947 (+0.011)
总反应时间(小时) 65 37 (-28) 65 31 (-34) 61 36 (-25) 43 22 (-21) 33 26 (-7)
吞吐量(mol产品/t.u.) 1.00 1.21 (+0.21) 0.96 1.22 (+0.26) 1.03 1.23 (+0.20) 1.09 1.28 (+0.19) 1.21 1.29 (+0.09)
总成本(m.u./mol产品) 0.99 0.93 (-0.06) 1.03 0.95 (-0.08) 0.98 0.90 (-0.08) 0.97 0.88 (-0.09) 0.90 0.89 (-0.01)
原材料成本(% 总成本) 48 54 (+6) 48 55 (+7) 48 53 (+5) 51 54 (+3) 53 55 (+2)
运营成本(% 总成本) 52 46 (-6) 52 45 (-7) 52 47 (-5) 49 46 (-3) 47 45 (-2)
a基准测试按照耦合速度从上到下排列,异构体形成速度从左到右排列。
b吞吐量和总成本均以AA-MM基准研究为基准进行了归一化。
通过检查这些结果,我们发现随着耦合速度的加快,纯度和产率都有所提高。这与反应网络中的几个因素有关,包括循环结束时未反应的活性位点减少,以及生成惰性和封端杂质的时间减少。另一方面,随着d-异构体形成速率的增加,由于异构体杂质的增加,纯度和产率值下降。此外,成本和吞吐量呈反比关系,主要取决于耦合速率,耦合速度越快,吞吐量越高,生产成本越低,这与预期一致。最后,我们验证了总反应时间符合我们关于参考耦合速度的定义(见表4)。需要澄清的是,根据前一节讨论的标准操作协议,报告的总反应时间包括至少两个半小时的预激活和产品采样时间。因此,在先前参考活动条件下,达到可接受转化率的反应时间分别为慢速和中等耦合剂大约24小时和6.5小时,而对于快速耦合剂,反应迅速达到最终转化率,但仍需要总共2.5小时的预激活和样品处理时间。
五循环模拟结果
在表5中提出的十个五循环基准测试上测试了模拟能力。基准测试8将作为详细讨论的基准。在这些案例研究中,包括了固定成本(t over > 0 和 σresin > 0),因为它们可以代表多循环构建。平均而言,每个五循环基准模拟大约需要0.4秒的计算时间,表明这种类型的模拟足以作为本文后面讨论的无导数优化方法中的黑盒函数。
在多循环模拟中,主要是一系列单循环模拟,其中树脂从上一个循环结束时的状态开始。我们跟踪每个循环中的五个伪物种类别,并生成图表来显示树脂的演变。图4显示了基准测试8的树脂演变情况,目标转化率下降,同时杂质在整个构建过程中形成。图表中的放大部分显示每个单独的杂质都低于初始树脂的2.5%。五循环基准测试8模拟的结果表明,整体纯度为94.4%,产率为92.4%,这与实际应用中的工艺性能预期一致。
4. 在五循环构建过程中固相伪物种的演变。图表放大部分显示了特定杂质的形成情况。
表7展示了使用先前参考活动条件的所有五循环基准测试模拟的结果(列“PRC”)。首先,我们观察到总反应时间(包括所有循环的反应时间)在所有基准测试案例中从14小时到121小时不等,其中最短和最长的过程时间分别对应于序列中所有氨基酸都快速(基准测试7)和缓慢(基准测试6)的情况。值得注意的是,每个循环的反应时间与我们的单循环模拟结果一致,但由于树脂膨胀导致了一些溶剂的保留,从而稀释了反应物,使得后续循环的反应时间略有减慢。
7. 使用(1)先前参考活动条件下的模拟和(2)同时强调成本和吞吐量的优化(α = 1/2)并在相同纯度阈值下的五循环基准测试结果比较
# 空单元格
基准测试1 基准测试2 基准测试3 基准测试4 基准测试5
空单元格
PRCOpt.(Δ) PRCOpt.(Δ) PRCOpt.(Δ) PRCOpt.(Δ) PRCOpt.(Δ) PRCOpt.(Δ)
纯度 0.964 0.964 (0.000) 0.928 0.928 (0.000) 0.966 0.966 (0.000) 0.915 0.915 (0.000) 0.948 0.913 (0.000)
产率 0.942 0.962 (+0.020) 0.907 0.925 (+0.019) 0.945 0.964 (+0.018) 0.901 0.912 (+0.012) 0.936 0.947 (+0.011)
总反应时间(小时) 65 37 (-28) 65 31 (-34) 61 36 (-25) 43 22 (-21) 33 26 (-7)
吞吐量(mol产品/t.u.) 1.00 1.21 (+0.21) 0.96 1.22 (+0.26) 1.03 1.23 (+0.20) 1.09 1.28 (+0.19) 1.21 1.29 (+0.09)
总成本(m.u./mol产品) 0.99 0.93 (-0.06) 1.03 0.95 (-0.08) 0.98 0.90 (-0.08) 0.97 0.88 (-0.09) 0.90 0.89 (-0.01)
原材料成本(% 总成本) 48 54 (+6) 48 55 (+7) 48 53 (+5) 51 54 (+3) 53 55 (+2)
运营成本(% 总成本) 52 46 (-6) 52 45 (-7) 52 47 (-5) 49 46 (-3) 47 45 (-2)
a列“(Δ)”报告了通过优化框架可以实现的改进。
在最终产品质量指标方面,所有基准测试的平均纯度为94.8%,平均产率为92.9%。最差的指标出现在基准测试4和6中。特别是基准测试6,由于耦合速度慢,产生了不希望出现的物种,影响了产率。同时,基准测试4中不希望出现的d-异构体物种的形成速率较快,显著影响了纯度。基准测试7实现了最高的产率和纯度,因为所有耦合反应速率都很快,所需的氨基酸在生成大量固相杂质之前就附着到了活性位点上。表8提供了有关每个五循环构建过程中形成的杂质类型的更多信息,以帮助我们理解这些质量趋势。平均而言,所有基准测试中形成了7.1%的杂质,包括2.0%的异构体、1.7%的删除、1.4%的封端和2.0%的惰性杂质,这与之前报告的产率一致。这些结果表明,耦合速率是高效且成本效益高的肽构建的主要因素。
8. 使用(1)先前参考活动条件下的模拟和(2)同时强调成本和吞吐量的优化(α = 1/2)并在相同纯度阈值下的五循环基准测试中树脂演变的比较
基准测试 目标 异构体 删除 封端 惰性
空单元格
PRCOpt.PRCOpt.PRCOpt.PRCOpt.PRCOpt.
194.2 96.2 0.0 0.0 1.9 2.3 1.6 1.3 2.2 0.2 29 0.7 9 2.5 3.5 3.0 1.9 2.9 1.6 1.3 2.2 0.2 39 4.5 9 6.4 0.4 0.3 1.5 1.8 1.5 1.3 2.1 0.2 49 0.19 1.2 5.7 4.8 1.5 2.6 1.1 1.1 1.6 0.3 59 3.6 9 4.7 1.7 1.6 2.4 2.6 1.0 1.0 1.3 0.2 68 7.7 9 1.1 3.3 2.6 2.3 3.8 2.8 2.3 3.9 0.27 9 8.0 9 8.4 0.8 0.6 0.2 0.3 0.4 0.5 0.6 0.28 9 2.4 9 4.2 2.5 2.2 1.5 2.1 1.5 1.3 2.1 0.2 9 5.2 9 6.5 0.6 0.6 1.5 1.8 1.1 1.0 1.6 0.2 10 9 2.7 9 4.7 1.5 1.3 1.9 2.5 1.6 1.4 2.2
我们现在转向解决逆问题,即不是施加操作条件,而是尝试确定满足我们综合指标目标的最优操作条件。这个优化问题的自由度包括氨基酸的初始加料(E_i AA)、DIC耦合剂(E_i DIC)和Oxyma添加剂(E_i Oxyma),以及耦合反应时间(t_i P3)。对于这些,我们根据实际实施和物理限制设置了适当的界限。试剂的界限是在其先前参考活动条件的基础上减少50%(E̲ji)和增加25%(E̅ji),以确保满足溶解度限制,避免沉淀。所有氨基酸的耦合反应时间保持至少2小时(tiP3_)的下限,以满足关于批量采样的标准协议。反应时间的上限取决于氨基酸类型;具体来说,我们分别为慢速、中等和快速耦合剂设置了48小时、16小时和7小时(̅(tiP3̅))。这些选择遵循实验室实践,并进一步确保了NOMAD求解器的有效解决过程。我们保持用于模拟的其他参数输入的一致值,包括激活和反应器之间的转移时间(即t_i P1 = 20分钟和t_i P2 = 10分钟)。优化问题受到纯度阈值(P_thres)的限制,该阈值是为每个基准测试案例在先前参考活动条件下的模拟后评估的纯度(见表7中的“PRC”列)。表7报告了五循环基准测试的优化结果(列“Opt.”)。这些结果对应于成本和吞吐量目标同等重要的设置(α = 1/2)。我们观察到,优化后,所有五循环基准测试的总反应时间平均减少了26小时。这对我们的两个目标都有积极影响,每个基准测试的吞吐量平均增加了19%,成本平均减少了7%,与先前参考活动条件相比。在基准测试6中,所有氨基酸的耦合速度都较慢,因此节省了超过两天的累计反应时间,吞吐量增加了31%,成本减少了16%。相比之下,基准测试7中所有氨基酸的耦合速度都很快,吞吐量仅增加了2%,但成本也减少了5%。在所有基准测试中,纯度都恰好达到了各自的阈值,这意味着过高的纯度对吞吐率没有好处。
最佳解决方案还显示,所有基准测试的产率平均增加了1.7%,如表8所示的目标产品增加所示。我们看到从切割反应中节省了大量产品,由于循环中的过早切割,惰性树脂平均减少了1.8%。异构体杂质也减少了,基准测试4中减少了1%。然而,删除杂质在所有基准测试中平均增加了0.6%。上述结果表明,通过改变构建过程中形成的杂质类型,满足了最终的纯度要求,促进了树脂上不纯物种向惰性和异构物种的转变。
除了在成本和吞吐量指标方面改进过程外,该框架还可以用于评估过程的可持续性改进。为此,我们使用了过程质量强度(PMI)这一指标,该指标在制药行业中已被广泛接受,用于衡量一个过程对环境的影响,它是基于过程所需原材料的数量与每单位质量所生产产品的数量之间的比较。事实上,合成肽的PMI值显著高于其他治疗药物,因此降低PMI成为其最紧迫的任务。虽然肽分子的PMI很大程度上源于洗涤、反应和脱保护步骤中使用的大量溶剂,但这些步骤在我们的框架中不是自由度,因此在优化结果中与基线条件相同,但仍有机会减少预激活和偶联步骤对PMI的贡献。为此,我们实施了一种专门的“偶联PMI”计算方法,其中我们将每个循环中初始树脂和所有试剂的质量作为原材料输入的基础,与生成产品的质量进行比较。结果包含在表7中。我们注意到,对于这五个五聚体基准中的大多数,偶联PMI有所改善,其中基准7的最大改善达到了12%。总体而言,我们可以得出结论,我们的优化框架有助于提高过程的可持续性,同时还能降低成本和产量。我们指出,在这些以及其他所有五循环优化运行中,我们使用了NOMAD求解器,并设置了1500秒的解决时间限制,经过初步的解决时间研究后,我们认为这是足够的。更具体地说,我们观察到,在所有基准中,所采用的目标通常在这个时间范围内稳定下来。有关这项研究的详细信息,请参见支持信息中的基准时间图。
在前一节中呈现的优化结果是在成本和产量目标之间平均分配关注度时获得的(α = 1/2)。为了获得不同目标权重下的最优结果,我们对方程式-27中的优化公式进行求解,针对一系列α参数值,并生成帕累托最优前沿,使决策者能够可视化两个目标之间的权衡,并决定他们希望使用哪种最优操作,同时知道他们可以满足纯度要求。图5展示了基准8的一组代表性帕累托最优前沿。我们特别生成了三个前沿,对应于不同的纯度阈值层次:(1)在之前的参考运行条件下实现的纯度(P thres = 0.944);(2)比此纯度提高0.5%(P thres = 0.949);以及(3)提高1%(P thres = 0.954)。从与标准纯度阈值相关的蓝色曲线开始,我们看到与未优化操作条件相比,成本和产量都有显著改善,成本改善幅度在4%到10%之间,产量改善幅度在16%到26%之间。实际上,即使我们收紧了纯度限制,优化过程也可以提高各项指标。例如,关注橙色曲线,我们可以节省2-7%的成本,并在纯度提高0.5%的情况下,产量提高11-19%。当纯度提高1%(绿色曲线)时,仍然可以在总成本的±2%范围内获得4-9%的产量改善。
在本节中,我们回顾了用于在基准8中实现比之前参考运行条件更好的SPPS操作条件的最优条件。我们重点检查了图5中显示的几个操作点,其结果在表9中为五循环基准8提供了氨基酸行为如何影响最优操作条件的信息。随着纯度阈值的提高和权重参数α的选择值,优化后的自由度及其标准化成本和产量目标的最优值如下:
为了理解最优的SPPS操作条件,让我们首先考察在标准纯度阈值P thres = 0.944下的最优结果。这些结果表明,氨基酸AA的最佳充电量主要取决于偶联速率。当氨基酸是慢速偶联剂时(例如,第一循环中的AA-SM),最佳充电量比标准操作增加了25%,达到了整个帕累托前沿的上限。这是直观的,因为需要更长时间才能与活性位点偶联的氨基酸会成为瓶颈,增加初始充电量可以提高它们的偶联速率。事实证明,对于慢速偶联剂来说,提高偶联速率的好处超过了其对成本的负面影响。对于中等速度的偶联剂(例如,第三循环中的AA-MF),我们看到充电量的增加取决于目标重点;随着权重参数α的增加,即更强调降低成本,最佳AA充电量从25%的增加变为2%的减少。这开始表明,即使纯度约束更严格,优化过程也可以改善各项指标。例如,关注橙色曲线,我们可以在纯度提高0.5%的情况下,实现2-7%的成本节省和11-19%的产量提高。当纯度提高1%(绿色曲线)时,仍然可以在总成本的±2%范围内获得4-9%的产量提高。
在本节中,我们回顾了在基准8中用于实现比之前参考运行条件更好的最优SPPS操作条件。我们重点检查了图5中显示的几个操作点,其结果在表9中为五循环基准8提供了氨基酸行为如何影响最优操作条件的信息。随着纯度阈值的提高和权重参数α的选择值,优化后的自由度及其标准化成本和产量目标的最优值如下:
为了理解最优的SPPS操作条件,让我们首先考察在标准纯度阈值P thres = 0.944下的最优结果。这些结果表明,氨基酸AA的最佳充电量主要取决于偶联速率。当氨基酸是慢速偶联剂时(例如,第一循环中的AA-SM),最佳充电量比标准操作增加了25%,达到了整个帕累托前沿的上限。这是直观的,因为需要更长时间才能与活性位点偶联的氨基酸会成为瓶颈,增加初始充电量可以提高它们的偶联速率。事实证明,对于慢速偶联剂来说,提高偶联速率的好处超过了其对成本的负面影响。对于中等速度的偶联剂(例如,第三循环中的AA-MF),我们看到充电量的增加取决于目标重点;随着权重参数α的增加,即更强调降低成本,最佳AA充电量从25%的增加变为2%的减少。这开始表明,氨基酸的成本可能对总成本变得重要。对于快速偶联剂(例如,第二循环中的AA-FN),我们也看到类似中等速度偶联剂的目标依赖性,即随着权重参数α的增加,充电量减少。一般来说,快速偶联剂的最优充电量低于规定的之前参考运行条件,因为它们的速率已经足够快,可以在不牺牲产量的情况下节省成本。
在基准8的所有循环中,Oxyma添加剂的充电量比标准充电量减少了25-50%,较高的氨基酸充电量与较低的Oxyma充电量减少相关,反之亦然。这种减少可以归因于优化器认识到Oxyma在反应网络中被再生(反应r c1和r c4),任何过量都会导致链从树脂上断裂(反应r c10、r c11和r c12)。因此,即使向反应器A中添加的Oxyma减少,反应仍然可以快速进行,从而改善了产量和成本指标。关于第二种偶联剂DIC的充电量,通常决定将其增加最多25%,与标准操作相比,除非涉及快速偶联剂的情况,此时最佳决策会有所不同。在这种情况下,当d-异构化起作用时(例如,第四循环中的AA-FM),我们看到在追求更高最终纯度时DIC的减少趋势。部分原因可以解释为Oxyma激活的酯(r a8)的异构化速度比AA中间体(r a9)的异构化速度慢一个数量级。因此,优化器认识到增加DIC的量会导致异构杂质增加,并限制添加到系统中的DIC量以满足这些情况下的纯度要求。
此外,形成活化中间体(r a1)的活化反应机制被确定为限速步骤,尽快提高其速率非常重要。因此,特别是对于快速氨基酸偶联剂,我们看到了在以下两种方式之间的权衡:一是减少氨基酸充电量并增加DIC充电量以尽快活化前者。这在α值较高的循环2(AA-FN)和4(AA-FM)中可以看到(强调成本)。二是采取相反的策略,即增加氨基酸充电量并减少DIC充电量,以便有更多的氨基酸可以被活化。这在α值较低的循环中也可以看到(强调产量)。这两种氨基酸和DIC偶联剂的充电组合都旨在更快地生成中间体物种,从而总体上提高反应速率。与之前的参考运行条件相比,优化后的过程进一步减少了总反应时间,尤其是在慢速偶联循环中更为明显。实际上,在许多情况下,提高纯度阈值下运行一个循环的优化时间比在标准纯度下运行参考时间更短。正如预期的那样,当强调产量指标(α = 0)时,可以实现更积极的反应时间减少,但当纯度阈值提高时,减少幅度明显较小。
关于可持续性指标,我们注意到随着α权重参数的增加,可以减少PMI的幅度有所增加,从而更强调降低成本。例如,在基准8的情况下,当成本和产量之间的关注度相等(α = 0.5)时,偶联PMI仅减少了3%,而当完全强调降低成本(α = 1)时,这一减少达到了9%,这通常与试剂使用的减少相关。随着纯度要求的提高,回顾最优操作条件时,我们看到了试剂充电和反应时间的变化。对于中等和快速偶联剂,随着纯度的提高,氨基酸充电量增加。Oxyma和DIC的充电比例与标准纯度结果中的相似。此外,更高的纯度自然会导致更长的反应时间。增加偶联氨基酸的量并给予其更长的时间有助于消除尽可能多的删除杂质,同时偶联剂充电量也有助于减少其他杂质的形成,从而实现整体更高的纯度。
尽管每个案例中每个性能指标的改进程度有所不同,但上述关于基准8的一般趋势也适用于我们的其他基准实例。这表明我们的优化框架能够揭示过程效率,这些效率可以以决策者希望的任何形式(成本、产量、纯度或它们的组合)加以利用。我们还注意到该框架的多功能性,有助于为给定的肽构建映射最优操作区域。帕累托最优曲线有助于确定在满足给定纯度要求的同时,总成本和产量目标可以权衡的范围。这使决策者能够在生产每批产品之前,根据当时的财务和其他市场条件选择和/或调整他们的操作点。此外,该框架还可以用于确定纯度的可实现范围,从而确定操作条件,使决策者能够提高某些肽的纯度,从而可能减轻下游纯化步骤的负担。从这个数据集中还可以得出一些一般性结论。例如,通过审查SPPS(固相肽合成)的最佳操作条件,我们发现了一种用于控制杂质生成的耦合试剂加量的模式。更具体地说,我们发现减少Oxyma的用量可以显著降低由于裂解而产生的惰性物质,从而减少产品损失。在所有基准测试中,我们还发现通过优化试剂用量和反应时间,可以显著降低异构体杂质的含量。后者在减少肽合成过程中的异构体杂质积累方面起着更重要的作用,因为较短的总体反应时间可以减少氨基酸的差向异构化,从而减少耦合产生的异构体杂质。虽然这些结果可以作为SPPS操作的一般指导原则,但该框架本身可以用于针对每个特定的肽合成过程来获得更优的操作条件。
结论:利用固相肽合成(SPPS)的详细动力学,我们开发了一个用于模拟和优化这一过程的计算框架,可以帮助工艺科学家制造合成肽。我们的模拟能力提供了一种工具,可以快速了解单个氨基酸的行为和潜在的肽合成方案,从而在投入大量实验资源进行进一步验证之前,估算出成本、产量、纯度和收率等指标。此外,我们的优化能力可以确定特定肽合成的最佳操作条件,在满足最终纯度要求的同时,在成本和产量方面实现改进。这样的优化结果可以为工艺化学家节省时间和资源,因为他们原本需要通过临时实验来确定最佳操作点。我们在多个五循环合成案例上测试了我们的框架,这些案例既用于模拟也用于优化。我们的优化结果显示,根据不同的肽合成方案,与之前的参考条件相比,我们可以将成本降低多达16%,产量提高多达31%。这些指标的改进是在严格遵循相同纯度要求的前提下实现的。我们的框架还能够确定提高目标产品纯度的最佳操作条件。我们找到了最佳解决方案,在这些方案中,成本和产量指标都有所改善,同时纯度比标准条件提高了1%。为了实现这些改进,我们观察到氨基酸和耦合剂的用量以及循环反应时间发生了显著变化,而没有像本工作中提出的这种严格的工艺优化框架,这些变化是难以发现的。总体而言,我们的框架提供了一种工具,用于确定SPPS过程的最佳操作条件,并有潜力加速合成肽的制造。