预约演示

【有机合成】2024年了，多臂老虎机还能发正刊——反应条件的优化

2024-03-06

——研究背景——化学反应条件的优化是一个老生常谈的问题，最早人们惯常的做法是手动筛选条件，讨论具体条件的优劣，再去尝试结合化学知识学习各种条件的优劣。这么做固然有一些效果，但鉴于化学实验的复杂性和化学空间的稀疏性，人们很难用这些事后的分析真正指导反应条件的预测。高通量实验部分地降低了这个筛条件的人工成本，可是要筛哪些化学空间的条件，往哪个方向发展，只做简单的排列组合尝试是不够的。为了实现高效的反应条件探索，此前最先被人们尝试的优化算法是贝叶斯优化，而在本文中，深耕高通量反应领域多年的Doyle课题组（2021年，Prof. Doyle从Princeton移至UCLA）与药企巨头BMS联手，开发了基于多臂老虎机的优化算法来探索反应条件，相比2021年nature工作中用贝叶斯优化器对单一反应物优化反应条件，不仅在此前的数据集上达到了更优的指标，还针对三个新反应的不同反应物的条件优化取得了成功的实验结果。——方法与结果——所谓多臂老虎机问题（Multi-Armed Bandit, MAB）是强化学习中一个非常经典的问题，来自于赌场必备单品老虎机，其核心思想是玩家要在限定尝试次数中在已知收益与探索未知之间做出权衡，并最大化总收益。在反应条件优化过程中，不同的反应条件选项就是不同的拉杆，研究者需要有效地分配实验资源，平衡exploration-exploitation之间的关系，最大化反应产率。前人利用多臂老虎机问题的思路优化反应条件时，往往会针对特定的底物去尝试不同的条件，再做进一步优化，而本文作者将相近的底物空间作为一个分布，相同的条件也会尝试不同的底物，从而可以同时为不同的底物推荐不同的优势条件，延伸了本工作的应用范围。对于反应中的底物，作者采用简便的ECFP分子指纹进行表征（许多反应预测工作会采用更昂贵的DFT描述符，但在这里作者测试误差区别不大），而反应条件则使用one-hot进行编码。在已有的数据集上，作者用Bayes UCB算法取得了最好的结果，而真实的实验中，UCB1-Tuned算法因其没有需要调的参数而更方便运用。事实上多臂老虎机本身已经是相当成熟的强化学习算法，所以作者也没有在这部分强调其创新，但是实现“既轻量化又具有广泛应用范围”，这一点确实对实验室有着良好的实用价值。图1 在已有数据集上的反应预测结果作者在三个此前发布的化学反应数据集上进行了验证，包括BMS的一个镍催化硼化数据集，Doyle组此前的脱氧氟化数据集和高通量领域经典的Buchwald-Hartwig偶联反应数据集。作者对比了两种baseline，分别是随机探索和先探索后按照最优策略执行，在一百次实验内，Bayes UCB算法实现了对baseline大幅度的领先（图1b），这说明采用作者所提出的框架在相对较低的实验预算里更可能找到通用条件。当然反应条件探索作为一个实验问题，光在已有数据上刷一刷结果是不够的，接下来作者就实践了大规模的实验验证。——实验实践——作者一共进行了在三类实验上的验证，这里我们详述第一个。一个理想的反应数据集应包含许多不同的底物，并且在相同环境下对所有产率进行校准。由于文献中缺乏这些数据集，作者从此前与BMS之间合作的C-H芳基化数据集入手，构筑了一个新的数据集，并扩展了咪唑和芳基溴的底物维度。概括而言，在本数据集中，作者从8种咪唑和8种芳基溴生成了64种独特的C5-芳基化咪唑产物，而每种产物都使用24种配体评估，共计进行了1536次反应。图2 钯催化C-H芳基化反应的优化研究作者首先用传统的方法对数据集进行了分析，对每个底物组合尝试找到其产率最高的配体，如图2b所示，黑色的方框代表所有配体都在75%以下（不具备参考价值），而不同颜色代表对应最高产率的配体，共计12种不同配体。然而，大多数这些配体不具备通用性，例如PPh3是咪唑与多种芳基溴的最佳配体，然而其对所有产物的平均产率只有32.4%，直接应用PPh3会容易导致失败的结果。由此可见，即使探索了广泛的反应空间，传统的单向的底物筛选方法也难以筛选出合理的反应条件。作为对比，作者在图2e中应用多臂老虎机问题的框架进行研究，显示出了明显更好的结果，而PPh3这种有严重偏差的配体则总是被模型排除在外，增加了选择条件的通用性。多臂老虎机的另一优势在于其不太需要显式定义搜索空间，在搜索过程中可以继续加入底物。作者在图2e中将搜索分为三个阶段，从最早的4*4底物到4*8再到8*8（参见图2c），底物的加入在每个阶段导向了不同的最优配体推荐，作者认为这一实验说明了这套框架的灵活性。在第二组实验中，作者主要优化了酰胺键合成的反应。特别的，作者在获取了初步的实验数据后训练了一个简单的随机森林模型，并用预测值与多臂老虎机结合，指导接下来的条件探索方向。运用类似的方法，作者发现小样本情况下这样的探索模式会非常有效，可以方便地找到较优的反应条件。第三组实验的优化目标是芳基醚的烷基化反应，通过类似的方法，做着同样找到了最优的反应条件。——小结——简而言之，通过对多臂老虎机问题的应用，作者设计了一套可以高效探索反应条件优化的框架。作者认为，这种方法适用于探索中等大小的实验空间（100-1000次实验，预先探索2~10%的反应），然而如果各个条件之间存在显著的相关性，这么做可能未必表现良好。笔者认为，反应条件优化是一个非常吸引人的topic，药化合成中真正常用的反应有限且稳定，如果能够对这些反应都开发出通用的反应条件预测/优化工作，那无疑是很诱人的（可以看到BMS在这篇工作中很活跃，除了提供数据集，也完成了不少实验）。当然这种工作之所以难做，也正是因为它要求更细粒度的实验数据——标准化的反应流程，对试剂、条件和产率的精确记录，背后折射出昂贵的前期投入。2024年，多臂老虎机还能发正刊，算法是朴实无华的，第一手的数据和懂得如何利用数据的人才是这些精细化的合成调控中的重点。算法的发展总在狂飙，也总有更多需要深度结合应用场景的问题等待着人们去做。——参考文献——Wang, J.Y., Stevens, J.M., Kariofillis, S.K.et al. Identifying general reaction conditions by bandit optimization. Nature 626, 1025–1033 (2024). https://doi.org/10.1038/s41586-024-07021-y作者：李隽仁审稿：黄志贤编辑：黄志贤GoDesignID：Molecular_Design_Lab（扫描下方二维码可以订阅哦！）