You are on page 1of 16

REVIEWS

Tổng hợp hữu cơ được thúc đẩy bởi trí


tuệ nhân tạo
A. Filipa de Almeida 1
, Rui Moreira1 and Tiago Rodrigues 2
*
Tóm tắt | Tổng hợp hữu cơ củng cố một số lĩnh vực hóa học, bao gồm khám phá thuốc, sinh hóa,
khoa học vật liệu và kỹ thuật. Tuy nhiên, bản thân việc thực hiện các tổng hợp hóa học phức tạp
đòi hỏi kiến thức chuyên môn, thường có được qua nhiều năm nghiên cứu và thực hành trong
phòng thí nghiệm. Sự phát triển của các công nghệ có tiềm năng hợp lý hóa và tự động hóa quá
trình tổng hợp hóa học là một nỗ lực kéo dài nửa thế kỷ vẫn chưa được thực hiện. Mối quan tâm
mới về trí tuệ nhân tạo (AI), được thúc đẩy bởi sức mạnh tính toán, tính sẵn có của dữ liệu và
thuật toán được cải thiện, đang đảo ngược thành công hạn chế đạt được trước đó. Trong Đánh giá
này, chúng tôi thảo luận về tác động gần đây của AI đối với các nhiệm vụ khác nhau của tổng hợp
hóa học và mổ xẻ các ví dụ được chọn lọc từ tài liệu. Bằng cách kiểm tra các khái niệm cơ bản,
chúng tôi mong muốn làm sáng tỏ AI cho các nhà hóa học tương lai để họ có thể coi nó như một
công cụ thay vì lo sợ nó như một đối thủ cạnh tranh, thúc đẩy nghiên cứu trong tương lai bằng
cách xác định những lỗ hổng kiến thức và mô tả cách thức AI hóa học sẽ hoạt động trong ngành
kỷ nguyên của hóa học kỹ thuật số
Hóa học thường được coi là môn khoa học trung tâm và tổng xác định đệ quy các cắt liên kết tốt nhất cho đến khi tìm thấy
hợp hóa học là trọng tâm của môn học. Tổng hợp thường được các khối xây dựng phân tử sẵn có16–18. Có thể do thiếu sức
mô tả như một nghệ thuật phải được thực hành thường xuyên mạnh tính toán sẵn có, các thuật toán riêng phù hợp và tính
để thành thạo nó1,2. Thật vậy, do tính chất phức tạp và phi sẵn có của dữ liệu vào thời điểm đó, không có công cụ dựa
tuyến tính của hóa học, người ta có thể đánh giá cao rằng việc trên quy tắc phản ứng nào trở thành một khái niệm phức tạp
thực hiện hiệu quả các nhiệm vụ khác nhau của nó, chẳng hạn và sự nhiệt tình ban đầu đối với 'AI' đã không còn nữa. Năm
như lập kế hoạch tổng hợp lại, nghĩ ra các phản ứng hóa học mươi năm trôi qua, việc lập kế hoạch tổng hợp có sự hỗ trợ
mới và tối ưu hóa các điều kiện phản ứng, đòi hỏi kiến thức của máy tính và AI đang nhận được sự quan tâm mới trong
hóa học chuyên môn, thực hành, thường có được qua nhiều cộng đồng hóa học và khám phá thuốc19,20. Được hỗ trợ bởi sự
năm thực hành3. Trong khi trực giác hóa học của con người sẽ cải tiến liên tục về sức mạnh tính toán21 và dung lượng lưu
vẫn là động lực thúc đẩy nghiên cứu hóa học4, thì ngày càng có trữ, các thuật toán AI hiện tại (BOX 1) hiện có khả năng phân
nhiều kỳ vọng rằng nó có thể được chính thức hóa và tự động tích cú pháp và thực hiện chính xác các phân tích tương quan
hóa, ít nhất là trong các phần hoặc trong các môi trường được với lượng dữ liệu công khai ngày càng tăng — được gọi là dữ
kiểm soát chặt chẽ, như một phương tiện để tăng hiệu suất và liệu lớn22 ,23. Hơn nữa, chi phí phần cứng ngày càng giảm24 và
khả năng tái tạo kết quả5,6 , đặc biệt là khi kết hợp với robot7–12. sự sẵn có của các công cụ nguồn mở để xây dựng các thuật
Khái niệm thuật toán bậc thầy này, mô phỏng trực giác hóa học toán học tập riêng biệt ủng hộ mạnh mẽ cho sự kết hợp liên
và hoạt động như một công cụ hỗ trợ cho các nhà hóa học tục và liền mạch giữa hóa học kỹ thuật số và hóa học chuẩn có
tương lai, bắt nguồn từ tầm nhìn nửa thế kỷ của E. J. Corey13 thể thay đổi mạnh mẽ phương thức hoạt động hiện tại của các
được xây dựng dựa trên nhận thức rằng “nhân loại và sự sáng nhà hóa học tổng hợp.
1
Research Institute for tạo mang theo những hạn chế nhất định không thể tránh khỏi.” Tùy thuộc vào mục tiêu và dữ liệu có trong tay, tất cả các
Medicines (iMed.ULisboa),
tầm nhìn xa và định kiến”14. Ví dụ, từ lâu người ta đã biết rằng loại AI đều có thể ứng dụng được trong hóa học. Khi được áp
Faculty of Pharmacy,
Universidade de Lisboa, sở thích cá nhân và trình độ học vấn về hóa học có thể ảnh dụng phù hợp, AI có thể cung cấp các công cụ mạnh mẽ để giải
Lisboa, Portugal. hưởng mạnh mẽ đến việc ra quyết định của các nhà hóa học quyết các vấn đề hóa học đầy thách thức theo những cách có ý
2
Instituto de Medicina giàu kinh nghiệm nhất15, điều này có thể cản trở những khám nghĩa và không thiên vị. Khi làm như vậy, AI hiện tại đang cho
Molecular (iMM) João Lobo phá về hóa học và thu hẹp không gian tìm kiếm một cách bất thấy sự hứa hẹn trong việc hỗ trợ các nhà hóa học xác định các
Antunes, Faculdade de đắc dĩ. mô hình và mối tương quan trong dữ liệu, đồng thời đưa ra giải
Medicina da Universidade
de Lisboa, Lisboa, Portugal.
Để chống lại những hạn chế tự nhiên của trực giác con pháp cho các vấn đề mà con người khó có thể giải quyết được.
người và tăng cường nhận thức về hóa học, cuối những năm Để nêu bật những tiến bộ gần đây và làm sáng tỏ việc sử dụng
*e-​mail: tiago.rodrigues@
medicina.ulisboa.pt
1960 đã chứng kiến một số nỗ lực sử dụng trí tuệ nhân tạo AI trong khoa học hóa học, chúng tôi dành các phần sau của
https://doi.org/10.1038/
(AI), với mục tiêu cụ thể là tự động hóa các phân tích tổng Đánh giá này cho các yêu cầu quan trọng của nó - dữ liệu hóa
s41570-019-0124-0 hợp ngược, tức là bắt đầu từ một phân tử mục tiêu, học và phương pháp phỏng đoán có sẵn.

Nature Reviews | Chemistry


Reviews

Box 1 | Khái niệm học máy


Về bản chất, trí tuệ nhân tạo (AI) xuất hiện từ các mô hình toán học cố gắng giải thích một sự kiện nhất định theo cách xác suất,
trực tiếp bằng cách sử dụng các hàm học tập hoặc thông qua tính toán thống kê trong quá trình xác thực nội bộ127–130. Bất kể
phương pháp nào, chìa khóa của bất kỳ AI nào là tính khái quát của nó, tức là khả năng dự đoán chính xác kết quả từ dữ liệu
chưa từng thấy trước đó. Điều này sẽ quyết định một cách nghiêm túc phạm vi áp dụng của phương pháp và cuối cùng là tính
hữu ích thực tế và độ tin cậy của nó131. Phải đạt được sự cân bằng chặt chẽ để mô hình phù hợp có thể giải thích không chỉ dữ
liệu nguồn mà cả các sự kiện không tường minh. Do đó, cần phải tránh tình trạng trang bị thiếu và trang bị quá mức của các
thuật toán AI, như được đánh giá bằng các nghiên cứu xác thực chéo (với một phần dữ liệu được dành riêng để đánh giá mô
hình). Mặc dù việc bổ sung dữ liệu có thể là một chiến lược tốt để tránh các mô hình không khớp, nhưng việc khớp quá mức có
thể được giảm thiểu bằng cách 'chính quy hóa', tức là giảm số lượng biến mô hình và không khuyến khích lựa chọn các mô hình
phức tạp và có tính linh hoạt cao, để đạt được AI hiệu quả, năng suất (xem Hình bên dưới). Các mô hình rất đơn giản (không
phù hợp) có xu hướng không giải thích được dữ liệu nguồn và do đó, ít hữu ích trong việc dự đoán kết quả cho các sự kiện
không tường minh. Ngược lại, các mô hình rất phức tạp (phù hợp quá mức) giải thích rất tốt dữ liệu nguồn nhưng sẽ hoạt động
kém hơn đối với dữ liệu không tường minh, do có độ lệch cao đối với những gì mô hình đã thấy. Phải đạt được sự cân bằng tốt
giữa độ lệch và phương sai.
Từ vị trí thuận lợi đầu ra, AI có thể được triển khai cho các vấn đề hồi quy, phân loại hoặc phân cụm (xem hình bên dưới).
Trong khi trước đây, một giá trị số được dự đoán trước, thì trong trường hợp phân loại và phân cụm, một lớp được chỉ định
có tính đến các kết quả/nhãn đã biết trong quá trình huấn luyện (phân loại) hoặc chỉ cấu trúc dữ liệu không có nhãn đã biết
(phân cụm). Mặc dù các phương pháp hồi quy và phân loại thường được coi là học có giám sát vì thuật toán 'biết' câu trả lời
đúng cho từng trường hợp đào tạo, nhưng điều này không đúng với các phương pháp phân cụm, trong đó dữ liệu được tổng
hợp chỉ dựa trên cấu trúc của chúng. Các phương pháp phân cụm, chẳng hạn như k-mean, phân cụm theo cấp bậc và các
phương pháp giảm kích thước như phân tích thành phần chính, là những ví dụ về học không giám sát, có thể áp dụng được
trong các vấn đề mở, phát hiện các điểm bất thường và dữ liệu ngoại lệ. Hình lấy từ scikit-learn, https://scikit-learn.org/.
Phân loại AI theo mức độ phù hợp
Dưới mức Tốt vừa vặn quá mức
Hàm thực
Mô hình
Mẫu

Phân loại AI theo loại thuật toán


hồi quy Phân loại Phân cụm

đầu ra Giá trị thực Các lớp Các cụm


Việc học Được giám sát (hiểu biết về giá Được giám sát (hiểu biết về nhãn) Không được giám sát (không
trị mục tiêu) biết về nhãn)
Yêu cầu dữ liệu Các mẫu có đầu ra có giá trị thực Mẫu được dán nhãn Mẫu không có nhãn
Thuật toán Hồi quy tuyến tính, rừng ngẫu nhiên Rừng ngẫu nhiên, máy vectơ k-Means, phân cụm theo cấp bậc
hỗ trợ

Bằng cách mổ xẻ các ví dụ chọn lọc và phân tích tự động hóa các phân tích tổng hợp ngược, dự đoán
kết quả của các ứng dụng khác nhau của AI, chúng kết quả phản ứng, tối ưu hóa các điều kiện phản ứng
tôi cho thấy các phương pháp đó đang giải quyết và xác định hóa học mới. Chúng tôi hy vọng Đánh giá
những thách thức lớn còn tồn tại trong hóa học này sẽ giúp các nhà nghiên cứu đi đầu trong lĩnh vực
tổng hợp như thế nào, được sử dụng để tăng tốc độ hóa học hiểu được nghiên cứu thực nghiệm của họ có
khám phá hóa học và nâng cao nhận thức của con thể hưởng lợi như thế nào từ các công nghệ silico tiên
người. Chúng tôi tập trung vào các công cụ học tiến. Ngoài ra, chúng tôi mong muốn thúc đẩy sự thay
máy gần đây đã được triển khai để thiết kế (tạo ra đổi văn hóa bằng cách thúc đẩy trao đổi chéo giữa các
các giả thuyết nghiên cứu khả thi), cải tiến (thực nhà hóa học tương lai và các nhà khoa học máy tính,
hiện tối ưu hóa đa mục tiêu) và các lộ trình yêu cầu đồng thời thúc đẩy các nghiên cứu trong tương lai
(giảm thời gian chu kỳ) hướng tới các phân tử mục thông qua hóa học khám phá xác suất.
tiêu. Cụ thể, chúng tôi thảo luận về AI cho
www.nature.com/natrevchem
Reviews

a Hiệu suất tính toán b 300


162,517
Không có báo cáo (15%) O O O
Phản ứng bằng sáng chế
hiệu suất HO Hiệu suất phản ứng
518,431 EtOH O 250
(47%) S S
82%
Br N N
OH
+ 200
O
Cl
S
O

Đếm
Et 2 O, 150
N
TEA O NH 2
H 2SO 4
N OH N OH
O N N
O 66%
S Br O O 100
O
Hiệu suất khai thác văn bản
135,883
(12%) 50
O OH H
O MeOH O N

N NH 2 T.toán: 100% N
HN + HN Cả hai 0
Đã khai thác:
O 100% O
288,299 0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5
(26%) log (số phản ứng)

Hình 1 | Sự thay đổi trong dữ liệu phản ứng hóa học có sẵn từ các bằng sáng chế (1976–2016). a | Dữ liệu phản ứng hóa
học duy nhất, có thể phân tích được trong tài liệu sáng chế dược phẩm chỉ là một lượng rất nhỏ (35%) trong tổng số thông
tin có sẵn. Thông tin có sẵn rất không đồng nhất và chỉ 53% trong số tất cả các phản ứng báo cáo giá trị hiệu suất, cho dù
đây là 'khai thác văn bản' - được trích xuất trực tiếp từ văn bản bằng sáng chế - hay được tính từ lượng sản phẩm thu được
được báo cáo. Khoảng 1 trong 10 phản ứng bằng sáng chế có sự chênh lệch >10% giữa giá trị hiệu suất được khai thác trên
văn bản và tính toán. Phần lớn các trường hợp đó trình bày sai lợi suất tính toán >100%. Các ví dụ phản ứng cho từng
trường hợp được thảo luận sẽ được hiển thị và trung tâm phản ứng được tô sáng. b | Dữ liệu phản ứng (màu xanh lá cây)
rất sai lệch: một số phản ứng đã được báo cáo nhiều lần, trong khi có nhiều phản ứng chỉ có một vài báo cáo. Các phản ứng
có hiệu suất được báo cáo (màu cam) cũng có xu hướng tương tự. Để có thể giải thích, chỉ có 20.000 phản ứng duy nhất
thường xuyên nhất (5%) được hiển thị và số phản ứng (trong đó mỗi sự kết hợp duy nhất của các khối xây dựng phân tử,
dung môi, chất xúc tác và sản phẩm được gán một số) được chuyển đổi thành giá trị log10.

Dữ liệu hóa học cho AI Điều này phù hợp với một nghiên cứu độc lập khảo sát về hóa học
Việc truy cập vào dữ liệu chất lượng cao với số lượng lớn25 phổ biến nhất trong các tạp chí được bình duyệt32,34 và có thể ảnh
là điều cần thiết để tạo ra AI hiệu quả cho hóa học (hoặc hưởng, chẳng hạn như, tiện ích của các công cụ đề xuất tổng hợp
bất kỳ ứng dụng nào khác). Trong khi ở các lĩnh vực khoa ngược được xây dựng dựa trên các phản ứng đã biết dưới dạng mẫu.
học khác, dữ liệu đã được thu thập trước đây, tạo điều kiện Có thể cho rằng, độ chính xác của các công cụ AI sẽ kém hơn khi
thuận lợi cho việc sử dụng máy học26, thì việc truy cập xem xét các phép biến đổi hóa học được thực hiện ít phổ biến hơn vì
thông tin phản ứng hóa học được tiêu chuẩn hóa thường kiến thức về phạm vi cơ chất còn hạn chế hơn. Nhìn chung, dữ liệu
gặp nhiều vấn đề hơn. Một mặt, không có kho dữ liệu bằng sáng chế thiên về hóa học có thể tiếp cận được chứ không phải
chuyên dụng, có sẵn công khai, chẳng hạn như các phương pháp mới, mặc dù đã có sự gia tăng ổn định qua nhiều
DrugBank27, ChEMBL28 hoặc PubChem29, để tổng hợp năm trong các phản ứng hình thành liên kết C–C được minh họa bởi
thông tin phản ứng mà chỉ có các tài nguyên thương mại phản ứng Suzuki và các phản ứng ghép chéo liên quan32.
(ví dụ: SciFinder và Reaxys). Mặt khác, việc tạo ra cơ sở tri Bên cạnh tính đa dạng hóa học thấp, việc khai thác tiềm năng của
thức thường cồng kềnh và tốn kém30, khiến cách tiếp cận thông tin sáng chế kèm theo không hề đơn giản do có nhiều nguồn dữ
này có thể thực hiện được nhưng không thực tế trong hầu liệu, định dạng trình bày khác nhau và những khó khăn cố hữu trong
hết các môi trường nghiên cứu. Với những hạn chế này, việc khai thác tự động các bằng sáng chế cũ. Ví dụ, trong giai đoạn
không có gì đáng ngạc nhiên khi AI áp dụng cho hóa học cấp bằng sáng chế nói trên, chỉ 64% trong số tất cả các phản ứng có
chủ yếu dựa vào cơ sở dữ liệu thương mại được quản lý31, thể được chỉ định loại phản ứng và chỉ 40% trong số đó báo cáo hiệu
việc trích xuất các sơ đồ phản ứng từ tài liệu bằng mã tùy suất32. Quá trình phân tích lại cơ sở dữ liệu nhưng kéo dài đến năm
chỉnh32 và ít thường xuyên hơn là dữ liệu độc quyền33. Về 2016 đã chứng thực đầy đủ quan sát này, ngoại trừ việc gắn nhãn tăng
nguyên tắc, các mô tả phản ứng tiêu chuẩn đòi hỏi tất cả lên với giá trị lợi nhuận (53%; FIG. 1a), được khai thác trực tiếp từ tài
thông tin cần thiết cho mô hình silico. Điều này đã làm cho liệu hoặc được tính từ số lượng sản phẩm bị cô lập. Hơn nữa, phân
bằng sáng chế trở thành một nguồn tài nguyên hấp dẫn và tích cho thấy rằng hiệu suất được báo cáo rất không đồng nhất khi so
là cơ sở cho một số ứng dụng của AI vào hóa học. sánh các giá trị được tính toán và khai thác văn bản cho cùng một
Một phân tích hồi cứu gần đây về >125.000 bằng sáng phản ứng trong cùng một bằng sáng chế. Điều đáng ngạc nhiên là
chế dược phẩm trong giai đoạn 1976–2015 đã tiết lộ 47.358 phản ứng (10%) cho thấy sự khác biệt >10% giữa cả hai giá trị
những cơ hội và thách thức đối với học máy, cũng như các và 9% có hiệu suất tính toán >100%. Tương tự như tần số phản ứng,
xu hướng trong thực hành trong phòng thí nghiệm32, hỗ sự phân bố hiệu suất được báo cáo có độ lệch rất cao (Hình 1b). Tổng
trợ các quyết định thiên vị đối với các loại phản ứng ưa hợp lại, những quan sát này không làm mất hiệu lực dữ liệu nhưng
thích. Thật vậy, phân tích >1,1 triệu phản ứng đặc biệt cho cho thấy rằng không phải tất cả thông tin đều phù hợp và quan trọng
thấy rằng quá trình acyl hóa, phá bảo vệ, alkyl hóa và aryl như nhau để xây dựng các phương pháp AI chất lượng.
hóacủa các nguyên tử dị tố là một trong những biến đổi
hóa học phổ biến nhất trong hóa dược.

Nature Reviews | Chemistry


Reviews
Hơn nữa, việc lựa chọn cẩn thận phải là tiêu chuẩn trước Cái hay của phương pháp này nằm ở việc sử dụng hệ thống
khi chính thức hóa trực giác nếu chúng ta muốn xây dựng biểu diễn phân tử được thiết lập tốt và các chỉ số tương tự,
các giải pháp đáng tin cậy cho những thách thức lớn trong chẳng hạn như dấu vân tay Morgan và chỉ số Tanimoto, để
Natural-​language
processing
hóa học. xác định các kết quả trùng khớp tuyến đường tổng hợp cho
Area of computer science that phân tử truy vấn trong cơ sở dữ liệu gồm 40.000 phản ứng .
deals with the recognition, Tự động hóa các phân tích tổng hợp ngược Cho rằng bước quan trọng của quy trình là trích xuất thông
processing and analysis of Xác định các tuyến tổng hợp hiệu quả hướng tới các tin vị trí phản ứng từ các tiền lệ cơ sở tri thức, chỉ có thể
human (natural) language.
phân tử quan tâm được cho là một trong những nhiệm vụ mong đợi một chiến lược tổng hợp ngược trung bình làm
SMARTS
khó khăn nhất trong hóa học tổng hợp. Đây có thể là hậu đầu ra cho bất kỳ phân tử truy vấn cụ thể nào. Như các tác
(SMILES arbitrary target quả của sự phức tạp về cấu trúc ngày càng tăng của các giả nhận thấy, đặc điểm này của các công cụ dựa trên quy
specification). A notation for phân tử mục tiêu và nhu cầu hình dung một quy trình xếp tắc gây ra một hạn chế quan trọng trong khả năng áp dụng
the accurate substructural tầng và đệ quy để tiếp cận vấn đề hóa học quan tâm. Hơn của phương pháp - sự biểu diễn phân tử tổng thể bị bỏ qua,
feature identification and
atom typing.
nữa, việc sử dụng một hộp công cụ động về các biến đổi do đó bỏ qua các xung đột nhóm chức có thể khiến phản
hóa học khiến các nhà nghiên cứu không thể cập nhật tất ứng đúng về mặt cơ chế trở nên không thực tế đối với một
SMILES cả các phản ứng có sẵn. Do đó, việc lắp ráp một công cụ mục tiêu đã cho. Hơn nữa, các phương pháp này không
(Simplified molecular-​input tìm kiếm tự động và phổ quát nhằm hình thức hóa trực khuyến khích việc tạo ra sự cắt liên kết sáng tạo và mang lại
line-​entry system). A notation
giác hóa học bằng cách nhận ra các vị trí cắt liên kết và/ độ không chắc chắn cao khi hoạt động bên ngoài phạm vi
to describe chemical structure
using ASCII strings.
hoặc các khối xây dựng phân tử phù hợp chắc chắn sẽ hỗ hóa học đã biết - điều này cũng đã được quan sát thấy khi
trợ các nhà hóa học hiện thực hóa các phân tử và giải áp dụng các tìm kiếm tương tự trong bối cảnh khám phá
Morgan fingerprints phóng chúng để tập trung vào các nhiệm vụ khác. Không thuốc khác45. Trong trường hợp cụ thể này, 40.000 phản
A method to map substructural có gì ngạc nhiên khi các phương pháp khác nhau đã được ứng vẫn là một không gian tìm kiếm rất hẹp và các tìm
information into a bit string.
The bit length (size) and detail
phát triển với mục đích trích xuất kiến thức một cách kiếm tương tự có thể mang lại kết quả thất thường đối với
of encoded features are ngầm định hoặc rõ ràng về các vị trí cắt liên kết tiềm năng các phân tử cần những biến đổi hóa học hiếm gặp. Ngoài ra,
defined by the user. trong một phân tử và chuyển đổi thông tin đó thành các việc giải thích các giá trị tương tự còn phụ thuộc vào thực
đơn vị có thể tính toán được, như đã được xác nhận vào nghiệm và trường hợp. Việc xác định giới hạn phân tách các
Tanimoto index những năm 1960, ví dụ: TÀI LIỆU THAM KHẢO.37. Ví
A method to quantify similarity
giải pháp liên quan khỏi các giải pháp không liên quan nói
(ranging from 0 to 1) between
dụ, việc áp dụng xử lý ngôn ngữ tự nhiên cho các phân chung là không thể, ít nhất là trước đó, vì nó yêu cầu phân
molecules. Complete tử38 gợi ý rằng các vị trí cắt liên kết thích được xác định là loại tùy ý một biến liên tục. Điều đó nói lên rằng, việc sắp
dissimilarity equates to 0 các liên kết hiếm và sau đó có thể tạo ra các chất tương xếp các kết quả theo thứ tự giảm dần của các giá trị chỉ số
and full identity equals 1. đương tổng hợp phù hợp. Tanimoto là một phương tiện hấp dẫn để quản lý đầu ra và
Phản ứng hóa học cũng có thể được mã hóa một cách một giải pháp khai thác dữ liệu nhanh có thể được áp dụng
hiệu quả thông qua các phương tiện trực quan hơn, ví dụ: cho các phân tử giải mã đệ quy khi quy trình tổng hợp
Các mẫu SMARTS (đặc tả mục tiêu tùy ý của hệ thống nhập nhiều bước đang được lên kế hoạch.
dòng đầu vào phân tử đơn giản hóa (SMILES)) cho liên kết Điều thú vị là, cách tiếp cận đơn giản này vượt trội một
có liên quan39, để cung cấp các phương pháp dựa trên quy cách toàn diện so với mô hình tuần tự thần kinh (seq2seq)
tắc. Điều quan trọng là, do tính đơn giản của chúng, các được xây dựng từ cùng một cơ sở kiến thức phản ứng. Ở
phương pháp này có thể đề xuất con đường dẫn đến các đây, chuỗi SMILES của sản phẩm phản ứng được chuyển
phân tử quan tâm mà không cần tìm hiểu nghiêm ngặt về đổi thành chuỗi SMILES của tiền chất tổng hợp của nó
dữ liệu mà thông qua các cơ chế phản ứng mã hóa và/hoặc thông qua hai mạng thần kinh tái lập46- một thuật toán bắt
cấu trúc bộ khung40–44. Người ta có thể lập luận rằng các chước một cách lỏng lẻo các khớp thần kinh của não để
phương pháp dựa trên quy tắc hoặc dựa trên sự tương đồng xác định các đặc trưng liên quan cho dự đoán. Mặc dù nó
là không đủ thực tế, thường đòi hỏi phải mã hóa thủ công có thể hoạt động kém hiệu quả hơn trong nhiệm vụ cụ thể
tốn nhiều công sức, điều này có thể hạn chế phạm vi của các này, nhưng phương pháp seq2seq vẫn có giá trị vì nó loại
phản ứng đã biết, thời gian xử lý khá dài và dẫn đến độ bỏ một số cảnh báo của các phương pháp dựa trên quy tắc.
chính xác thấp so với những gì AI có thể đạt được. Mặc dù Ví dụ, nó không yêu cầu phân công rõ ràng các trung tâm
điều này có thể đúng trong một số trường hợp, nhưng phản ứng và tính đến toàn bộ phân tử, được biểu thị bằng
Jensen và các đồng nghiệp39 gần đây đã cho thấy điều ngược chuỗi SMILES, để tìm hiểu các quy tắc tổng hợp. Do đó,
lại bằng cách nghĩ ra một phương pháp tương tự phân tử đề phương pháp này có nhiều khả năng xác định sự không
xuất chính xác các con đường - lên tới 88% thời gian - và tương thích của nhóm chức trong mọi lớp phản ứng.
xếp hạng các cắt liên kết tổng hợp ngược một bước mà
không cần học rõ ràng về hóa học. (BẢNG 1; HÌNH 2).

Bảng 1 | So sánh ba công cụ phân tích tổng hợp ngược khác nhau
Công cụ phân tích Trí tuệ Thuật toán Tính khả dụng Lượng dữ liệu Tốc độ Tính toán Xác thực thử Cạnh tranh
tổng hợp ngược nhân tạo của mã được sử dụng hóa lập thể nghiệm với con người
Jensen và Không tìm kiếm tương tự Có ++ ++ Không + NA
cộng sự39
3N-​MCTS31 Có Tìm kiếm cây Monte Không ++++ ++++ Có + ++++
Carlo kết hợp với mạng
lưới thần kinh sâu
Chematica60 Có Tìm kiếm cây kết hợp với Có (thương mại)a ++ ++ Có ++++ ++++
phương pháp phỏng đoán trí
tuệ nhân tạo chưa được tiết lộ
NA, Không có sẵn; aĐược thương mại hóa là Synthia.

www.nature.com/natrevchem
Reviews

tìm kiếm tương tự

Truy vấn Không khớp


[NH1] – [CH2]
[NH0] – [cH0]

SMARTS Sự tương
(trung tâm phản ứng) Khớp Danh sách
Cơ sở tri thức đồng tiền
xếp hạng
(40.000 phản ứng) chất

Ví dụ
[NH0]
H [cH0] H
N O N O I N N
+

I S S
Mục tiêu Giải pháp Tiền lệ phản ứng đối với phân tử mục
tiêu (chỉ sốTanimoto = 0,224)

Hình 2 | Tìm kiếm sự tương đồng trong phân tích tổng hợp ngược silico. Phương pháp tìm kiếm tương tự được phát
triển từ cơ sở kiến thức gồm 40.000 phản ứng có thể đề xuất các bước tổng hợp ngược. Việc so sánh các trung tâm phản
ứng được thực hiện thông qua các mẫu có khuôn mẫu SMARTS, mã hóa các liên kết mới được hình thành. Sau đó, việc
tinh chỉnh việc cắt liên kết được ưu tiên sẽ được cung cấp bằng cách tìm kiếm tiền lệ tương tự nhất trong số các phản ứng
đã biết. Sự tương đồng được định lượng thông qua chỉ số Tanimoto giữa phân tử truy vấn và tất cả các thể hiện cơ sở tri
thức. Giá trị chỉ số Tanimoto cao hơn cho thấy độ tương tự cao hơn giữa các phân tử được so sánh. Các chỉ số Tanimoto
được tính toán cho chất phản ứng và sản phẩm được tổng hợp lại để cung cấp giá trị cốt lõi phản ánh sự tương tự tổng thể
của chuyển hóa với lân cận gần nhất trong cơ sở kiến thức.

Nó cũng mở rộng quy mô hiệu quả hơn với các tập dữ liệu lớn Thật vậy, kế hoạch tổng hợp ngược nhanh chóng gặp phải sự
hơn vì nó không truy vấn toàn diện không gian tìm kiếm – một lợi bùng nổ tổ hợp khi xem xét số bước cần thiết để thu được
thế cạnh tranh chính của AI so với các tìm kiếm tương tự. một phân tử mục tiêu nhất định và sự không tương thích của
Có thể cải thiện độ chính xác của mạng lưới thần kinh sâu, nhóm chức cụ thể đối với từng phân tử trong số chúng30.
chẳng hạn như các mạng được mô tả ở trên, bằng cách ghép các Do đó, việc trao quyền cho một phương pháp dựa trên quy
thuật toán phù hợp với dữ liệu nhỏ47 hoặc cung cấp các tập huấn tắc với các thuật toán tự điều hướng, thông minh có thể
luyện lớn hơn. Thật vậy, mạng lưới thần kinh sâu có khả năng kiểm mang lại giải pháp khám phá hiệu quả khả năng phản ứng
tra các tập dữ liệu lớn và thường mang lại kết quả chính xác, miễn hóa học51–54. Trong một ứng dụng dữ liệu lớn, 3,5 triệu phản
là có sẵn lượng thông tin đủ lớn cho kỹ thuật đặc trưng tự động và ứng đã được sử dụng để xây dựng một mô hình dự đoán
học tập tiếp theo48,49. Tuy nhiên, những cơ hội mà học sâu mang lại trước cả phản ứng và phản ứng tổng hợp bằng cách học các
cũng có cái giá phải trả: khả năng diễn giải mô hình thường thấp, mẫu trong các nhóm chức của phân tử. Khi được triển khai,
điều này cản trở việc con người học hỏi từ AI. Điều này có xu phương pháp này kết hợp các lợi ích và trực quan của việc so
hướng tạo ra sự nghi ngờ giữa các nhà hóa học về mức độ liên quan khớp quy tắc với AI cho phép tạo ra khả năng tổng hợp chưa
của quá trình “suy nghĩ” mạng lưới thần kinh49, mặc dù trực giác từng có đối với các phân tử không tường minh và ưu tiên
hóa học của con người cũng có thể được coi là một “hộp đen” phần quy tắc tổng hợp, tùy theo khả năng tương thích của nhóm
lớn không mang tính quyết định và được điều khiển bởi các quy tắc chức. Thật ấn tượng, AI này đã xác định được các giải pháp
bất thành văn. Bằng cách sử dụng một tập hợp lớn các phản ứng đã gần như hoàn hảo cho một bộ xác thực mở rộng trong khi
được cấp bằng sáng chế, phương pháp đề xuất phản ứng mạng thần chỉ sử dụng một phần nhỏ thời gian xử lý so với việc khớp
kinh theo cấp độ (đa thang đo) đã được phát triển để dự đoán sự quy tắc toàn diện55. Công cụ đề xuất tổng hợp đáng chú ý
cắt liên kết tổng hợp ngược đầu tiên trong các phân tử được quan này đặt nền tảng vững chắc cho AI toàn diện hơn kết hợp với
tâm50. Ngược lại với phương pháp seq2seq đã nói ở trên, trong đó kỹ thuật khai thác/khám phá dữ liệu được cải tiến, cái gọi là
dự đoán tổng thể được thực hiện, ở đây, vấn đề tổng hợp ngược tìm kiếm cây Monte Carlo (MCTS). MCTS trước đây đã
được chia thành hai nhiệm vụ khác nhau. Mạng nơ-ron đầu tiên được sử dụng để làm chủ trò chơi Go56 và có đặc điểm là xây
chỉ phân loại loại phản ứng. Sau đó, phương pháp AI thứ hai tập dựng các cây thống kê để hướng dẫn AI riêng biệt tìm kiếm
trung 'sự chú ý' và xác định quy tắc phản ứng thích hợp cho nghiên theo các hướng tìm kiếm nhất định, bằng cách thực hiện đệ
cứu điển hình - phương pháp này đã được chứng minh là có tác quy một số quy trình tìm kiếm và mở rộng57. Về bản chất,
động tích cực đến hiệu suất của phương pháp tổng thể. Thật kỳ lạ, càng thực hiện nhiều chu kỳ mô phỏng thì phương pháp
thói quen này lại tương tự với thói quen của Jensen và các đồng MCTS càng trở nên chính xác và mạnh mẽ hơn, thúc đẩy
nghiệp39; một cách độc lập, cả hai nghiên cứu đều kết luận rằng quá trình tự cải tiến của chính nó mà không cần đến các
việc chia quy hoạch tổng hợp ngược của một phân tử thành các phương pháp phỏng đoán phức tạp do con người xác định,
nhiệm vụ riêng biệt có thể cải thiện độ chính xác dự đoán tổng thể. ví dụ: các hàm đánh giá. Điều này lý tưởng cho các câu hỏi
Trong khi các phương pháp được thảo luận ở trên đã được phát nghiên cứu mở có khả năng phân nhánh cao, chẳng hạn như
triển để dự đoán bước tổng hợp ngược đầu tiên, một trường hợp tổng hợp ngược. Như Segler và cộng sự31 triển khai, ba mạng
thực tế thường yêu cầu đệ quy để tính đến các tổng hợp nhiều thần kinh khác nhau đã được sử dụng làm khế ước MCTS
bước. (3N-MCTS; TABLE 1; FIG. 3a). Trong khi mạng nơ-ron đầu
tiên được sử dụng để mở rộng và chỉ đề xuất một số lượng
hạn chế các chuyển hóa được trích xuất,

Nature Reviews | Chemistry


Reviews

Segler và cộng sự. (3N-MCTS)


1 Chính sách học sâu mở rộng
Thực hiện đệ quy (tìm kiếm cây Monte Carlo)

Mở rộng Triển Cập


Lựa chọn nhật Giữ các phản
khai
Phân tử mục tiêu ứng có thể
xảy ra
Chất trung gian
Ưu tiên các Lọc trong
Chất trung gian phản ứng phạm vi
2 Triển khai chính sách học sâu
1 2

Giải quyết phân tử


thông qua giải cấu trúc
lặp

Ví dụ Boc Boc Boc Boc


N N N N

N N N N Br
O O O H O
O O
S S
N Cl H 2N O 2N O 2N
F O H F O

OH O O
O
O 2N O 2N O 2N
O O

b Grzybowski và cộng sự. (Chematica)


Cây quyết định
Phản ứng

Phân tử
Đề xuất tổng hợp
Mạng phản ứng

Ví dụ

HN O AcO N OH N O O
O H
Fmoc Fmoc CH 3NH 2
OH OH H
S S S S

Hình 3 | Công cụ trí tuệ nhân tạo để phân tích tổng hợp ngược. a | Phương pháp tìm kiếm cây Monte Carlo (MCTS) do
Segler và cộng sự phát triển sử dụng ba mạng nơ-ron sâu (3N) khác nhau làm chính sách. Các mô hình được huấn luyện từ
cơ sở dữ liệu phản ứng trị giá hàng triệu được mã hóa thông qua dấu vân tay kết nối mở rộng (ECFP4) có tính đến cả các
điểm kỳ dị cấu trúc cục bộ và toàn thể. b | Chematica khám phá một mạng lưới bao gồm ~50.000 phản ứng được chú thích
và quản lý bằng tay. Việc tìm kiếm các quy trình tổng hợp trong lưới phản ứng này được hướng dẫn bởi cây quyết định. Các
nút đại diện cho các khối xây dựng phân tử, các phân tử trung gian hoặc mục tiêu và các cạnh đại diện cho mối tương quan
hóa học giữa các thực thể đó. Ví dụ về các phân tích được thực hiện bằng hai phương pháp được cung cấp.

mạng thứ hai quản lý các phản ứng được đề xuất bằng cách Tuy nhiên, những kết quả nổi bật tương tự có thể đạt được nhờ
đánh giá tính khả thi của chúng, theo khả năng tương thích một phần nhỏ dữ liệu được quản lý cẩn thận30. Không giống
(trong) nhóm chức - một 'bộ lọc trong phạm vi'. Cuối cùng, như lượng dữ liệu cần thiết để đạt được phần mềm ở cấp độ
cái gọi là giai đoạn triển khai được điều khiển bởi mạng thứ sản xuất, điều dường như đã được khẳng định nhiều hơn là
ba ước tính giá trị nút trạng thái/cây. Nhìn chung, thông tin phương pháp phỏng đoán dựa trên cây rất phù hợp để ưu tiên
của 12,4 triệu phản ứng đã được xử lý để tạo ra một AI không các hướng tổng hợp, đồng thời lưu ý rằng vẫn tồn tại các
chỉ có khả năng cung cấp nhanh chóng các giải pháp tổng hướng thay thế và khả thi. Tính linh hoạt của việc khám phá
hợp ngược khả thi (13 giây trên mỗi phân tử) mà quan trọng này cố gắng bắt chước trực giác hóa học và tăng hiệu quả trong
nhất là các lộ trình không thể phân biệt được với các lộ trình việc điều hướng không gian tìm kiếm. Bắt đầu phát triển vào
được đề xuất bởi các nhà hóa học chuyên nghiệp. , theo kết năm 2001, phần mềm Chematica (BẢNG 1; HÌNH 3b) minh
quả của thử nghiệm A/B. Điều này cho thấy rõ ràng mức độ họa một cách hoàn hảo rằng việc mã hóa cẩn thận “chỉ” 50.000
phức tạp và chính xác chưa từng có, mô phỏng hoàn hảo trực quy tắc cung cấp bối cảnh hóa học chất lượng cao cần thiết để
giác hóa học thực sự31 và có thể được điều chỉnh để giảm cung cấp các giải pháp tổng hợp ngược59. Bằng cách tạo ra các
thiểu các bước tổng hợp58. phản ứng không chọn lọc, các chất trung gian bị căng và các
Khai thác sức mạnh của thông tin tập thể ẩn trong hàng triệu motif cấu trúc khó có thể xảy ra cũng như áp dụng phương
phản ứng là một kỳ công mà con người không thể tiếp cận pháp phỏng đoán thông minh để hướng dẫn điều hướng trong
được và không thực tế đối với một số thuật toán. mạng phản ứng,

www.nature.com/natrevchem
Reviews
quy trình chấm dứt khi các khối xây dựng có sẵn trên thị Nhận ra những hạn chế này, cùng một nhóm đã tăng cường
trường được xác định. Với Chematica, các lộ trình tổng hợp đã tập huấn luyện một cách giả lập trong một nghiên cứu sau
được nghĩ ra cho tám phân tử mục tiêu có hoạt tính sinh học đó và khai thác mạng thần kinh hồi quy bộ nhớ ngắn hạn
và được thực hiện bằng thực nghiệm để thu được các phân tử dài để tự động trích xuất các đặc trưng và xây dựng mô
cần thiết với ít bước tinh chế hơn và tiết kiệm thời gian cũng hình72. Ngoài ra, các mô hình seq2seq tương tự như các mô
như chi phí60 so với những gì đã được báo cáo. Hơn nữa, có hình được sử dụng để dự đoán các con đường tổng hợp
thể nghĩ ra các lộ trình khác biệt đáng kể so với các giải pháp ngược46 có thể có tính tiện ích cao và có khả năng dự đoán
thay thế đã được cấp bằng sáng chế bằng cách đưa ra quy tắc chính xác73. Trong một ứng dụng khác, Aspuru-Guzik và
bảo toàn liên kết để giải quyết các phương pháp được báo các đồng nghiệp74 đã phát triển một phương pháp mạng
cáo61,62. Tiềm năng chuyển đổi của công nghệ này là rõ ràng, vì lưới thần kinh để dự đoán các lớp phản ứng với độ chính
công cụ này không chỉ trao quyền cho các nhà nghiên cứu ít kỹ xác cao (~85%) từ dấu vân tay được nối của các khối xây
năng hoặc ít kinh nghiệm hơn để thực hiện hóa học mà còn dựng phân tử và chất phản ứng. Tuy nhiên, việc mở rộng
cho phép các nhóm hóa học xử lý trong ngành dược phẩm quy trình này sang dự đoán cấu trúc sản phẩm phản ứng lại
nghĩ ra các lộ trình tổng hợp không rõ ràng và có thể được cấp cho kết quả ít hứa hẹn hơn – với độ chính xác khoảng 50%.
bằng sáng chế hướng tới vấn đề hóa học quan tâm. . Có thể những hạn chế của ký hiệu SMARTS được sử dụng
trong việc mô tả các cơ chế phản ứng có thể biện minh cho
Dự đoán sản phẩm phản ứng kết quả này. Tổng hợp lại, dữ liệu nêu bật rõ ràng nhu cầu
Cùng với các phân tích tổng hợp ngược, việc dự đoán chính phát triển các bộ mô tả phản ứng hiệu quả hơn. Hơn nữa,
xác kết quả phản ứng hữu cơ là cốt lõi của kế hoạch tổng hợp sự đa dạng về phản ứng giảm đi trong tập huấn luyện có thể
thành công. Thông thường, điều này đạt được bằng cách tối ưu hạn chế khả năng áp dụng phương pháp này. Mặc dù
hóa theo kinh nghiệm và ánh xạ dữ liệu phản ứng-cấu trúc mà không ngừng tìm kiếm các nền tảng AI có thể áp dụng rộng
phần lớn được điều khiển bởi trực giác. Từ góc độ tính toán rãi, cần nhấn mạnh rằng các mô hình hẹp không nhất thiết
thuận lợi, việc khai thác khả năng phản ứng hóa học thông qua là vô dụng nhưng có thể được áp dụng để trả lời các câu hỏi
biểu diễn phân tử đã là một chủ đề nghiên cứu được cộng nghiên cứu rất cụ thể, như đã được chứng minh thông qua
đồng tổng hợp hữu cơ rất quan tâm. Thật vậy, các công cụ dự đoán về các sản phẩm liên hợp epoxide hóa và đại phân
tính toán, đặc biệt là lý thuyết hàm mật độ (DFT), đã đóng góp tử với học sâu75,76. Vì vậy, việc xác định phạm vi áp dụng là
vào kiến thức đó bằng cách tạo ra các mô tả hóa lý tương quan cơ bản. Điều có vẻ chắc chắn là hầu hết AI được báo cáo
với các tính chất điện tử của phân tử và do đó với khả năng đều tập trung vào các mô tả khối xây dựng và trung tâm
phản ứng63,64. Tuy nhiên, tùy thuộc vào mức độ lý thuyết, việc phản ứng, trong khi bỏ qua rằng cần có bối cảnh toàn cầu
tính toán có thể nhanh chóng trở nên cồng kềnh và không thể hơn để thực sự hiểu được kết quả phản ứng. Ví dụ, trong
mở rộng được, thúc đẩy các cuộc nghiên cứu học máy không một số trường hợp, việc sửa đổi dung môi phản ứng và
chỉ đưa ra dự đoán DFT gần đúng65–67 mà còn khai thác thông nhiệt độ có thể làm thay đổi đáng kể nhận dạng của sản
tin cơ bản68. Do đó, việc phát triển AI có thể “hiểu” phản ứng phẩm chính và/hoặc nâng cao hiệu suất, trong một số
của khối xây dựng phân tử và dự đoán nhanh chóng các sản trường hợp - một quy tắc bất thành văn được các nhà hóa
phẩm phản ứng có thể xảy ra đã trở nên quan trọng như việc học tổng hợp hiểu rộng rãi. Do đó, việc bao gồm nhiệt độ
xác định các con đường tổng hợp ngược phù hợp. Điều thú vị phản ứng và dung môi được sử dụng trong vectơ mô tả có
là cả hai câu hỏi nghiên cứu đều có liên quan với nhau và có thể cải thiện hiệu suất của mô hình.
thể được giải quyết bằng nền tảng kiến thức tương tự55. Tuy Trong thời điểm AI cố gắng giành được sự tín nhiệm
nhiên, mặc dù có thể cho rằng việc lập kế hoạch tổng hợp của những người thực hành phòng thí nghiệm ướt, sẽ rất
ngược dựa trên AI có thể chỉ bắt nguồn từ các phản ứng hóa thú vị nếu chứng kiến nghiên cứu về học máy sẽ đi theo
học hiệu quả31, nhưng điều này hầu như không đúng đối với hướng mà các nhà hóa học tổng hợp có thể quan tâm. Để
việc dự đoán kết quả phản ứng/tổng hợp thuận. Điều này đặt khắc phục một số thiếu sót của các phương pháp trước đó
ra thách thức trước mắt đối với việc phát triển mô hình học và đáp ứng mức độ suy luận nhân tạo mà trực giác hóa học
máy có giám sát, vì tài liệu hóa học thiên về các phản ứng tạo thực sự mong đợi, Coley và cộng sự77 đã tăng cường cơ sở
sản phẩm trong khi bỏ qua các phương pháp không tạo ra sản dữ liệu phản ứng với các ví dụ tiêu cực nhưng hợp lý về mặt
phẩm69,70. Bất kỳ mô hình nhất định nào cũng chỉ có thể thực hóa học và tự động trích xuất các mẫu phản ứng trước khi
sự mong muốn có thể khái quát hóa nếu nó đã thấy tất cả các tạo ra một AI. Phương pháp này tiến hành thông qua quy
kịch bản đầu ra có thể xảy ra, tức là các phản ứng đã thành trình làm việc gồm hai bước, được bắt đầu bằng việc tạo ra
công và thất bại, lý tưởng nhất là theo cách định lượng (ví dụ: một nhóm sản phẩm lạc quan quá mức được tính toán từ
thông qua hiệu suất phản ứng), do đó tầm quan trọng của việc một tập hợp các tác nhân phản ứng truy vấn và các mẫu
báo cáo các thí nghiệm hóa học thất bại. Ví dụ: phương pháp phản ứng. Những sản phẩm ảo này sau đó được mạng lưới
tiếp cận mạng thần kinh hai giai đoạn được phát triển bởi thần kinh phân loại là đúng hoặc sai. Để đạt được điều này,
Kayala và cộng sự71 tận dụng đồ thị phân tử để tính gần đúng một bộ mã hóa mô tả mới sẽ thay đổi thứ tự liên kết trong
obitan phân tử và liệt kê các phản ứng có thể xảy ra dưới dạng trung tâm phản ứng, đồng thời, ngữ cảnh hóa học cục bộ đã
dòng điện tử. Bất chấp những kết quả đầy hứa hẹn của phương được sử dụng để chính thức hóa các phản ứng từ các bằng
pháp và việc sử dụng các quan niệm lý thuyết 'cấp thấp' làm sáng chế (cơ sở tri thức) và bộ thử nghiệm của Hoa Kỳ.
mô tả, tiện ích của phương pháp này bị hạn chế nghiêm trọng Việc tìm hiểu về bộ mô tả trung tâm phản ứng mới này
bởi dữ liệu huấn luyện có sẵn và nhu cầu mã hóa thủ công các mang lại lõi về khả năng hình thành sản phẩm, điểm này
Lớp Softmax quy tắc cơ học, có khả năng làm ảnh hưởng đến miền sử dụng cuối cùng có thể được chuyển đổi thành phân bố xác suất
Phương pháp chuẩn hóa vectơ của nó. bằng cái gọi là lớp softmax. Khi được triển khai, phương
có độ dài j thành phân bố xác pháp này cho thấy độ chính xác 72% đối với giải pháp được
suất chứa xác suất J trong
khoảng [0,1]. Tổng của tất cả
xếp hạng hàng đầu, điều này cho thấy rằng nó có tiện ích
các xác suất bằng 1,0. thực tế, ngay cả khi vẫn còn lâu mới đạt được kết quả mà
các nhà hóa học chuyên nghiệp đạt được.

Nature Reviews | Chemistry


Reviews

Tuy nhiên, cách tiếp cận này vẫn mang tính thực tế, vì một số các rừng ngẫu nhiên bao gồm một số công cụ ước tính yếu —
phản ứng thường cạnh tranh nhau trong bình đáy tròn, nhưng một phương pháp được gọi là phương pháp tổng hợp — cùng
chỉ có một thực thể nổi lên là sản phẩm chính. Về vấn đề này, nhau cân bằng độ lệch phương sai và mang lại khả năng khái
các giá trị xác suất thấp cho từng sản phẩm phản ứng được liệt quát hóa tốt hơn (HỘP 1). Thông qua công nghệ này, Doyle
kê có thể được coi là phản ứng bẩn, hiệu suất thấp hoặc một và các đồng nghiệp33 đã thực hiện các dự đoán ngoài mẫu, tức
nghiên cứu trường hợp nằm ngoài phạm vi ứng dụng của AI và là dự đoán về các giá trị mô tả chưa từng thấy trước đây và
dẫn đến mức độ tin cậy thấp/sự không chắc chắn về dự đoán tận dụng các giả thuyết nghiên cứu bắt nguồn từ máy học để
cao. Gần đây hơn, việc đưa vào thông tin dung môi và mô tả tạo ra kiến thức mới. Ví dụ: phản ứng oxy hóa cộng hợp cạnh
của tất cả các chất có liên quan dưới dạng biểu đồ phân tử tranh của isoxazole vào Pd(0) đã được xác nhận là có tác
được lập bản đồ nguyên tử đã cho phép cải thiện hiệu suất động có hại đến các liên kết C–N (Hình 4b). Tuy nhiên,
quan trọng và tăng cường khả năng diễn giải mô hình. Bằng chúng tôi lập luận rằng đóng góp lớn nhưng ngoài ý muốn
cách áp dụng mạng nơ-ron tích chập, sản phẩm phản ứng của nghiên cứu này có hai mặt: nâng cao nhận thức85,86 về
chính có thể được xác định chính xác trong hơn 85% trường tầm quan trọng của việc sử dụng các mô tả có động cơ87 để
hợp, chỉ cần 100 mili giây tính toán cho mỗi phân tử78 (Hình xây dựng AI có liên quan và nhu cầu về các mô hình kiểm
4a). Mô hình này không chỉ có hiệu suất vượt trội so với AI soát để đánh giá tính hợp lệ của AI. Về vấn đề đó, các biện
trước đó mà còn có khả năng cạnh tranh với các chuyên gia về pháp kiểm soát đối nghịch nên được thiết kế để bác bỏ các giả
con người. Có thể cho rằng, các nghiên cứu đánh giá điểm thuyết về hiệu suất của mô hình thay thế và phân biệt giữa
chuẩn của con người đã bị bỏ qua trong khi phát triển một số việc khai thác các biến số/đồ tạo tác thử nghiệm gây nhiễu và
AI hứa hẹn nhất; thay vào đó, trọng tâm được dành cho các các mẫu có ý nghĩa về mặt hóa học. Các khuyến nghị kiểm
đánh giá hồi cứu hoặc so sánh với các phương pháp cơ bản và/ soát hợp lý, song song với thực hành tốt trong phòng thí
hoặc phương pháp thay thế. Mặc dù có giá trị nhưng những so nghiệm ướt, có thể được tìm thấy ở nơi khác88 và thực sự đã
sánh này thường không được dùng làm tiêu chuẩn cho lòng tin cho thấy tính hữu ích89. Trong một trường hợp, các hệ thống
của con người. Trong trường hợp cụ thể này, AI và một nhóm biến giả khác nhau, không liên quan đến hiểu biết hóa học,
chuyên gia hóa học độc lập đã cho thấy hiệu suất giống hệt được sử dụng để xác nhận các rừng ngẫu nhiên là các bộ
nhau trong việc đề xuất các sản phẩm phản ứng, điều này cho phân loại hiệu suất cao thực sự về tính chọn lọc vùng, tính
thấy tính hữu ích của AI, mặc dù sức mạnh thống kê bị hạn chọn lọc địa điểm và tính chọn lọc bất đối xứng trong các
chế do kích thước mẫu78. phản ứng Diels–Alder, chỉ khi một liên hợp của các chỉ số
Ở đầu đối diện của phổ học máy và ít được nghiên cứu kỹ điện tử và không gian được sử dụng làm đặc điểm (độ chính
hơn là dự đoán định lượng về sản lượng sản phẩm phản ứng. xác 74–83% đối với các biến giả so với độ chính xác 93% đối
Một lý do có thể giải thích cho sự ưu tiên chung của việc với các bộ mô tả không gian Hammett–89). Tương tự, một
phân loại so với các mô hình hồi quy là nhu cầu tiếp cận hiệu mô hình rừng ngẫu nhiên được phát triển từ các biến giả, tức
suất (sản lượng) phản ứng được đo lường một cách chính xác là coi mỗi giá trị đầu vào là một đặc điểm phân loại mà không
và tiêu chuẩn ở một lượng đáng kể, trong trường hợp sau. có ý nghĩa hóa học ngầm định, cũng mang lại hiệu suất thấp
Thật vậy, việc triển khai các phương pháp hồi quy chỉ được hơn trong việc dự đoán kết quả phản ứng khử oxy hóa so với
khuyến nghị nếu việc thu thập dữ liệu nghiêm ngặt được thực mô hình tận dụng các bộ mô tả hóa lý để lập bản đồ bối cảnh
hiện để đảm bảo chất lượng cao, điều này khó có thể khả thi phản ứng90 .
trong việc khai thác bằng sáng chế từ nhiều nguồn khác nhau,
như đã thảo luận trước đây. Để giảm thiểu hạn chế này và tận Tối ưu hóa điều kiện phản ứng
dụng lợi thế của sàng lọc phản ứng thông lượng cao, Doyle và Xác định các điều kiện tối ưu cho một phản ứng cụ thể là một
các đồng nghiệp33 đã phân tích 4.608 sản phẩm phản ứng khía cạnh quan trọng của sự phát triển phương pháp tổng
ghép chéo Buchwald–Hartwig chưa từng có, với sự có mặt hợp hiện đại. Tuy nhiên, việc tối ưu hóa quy trình trong hóa
của chất phụ gia isoxazole, để tạo ra nền tảng kiến thức cần học điều chế thường được thực hiện theo cách không có hệ
thiết cho việc học thống kê. Sử dụng các mô tả bất khả tri về thống và không được hỗ trợ về mặt thống kê, dẫn đến việc
mặt cơ chế chẳng hạn như các đặc điểm hóa học lượng tử, thực hiện nhiều thí nghiệm không cần thiết mà chỉ thu được
một mô hình rừng ngẫu nhiên dự đoán hiệu suất phản ứng thông tin hạn chế. Trên thực tế, việc tối ưu hóa các phản ứng
đã được xây dựng và cho thấy hoạt động tốt hơn các phương hóa học thường xuyên được thúc đẩy bởi kinh nghiệm trước
pháp cạnh tranh. Mặc dù hiện tại chúng đã được sử dụng đó và trực giác hóa học cũng như bằng cách thăm dò từng
trong hơn hai thập kỷ79,80, các rừng ngẫu nhiên vẫn có tính biến số phản ứng tại một thời điểm. Mặc dù cách tiếp cận này
cạnh tranh trong kỷ nguyên mạng lưới thần kinh sâu hiện có thể khả thi đối với các quy trình có số lượng biến độc lập
nay và thường cung cấp các công cụ ước tính mạnh mẽ với hạn chế - có thể lên tới bốn91 - nhưng điều tương tự không
khả năng ứng dụng đã được chứng minh trong khám phá đúng đối với các phản ứng phức tạp hơn, trong đó việc điều
thuốc81–84. Rừng ngẫu nhiên hoạt động bằng cách lấy mẫu chỉnh đồng thời một số tham số phản ứng là chìa khóa92. Việc
ngẫu nhiên dữ liệu trong cơ sở tri thức và xây dựng cây quyết thiết kế các phương pháp thử nghiệm cung cấp các công cụ có
định từ các bộ mô tả đã chọn. Điều quan trọng là chúng nổi giá trị để khắc phục những hạn chế của việc truy vấn các thay
tiếng vì khả năng xử lý các vectơ mô tả ngắn và dài cũng như đổi một biến. Không giống như hóa học điều chế, kỹ thuật
khả năng chịu nhiễu tín hiệu thử nghiệm. Lý tưởng nhất là hóa học và hóa học quy trình đã áp dụng rộng rãi các phương
các cây trong rừng được tách biệt khỏi phần còn lại để có pháp này để thăm dò đồng thời nhiều biến số một cách hiệu
được một điểm thuận lợi duy nhất về dữ liệu trong mỗi quả93, cụ thể là tối ưu hóa dung môi phản ứng94. Ví dụ, việc
trường hợp. Các dự đoán cây riêng lẻ sau đó được tổng hợp tính toán hằng số tốc độ dựa trên DFT kết hợp với mô hình
để tạo ra giá trị dự đoán trung bình (hoặc lớp đồng thuận). hồi quy tuyến tính cho phép xác định dung môi làm tăng
Không giống như các cây quyết định riêng lẻ có xu hướng hằng số tốc độ của phản ứng Menschutkin lên 40%.
phù hợp quá mức với dữ liệu,

www.nature.com/natrevchem
Reviews

a Nhóm phân tử Phân tử dưới dạng đồ thị Mã hóa dữ liệu Mạng nơ-ron
30 31
28 30 28 31
F 29 27 NH 2 13 14 16
O 12 O K 29 27 13 14 16
34
O 12
17 24 26 34
Br 24 26 N 32 O K 15 17
23
25 15 23 25 32
33
O 35
33 35
H 2O
4
O O 3 4 3
10 10 2
9 5 S 20 20
2 1
22 9 5 1
O N 22 19
6 19 18 8 6 21 18
HO 8 21
11 7
7
11

liệt kê sản phẩm Mạng nơ-ron Phân phối xác suất


Ưu điểm:
O
S
O
Br NO2
O
S
O
Br NO2
• Độ chính xác và tốc độ cao
• Cạnh tranh với con người
86%
O NH2 O NH2 • Xác suất được đưa ra cho mỗi
sản phẩm có thể
O NO2 O NO2 • Khái niệm có thể áp dụng
7% chung
S F NH2 S F NH2
O O O O Nhược điểm:
...

...

...
• Lượng dữ liệu cao
O 2N
Br
O O 2N
Br
O • Phương pháp phức tạp
0% (không trực quan)
H 2N F S H 2N F S
O O O O

b Sàng lọc phản ứng Tính toán mô tả DFT Rừng ngẫu nhiên
thông lượng cao

Nhập dữ liệu

Reaction
performance

Ví dụ Ưu điểm:
Chất xúc tác Pd (10 mol%)
NH 3 Chất phụ gia (1 molar đương lượng)
H
N
Phối tử? • Khả năng diễn giải mô hình
X
R R Bazơ? • Dự đoán định lượng
Bazơ (1,5 molar đương lượng.) Phụ gia?
DMSO (0,1 M), 60 °C, 16 giờ • Tính khái quát
• Khái niệm dễ hiểu
phụ gia chất xúc tác Pd Bazơ Nhược điểm:
(23 ví dụ) (4 ví dụ) (3 ví dụ) • Lượng dữ liệu cao
R N
• Sử dụng DFT và các bộ mô tả
O
có vấn đề
NH 2
N N N • Thiếu kiểm soát của con người
Pd Ligand
OTf

Hình 4 | So sánh hai phương pháp dự đoán sản phẩm phản ứng. a| Học sâu (mạng neural tích chập) sử dụng hạt nhân
đồ thị Weisfeiler–Lehman để dự đoán phân bố xác suất trong hỗn hợp sản phẩm-phản ứng. Trong bước đầu tiên, các
phân tử chất phản ứng (khối xây dựng phân tử, chất xúc tác, bazơ, phối tử và dung môi) được mô tả dưới dạng biểu đồ
ánh xạ nguyên tử, trước khi mã hóa dữ liệu. Phương pháp học sâu tính toán điểm khả năng cho các chỉnh sửa liên kết và
những thay đổi có khả năng xảy ra nhất sẽ được tính đến để tạo ra một nhóm tất cả các sản phẩm có thể có bằng cách
liệt kê. Có tính đến các quy tắc hóa trị hóa học, một mạng neural tích chập mới sẽ phục hồi các chất được dự đoán trước
đó để đủ khả năng phân phối xác suất. Phân tử có xác suất cao nhất tương ứng với sản phẩm chính theo mô hình thống
kê. b | Mô hình rừng ngẫu nhiên (tập hợp các cây quyết định) dự đoán kết quả phản ứng ghép C–N bằng cách xác định
các tổ hợp bazơ, chất xúc tác và phụ gia tối ưu. Sàng lọc phản ứng thông lượng cao cung cấp dữ liệu hóa học (biến mục
tiêu) để xây dựng mô hình học máy từ các mô tả lý thuyết hàm mật độ (DFT), có thể tốn kém về mặt tính toán và không
cần động cơ.

Đáng chú ý, kết quả này đạt được bằng cách chỉ thử tức là học sâu nhằm mục đích tối đa hóa phần thưởng
nghiệm 9 dung môi trong không gian tìm kiếm gồm 1.341 thông qua phương pháp phản hồi liên tục, có thể xác
dung môi95,96 — 0,7% không gian tìm kiếm. định một cách hiệu quả các giao thức tổng hợp được tối
Các phương pháp học sâu phức tạp đã chứng minh được ưu hóa thông qua việc lựa chọn lặp lại các thử nghiệm.
giá trị của chúng trong nhiệm vụ đầy thách thức và phù hợp Trong trường hợp không có dữ liệu huấn luyện thực tế,
này97. Trong một ví dụ, Zare và các đồng nghiệp98 đã chứng AI chủ yếu dựa vào việc tiền huấn luyện bằng các phản
minh cách học tăng cường, ứng mô phỏng bằng cách sử dụng

Nature Reviews | Chemistry


Reviews

Quy trình Gaussian


Quá trình Gaussian để ước tính kết quả phản ứng98. Trong Năm 2018, Aspuru-Guzik và các đồng nghiệp đã mô tả
Một phương pháp học thực tế, các hàm toán học này cho rằng những thay đổi nhỏ Phoenics, một phương pháp học tập tích cực để tối ưu hóa
máy đưa ra phân bố xác về tham số phản ứng sẽ mang lại kết quả phản ứng tương tự phản ứng hóa học kết hợp các khái niệm ước tính mật độ
suất trên một số hàm cxác trong bối cảnh phản ứng liên tục không giô đư Mặc và tối ưu hóa Bayes để tạo ra mạng lưới thần kinh gần
suất. Niềm tin trước đó về
dù là thông lệ và đúng đắn, nhưng khó có thể chấp nhận đúng phân bố xác suất của một biến mục tiêu/giá trị mục
một sự kiện được tinh
chỉnh thông qua suy luận
rằng có thể tạo ra một mô hình chính xác từ dữ liệu phản tiêu (ví dụ: hiệu suất), cho trước một cơ sở tri thức105. Nói
Bayes khi dữ liệu được ứng mô phỏng. Tuy nhiên, điều này đã được chứng minh tóm lại, tối ưu hóa Bayes có thể được sử dụng một cách
xây dựng. thành công bằng cách lập mô hình các tham số phản ứng hiệu quả để tối ưu hóa các hàm mục tiêu trong các miền
trong bốn trường hợp thử nghiệm khác nhau – tổng hợp liên tục bằng cách tính toán mô hình thay thế để định
isoquinoline, quinolone thay thế, ribose phosphate và phản lượng độ không đảm bảo của nó trong từng trường
ứng oxi hóa khử – cùng với việc áp dụng các chính sách lựa hợp106,107; độ không đảm bảo được tính toán sẽ được liên
chọn điều kiện phản ứng thích hợp để lấy mẫu không gian kết với chiến lược lựa chọn thử nghiệm. Do đó, Phoenics
phản ứng. Hơn nữa, phương pháp này đã được chứng minh có thể đề xuất các thử nghiệm, thông qua sự kết hợp giữa
là có tính cạnh tranh với các thuật toán đã được thiết lập, các chính sách lấy mẫu thăm dò (độ không chắc chắn/thu
chẳng hạn như tối ưu hóa nhiễu ổn định theo nhánh và sự được thông tin cao nhưng cơ hội thành công thấp hơn) và
phù hợp (SNOBFIT), chỉ yêu cầu một phần ba số lần lặp để khai thác (độ không chắc chắn thấp/thu được thông tin
đạt được kết quả tương tự. Tuy nhiên, vì hầu hết các phản nhưng cơ hội thành công cao), để làm sáng tỏ giải pháp
ứng hữu cơ đều yêu cầu tối ưu hóa nhiều tham số, chúng tôi cho các bài toán tối ưu hóa không gian có chiều thấp đến
lập luận rằng phương pháp này cần có sự xác nhận thực tế kỹ chiều cao (Hình 5b). Điều quan trọng là, thời gian chạy
lưỡng hơn và các nghiên cứu chứng minh khái niệm mở của phương pháp tỷ lệ tuyến tính với độ phức tạp của
rộng, vì chỉ có ba tham số được mô hình hóa trong các phản nghiên cứu hiện tại và hiệu suất hướng tới việc xác định
ứng này, trong khi một số tham số khác đã được cố định. tối ưu cục bộ được tối đa hóa bằng cách đề xuất các phản
Tuy nhiên, việc kết hợp thuật toán học với hóa học dựa trên ứng theo đợt, thay vì tuần tự. Quan sát này có thể được kết
giọt đã mang lại thông lượng chưa từng có trong việc tạo dữ nối với sự song song hóa các tính toán hàm thu thập hộp
liệu9,98,99, rất có thể khi kết hợp với hóa học phản ứng dòng, đen sử dụng các chính sách lấy mẫu thử nghiệm phân kỳ.
sẽ có khả năng ứng dụng sâu hơn trong tương lai. Rõ ràng là Ứng dụng Phoenics theo thời gian để tối ưu hóa 7 thông
phương pháp này về cơ bản khác với các phương pháp được số của phản ứng tự xúc tác cho thấy rằng, không giống
sử dụng trong quá trình tổng hợp ngược và dự đoán sản như các phương pháp khác, các thông số tối ưu có thể
phẩm-phản ứng bằng cách đưa vào cơ chế phản hồi cho được xác định trong khoảng 100 đánh giá105. Trên thực tế,
phép thực hiện cập nhật mô hình động và lựa chọn lặp lại điều này mang lại giá trị cho phương pháp, đặc biệt là khi
các thử nghiệm (Hình 5a). kết hợp với rô-bốt có khả năng tạo ra thông lượng cần
Bất kể cách tiếp cận nào được thực hiện, AI để tối ưu hóa thiết, nhưng có thể gây ra những hạn chế nếu người dùng
điều kiện phản ứng hiệu quả, từ quan điểm đầu ra, phải bắt không có sẵn quyền truy cập vào nền tảng tổng hợp tự
chước hoặc lý tưởng nhất là tăng cường kỹ năng nhận dạng động.
mẫu và ra quyết định của các nhà hóa học. Thay vì cung cấp Có thể hiểu rằng, việc tối ưu hóa các phản ứng tiêu thụ
cho thuật toán học hàng nghìn hoặc hàng triệu phản ứng chất hóa học có giá trị cao, trong trường hợp không có máy
huấn luyện để xây dựng mô hình tĩnh, người ta lập luận rằng móc tự động hóa, phải được thực hiện với số lần lặp lại nhỏ
học tích cực có thể mang lại kết quả cạnh tranh tương tự, và có khả năng tận dụng nền tảng kiến thức rất hạn chế
trong các bài toán động, chỉ sử dụng một phần dữ liệu huấn hoặc chưa có sẵn. Để giảm thiểu một số thiếu sót của các
luyện100. Về cốt lõi, học tập tích cực tận dụng cùng một loại phương pháp trước đây và dân chủ hóa quyền truy cập vào
phương pháp phỏng đoán nhưng khác với học máy cổ điển ở AI, Reker và cộng sự gần đây đã báo cáo LabMate. AI108
chỗ đưa vào chính sách lựa chọn thử nghiệm thiên về khai (FIG. 5c), một thuật toán tự phát triển cung cấp trí thông
thác hoặc khám phá không gian tìm kiếm, theo mục tiêu đã minh của máy có thể đoán trước được với chi phí tính toán
định101 ( HÌNH 5a). Điều này phản ánh quan niệm sai lầm và hạn chế và tận dụng các cơ sở kiến thức cực kỳ nhỏ và được
khái quát rằng AI chỉ có thể phát triển mạnh trong môi đề xuất ngẫu nhiên của dữ liệu thực (<0,05% tổng không
trường dữ liệu lớn. Thật vậy, không phải tất cả dữ liệu đều có gian tìm kiếm so với 5–10% không gian tìm kiếm trước đó).
giá trị như nhau và các mục đào tạo tương tự có thể bị coi là Art101,103,109,110), tức là không cần phải huấn luyện trước và
dư thừa hoặc không có thông tin theo quan điểm thuận lợi giả định cơ chế do các bộ mô tả được sử dụng (điều kiện
của máy học. Kết quả là, nhiều dữ liệu hơn không nhất thiết phản ứng). Phương pháp này được xây dựng theo kiểu
chuyển thành các mô hình dự đoán tốt hơn; hiệu suất của các không có sự giám sát và tự nó (vòng huấn luyện/huấn
thuật toán học tập thực sự có thể cải thiện nếu chỉ lưu giữ dữ luyện đầy đủ). Hơn nữa, nó dường như đủ mạnh để chống
liệu chất lượng cao, mang tính thông tin cho việc huấn lại nhiễu tín hiệu của phương pháp phân tích và hoạt động
luyện102,103. Do đó, học tập tích cực được thiết kế để nén cạnh tranh với trực giác hóa học của con người, ngay cả khi
không gian tìm kiếm xuống mức tối thiểu, tiếp thu kiến thức chỉ đối chiếu dữ liệu từ các phản ứng hoạt động kém.
liên quan thông qua các vòng phản hồi nhanh và thiết kế các Trong một ví dụ tiềm năng, phản ứng ghép chéo C–N đã
thử nghiệm ‘nhanh chóng’ bằng cách tận dụng các mô hình được chứng minh là thách thức đối với ngành dược
tinh gọn, tức là giảm chi phí huấn luyện tính toán. Điều quan phẩm111.112 đã được tối ưu hóa cho một tập hợp các điều
trọng là các thuật toán như vậy có thể được kết hợp với các kiện giúp cải thiện hiệu suất gấp 1,4 lần so với những gì đã
phương pháp phân tích tự động trích xuất thông tin cho việc được báo cáo trước đó108. Nhìn chung, điều quan trọng là
học6,104, cung cấp nền tảng lý tưởng cho các chu trình tối ưu phải đánh giá xem liệu phương pháp rừng ngẫu nhiên thích
hóa phương pháp nhanh chóng. ứng được triển khai có thể áp dụng cho nhiều loại hóa chất
hơn hay không và tác động của quy mô cơ sở kiến thức đến
hiệu suất của phương pháp phỏng đoán hay không.

www.nature.com/natrevchem
Reviews

a
Học máy truyền thống Học tập tích cực
Cơ sở tri Đào tạo Lựa chọn thử
Cơ sở tri Huấn luyện thức Mô hình nghiệm
thức Mô hình Dự đoán1→n
Kiểm tra
Truy vấn1→n Truy vấn1→n

• Không yêu cầu lượng dữ liệu lớn


• Yêu cầu lượng dữ liệu lớn • Mô hình được cập nhật động
• Mô hình tĩnh • Thích hợp cho các công việc thường ngày và
• Thích hợp cho các công việc thường ngày nhưng năng động
không năng động • Thích hợp cho việc khai thác và/hoặc thăm dò
• Thông thường để khai thác không gian tìm kiếm không gian tìm kiếm
• Không phù hợp để thiết kế thí nghiệm • Thích hợp để thiết kế thí nghiệm

b c
1 Huấn luyện
Mục tiêu Phản ứng Lựa chọn
(không xác định) đầy đủ Mô hình rừng
ngẫu nhiên ngẫu nhiên phản ứng
Quan sát
Mục tiêu

Kiểm tra
Không gian tìm kiếm

Điều kiện Ví dụ
2 (0.5 mmol hoặc 0.6 mmol)
Mạng nơ-ron Bayes
Cl
OEt
O
+
H 2N N O N Cl

Pd2(dba)3 (1–5 mol%)


Mật độ Kernel Xantphos (5–10 mol%)
Phản hồi

LabMate.AI Cs2CO3 (1–4 mol đương lượng.)


tối ưu Dioxane (1–4 ml)
Xây dựng mô hình thay thế Nhiệt độ (140 ºC hoặc 160 ºC)
Thời gian (30–90 phút)
3 Mô hình
O OEt
thay thế
Cl HN N O
Mục tiêu

O OEt +

N N N O N Cl
H
C2-N C4-N
Điều kiện (chính) (phụ)

Các chiến lược lấy mẫu thăm dò/


khai thác chức năng thu thập
Phản ứng ngẫu nhiên
4 Lần lặp đầu tiên
Phản ứng đề Phản ứng tối ưu hóa
xuất Quỹ đạo tìm kiếm
Hàm thu
Mục tiêu

thập Mật độ không gian tìm kiếm


Thấp Cao

Điều kiện

Hình 5 | Học tập tích cực để tối ưu hóa các điều kiện phản ứng. a| So sánh học máy truyền thống và tích cực, ưu điểm,
nhược điểm và phạm vi ứng dụng của chúng. b | Quy trình làm việc của phần mềm Phoenics. Dữ liệu thử nghiệm (điều
kiện và kết quả phản ứng; các chấm màu xanh lục) được thực hiện để đánh giá và thăm dò không gian tìm kiếm của một
hàm mục tiêu chưa biết trước đó (đường cong màu xanh lam; bước 1). Số liệu thực nghiệm được xử lý thông qua
mạng thần kinh Bayes cung cấp mô hình mật độ dữ liệu liên tục, xác suất (bước 2). Sau đó, một mô hình thay thế (đường
cong màu xanh lá cây) sẽ được tính toán, mô tả hàm mục tiêu theo dữ liệu thực nghiệm và mô phỏng có trong tay (bước
3). Cuối cùng, mô hình thay thế bị thách thức bởi các hàm ước lượng hộp đen (đường cong màu tím và đỏ) khám phá và/
hoặc khai thác không gian tìm kiếm, phù hợp với các siêu tham số đã chọn. Sau đó, một loạt phản ứng được chọn để xác
thực thử nghiệm (kim cương đỏ) trước khi đưa kết quả đầu ra vào thuật toán (bước 4). Phoenics được chạy lặp đi lặp lại
cho một số lượng đánh giá được xác định trước. c | LabMate.AI sử dụng các rừng ngẫu nhiên để chọn thử nghiệm.
Phương pháp này yêu cầu một số lượng thử nghiệm ngẫu nhiên có giới hạn để tập hợp cơ sở kiến thức và được huấn
luyện lại đầy đủ sau mỗi lần lặp. Công nghệ này đã được xác nhận theo triển vọng bằng phản ứng ghép chéo C–N bằng
cách tìm kiếm không gian phản ứng (biểu đồ mật độ màu đen).

Nature Reviews | Chemistry


Reviews
Chúng tôi cũng tin rằng việc tập hợp bộ dữ liệu phản ứng cho mức thu được thông tin có thể được đo lường một cách hiệu
các nghiên cứu điểm chuẩn sẽ có tầm quan trọng cao để nắm quả và không gian phản ứng được khám phá chỉ với 19%
bắt được điểm mạnh và hạn chế của những AI này và AI sắp ra trong số tất cả các phản ứng/thí nghiệm có thể xảy ra - điều
mắt. này cho thấy rõ ràng các thuật toán đơn giản có thể cực kỳ
hiệu quả như thế nào trong việc thiết kế các thí nghiệm, ngay
Tìm kiếm phản ứng mới và mới lạ cả khi không học rõ ràng các khái niệm từ hóa học cơ bản.
Mặc dù việc xác định các con đường phản ứng tổng hợp, dự Gần đây hơn, việc kết hợp rô-bốt tổng hợp hữu cơ với một
đoán chính xác các sản phẩm phản ứng và tối ưu hóa các điều tập hợp thuật toán cho phép các nhà nghiên cứu khám phá
kiện phản ứng theo hướng giá trị mục tiêu đòi hỏi sự hiểu biết khả năng phản ứng bằng cách chỉ sử dụng 10% không gian
sâu sắc về phản ứng hóa học, nhưng đây vẫn là những nhiệm tìm kiếm làm cơ sở kiến thức và đưa ra một ràng buộc xác
vụ thường xuyên, có thể tuân theo chính thức hóa, với điều định trước về nguyên liệu ban đầu109 (Hình 6). Về mặt thuật
kiện là có sẵn các cơ sở kiến thức và mô tả thích hợp. Đáng toán, phương pháp này sử dụng hai kỹ thuật riêng biệt; trước
ngạc nhiên hơn và có thể khó hiểu hơn là khả năng ứng dụng tiên, một máy vectơ hỗ trợ để phân loại chuyển hóa giả định
AI để hợp lý hóa việc phát hiện ra khả năng phản ứng mới, vì giữa một tập hợp nguyên liệu ban đầu thành 'phản ứng' hoặc
cho đến nay, nó vẫn được coi là rất khó đoán, ngay cả theo tiêu 'không phản ứng'. Bởi vì các đặc điểm trong trường hợp này
chuẩn của con người. Có thể hiểu được, thách thức này có là phân loại (ví dụ: anilin, benzaldehyde) và không liên tục, có
nhiều mặt, vì có rất ít thông tin kỹ thuật trước đây về các yêu giá trị thực, nên phương pháp học máy yêu cầu mã hóa trước
cầu về phương pháp phỏng đoán và kỹ thuật đặc trưng phù các hóa chất tương tự như một chuỗi bit, tức là một tập hợp
hợp cho mục đích này. Hơn nữa, nếu AI tích cực muốn thành các số 0 và 1, trong đó 1 đại diện cho sự hiện diện của một
công trong việc tự động khám phá khả năng phản ứng mới, thì hóa chất và 0 đại diện cho sự vắng mặt của nó. Phương pháp
nó sẽ đòi hỏi phải chính thức hóa đầy đủ khả năng tình cờ - đặc tính hóa này, tương tự như mã hóa một lần, là một
được cho là động lực chính trong đổi mới113 - vẫn chưa được phương tiện thuận tiện để kết hợp các nguyên liệu ban đầu
giải quyết bằng trực giác hóa học. Vì sự tình cờ có thể được vào quy trình học máy mà không cần kỹ thuật rộng rãi các bộ
định nghĩa một cách lỏng lẻo là sự xuất hiện của một sự kiện mô tả liên quan đến hóa học. Tuy nhiên, có một nhược điểm
một cách tình cờ, chẳng hạn như việc phát hiện ra một phản là toàn bộ không gian tìm kiếm phải được xác định trước vì
ứng mới, nên việc tìm kiếm ngẫu nhiên các không gian phản khả năng khái quát hóa mô hình kết quả bị hạn chế. Điều này
ứng phải cung cấp một nền tảng khả thi cho những khám phá xuất phát từ thực tế là vectơ bit có độ dài cố định, không thể
bất ngờ114 và thiết kế các thí nghiệm có động lực xuôi dòng . sửa đổi nếu không đào tạo lại mô hình AI mới. Cụ thể hơn
Hơn nữa, giả sử rằng các sự kiện bất ngờ, riêng biệt về cơ bản trong trường hợp này, các dự đoán về khả năng phản ứng chỉ
có xác suất xảy ra thấp, việc tăng số lượng các sự kiện nói trên có thể được thực hiện đối với sự kết hợp của các nguyên liệu
hoặc tăng tần suất của chúng một cách giả tạo, về nguyên tắc, ban đầu được chọn trước. Ngoài ra, sự rời rạc hóa phân tử
sẽ nâng cao tỷ lệ và khả năng quan sát các phát hiện ngẫu này cản trở việc xác định các điểm tương đồng hóa học tiềm
nhiên. Trên thực tế, bằng cách áp dụng khái niệm này và thực ẩn tương quan với một đầu ra nhất định. Thứ hai, thuật toán
hiện song song hàng nghìn phản ứng ngẫu nhiên, một chuyển phân tích phân biệt tuyến tính thăm dò bối cảnh phản ứng và
hóa aryl hóa C–H được xúc tác quang hóa đã được phát hiện, chọn các thử nghiệm mà mô hình chưa hiểu rõ để được máy
cho phép tiếp cận với các amin benzylic115. Ngoài ra, việc sử tổng hợp xác nhận. Điều kỳ lạ là các thí nghiệm đã được chọn
dụng thiết bị phản ứng chảy có thể tăng tốc đáng kể việc phát theo đợt gồm 100 phản ứng. Do đó, người ta có thể đặt câu
hiện phản ứng không mong muốn116. Kết hợp lại với nhau, các hỏi liệu mỗi phản ứng có cung cấp thông tin như nhau hay
báo cáo này cho thấy rằng tình cờ có thể được thực thi và quan không, bất kể có được sử dụng ngay lập tức hay không để cập
trọng hơn là tiềm năng của nó có thể được khai thác trong hóa nhật AI100. Trong cài đặt hiện tại, một số phản ứng sau này có
học tổng hợp thông qua tính toán hiệu quả nhằm thúc đẩy thể đã cung cấp thông tin dư thừa nếu kết quả của các thử
tính ngẫu nhiên trong các thuật toán24. Đây là trường hợp của nghiệm trước đó được sử dụng để sàng lọc mô hình. Trong
các thuật toán di truyền, tối ưu hóa bầy hạt và phương pháp thực tế, các kết quả khám phá không gian-hóa học tương tự
phỏng đoán tối ưu hóa đàn kiến lặp đi lặp lại các thử nghiệm có thể thu được với số lần lặp lại phản ứng thậm chí còn nhỏ
trước đó để chọn thử nghiệm tiếp theo tương tự như học tập hơn. Tuy nhiên, như với bất kỳ phương pháp học tập tích cực
tích cực, nhưng không xây dựng mô hình và bổ sung dữ liệu nào, người ta có thể lập luận rằng độ không đảm bảo của mô
để tinh chỉnh các lựa chọn tiếp theo. Nhưng liệu chúng ta có hình là giá trị của phương pháp nằm ở đâu, vì nó có mối liên
thể giám sát sự tình cờ một cách giả tạo không? Thật vậy, cộng hệ chặt chẽ với lợi ích thông tin để sàng lọc AI và được liên
đồng hóa học được trang bị các công cụ để điều chỉnh cách kết với các phát hiện ngẫu nhiên mang tính xác định, có động
thức thiết kế tính toán các khám phá trước khi được xác nhận cơ thống kê. Ví dụ: bốn phản ứng hóa học mới đã được phát
bằng thực nghiệm. Tình cờ, việc phát hiện các ngoại lệ và các hiện theo chiến lược không thiên vị về mặt hóa học109 (Hình
điểm bất thường của mô hình có thể được xác định bằng cách 6). Nói một cách đơn giản, phương pháp này và các phương
kết nối chúng với một số giả ngẫu nhiên xác định cách thức pháp liên quan cung cấp một nền tảng có giá trị để không chỉ
các quá trình lựa chọn trong học tập tích cực diễn ra ngay từ đẩy nhanh việc phát hiện các hóa học mới mà còn tăng cường
đầu. Được trang bị những công cụ này, những con đường trực giác hóa học, cụ thể là bằng cách xác định các phản ứng
nghiên cứu mới hướng tới việc khám phá khả năng phản ứng hóa học mới không thể dự đoán được118.
mới sẽ còn ở phía trước.
Quan điểm
Năm 2017, Cronin và các đồng nghiệp117 đã sử dụng Mặc dù cốt lõi của Đánh giá này tập trung vào những tiến bộ
Phân tích phân biệt tuyến tính phương pháp tiếp cận không cần mô hình để khám phá
(LDA). gần đây của AI trong tổng hợp hữu cơ (HỘP 2), các phương
Một phương pháp học máy tìm ra
không gian hóa học trong một vòng khép kín và đánh giá pháp được thảo luận ở đây có truyền thống ứng dụng lâu dài
các tổ hợp tuyến tính của các tính khả năng phản ứng của quang phổ hóa học, hơn trong các lĩnh vực khác. Phân tích hình ảnh và nhận
năng tách biệt các lớp, trước khi
giảm kích thước và phân loại.
dạng giọng nói chỉ là hai lĩnh vực có thể quen thuộc hơn với
độc giả.

www.nature.com/natrevchem
Reviews

Chất đầu Mã hóa


Phản ứng Đặc trưng hóa SVM LDA
một lần
NH 2 NH2 CHO

[1, 0, 0, …, 0] [1, 1, 0, …, 0] Phản ứng Mô hình được


cập nhật dữ liệu
CHO
NH2
[0, 1, 0, …, 0] O
[1, 0, 1, …, 0] Phản ứng
Cl

O
[0, 0, 1, …, 0]
Cl O O
[0, 0, 1, …, 1] Không phản ứng
...

...
Cl Khám phá
O
[0, 0, 0, …, 1]
lò phản
ứng phổ IR

Ví dụ về hóa học mới H


N
Cl
Ph O Ph
CO2 Me
O
O O MeCN
N N O
N N MeCN N N
+ N Ph
+ O + N 25 ºC, 2 giờ
N O
CO2 Me N 25 ºC, 2 giờ N
O

O Cl
NMe 2 CO 2Me N
MeO2C O O
CO2Me NMe 2 N N N
MeCN DBU, MeCN N
+ + R Ph
25 ºC, 2 giờ NH
R= + Cl
N CO2Me MeO2C O N 25 ºC, 24 giờ
CO2Me Cl Cl

Hình 6 | Tự động khám phá hóa học mới. Một nhóm nguyên liệu ban đầu, bao gồm các khối xây dựng phân tử, chất xúc
tác và/hoặc phối tử, bazơ và dung môi, được cung cấp cho rô-bốt xử lý chất lỏng để sàng lọc và phân tích phản ứng tự động
(quang phổ hồng ngoại). Tất cả các nguyên liệu ban đầu được chuyển đổi thành các đơn vị có thể tính toán bằng cách tính
toán một chuỗi bit tương tự như mã hóa một lần, trong đó 1 biểu thị sự hiện diện của nguyên liệu ban đầu và 0 biểu thị sự
vắng mặt của nó. Vectơ kết quả mã hóa các phản ứng để phân loại bằng máy học. Bộ phân loại máy vectơ hỗ trợ (SVM) dự
đoán liệu một hỗn hợp phản ứng nhất định có hiệu quả (phản ứng) hay không (không phản ứng), dựa trên tổng đóng góp
của nguyên liệu ban đầu riêng lẻ và phân tích được ghi lại. Dữ liệu thu được dùng để cập nhật cơ sở kiến thức của thuật
toán thứ hai (phân tích phân biệt tuyến tính, LDA) phân tích không gian hóa học và chọn thử nghiệm tiếp theo với chính
sách thăm dò. Quy trình này được thực hiện theo một vòng khép kín. Sử dụng chiến lược này nhưng với thuật toán mạng
thần kinh, bốn phản ứng mới đã được phát hiện.

Liệu các phương pháp tiếp cận AI (tái) mới nổi này Mặc dù AI đã đạt được một số kết quả ấn tượng trong
cùng với lời hứa về điện toán lượng tử để tăng tốc độ lĩnh vực hóa học và khám phá thuốc trong một khoảng
tính toán119 có làm gián đoạn cách thực hiện nghiên thời gian tương đối ngắn, nhưng chúng tôi cho rằng học
cứu tổng hợp hóa học hay không vẫn là một câu hỏi máy chỉ có thể là một công cụ có giá trị giúp tăng năng
mà nhiều người mong muốn được giải đáp; sự tích suất và sẽ không thể thay thế trực giác của con người cũng
hợp chặt chẽ hơn và hình thức hóa trực giác hóa học như không phải là thuốc chữa bách bệnh; những thất bại
sẽ là chìa khóa cho tương lai thành công của nó. Hơn sẽ là một phần của quá trình trưởng thành về công nghệ
nữa, cần phải thiết lập sự hợp tác hiệu quả giữa các và phải được cộng đồng đón nhận, cùng với những thành
nhà khoa học về máy học và các nhà hóa học tương lai công của nó, như một cơ hội để phát triển các phương
để tạo điều kiện giao tiếp, cho phép đối chiếu thông pháp mạnh mẽ và chính xác hơn. Để đạt được điều này,
tin còn thiếu từ cơ sở dữ liệu, giải quyết các thách thức điều quan trọng là phải thu thập và đối chiếu dữ liệu được
theo cách phù hợp về mặt thống kê và dần dần xây tiêu chuẩn hóa và chất lượng cao, bất kể kết quả là tích
dựng niềm tin mà các nhà hóa học sẽ đặt vào trong cực hay tiêu cực, trong các kho lưu trữ. Xu hướng hiện tại
các công cụ học máy. trong tài liệu về kết quả tích cực cản trở sự phát triển của
Điều quan trọng là cả mã và tập dữ liệu đều phải nhiều ứng dụng và kiến trúc học máy hơn nữa trong hóa
được tiết lộ, bất cứ khi nào có thể, không chỉ vì mục học. Tương tự, các câu hỏi nghiên cứu phù hợp phải được
Máy vectơ hỗ trợ (SVM).
đích đo điểm chuẩn mà còn là thước đo tính minh đặt ra trước khi triển khai AI và phạm vi ứng dụng, các
Một phương pháp học máy
phân tách các điểm dữ liệu trong bạch về mặt khoa học sẽ giúp phát triển khả năng ưu điểm cũng như hạn chế của nó cần phải được hiểu rõ
siêu không gian thông qua các trừu tượng hóa học thế hệ tiếp theo và tạo dựng để đánh giá tiện ích và sự phù hợp của một thuật toán
hàm toán học được gọi là hạt niềm tin giữa những người hoài nghi nhiệt thành. nhất định cho một nhiệm vụ cụ thể. Để đạt được mục tiêu
nhân.
đó, việc thường xuyên đưa các biện pháp kiểm soát đối
nghịch vào thực hành học máy cho phép
Nature Reviews | Chemistry
Reviews

Học chuyển tiếp Hộp 2 | AI cho tổng hợp: tóm tắt hiện trạng
Một phương pháp tinh chỉnh mô
hình được đào tạo trên một tập Các công nghệ trí tuệ nhân tạo (AI) được xem xét ở đây cung cấp các giải pháp khả thi để giải quyết những thách thức lớn
hợp lớn hơn các dữ liệu liên trong tổng hợp hữu cơ mà trước đây đòi hỏi trực giác hóa học chuyên sâu. Phần cứng hiện tại, các thuật toán cải tiến và dung
quan. Phương pháp này được sử lượng lưu trữ ngày càng tăng cho phép xem xét kỹ lưỡng các biến vượt quá khả năng của con người và phát hiện các mẫu ẩn
dụng khi dữ liệu hạn chế để trả trong cả tập dữ liệu nhỏ và lớn. Các phương pháp hiện tại (xem bảng bên dưới) và trong tương lai cuối cùng sẽ hỗ trợ các nhà
lời câu hỏi nghiên cứu.
hóa học trong việc thiết kế các quy trình tổng hợp hiệu quả (dự đoán tổng hợp ngược và tổng hợp thuận), cải tiến chúng (tối
ưu hóa các điều kiện phản ứng) và xác định chất hóa học mới.

Phương pháp Thuật toán Dữ liệu đào tạo nguồn mở Tính khả dụng của mã nguồn
Dự đoán tổng hợp ngược
Jensen và Tìm kiếm sự tương https://github.com/connorcoley/ https://github.com/connorcoley/
cộng sự39 đồng (không học) retrosim retrosim
3N-​MCTS MCTS + học sâu Không Không
Chematica Tìm kiếm cây + AI Không Không
Dự đoán sản phẩm phản ứng
Jensen và Học kĩ càng https://github.com/connorcoley/ https://github.com/connorcoley/
cộng sự78 rexgen_direct rexgen_direct
Doyle và Rừng ngẫu nhiên https://github.com/doylelab/ https://github.com/doylelab/
cộng sự33 rxnpredict rxnpredict
Tối ưu hóa điều kiện phản ứng
Phoenics Mạng nơ-ron Bayes https://github.com/aspuru-​guzik- https://github.com/aspuru-​
group/phoenics guzik-group/phoenics
LabMate.AI Rừng ngẫu nhiên https://github.com/ https://github.com/tcorodrigues/
tcorodrigues/ActiveLearning ActiveLearning
Khám phá hóa học mới
Cronin và SVM + phân tích https://github.com/croningp/ https://github.com/croningp/
cộng sự109 phân biệt tuyến tính reaction_learning, reaction_learning
https://science.sciencemag.org/
content/359/6374/429.long

Tìm kiếm cây MCTS, Monte Carlo; SVM, máy vectơ hỗ trợ.

sự khác biệt giữa việc khai thác các đồ tạo tác dữ liệu Khi các khám phá khoa học diễn ra với tốc độ ngày càng
và các mối tương quan thực sự là một bước hướng tới nhanh với sự hỗ trợ của hệ thống robot thông lượng
việc xác thực AI tốt hơn, bất kể phương pháp đó có cao120,121, giờ đây, đủ dữ liệu có thể được tạo và quản lý để
thể diễn giải hoàn hảo hay hộp đen. cung cấp nhiều phương pháp phỏng đoán học sâu - đây là
nền tảng chung cho tất cả các hệ thống thần kinh các ứng
dụng mạng được thảo luận ở đây. Hiện nay nó đã được
Vị trí 3
chứng minh nhiều lần và được chấp nhận rộng rãi rằng trí
thông minh của máy được thiết kế để phân tích dữ liệu lớn.
Robot Tuy nhiên, hầu hết các khám phá về khoa học sức khỏe do
(thiết kế Con người con người thực hiện đều là ngẫu nhiên hoặc được thực hiện
phân tử) trên cơ sở các tập dữ liệu nhỏ có hàm lượng thông tin cao122.
Việc hợp lý hóa việc khai thác khả năng tình cờ vẫn còn là
Vị trí 1 Vị trí 2 một thách thức nhưng các nghiên cứu gần đây cho thấy bằng
chứng cho thấy cả thử nghiệm hóa học mới và mới lạ đều có
Robot Robot thể được công bố bằng các thuật toán thích hợp. Học tập tích
(hóa học) (hóa học)
Con người
cực cũng tương đối chưa được khám phá trong khoa học hóa
Robot Robot học, tuy nhiên chúng tôi thấy trước vai trò nổi bật của nó
(phân tích) (phân tích) trong tương lai, như một phương tiện để phát hiện các ngoại
lệ và cơ hội cho những khám phá đột phá, như một phương
pháp được lựa chọn để nén thông tin một cách hiệu quả đến
Con người
mức tối thiểu có liên quan hoặc để phát hiện các mẫu tinh vi
Điều khiển từ xa trong các tập dữ liệu cực nhỏ. Ngoài ra, để điều hướng hiệu
quả các không gian tìm kiếm thưa thớt, các phương pháp học
Hình 7 | Robot kết nối mạng. Robot thông minh có sự giám sát của con người tại chỗ chuyển giao47 có thể trở nên hữu ích cao cho hóa học tổng
hoặc từ xa giao tiếp để đưa ra các thí nghiệm tốt nhất nhằm đạt được một mục tiêu nhất hợp, bằng cách đề xuất các phối tử thích hợp cho các phản
định. Mạng bao gồm các vòng phản hồi nhằm thúc đẩy quá trình học tập tích cực của dữ ứng được xúc tác kim loại - và như một sự bổ sung cho các
liệu được tạo ra (tổng hợp, phân tích hoặc thao tác khác) hướng tới vật chất hóa học có công nghệ hiện có123 - bằng cách đề xuất các điều kiện phản
giá trị cao. ứng từ đầu hoặc phân phối sản phẩm

www.nature.com/natrevchem
Reviews

Việc kết hợp rộng rãi những công nghệ này trong công nghệ silico Ví dụ, phương pháp học không giám sát đơn giản nhất,
với robot để tự động thực hiện sàng lọc phản ứng và các nhiệm vụ liên chẳng hạn như phương pháp phỏng đoán giảm kích
quan có thể cải thiện đáng kể hiệu suất trong các phòng thí nghiệm hóa thước, có thể không chỉ giúp ích đáng kể cho các nhà
học ở các công ty khoa học học thuật, dược phẩm, hóa chất và vật liệu. nghiên cứu trong việc thiết kế các thí nghiệm tốt hơn và
Việc chuẩn hóa mã hóa học với phần cứng riêng biệt để tổng hợp có động cơ tốt hơn phù hợp với nhu cầu của dự án mà
theo yêu cầu đang diễn ra99,124 và cung cấp bằng chứng chắc chắn về còn phát hiện các ngoại lệ và đóng vai trò là điểm khởi
tiện ích của việc triển khai giao diện con người-AI-robot. Tương tự đầu cho quá trình nghiên cứu. triển khai các phương
như vậy, các giao diện robot-robot điển hình nguyên mẫu với hóa học pháp phỏng đoán học có giám sát, trong các trường hợp
đa nhiệm trong thời gian thực đã được phát minh125. Internet kết nối sử dụng trong đó quyền truy cập vào dữ liệu bị hạn chế.
van vật hứa hẹn sẽ cách mạng hóa nghiên cứu hóa học126 và thúc đẩy sự Nhìn chung, chúng tôi dự tính một tương lai trong đó hóa
tích hợp của nó trong bối cảnh phát triển toàn diện (Hình 7), trong đó học kỹ thuật số và hóa học thực nghiệm được kết hợp liền
các nhà nghiên cứu con người có thể giám sát các quy trình từ xa. Tuy mạch để cho phép nghiên cứu dựa trên xác suất, hiệu quả
nhiên, tác động thực sự của AI sẽ chủ yếu trở nên rõ ràng thông qua hơn và xác định các giải pháp khả thi cho những thách
quá trình dân chủ hóa đang diễn ra ở nhiều môi trường phòng thí thức lớn của hóa học.
nghiệm khác nhau, cụ thể là giữa những người thực hành trong phòng
thí nghiệm ướt.
1. Nantermet, P. G. Reaction: the art of synthetic chemistry in the era of big data. Drug Discov. Today 43. Friedrich, L., Rodrigues, T., Neuhaus, C. S., Schneider, P.
chemistry. Chem 1, 335–336 (2016). 19, 859–868 (2014). & Schneider, G. From complex natural products to
2. Nicolaou, K. C. & Chen, J. S. The art of total synthesis 23. Tetko, I. V., Engkvist, O., Koch, U., Reymond, J. L. & simple synthetic mimetics by computational de novo
through cascade reactions. Chem. Soc. Rev. 38, Chen, H. BIGCHEM: challenges and opportunities for design. Angew. Chem. Int. Ed. 55, 6789–6792 (2016).
2993–3009 (2009). big data analysis in chemistry. Mol. Inf. 35, 615–621 44. Lewell, X. Q., Judd, D. B., Watson, S. P. & Hann, M. M.
3. Baran, P. S. Natural product total synthesis: as exciting (2016). RECAP — retrosynthetic combinatorial analysis
as ever and here to stay. J. Am. Chem. Soc. 140, 24. Henson, A. B., Gromski, P. S. & Cronin, L. procedure: a powerful new technique for identifying
4751–4755 (2018). Designing algorithms to aid discovery by chemical privileged molecular fragments with useful applications
4. Ley, S. V. The engineering of chemical synthesis: robots. ACS Cent. Sci. 4, 793–804 (2018). in combinatorial chemistry. J. Chem. Inf. Comput. Sci.
humans and machines working in harmony. 25. Rich, A. S. & Gureckis, T. M. Lessons for artificial 38, 511–522 (1998).
Angew. Chem. Int. Ed. 57, 5182–5183 (2018). intelligence from the study of natural stupidity. 45. Reker, D., Bernardes, G. J. L. & Rodrigues, T.
5. Bergman, R. G. & Danheiser, R. L. Reproducibility Nat. Mach. Intell. 1, 174–180 (2019). Computational advances in combating colloidal
in chemical research. Angew. Chem. Int. Ed. 55, 26. Ekins, S. et al. Exploiting machine learning for end-​ aggregation in drug discovery. Nat. Chem. 11,
12548–12549 (2016). to-end drug discovery and development. Nat. Mater. 402–418 (2019).
6. Duros, V. et al. Human versus robots in the discovery 18, 435–441 (2019). 46. Liu, B. et al. Retrosynthetic reaction prediction using
and crystallization of gigantic polyoxometalates. 27. Wishart, D. S. et al. DrugBank 5.0: a major update to neural sequence-​to-sequence models. ACS Cent. Sci.
Angew. Chem. Int. Ed. 56, 10815–10820 (2017). the DrugBank database for 2018. Nucleic Acids Res. 3, 1103–1113 (2017).
7. Roch, L. M. et al. ChemOS: Orchestrating autonomous 46, D1074–D1082 (2018). 47. Altae-​Tran, H., Ramsundar, B., Pappu, A. S. & Pande, V.
experimentation. Science Robot. 3, eaat5559 (2018). 28. Gaulton, A. et al. The ChEMBL database in 2017. Low data drug discovery with one-​shot learning.
8. Schneider, G. Mind and machine in drug design. Nucleic Acids Res. 45, D945–D954 (2017). ACS Cent. Sci. 3, 283–293 (2017).
Nat. Mach. Intell. 1, 128–130 (2019). 29. Kim, S. et al. PubChem 2019 update: improved 48. Chen, H., Engkvist, O., Wang, Y., Olivecrona, M. &
9. Wang, Y. et al. Acoustic droplet ejection enabled access to chemical data. Nucleic Acids Res. 47, Blaschke, T. The rise of deep learning in drug discovery.
automated reaction scouting. ACS Cent. Sci. 5, D1102–D1109 (2019). Drug Discov. Today 23, 1241–1250 (2018).
451–457 (2019). 30. Grzybowski, B. A. et al. Chematica: A story of 49. Ching, T. et al. Opportunities and obstacles for deep
10. Fitzpatrick, D. E., Battilocchio, C. & Ley, S. V. Enabling computer code that started to think like a chemist. learning in biology and medicine. J. R. Soc. Interface
technologies for the future of chemical synthesis. Chem 4, 390–398 (2018). 15, 20170387 (2018).
ACS Cent. Sci. 2, 131–138 (2016). 31. Segler, M. H. S., Preuss, M. & Waller, M. P. Planning 50. Baylon, J. L., Cilfone, N. A., Gulcher, J. R. &
11. Ley, S. V., Fitzpatrick, D. E., Myers, R. M., chemical syntheses with deep neural networks and Chittenden, T. W. Enhancing retrosynthetic reaction
Battilocchio, C. & Ingham, R. J. Machine-​assisted symbolic AI. Nature 555, 604–610 (2018). prediction with deep learning using multiscale
organic synthesis. Angew. Chem. Int. Ed. 54, 32. Schneider, N., Lowe, D. M., Sayle, R. A., Tarselli, M. A. reaction classification. J. Chem. Inf. Model. 59,
10122–10136 (2015). & Landrum, G. A. Big data from pharmaceutical 673–688 (2019).
12. Lehmann, J. W., Blair, D. J. & Burke, M. D. Toward patents: A computational analysis of medicinal 51. Fialkowski, M., Bishop, K. J., Chubukov, V. A.,
generalization of iterative small molecule synthesis. chemists’ bread and butter. J. Med. Chem. 59, Campbell, C. J. & Grzybowski, B. A. Architecture and
Nat. Rev. Chem. 2, 0115 (2018). 4385–4402 (2016). evolution of organic chemistry. Angew. Chem. Int. Ed.
13. Corey, E. J. & Wipke, W. T. Computer-​assisted design 33. Ahneman, D. T., Estrada, J. G., Lin, S., Dreher, S. D. & 44, 7263–7269 (2005).
of complex organic syntheses. Science 166, 178–192 Doyle, A. G. Predicting reaction performance in C–N 52. Gothard, C. M. et al. Rewiring chemistry: algorithmic
(1969). cross-​coupling using machine learning. Science 360, discovery and experimental validation of one-​pot
14. Pensak, D. A. & Corey, E. J. in Computer-​Assisted 186–190 (2018). reactions in the network of organic chemistry.
Organic Synthesis Ch. 1 (eds Wipke, W. T. & 34. Roughley, S. D. & Jordan, A. M. The medicinal Angew. Chem. Int. Ed. 51, 7922–7927 (2012).
Howe, W. J.) 1-32 (American Chemical Society, chemist’s toolbox: an analysis of reactions used in 53. Grzybowski, B. A., Bishop, K. J., Kowalczyk, B. &
1977). the pursuit of drug candidates. J. Med. Chem. 54, Wilmer, C. E. The ‘wired’ universe of organic chemistry.
15. Lajiness, M. S., Maggiora, G. M. & 3451–3479 (2011). Nat. Chem. 1, 31–36 (2009).
Shanmugasundaram, V. Assessment of the 35. Lowe, D. AI designs organic syntheses. Nature 555, 54. Kowalik, M. et al. Parallel optimization of synthetic
consistency of medicinal chemists in reviewing 592–593 (2018). pathways within the network of organic chemistry.
sets of compounds. J. Med. Chem. 47, 4891–4896 36. Coley, C. W., Green, W. H. & Jensen, K. F. Machine Angew. Chem. Int. Ed. 51, 7928–7932 (2012).
(2004). learning in computer-​aided synthesis planning. 55. Segler, M. H. S. & Waller, M. P. Neural-​symbolic
16. Earkin, D. R. & Warr, W. A. in Computer-​Assisted Acc. Chem. Res. 51, 1281–1289 (2018). machine learning for retrosynthesis and reaction
Organic Synthesis Ch. 10 (eds Wipke, W. T. & 37. Gelernter, H. L. et al. Empirical explorations of prediction. Chem. Eur. J. 23, 5966–5971 (2017).
Howe, W. J.) 217-226 (American Chemical Society, SYNCHEM. Science 197, 1041–1049 (1977). 56. Silver, D. et al. Mastering the game of Go with
1977). 38. Cadeddu, A., Wylie, E. K., Jurczak, J., Wampler-​Doty, M. deep neural networks and tree search. Nature 529,
17. Sridharan, N. S. in Computer-​Assisted Organic & Grzybowski, B. A. Organic chemistry as a language 484–489 (2016).
Synthesis Ch. 7 (eds Wipke, W. T. & Howe, W. J.) and the implications of chemical linguistics for 57. Browne, C. et al. A survey of Monte Carlo tree search
148-178 (American Chemical Society, 1977). structural and retrosynthetic analyses. Angew. Chem. methods. IEEE Trans. Comput. Intell. AI Games 4,
18. Wipke, W. T., Ouchi, G. I. & Krishnan, S. Simulation and Int. Ed. 53, 8108–8112 (2014). 1–43 (2012).
evaluation of chemical synthesis—SECS: An application 39. Coley, C. W., Rogers, L., Green, W. H. & Jensen, K. F. 58. Schreck, J. S., Coley, C. W. & Bishop, K. J. M. Learning
of artificial intelligence techniques. Artif. Intell. 11, Computer-​assisted retrosynthesis based on retrosynthetic planning through simulated experience.
173–193 (1978). molecular similarity. ACS Cent. Sci. 3, 1237–1245 ACS Cent. Sci. 5, 970–981 (2019).
19. Hessler, G. & Baringhaus, K. H. Artificial intelligence (2017). 59. Szymkuc, S. et al. Computer-​assisted synthetic planning:
in drug design. Molecules 23, E2520 (2018). 40. Hartenfeller, M. et al. DOGS: reaction-​driven de novo The end of the beginning. Angew. Chem. Int. Ed. 55,
20. Sellwood, M. A., Ahmed, M., Segler, M. H. & Brown, N. design of bioactive compounds. PLoS Comput. Biol. 8, 5904–5937 (2016).
Artificial intelligence in drug discovery. Future Med. e1002380 (2012). 60. Klucznik, T. et al. Efficient syntheses of diverse,
Chem. 10, 2025–2028 (2018). 41. Rodrigues, T. et al. De novo design and optimization of medicinally relevant targets planned by computer and
21. Aspuru-​Guzik, A., Lindh, R. & Reiher, M. The matter Aurora A kinase inhibitors. Chem. Sci. 4, 1229–1233 executed in the laboratory. Chem 4, 522–532 (2018).
simulation (r)evolution. ACS Cent. Sci. 4, 144–152 (2013). 61. Molga, K., Dittwald, P. & Grzybowski, B. A. Navigating
(2018). 42. Rodrigues, T. et al. Steering target selectivity and around patented routes by preserving specific motifs
22. Lusher, S. J., McGuire, R., van Schaik, R. C., potency by fragment-​based de novo drug design. along computer-​planned retrosynthetic pathways.
Nicholson, C. D. & de Vlieg, J. Data-​driven medicinal Angew. Chem. Int. Ed. 52, 10006–10009 (2013). Chem 5, 460–473 (2019).

Nature Reviews | Chemistry


Reviews

62. Badowski, T., Molga, K. & Grzybowski, B. A. Selection 89. Beker, W., Gajewska, E. P., Badowski, T. & 112. Blakemore, D. C. et al. Organic synthesis provides
of cost-​effective yet chemically diverse pathways from Grzybowski, B. A. Prediction of major regio-, site-, opportunities to transform drug discovery. Nat. Chem.
the networks of computer-​generated retrosynthetic and diastereoisomers in diels-​alder reactions by 10, 383–394 (2018).
plans. Chem. Sci. 10, 4640–4651 (2019). using machine-​learning: the importance of physically 113. Roberts, R. M. Serendipity: Accidental Discoveries
63. Burke, K. Perspective on density functional theory. meaningful descriptors. Angew. Chem. Int. Ed. 58, in Science 1-288 (John Wiley & Sons, 1989).
J. Chem. Phys. 136, 150901 (2012). 4515–4519 (2019). 114. Davey, S. Rapid reaction discovery. Nat. Chem. 4,
64. Chermette, H. Chemical reactivity indexes in density 90. Nielsen, M. K., Ahneman, D. T., Riera, O. & 69 (2012).
functional theory. J. Comput. Chem. 20, 129–154 Doyle, A. G. Deoxyfluorination with sulfonyl 115. McNally, A., Prier, C. K. & MacMillan, D. W. Discovery
(1999). fluorides: navigating reaction space with machine of an alpha-​amino C–H arylation reaction using the
65. Hegde, G. & Bowen, R. C. Machine-​learned learning. J. Am. Chem. Soc. 140, 5004–5008 strategy of accelerated serendipity. Science 334,
approximations to density functional theory (2018). 1114–1117 (2011).
Hamiltonians. Sci. Rep. 7, 42669 (2017). 91. Halford, G. S., Baker, R., McCredden, J. E. & Bain, J. D. 116. Amara, Z. et al. Automated serendipity with
66. Smith, J. S., Isayev, O. & Roitberg, A. E. ANI-1: How many variables can humans process? Psychol. Sci. self-​optimizing continuous-​flow reactors. Eur. J. Org.
an extensible neural network potential with DFT 16, 70–76 (2005). Chem. 2015, 6141–6145 (2015).
accuracy at force field computational cost. Chem. Sci. 92. Leardi, R. Experimental design in chemistry: A tutorial. 117. Dragone, V., Sans, V., Henson, A. B., Granda, J. M.
8, 3192–3203 (2017). Anal. Chim. Acta 652, 161–172 (2009). & Cronin, L. An autonomous organic reaction search
67. Grisafi, A. et al. Transferable machine-​learning model 93. Murray, P. M. et al. The application of design of engine for chemical reactivity. Nat. Commun. 8,
of the electron density. ACS Cent. Sci. 5, 57–64 (2019). experiments (DoE) reaction optimisation and 15733 (2017).
68. Sadowski, P., Fooshee, D., Subrahmanya, N. & solvent selection in the development of new synthetic 118. Gromski, P. S., Henson, A. B., Granda, J. M. & Cronin, L.
Baldi, P. Synergies between quantum mechanics and chemistry. Org. Biomol. Chem. 14, 2373–2384 How to explore chemical space using algorithms and
machine learning in reaction prediction. J. Chem. Inf. (2016). automation. Nat. Rev. Chem. 3, 119–128 (2019).
Model. 56, 2125–2128 (2016). 94. Austin, N. D., Sahinidis, N. V., Konstantinov, I. A. 119. Cao, Y., Romero, J. & Aspuru-​Guzik, A. Potential of
69. Moosavi, S. M. et al. Capturing chemical intuition in & Trahan, D. W. COSMO-based computer-aided quantum computing for drug discovery. IBM J. Res.
synthesis of metal-​organic frameworks. Nat. Commun. molecular/mixture design: A focus on reaction Dev. 62, 6:1–6:20 (2019).
10, 539 (2019). solvents. AIChE J. 63, 104–122 (2018). 120. Rodrigues, T. et al. Multidimensional de novo design
70. Raccuglia, P. et al. Machine-​learning-assisted 95. Struebing, H. et al. Computer-​aided molecular design reveals 5-HT2B2B receptor-​selective ligands.
materials discovery using failed experiments. Nature of solvents for accelerated reaction kinetics. Nat. Chem. Angew. Chem. Int. Ed. 54, 1551–1555 (2015).
533, 73–76 (2016). 5, 952–957 (2013). 121. Reutlinger, M., Rodrigues, T., Schneider, P. &
71. Kayala, M. A., Azencott, C. A., Chen, J. H. & Baldi, P. 96. Truhlar, D. G. Chemical reactivity: Inverse solvent Schneider, G. Combining on-​chip synthesis of a
Learning to predict chemical reactions. J. Chem. Inf. design. Nat. Chem. 5, 902–903 (2013). focused combinatorial library with computational
Model. 51, 2209–2222 (2011). 97. Gao, H. et al. Using machine learning to predict target prediction reveals imidazopyridine GPCR
72. Fooshee, D. et al. Deep learning for chemical reaction suitable conditions for organic reactions. ACS Cent. ligands. Angew. Chem. Int. Ed. 53, 582–585 (2014).
prediction. Mol. Syst. Des. Eng. 3, 442–452 (2018). Sci. 4, 1465–1476 (2018). 122. Ban, T. A. The role of serendipity in drug discovery.
73. Schwaller, P., Gaudin, T., Lanyi, D., Bekas, C. & 98. Zhou, Z., Li, X. & Zare, R. N. Optimizing chemical Dialogues Clin. Neurosci. 8, 335–344 (2006).
Laino, T. “Found in Translation”: predicting outcomes reactions with deep reinforcement learning. ACS Cent. 123. Rosales, A. R. et al. Rapid virtual screening of
of complex organic chemistry reactions using neural Sci. 3, 1337–1344 (2017). enantioselective catalysts using CatVS. Nat. Catal. 2,
sequence-​to-sequence models. Chem. Sci. 9, 99. Bedard, A. C. et al. Reconfigurable system for 41–45 (2019).
6091–6098 (2018). automated optimization of diverse chemical reactions. 124. Steiner, S. et al. Organic synthesis in a modular
74. Wei, J. N., Duvenaud, D. & Aspuru-​Guzik, A. Neural Science 361, 1220–1225 (2018). robotic system driven by a chemical programming
networks for the prediction of organic chemistry 100. Reker, D. & Schneider, G. Active-​learning strategies in language. Science 363, eaav2211 (2019).
reactions. ACS Cent. Sci. 2, 725–732 (2016). computer-​assisted drug discovery. Drug. Discov. Today 125. Caramelli, D. et al. Networking chemical robots
75. Hughes, T. B., Dang, N. L., Miller, G. P. & 20, 458–465 (2015). for reaction multitasking. Nat. Commun. 9, 3406
Swamidass, S. J. Modeling reactivity to biological 101. Reker, D., Schneider, P. & Schneider, G. Multi-​ (2018).
macromolecules with a deep multitask network. objective active machine learning rapidly improves 126. Fitzpatrick, D. E., Maujean, T., Evans, A. C. & Ley, S. V.
ACS Cent. Sci. 2, 529–537 (2016). structure–activity models and reveals new protein– Across-​the-world automated optimization and
76. Hughes, T. B., Miller, G. P. & Swamidass, S. J. protein interaction inhibitors. Chem. Sci. 7, continuous-​flow synthesis of pharmaceutical agents
Modeling epoxidation of drug-​like molecules with 3919–3927 (2016). operating through a cloud-​based server. Angew. Chem.
a deep machine learning network. ACS Cent. Sci. 1, 102. Reker, D. & Brown, J. B. Selection of informative Int. Ed. 57, 15128–15132 (2018).
168–180 (2015). examples in chemogenomic datasets. Methods Mol. 127. Lavecchia, A. Machine-​learning approaches in drug
77. Coley, C. W., Barzilay, R., Jaakkola, T. S., Green, W. H. Biol. 1825, 369–410 (2018). discovery: methods and applications. Drug Discov.
& Jensen, K. F. Prediction of organic reaction outcomes 103. Reker, D., Schneider, P., Schneider, G. & Brown, J. B. Today 20, 318–331 (2015).
using machine learning. ACS Cent. Sci. 3, 434–443 Active learning for computational chemogenomics. 128. Butler, K. T., Davies, D. W., Cartwright, H., Isayev, O.
(2017). Future Med. Chem. 9, 381–402 (2017). & Walsh, A. Machine learning for molecular and
78. Coley, C. W. et al. A graph-​convolutional neural 104. Sans, V., Porwol, L., Dragone, V. & Cronin, L. A self materials science. Nature 559, 547–555 (2018).
network model for the prediction of chemical reactivity. optimizing synthetic organic reactor system using 129. Jordan, M. I. & Mitchell, T. M. Machine learning:
Chem. Sci. 10, 370–377 (2019). real-​time in-​line NMR spectroscopy. Chem. Sci. 6, Trends, perspectives, and prospects. Science 349,
79. Breiman, L. Random forests. Mach. Learn. 45, 5–32 1258–1264 (2015). 255–260 (2015).
(2001). 105. Häse, F., Roch, L. M., Kreisbeck, C. & Aspuru-​Guzik, A. 130. Sanchez-​Lengeling, B. & Aspuru-​Guzik, A. Inverse
80. Ho, T. K. The random subspace method for constructing Phoenics: A Bayesian optimizer for chemistry. molecular design using machine learning: Generative
decision forests. IEEE Trans. Pattern Anal. Mach. Intell. ACS Cent. Sci. 4, 1134–1145 (2018). models for matter engineering. Science 361, 360–365
20, 832–844 (1998). 106. Frazier, P. I. A tutorial on Bayesian optimization. (2018).
81. Rodrigues, T. et al. De novo fragment design for drug Preprint at arXiv https://arxiv.org/abs/1807.02811 131. Wallach, I. & Heifets, A. Most ligand-​based classification
discovery and chemical biology. Angew. Chem. Int. Ed. (2018). benchmarks reward memorization rather than
54, 15079–15083 (2015). 107. Brochu, E., Cora, V. M. & Freitas, N. d. A tutorial on generalization. J. Chem. Inf. Model. 58, 916–932
82. Rodrigues, T. et al. Machine intelligence decrypts Bayesian optimization of expensive cost functions, with (2018).
beta-​lapachone as an allosteric 5-lipoxygenase application to active user modeling and hierarchical
inhibitor. Chem. Sci. 9, 6899–6903 (2018). reinforcement learning. Preprint at arXiv https://arxiv. Acknowledgements
83. Richter, M. F. et al. Predictive compound accumulation org/abs/1012.2599 (2010). A.F.A. acknowledges Fundação para a Ciência e Tecnologia
rules yield a broad-​spectrum antibiotic. Nature 545, 108. Reker, D., Bernardes, G. J. L. & Rodrigues, T. (FCT) Portugal for financial support through a PhD grant (PD/
299–304 (2017). Evolving and nano data enabled machine intelligence BD/143125/2019). T.R. is an investigador auxiliar supported
84. Wolfe, J. M. et al. Machine learning to predict for chemical reaction optimization. Preprint at by FCT Portugal (CEECIND/00887/2017). T.R. acknowledges
cell-​penetrating peptides for antisense delivery. ChemRxiv https://chemrxiv.org/articles/Evolving_ FCT/FEDER (02/SAICT/2017, grant 28333) for funding.
ACS Cent. Sci. 4, 512–520 (2018). and_Nano_Data_Enabled_Machine_Intelligence_for_ The authors thank the reviewers for their comments.
85. Chuang, K. V. & Keiser, M. J. Comment on “Predicting Chemical_Reaction_Optimization/7291205/1
reaction performance in C–N cross-​coupling using (2018). Author contributions
machine learning”. Science 362, eaat8603 (2018). 109. Granda, J. M., Donina, L., Dragone, V., Long, D. L. & The authors contributed equally to all aspects of the article.
86. Estrada, J. G., Ahneman, D. T., Sheridan, R. P., Cronin, L. Controlling an organic synthesis robot with
Dreher, S. D. & Doyle, A. G. Response to Comment machine learning to search for new reactivity. Nature Competing interests
on “Predicting reaction performance in C–N cross-​ 559, 377–381 (2018). The authors declare no competing interests.
coupling using machine learning”. Science 362, 110. Ahmadi, M., Vogt, M., Iyer, P., Bajorath, J. & Frohlich, H.
eaat8763 (2018). Predicting potent compounds via model-​based global Peer review information
87. Skoraczynski, G. et al. Predicting the outcomes of optimization. J. Chem. Inf. Model. 53, 553–559 Nature Reviews Chemistry thanks R. Lewis and B. Maryasin
organic reactions via machine learning: are current (2013). for their contribution to the peer review of this work.
descriptors sufficient? Sci. Rep. 7, 3582 (2017). 111. Patil, P. C. & Luzzio, F. A. Synthesis of extended
88. Chuang, K. V. & Keiser, M. J. Adversarial controls oxazoles II: Reaction manifold of 2-(halomethyl)- Publisher’s note
for scientific machine learning. ACS Chem. Biol. 13, 4,5-diaryloxazoles. Tetrahedron Lett. 57, 757–759 Springer Nature remains neutral with regard to jurisdictional
2819–2821 (2018). (2016). claims in published maps and institutional affiliations.

www.nature.com/natrevchem

You might also like