Professional Documents
Culture Documents
Tổng hợp hữu cơ được thúc đẩy bởi trí tuệ nhân tạo
Tổng hợp hữu cơ được thúc đẩy bởi trí tuệ nhân tạo
Bằng cách mổ xẻ các ví dụ chọn lọc và phân tích tự động hóa các phân tích tổng hợp ngược, dự đoán
kết quả của các ứng dụng khác nhau của AI, chúng kết quả phản ứng, tối ưu hóa các điều kiện phản ứng
tôi cho thấy các phương pháp đó đang giải quyết và xác định hóa học mới. Chúng tôi hy vọng Đánh giá
những thách thức lớn còn tồn tại trong hóa học này sẽ giúp các nhà nghiên cứu đi đầu trong lĩnh vực
tổng hợp như thế nào, được sử dụng để tăng tốc độ hóa học hiểu được nghiên cứu thực nghiệm của họ có
khám phá hóa học và nâng cao nhận thức của con thể hưởng lợi như thế nào từ các công nghệ silico tiên
người. Chúng tôi tập trung vào các công cụ học tiến. Ngoài ra, chúng tôi mong muốn thúc đẩy sự thay
máy gần đây đã được triển khai để thiết kế (tạo ra đổi văn hóa bằng cách thúc đẩy trao đổi chéo giữa các
các giả thuyết nghiên cứu khả thi), cải tiến (thực nhà hóa học tương lai và các nhà khoa học máy tính,
hiện tối ưu hóa đa mục tiêu) và các lộ trình yêu cầu đồng thời thúc đẩy các nghiên cứu trong tương lai
(giảm thời gian chu kỳ) hướng tới các phân tử mục thông qua hóa học khám phá xác suất.
tiêu. Cụ thể, chúng tôi thảo luận về AI cho
www.nature.com/natrevchem
Reviews
Đếm
Et 2 O, 150
N
TEA O NH 2
H 2SO 4
N OH N OH
O N N
O 66%
S Br O O 100
O
Hiệu suất khai thác văn bản
135,883
(12%) 50
O OH H
O MeOH O N
N NH 2 T.toán: 100% N
HN + HN Cả hai 0
Đã khai thác:
O 100% O
288,299 0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5
(26%) log (số phản ứng)
Hình 1 | Sự thay đổi trong dữ liệu phản ứng hóa học có sẵn từ các bằng sáng chế (1976–2016). a | Dữ liệu phản ứng hóa
học duy nhất, có thể phân tích được trong tài liệu sáng chế dược phẩm chỉ là một lượng rất nhỏ (35%) trong tổng số thông
tin có sẵn. Thông tin có sẵn rất không đồng nhất và chỉ 53% trong số tất cả các phản ứng báo cáo giá trị hiệu suất, cho dù
đây là 'khai thác văn bản' - được trích xuất trực tiếp từ văn bản bằng sáng chế - hay được tính từ lượng sản phẩm thu được
được báo cáo. Khoảng 1 trong 10 phản ứng bằng sáng chế có sự chênh lệch >10% giữa giá trị hiệu suất được khai thác trên
văn bản và tính toán. Phần lớn các trường hợp đó trình bày sai lợi suất tính toán >100%. Các ví dụ phản ứng cho từng
trường hợp được thảo luận sẽ được hiển thị và trung tâm phản ứng được tô sáng. b | Dữ liệu phản ứng (màu xanh lá cây)
rất sai lệch: một số phản ứng đã được báo cáo nhiều lần, trong khi có nhiều phản ứng chỉ có một vài báo cáo. Các phản ứng
có hiệu suất được báo cáo (màu cam) cũng có xu hướng tương tự. Để có thể giải thích, chỉ có 20.000 phản ứng duy nhất
thường xuyên nhất (5%) được hiển thị và số phản ứng (trong đó mỗi sự kết hợp duy nhất của các khối xây dựng phân tử,
dung môi, chất xúc tác và sản phẩm được gán một số) được chuyển đổi thành giá trị log10.
Dữ liệu hóa học cho AI Điều này phù hợp với một nghiên cứu độc lập khảo sát về hóa học
Việc truy cập vào dữ liệu chất lượng cao với số lượng lớn25 phổ biến nhất trong các tạp chí được bình duyệt32,34 và có thể ảnh
là điều cần thiết để tạo ra AI hiệu quả cho hóa học (hoặc hưởng, chẳng hạn như, tiện ích của các công cụ đề xuất tổng hợp
bất kỳ ứng dụng nào khác). Trong khi ở các lĩnh vực khoa ngược được xây dựng dựa trên các phản ứng đã biết dưới dạng mẫu.
học khác, dữ liệu đã được thu thập trước đây, tạo điều kiện Có thể cho rằng, độ chính xác của các công cụ AI sẽ kém hơn khi
thuận lợi cho việc sử dụng máy học26, thì việc truy cập xem xét các phép biến đổi hóa học được thực hiện ít phổ biến hơn vì
thông tin phản ứng hóa học được tiêu chuẩn hóa thường kiến thức về phạm vi cơ chất còn hạn chế hơn. Nhìn chung, dữ liệu
gặp nhiều vấn đề hơn. Một mặt, không có kho dữ liệu bằng sáng chế thiên về hóa học có thể tiếp cận được chứ không phải
chuyên dụng, có sẵn công khai, chẳng hạn như các phương pháp mới, mặc dù đã có sự gia tăng ổn định qua nhiều
DrugBank27, ChEMBL28 hoặc PubChem29, để tổng hợp năm trong các phản ứng hình thành liên kết C–C được minh họa bởi
thông tin phản ứng mà chỉ có các tài nguyên thương mại phản ứng Suzuki và các phản ứng ghép chéo liên quan32.
(ví dụ: SciFinder và Reaxys). Mặt khác, việc tạo ra cơ sở tri Bên cạnh tính đa dạng hóa học thấp, việc khai thác tiềm năng của
thức thường cồng kềnh và tốn kém30, khiến cách tiếp cận thông tin sáng chế kèm theo không hề đơn giản do có nhiều nguồn dữ
này có thể thực hiện được nhưng không thực tế trong hầu liệu, định dạng trình bày khác nhau và những khó khăn cố hữu trong
hết các môi trường nghiên cứu. Với những hạn chế này, việc khai thác tự động các bằng sáng chế cũ. Ví dụ, trong giai đoạn
không có gì đáng ngạc nhiên khi AI áp dụng cho hóa học cấp bằng sáng chế nói trên, chỉ 64% trong số tất cả các phản ứng có
chủ yếu dựa vào cơ sở dữ liệu thương mại được quản lý31, thể được chỉ định loại phản ứng và chỉ 40% trong số đó báo cáo hiệu
việc trích xuất các sơ đồ phản ứng từ tài liệu bằng mã tùy suất32. Quá trình phân tích lại cơ sở dữ liệu nhưng kéo dài đến năm
chỉnh32 và ít thường xuyên hơn là dữ liệu độc quyền33. Về 2016 đã chứng thực đầy đủ quan sát này, ngoại trừ việc gắn nhãn tăng
nguyên tắc, các mô tả phản ứng tiêu chuẩn đòi hỏi tất cả lên với giá trị lợi nhuận (53%; FIG. 1a), được khai thác trực tiếp từ tài
thông tin cần thiết cho mô hình silico. Điều này đã làm cho liệu hoặc được tính từ số lượng sản phẩm bị cô lập. Hơn nữa, phân
bằng sáng chế trở thành một nguồn tài nguyên hấp dẫn và tích cho thấy rằng hiệu suất được báo cáo rất không đồng nhất khi so
là cơ sở cho một số ứng dụng của AI vào hóa học. sánh các giá trị được tính toán và khai thác văn bản cho cùng một
Một phân tích hồi cứu gần đây về >125.000 bằng sáng phản ứng trong cùng một bằng sáng chế. Điều đáng ngạc nhiên là
chế dược phẩm trong giai đoạn 1976–2015 đã tiết lộ 47.358 phản ứng (10%) cho thấy sự khác biệt >10% giữa cả hai giá trị
những cơ hội và thách thức đối với học máy, cũng như các và 9% có hiệu suất tính toán >100%. Tương tự như tần số phản ứng,
xu hướng trong thực hành trong phòng thí nghiệm32, hỗ sự phân bố hiệu suất được báo cáo có độ lệch rất cao (Hình 1b). Tổng
trợ các quyết định thiên vị đối với các loại phản ứng ưa hợp lại, những quan sát này không làm mất hiệu lực dữ liệu nhưng
thích. Thật vậy, phân tích >1,1 triệu phản ứng đặc biệt cho cho thấy rằng không phải tất cả thông tin đều phù hợp và quan trọng
thấy rằng quá trình acyl hóa, phá bảo vệ, alkyl hóa và aryl như nhau để xây dựng các phương pháp AI chất lượng.
hóacủa các nguyên tử dị tố là một trong những biến đổi
hóa học phổ biến nhất trong hóa dược.
Bảng 1 | So sánh ba công cụ phân tích tổng hợp ngược khác nhau
Công cụ phân tích Trí tuệ Thuật toán Tính khả dụng Lượng dữ liệu Tốc độ Tính toán Xác thực thử Cạnh tranh
tổng hợp ngược nhân tạo của mã được sử dụng hóa lập thể nghiệm với con người
Jensen và Không tìm kiếm tương tự Có ++ ++ Không + NA
cộng sự39
3N-MCTS31 Có Tìm kiếm cây Monte Không ++++ ++++ Có + ++++
Carlo kết hợp với mạng
lưới thần kinh sâu
Chematica60 Có Tìm kiếm cây kết hợp với Có (thương mại)a ++ ++ Có ++++ ++++
phương pháp phỏng đoán trí
tuệ nhân tạo chưa được tiết lộ
NA, Không có sẵn; aĐược thương mại hóa là Synthia.
www.nature.com/natrevchem
Reviews
Ví dụ
[NH0]
H [cH0] H
N O N O I N N
+
I S S
Mục tiêu Giải pháp Tiền lệ phản ứng đối với phân tử mục
tiêu (chỉ sốTanimoto = 0,224)
Hình 2 | Tìm kiếm sự tương đồng trong phân tích tổng hợp ngược silico. Phương pháp tìm kiếm tương tự được phát
triển từ cơ sở kiến thức gồm 40.000 phản ứng có thể đề xuất các bước tổng hợp ngược. Việc so sánh các trung tâm phản
ứng được thực hiện thông qua các mẫu có khuôn mẫu SMARTS, mã hóa các liên kết mới được hình thành. Sau đó, việc
tinh chỉnh việc cắt liên kết được ưu tiên sẽ được cung cấp bằng cách tìm kiếm tiền lệ tương tự nhất trong số các phản ứng
đã biết. Sự tương đồng được định lượng thông qua chỉ số Tanimoto giữa phân tử truy vấn và tất cả các thể hiện cơ sở tri
thức. Giá trị chỉ số Tanimoto cao hơn cho thấy độ tương tự cao hơn giữa các phân tử được so sánh. Các chỉ số Tanimoto
được tính toán cho chất phản ứng và sản phẩm được tổng hợp lại để cung cấp giá trị cốt lõi phản ánh sự tương tự tổng thể
của chuyển hóa với lân cận gần nhất trong cơ sở kiến thức.
Nó cũng mở rộng quy mô hiệu quả hơn với các tập dữ liệu lớn Thật vậy, kế hoạch tổng hợp ngược nhanh chóng gặp phải sự
hơn vì nó không truy vấn toàn diện không gian tìm kiếm – một lợi bùng nổ tổ hợp khi xem xét số bước cần thiết để thu được
thế cạnh tranh chính của AI so với các tìm kiếm tương tự. một phân tử mục tiêu nhất định và sự không tương thích của
Có thể cải thiện độ chính xác của mạng lưới thần kinh sâu, nhóm chức cụ thể đối với từng phân tử trong số chúng30.
chẳng hạn như các mạng được mô tả ở trên, bằng cách ghép các Do đó, việc trao quyền cho một phương pháp dựa trên quy
thuật toán phù hợp với dữ liệu nhỏ47 hoặc cung cấp các tập huấn tắc với các thuật toán tự điều hướng, thông minh có thể
luyện lớn hơn. Thật vậy, mạng lưới thần kinh sâu có khả năng kiểm mang lại giải pháp khám phá hiệu quả khả năng phản ứng
tra các tập dữ liệu lớn và thường mang lại kết quả chính xác, miễn hóa học51–54. Trong một ứng dụng dữ liệu lớn, 3,5 triệu phản
là có sẵn lượng thông tin đủ lớn cho kỹ thuật đặc trưng tự động và ứng đã được sử dụng để xây dựng một mô hình dự đoán
học tập tiếp theo48,49. Tuy nhiên, những cơ hội mà học sâu mang lại trước cả phản ứng và phản ứng tổng hợp bằng cách học các
cũng có cái giá phải trả: khả năng diễn giải mô hình thường thấp, mẫu trong các nhóm chức của phân tử. Khi được triển khai,
điều này cản trở việc con người học hỏi từ AI. Điều này có xu phương pháp này kết hợp các lợi ích và trực quan của việc so
hướng tạo ra sự nghi ngờ giữa các nhà hóa học về mức độ liên quan khớp quy tắc với AI cho phép tạo ra khả năng tổng hợp chưa
của quá trình “suy nghĩ” mạng lưới thần kinh49, mặc dù trực giác từng có đối với các phân tử không tường minh và ưu tiên
hóa học của con người cũng có thể được coi là một “hộp đen” phần quy tắc tổng hợp, tùy theo khả năng tương thích của nhóm
lớn không mang tính quyết định và được điều khiển bởi các quy tắc chức. Thật ấn tượng, AI này đã xác định được các giải pháp
bất thành văn. Bằng cách sử dụng một tập hợp lớn các phản ứng đã gần như hoàn hảo cho một bộ xác thực mở rộng trong khi
được cấp bằng sáng chế, phương pháp đề xuất phản ứng mạng thần chỉ sử dụng một phần nhỏ thời gian xử lý so với việc khớp
kinh theo cấp độ (đa thang đo) đã được phát triển để dự đoán sự quy tắc toàn diện55. Công cụ đề xuất tổng hợp đáng chú ý
cắt liên kết tổng hợp ngược đầu tiên trong các phân tử được quan này đặt nền tảng vững chắc cho AI toàn diện hơn kết hợp với
tâm50. Ngược lại với phương pháp seq2seq đã nói ở trên, trong đó kỹ thuật khai thác/khám phá dữ liệu được cải tiến, cái gọi là
dự đoán tổng thể được thực hiện, ở đây, vấn đề tổng hợp ngược tìm kiếm cây Monte Carlo (MCTS). MCTS trước đây đã
được chia thành hai nhiệm vụ khác nhau. Mạng nơ-ron đầu tiên được sử dụng để làm chủ trò chơi Go56 và có đặc điểm là xây
chỉ phân loại loại phản ứng. Sau đó, phương pháp AI thứ hai tập dựng các cây thống kê để hướng dẫn AI riêng biệt tìm kiếm
trung 'sự chú ý' và xác định quy tắc phản ứng thích hợp cho nghiên theo các hướng tìm kiếm nhất định, bằng cách thực hiện đệ
cứu điển hình - phương pháp này đã được chứng minh là có tác quy một số quy trình tìm kiếm và mở rộng57. Về bản chất,
động tích cực đến hiệu suất của phương pháp tổng thể. Thật kỳ lạ, càng thực hiện nhiều chu kỳ mô phỏng thì phương pháp
thói quen này lại tương tự với thói quen của Jensen và các đồng MCTS càng trở nên chính xác và mạnh mẽ hơn, thúc đẩy
nghiệp39; một cách độc lập, cả hai nghiên cứu đều kết luận rằng quá trình tự cải tiến của chính nó mà không cần đến các
việc chia quy hoạch tổng hợp ngược của một phân tử thành các phương pháp phỏng đoán phức tạp do con người xác định,
nhiệm vụ riêng biệt có thể cải thiện độ chính xác dự đoán tổng thể. ví dụ: các hàm đánh giá. Điều này lý tưởng cho các câu hỏi
Trong khi các phương pháp được thảo luận ở trên đã được phát nghiên cứu mở có khả năng phân nhánh cao, chẳng hạn như
triển để dự đoán bước tổng hợp ngược đầu tiên, một trường hợp tổng hợp ngược. Như Segler và cộng sự31 triển khai, ba mạng
thực tế thường yêu cầu đệ quy để tính đến các tổng hợp nhiều thần kinh khác nhau đã được sử dụng làm khế ước MCTS
bước. (3N-MCTS; TABLE 1; FIG. 3a). Trong khi mạng nơ-ron đầu
tiên được sử dụng để mở rộng và chỉ đề xuất một số lượng
hạn chế các chuyển hóa được trích xuất,
N N N N Br
O O O H O
O O
S S
N Cl H 2N O 2N O 2N
F O H F O
OH O O
O
O 2N O 2N O 2N
O O
Phân tử
Đề xuất tổng hợp
Mạng phản ứng
Ví dụ
HN O AcO N OH N O O
O H
Fmoc Fmoc CH 3NH 2
OH OH H
S S S S
Hình 3 | Công cụ trí tuệ nhân tạo để phân tích tổng hợp ngược. a | Phương pháp tìm kiếm cây Monte Carlo (MCTS) do
Segler và cộng sự phát triển sử dụng ba mạng nơ-ron sâu (3N) khác nhau làm chính sách. Các mô hình được huấn luyện từ
cơ sở dữ liệu phản ứng trị giá hàng triệu được mã hóa thông qua dấu vân tay kết nối mở rộng (ECFP4) có tính đến cả các
điểm kỳ dị cấu trúc cục bộ và toàn thể. b | Chematica khám phá một mạng lưới bao gồm ~50.000 phản ứng được chú thích
và quản lý bằng tay. Việc tìm kiếm các quy trình tổng hợp trong lưới phản ứng này được hướng dẫn bởi cây quyết định. Các
nút đại diện cho các khối xây dựng phân tử, các phân tử trung gian hoặc mục tiêu và các cạnh đại diện cho mối tương quan
hóa học giữa các thực thể đó. Ví dụ về các phân tích được thực hiện bằng hai phương pháp được cung cấp.
mạng thứ hai quản lý các phản ứng được đề xuất bằng cách Tuy nhiên, những kết quả nổi bật tương tự có thể đạt được nhờ
đánh giá tính khả thi của chúng, theo khả năng tương thích một phần nhỏ dữ liệu được quản lý cẩn thận30. Không giống
(trong) nhóm chức - một 'bộ lọc trong phạm vi'. Cuối cùng, như lượng dữ liệu cần thiết để đạt được phần mềm ở cấp độ
cái gọi là giai đoạn triển khai được điều khiển bởi mạng thứ sản xuất, điều dường như đã được khẳng định nhiều hơn là
ba ước tính giá trị nút trạng thái/cây. Nhìn chung, thông tin phương pháp phỏng đoán dựa trên cây rất phù hợp để ưu tiên
của 12,4 triệu phản ứng đã được xử lý để tạo ra một AI không các hướng tổng hợp, đồng thời lưu ý rằng vẫn tồn tại các
chỉ có khả năng cung cấp nhanh chóng các giải pháp tổng hướng thay thế và khả thi. Tính linh hoạt của việc khám phá
hợp ngược khả thi (13 giây trên mỗi phân tử) mà quan trọng này cố gắng bắt chước trực giác hóa học và tăng hiệu quả trong
nhất là các lộ trình không thể phân biệt được với các lộ trình việc điều hướng không gian tìm kiếm. Bắt đầu phát triển vào
được đề xuất bởi các nhà hóa học chuyên nghiệp. , theo kết năm 2001, phần mềm Chematica (BẢNG 1; HÌNH 3b) minh
quả của thử nghiệm A/B. Điều này cho thấy rõ ràng mức độ họa một cách hoàn hảo rằng việc mã hóa cẩn thận “chỉ” 50.000
phức tạp và chính xác chưa từng có, mô phỏng hoàn hảo trực quy tắc cung cấp bối cảnh hóa học chất lượng cao cần thiết để
giác hóa học thực sự31 và có thể được điều chỉnh để giảm cung cấp các giải pháp tổng hợp ngược59. Bằng cách tạo ra các
thiểu các bước tổng hợp58. phản ứng không chọn lọc, các chất trung gian bị căng và các
Khai thác sức mạnh của thông tin tập thể ẩn trong hàng triệu motif cấu trúc khó có thể xảy ra cũng như áp dụng phương
phản ứng là một kỳ công mà con người không thể tiếp cận pháp phỏng đoán thông minh để hướng dẫn điều hướng trong
được và không thực tế đối với một số thuật toán. mạng phản ứng,
www.nature.com/natrevchem
Reviews
quy trình chấm dứt khi các khối xây dựng có sẵn trên thị Nhận ra những hạn chế này, cùng một nhóm đã tăng cường
trường được xác định. Với Chematica, các lộ trình tổng hợp đã tập huấn luyện một cách giả lập trong một nghiên cứu sau
được nghĩ ra cho tám phân tử mục tiêu có hoạt tính sinh học đó và khai thác mạng thần kinh hồi quy bộ nhớ ngắn hạn
và được thực hiện bằng thực nghiệm để thu được các phân tử dài để tự động trích xuất các đặc trưng và xây dựng mô
cần thiết với ít bước tinh chế hơn và tiết kiệm thời gian cũng hình72. Ngoài ra, các mô hình seq2seq tương tự như các mô
như chi phí60 so với những gì đã được báo cáo. Hơn nữa, có hình được sử dụng để dự đoán các con đường tổng hợp
thể nghĩ ra các lộ trình khác biệt đáng kể so với các giải pháp ngược46 có thể có tính tiện ích cao và có khả năng dự đoán
thay thế đã được cấp bằng sáng chế bằng cách đưa ra quy tắc chính xác73. Trong một ứng dụng khác, Aspuru-Guzik và
bảo toàn liên kết để giải quyết các phương pháp được báo các đồng nghiệp74 đã phát triển một phương pháp mạng
cáo61,62. Tiềm năng chuyển đổi của công nghệ này là rõ ràng, vì lưới thần kinh để dự đoán các lớp phản ứng với độ chính
công cụ này không chỉ trao quyền cho các nhà nghiên cứu ít kỹ xác cao (~85%) từ dấu vân tay được nối của các khối xây
năng hoặc ít kinh nghiệm hơn để thực hiện hóa học mà còn dựng phân tử và chất phản ứng. Tuy nhiên, việc mở rộng
cho phép các nhóm hóa học xử lý trong ngành dược phẩm quy trình này sang dự đoán cấu trúc sản phẩm phản ứng lại
nghĩ ra các lộ trình tổng hợp không rõ ràng và có thể được cấp cho kết quả ít hứa hẹn hơn – với độ chính xác khoảng 50%.
bằng sáng chế hướng tới vấn đề hóa học quan tâm. . Có thể những hạn chế của ký hiệu SMARTS được sử dụng
trong việc mô tả các cơ chế phản ứng có thể biện minh cho
Dự đoán sản phẩm phản ứng kết quả này. Tổng hợp lại, dữ liệu nêu bật rõ ràng nhu cầu
Cùng với các phân tích tổng hợp ngược, việc dự đoán chính phát triển các bộ mô tả phản ứng hiệu quả hơn. Hơn nữa,
xác kết quả phản ứng hữu cơ là cốt lõi của kế hoạch tổng hợp sự đa dạng về phản ứng giảm đi trong tập huấn luyện có thể
thành công. Thông thường, điều này đạt được bằng cách tối ưu hạn chế khả năng áp dụng phương pháp này. Mặc dù
hóa theo kinh nghiệm và ánh xạ dữ liệu phản ứng-cấu trúc mà không ngừng tìm kiếm các nền tảng AI có thể áp dụng rộng
phần lớn được điều khiển bởi trực giác. Từ góc độ tính toán rãi, cần nhấn mạnh rằng các mô hình hẹp không nhất thiết
thuận lợi, việc khai thác khả năng phản ứng hóa học thông qua là vô dụng nhưng có thể được áp dụng để trả lời các câu hỏi
biểu diễn phân tử đã là một chủ đề nghiên cứu được cộng nghiên cứu rất cụ thể, như đã được chứng minh thông qua
đồng tổng hợp hữu cơ rất quan tâm. Thật vậy, các công cụ dự đoán về các sản phẩm liên hợp epoxide hóa và đại phân
tính toán, đặc biệt là lý thuyết hàm mật độ (DFT), đã đóng góp tử với học sâu75,76. Vì vậy, việc xác định phạm vi áp dụng là
vào kiến thức đó bằng cách tạo ra các mô tả hóa lý tương quan cơ bản. Điều có vẻ chắc chắn là hầu hết AI được báo cáo
với các tính chất điện tử của phân tử và do đó với khả năng đều tập trung vào các mô tả khối xây dựng và trung tâm
phản ứng63,64. Tuy nhiên, tùy thuộc vào mức độ lý thuyết, việc phản ứng, trong khi bỏ qua rằng cần có bối cảnh toàn cầu
tính toán có thể nhanh chóng trở nên cồng kềnh và không thể hơn để thực sự hiểu được kết quả phản ứng. Ví dụ, trong
mở rộng được, thúc đẩy các cuộc nghiên cứu học máy không một số trường hợp, việc sửa đổi dung môi phản ứng và
chỉ đưa ra dự đoán DFT gần đúng65–67 mà còn khai thác thông nhiệt độ có thể làm thay đổi đáng kể nhận dạng của sản
tin cơ bản68. Do đó, việc phát triển AI có thể “hiểu” phản ứng phẩm chính và/hoặc nâng cao hiệu suất, trong một số
của khối xây dựng phân tử và dự đoán nhanh chóng các sản trường hợp - một quy tắc bất thành văn được các nhà hóa
phẩm phản ứng có thể xảy ra đã trở nên quan trọng như việc học tổng hợp hiểu rộng rãi. Do đó, việc bao gồm nhiệt độ
xác định các con đường tổng hợp ngược phù hợp. Điều thú vị phản ứng và dung môi được sử dụng trong vectơ mô tả có
là cả hai câu hỏi nghiên cứu đều có liên quan với nhau và có thể cải thiện hiệu suất của mô hình.
thể được giải quyết bằng nền tảng kiến thức tương tự55. Tuy Trong thời điểm AI cố gắng giành được sự tín nhiệm
nhiên, mặc dù có thể cho rằng việc lập kế hoạch tổng hợp của những người thực hành phòng thí nghiệm ướt, sẽ rất
ngược dựa trên AI có thể chỉ bắt nguồn từ các phản ứng hóa thú vị nếu chứng kiến nghiên cứu về học máy sẽ đi theo
học hiệu quả31, nhưng điều này hầu như không đúng đối với hướng mà các nhà hóa học tổng hợp có thể quan tâm. Để
việc dự đoán kết quả phản ứng/tổng hợp thuận. Điều này đặt khắc phục một số thiếu sót của các phương pháp trước đó
ra thách thức trước mắt đối với việc phát triển mô hình học và đáp ứng mức độ suy luận nhân tạo mà trực giác hóa học
máy có giám sát, vì tài liệu hóa học thiên về các phản ứng tạo thực sự mong đợi, Coley và cộng sự77 đã tăng cường cơ sở
sản phẩm trong khi bỏ qua các phương pháp không tạo ra sản dữ liệu phản ứng với các ví dụ tiêu cực nhưng hợp lý về mặt
phẩm69,70. Bất kỳ mô hình nhất định nào cũng chỉ có thể thực hóa học và tự động trích xuất các mẫu phản ứng trước khi
sự mong muốn có thể khái quát hóa nếu nó đã thấy tất cả các tạo ra một AI. Phương pháp này tiến hành thông qua quy
kịch bản đầu ra có thể xảy ra, tức là các phản ứng đã thành trình làm việc gồm hai bước, được bắt đầu bằng việc tạo ra
công và thất bại, lý tưởng nhất là theo cách định lượng (ví dụ: một nhóm sản phẩm lạc quan quá mức được tính toán từ
thông qua hiệu suất phản ứng), do đó tầm quan trọng của việc một tập hợp các tác nhân phản ứng truy vấn và các mẫu
báo cáo các thí nghiệm hóa học thất bại. Ví dụ: phương pháp phản ứng. Những sản phẩm ảo này sau đó được mạng lưới
tiếp cận mạng thần kinh hai giai đoạn được phát triển bởi thần kinh phân loại là đúng hoặc sai. Để đạt được điều này,
Kayala và cộng sự71 tận dụng đồ thị phân tử để tính gần đúng một bộ mã hóa mô tả mới sẽ thay đổi thứ tự liên kết trong
obitan phân tử và liệt kê các phản ứng có thể xảy ra dưới dạng trung tâm phản ứng, đồng thời, ngữ cảnh hóa học cục bộ đã
dòng điện tử. Bất chấp những kết quả đầy hứa hẹn của phương được sử dụng để chính thức hóa các phản ứng từ các bằng
pháp và việc sử dụng các quan niệm lý thuyết 'cấp thấp' làm sáng chế (cơ sở tri thức) và bộ thử nghiệm của Hoa Kỳ.
mô tả, tiện ích của phương pháp này bị hạn chế nghiêm trọng Việc tìm hiểu về bộ mô tả trung tâm phản ứng mới này
bởi dữ liệu huấn luyện có sẵn và nhu cầu mã hóa thủ công các mang lại lõi về khả năng hình thành sản phẩm, điểm này
Lớp Softmax quy tắc cơ học, có khả năng làm ảnh hưởng đến miền sử dụng cuối cùng có thể được chuyển đổi thành phân bố xác suất
Phương pháp chuẩn hóa vectơ của nó. bằng cái gọi là lớp softmax. Khi được triển khai, phương
có độ dài j thành phân bố xác pháp này cho thấy độ chính xác 72% đối với giải pháp được
suất chứa xác suất J trong
khoảng [0,1]. Tổng của tất cả
xếp hạng hàng đầu, điều này cho thấy rằng nó có tiện ích
các xác suất bằng 1,0. thực tế, ngay cả khi vẫn còn lâu mới đạt được kết quả mà
các nhà hóa học chuyên nghiệp đạt được.
Tuy nhiên, cách tiếp cận này vẫn mang tính thực tế, vì một số các rừng ngẫu nhiên bao gồm một số công cụ ước tính yếu —
phản ứng thường cạnh tranh nhau trong bình đáy tròn, nhưng một phương pháp được gọi là phương pháp tổng hợp — cùng
chỉ có một thực thể nổi lên là sản phẩm chính. Về vấn đề này, nhau cân bằng độ lệch phương sai và mang lại khả năng khái
các giá trị xác suất thấp cho từng sản phẩm phản ứng được liệt quát hóa tốt hơn (HỘP 1). Thông qua công nghệ này, Doyle
kê có thể được coi là phản ứng bẩn, hiệu suất thấp hoặc một và các đồng nghiệp33 đã thực hiện các dự đoán ngoài mẫu, tức
nghiên cứu trường hợp nằm ngoài phạm vi ứng dụng của AI và là dự đoán về các giá trị mô tả chưa từng thấy trước đây và
dẫn đến mức độ tin cậy thấp/sự không chắc chắn về dự đoán tận dụng các giả thuyết nghiên cứu bắt nguồn từ máy học để
cao. Gần đây hơn, việc đưa vào thông tin dung môi và mô tả tạo ra kiến thức mới. Ví dụ: phản ứng oxy hóa cộng hợp cạnh
của tất cả các chất có liên quan dưới dạng biểu đồ phân tử tranh của isoxazole vào Pd(0) đã được xác nhận là có tác
được lập bản đồ nguyên tử đã cho phép cải thiện hiệu suất động có hại đến các liên kết C–N (Hình 4b). Tuy nhiên,
quan trọng và tăng cường khả năng diễn giải mô hình. Bằng chúng tôi lập luận rằng đóng góp lớn nhưng ngoài ý muốn
cách áp dụng mạng nơ-ron tích chập, sản phẩm phản ứng của nghiên cứu này có hai mặt: nâng cao nhận thức85,86 về
chính có thể được xác định chính xác trong hơn 85% trường tầm quan trọng của việc sử dụng các mô tả có động cơ87 để
hợp, chỉ cần 100 mili giây tính toán cho mỗi phân tử78 (Hình xây dựng AI có liên quan và nhu cầu về các mô hình kiểm
4a). Mô hình này không chỉ có hiệu suất vượt trội so với AI soát để đánh giá tính hợp lệ của AI. Về vấn đề đó, các biện
trước đó mà còn có khả năng cạnh tranh với các chuyên gia về pháp kiểm soát đối nghịch nên được thiết kế để bác bỏ các giả
con người. Có thể cho rằng, các nghiên cứu đánh giá điểm thuyết về hiệu suất của mô hình thay thế và phân biệt giữa
chuẩn của con người đã bị bỏ qua trong khi phát triển một số việc khai thác các biến số/đồ tạo tác thử nghiệm gây nhiễu và
AI hứa hẹn nhất; thay vào đó, trọng tâm được dành cho các các mẫu có ý nghĩa về mặt hóa học. Các khuyến nghị kiểm
đánh giá hồi cứu hoặc so sánh với các phương pháp cơ bản và/ soát hợp lý, song song với thực hành tốt trong phòng thí
hoặc phương pháp thay thế. Mặc dù có giá trị nhưng những so nghiệm ướt, có thể được tìm thấy ở nơi khác88 và thực sự đã
sánh này thường không được dùng làm tiêu chuẩn cho lòng tin cho thấy tính hữu ích89. Trong một trường hợp, các hệ thống
của con người. Trong trường hợp cụ thể này, AI và một nhóm biến giả khác nhau, không liên quan đến hiểu biết hóa học,
chuyên gia hóa học độc lập đã cho thấy hiệu suất giống hệt được sử dụng để xác nhận các rừng ngẫu nhiên là các bộ
nhau trong việc đề xuất các sản phẩm phản ứng, điều này cho phân loại hiệu suất cao thực sự về tính chọn lọc vùng, tính
thấy tính hữu ích của AI, mặc dù sức mạnh thống kê bị hạn chọn lọc địa điểm và tính chọn lọc bất đối xứng trong các
chế do kích thước mẫu78. phản ứng Diels–Alder, chỉ khi một liên hợp của các chỉ số
Ở đầu đối diện của phổ học máy và ít được nghiên cứu kỹ điện tử và không gian được sử dụng làm đặc điểm (độ chính
hơn là dự đoán định lượng về sản lượng sản phẩm phản ứng. xác 74–83% đối với các biến giả so với độ chính xác 93% đối
Một lý do có thể giải thích cho sự ưu tiên chung của việc với các bộ mô tả không gian Hammett–89). Tương tự, một
phân loại so với các mô hình hồi quy là nhu cầu tiếp cận hiệu mô hình rừng ngẫu nhiên được phát triển từ các biến giả, tức
suất (sản lượng) phản ứng được đo lường một cách chính xác là coi mỗi giá trị đầu vào là một đặc điểm phân loại mà không
và tiêu chuẩn ở một lượng đáng kể, trong trường hợp sau. có ý nghĩa hóa học ngầm định, cũng mang lại hiệu suất thấp
Thật vậy, việc triển khai các phương pháp hồi quy chỉ được hơn trong việc dự đoán kết quả phản ứng khử oxy hóa so với
khuyến nghị nếu việc thu thập dữ liệu nghiêm ngặt được thực mô hình tận dụng các bộ mô tả hóa lý để lập bản đồ bối cảnh
hiện để đảm bảo chất lượng cao, điều này khó có thể khả thi phản ứng90 .
trong việc khai thác bằng sáng chế từ nhiều nguồn khác nhau,
như đã thảo luận trước đây. Để giảm thiểu hạn chế này và tận Tối ưu hóa điều kiện phản ứng
dụng lợi thế của sàng lọc phản ứng thông lượng cao, Doyle và Xác định các điều kiện tối ưu cho một phản ứng cụ thể là một
các đồng nghiệp33 đã phân tích 4.608 sản phẩm phản ứng khía cạnh quan trọng của sự phát triển phương pháp tổng
ghép chéo Buchwald–Hartwig chưa từng có, với sự có mặt hợp hiện đại. Tuy nhiên, việc tối ưu hóa quy trình trong hóa
của chất phụ gia isoxazole, để tạo ra nền tảng kiến thức cần học điều chế thường được thực hiện theo cách không có hệ
thiết cho việc học thống kê. Sử dụng các mô tả bất khả tri về thống và không được hỗ trợ về mặt thống kê, dẫn đến việc
mặt cơ chế chẳng hạn như các đặc điểm hóa học lượng tử, thực hiện nhiều thí nghiệm không cần thiết mà chỉ thu được
một mô hình rừng ngẫu nhiên dự đoán hiệu suất phản ứng thông tin hạn chế. Trên thực tế, việc tối ưu hóa các phản ứng
đã được xây dựng và cho thấy hoạt động tốt hơn các phương hóa học thường xuyên được thúc đẩy bởi kinh nghiệm trước
pháp cạnh tranh. Mặc dù hiện tại chúng đã được sử dụng đó và trực giác hóa học cũng như bằng cách thăm dò từng
trong hơn hai thập kỷ79,80, các rừng ngẫu nhiên vẫn có tính biến số phản ứng tại một thời điểm. Mặc dù cách tiếp cận này
cạnh tranh trong kỷ nguyên mạng lưới thần kinh sâu hiện có thể khả thi đối với các quy trình có số lượng biến độc lập
nay và thường cung cấp các công cụ ước tính mạnh mẽ với hạn chế - có thể lên tới bốn91 - nhưng điều tương tự không
khả năng ứng dụng đã được chứng minh trong khám phá đúng đối với các phản ứng phức tạp hơn, trong đó việc điều
thuốc81–84. Rừng ngẫu nhiên hoạt động bằng cách lấy mẫu chỉnh đồng thời một số tham số phản ứng là chìa khóa92. Việc
ngẫu nhiên dữ liệu trong cơ sở tri thức và xây dựng cây quyết thiết kế các phương pháp thử nghiệm cung cấp các công cụ có
định từ các bộ mô tả đã chọn. Điều quan trọng là chúng nổi giá trị để khắc phục những hạn chế của việc truy vấn các thay
tiếng vì khả năng xử lý các vectơ mô tả ngắn và dài cũng như đổi một biến. Không giống như hóa học điều chế, kỹ thuật
khả năng chịu nhiễu tín hiệu thử nghiệm. Lý tưởng nhất là hóa học và hóa học quy trình đã áp dụng rộng rãi các phương
các cây trong rừng được tách biệt khỏi phần còn lại để có pháp này để thăm dò đồng thời nhiều biến số một cách hiệu
được một điểm thuận lợi duy nhất về dữ liệu trong mỗi quả93, cụ thể là tối ưu hóa dung môi phản ứng94. Ví dụ, việc
trường hợp. Các dự đoán cây riêng lẻ sau đó được tổng hợp tính toán hằng số tốc độ dựa trên DFT kết hợp với mô hình
để tạo ra giá trị dự đoán trung bình (hoặc lớp đồng thuận). hồi quy tuyến tính cho phép xác định dung môi làm tăng
Không giống như các cây quyết định riêng lẻ có xu hướng hằng số tốc độ của phản ứng Menschutkin lên 40%.
phù hợp quá mức với dữ liệu,
www.nature.com/natrevchem
Reviews
a Nhóm phân tử Phân tử dưới dạng đồ thị Mã hóa dữ liệu Mạng nơ-ron
30 31
28 30 28 31
F 29 27 NH 2 13 14 16
O 12 O K 29 27 13 14 16
34
O 12
17 24 26 34
Br 24 26 N 32 O K 15 17
23
25 15 23 25 32
33
O 35
33 35
H 2O
4
O O 3 4 3
10 10 2
9 5 S 20 20
2 1
22 9 5 1
O N 22 19
6 19 18 8 6 21 18
HO 8 21
11 7
7
11
...
...
• Lượng dữ liệu cao
O 2N
Br
O O 2N
Br
O • Phương pháp phức tạp
0% (không trực quan)
H 2N F S H 2N F S
O O O O
b Sàng lọc phản ứng Tính toán mô tả DFT Rừng ngẫu nhiên
thông lượng cao
Nhập dữ liệu
Reaction
performance
Ví dụ Ưu điểm:
Chất xúc tác Pd (10 mol%)
NH 3 Chất phụ gia (1 molar đương lượng)
H
N
Phối tử? • Khả năng diễn giải mô hình
X
R R Bazơ? • Dự đoán định lượng
Bazơ (1,5 molar đương lượng.) Phụ gia?
DMSO (0,1 M), 60 °C, 16 giờ • Tính khái quát
• Khái niệm dễ hiểu
phụ gia chất xúc tác Pd Bazơ Nhược điểm:
(23 ví dụ) (4 ví dụ) (3 ví dụ) • Lượng dữ liệu cao
R N
• Sử dụng DFT và các bộ mô tả
O
có vấn đề
NH 2
N N N • Thiếu kiểm soát của con người
Pd Ligand
OTf
Hình 4 | So sánh hai phương pháp dự đoán sản phẩm phản ứng. a| Học sâu (mạng neural tích chập) sử dụng hạt nhân
đồ thị Weisfeiler–Lehman để dự đoán phân bố xác suất trong hỗn hợp sản phẩm-phản ứng. Trong bước đầu tiên, các
phân tử chất phản ứng (khối xây dựng phân tử, chất xúc tác, bazơ, phối tử và dung môi) được mô tả dưới dạng biểu đồ
ánh xạ nguyên tử, trước khi mã hóa dữ liệu. Phương pháp học sâu tính toán điểm khả năng cho các chỉnh sửa liên kết và
những thay đổi có khả năng xảy ra nhất sẽ được tính đến để tạo ra một nhóm tất cả các sản phẩm có thể có bằng cách
liệt kê. Có tính đến các quy tắc hóa trị hóa học, một mạng neural tích chập mới sẽ phục hồi các chất được dự đoán trước
đó để đủ khả năng phân phối xác suất. Phân tử có xác suất cao nhất tương ứng với sản phẩm chính theo mô hình thống
kê. b | Mô hình rừng ngẫu nhiên (tập hợp các cây quyết định) dự đoán kết quả phản ứng ghép C–N bằng cách xác định
các tổ hợp bazơ, chất xúc tác và phụ gia tối ưu. Sàng lọc phản ứng thông lượng cao cung cấp dữ liệu hóa học (biến mục
tiêu) để xây dựng mô hình học máy từ các mô tả lý thuyết hàm mật độ (DFT), có thể tốn kém về mặt tính toán và không
cần động cơ.
Đáng chú ý, kết quả này đạt được bằng cách chỉ thử tức là học sâu nhằm mục đích tối đa hóa phần thưởng
nghiệm 9 dung môi trong không gian tìm kiếm gồm 1.341 thông qua phương pháp phản hồi liên tục, có thể xác
dung môi95,96 — 0,7% không gian tìm kiếm. định một cách hiệu quả các giao thức tổng hợp được tối
Các phương pháp học sâu phức tạp đã chứng minh được ưu hóa thông qua việc lựa chọn lặp lại các thử nghiệm.
giá trị của chúng trong nhiệm vụ đầy thách thức và phù hợp Trong trường hợp không có dữ liệu huấn luyện thực tế,
này97. Trong một ví dụ, Zare và các đồng nghiệp98 đã chứng AI chủ yếu dựa vào việc tiền huấn luyện bằng các phản
minh cách học tăng cường, ứng mô phỏng bằng cách sử dụng
www.nature.com/natrevchem
Reviews
a
Học máy truyền thống Học tập tích cực
Cơ sở tri Đào tạo Lựa chọn thử
Cơ sở tri Huấn luyện thức Mô hình nghiệm
thức Mô hình Dự đoán1→n
Kiểm tra
Truy vấn1→n Truy vấn1→n
b c
1 Huấn luyện
Mục tiêu Phản ứng Lựa chọn
(không xác định) đầy đủ Mô hình rừng
ngẫu nhiên ngẫu nhiên phản ứng
Quan sát
Mục tiêu
Kiểm tra
Không gian tìm kiếm
Điều kiện Ví dụ
2 (0.5 mmol hoặc 0.6 mmol)
Mạng nơ-ron Bayes
Cl
OEt
O
+
H 2N N O N Cl
O OEt +
N N N O N Cl
H
C2-N C4-N
Điều kiện (chính) (phụ)
Điều kiện
Hình 5 | Học tập tích cực để tối ưu hóa các điều kiện phản ứng. a| So sánh học máy truyền thống và tích cực, ưu điểm,
nhược điểm và phạm vi ứng dụng của chúng. b | Quy trình làm việc của phần mềm Phoenics. Dữ liệu thử nghiệm (điều
kiện và kết quả phản ứng; các chấm màu xanh lục) được thực hiện để đánh giá và thăm dò không gian tìm kiếm của một
hàm mục tiêu chưa biết trước đó (đường cong màu xanh lam; bước 1). Số liệu thực nghiệm được xử lý thông qua
mạng thần kinh Bayes cung cấp mô hình mật độ dữ liệu liên tục, xác suất (bước 2). Sau đó, một mô hình thay thế (đường
cong màu xanh lá cây) sẽ được tính toán, mô tả hàm mục tiêu theo dữ liệu thực nghiệm và mô phỏng có trong tay (bước
3). Cuối cùng, mô hình thay thế bị thách thức bởi các hàm ước lượng hộp đen (đường cong màu tím và đỏ) khám phá và/
hoặc khai thác không gian tìm kiếm, phù hợp với các siêu tham số đã chọn. Sau đó, một loạt phản ứng được chọn để xác
thực thử nghiệm (kim cương đỏ) trước khi đưa kết quả đầu ra vào thuật toán (bước 4). Phoenics được chạy lặp đi lặp lại
cho một số lượng đánh giá được xác định trước. c | LabMate.AI sử dụng các rừng ngẫu nhiên để chọn thử nghiệm.
Phương pháp này yêu cầu một số lượng thử nghiệm ngẫu nhiên có giới hạn để tập hợp cơ sở kiến thức và được huấn
luyện lại đầy đủ sau mỗi lần lặp. Công nghệ này đã được xác nhận theo triển vọng bằng phản ứng ghép chéo C–N bằng
cách tìm kiếm không gian phản ứng (biểu đồ mật độ màu đen).
www.nature.com/natrevchem
Reviews
O
[0, 0, 1, …, 0]
Cl O O
[0, 0, 1, …, 1] Không phản ứng
...
...
Cl Khám phá
O
[0, 0, 0, …, 1]
lò phản
ứng phổ IR
O Cl
NMe 2 CO 2Me N
MeO2C O O
CO2Me NMe 2 N N N
MeCN DBU, MeCN N
+ + R Ph
25 ºC, 2 giờ NH
R= + Cl
N CO2Me MeO2C O N 25 ºC, 24 giờ
CO2Me Cl Cl
Hình 6 | Tự động khám phá hóa học mới. Một nhóm nguyên liệu ban đầu, bao gồm các khối xây dựng phân tử, chất xúc
tác và/hoặc phối tử, bazơ và dung môi, được cung cấp cho rô-bốt xử lý chất lỏng để sàng lọc và phân tích phản ứng tự động
(quang phổ hồng ngoại). Tất cả các nguyên liệu ban đầu được chuyển đổi thành các đơn vị có thể tính toán bằng cách tính
toán một chuỗi bit tương tự như mã hóa một lần, trong đó 1 biểu thị sự hiện diện của nguyên liệu ban đầu và 0 biểu thị sự
vắng mặt của nó. Vectơ kết quả mã hóa các phản ứng để phân loại bằng máy học. Bộ phân loại máy vectơ hỗ trợ (SVM) dự
đoán liệu một hỗn hợp phản ứng nhất định có hiệu quả (phản ứng) hay không (không phản ứng), dựa trên tổng đóng góp
của nguyên liệu ban đầu riêng lẻ và phân tích được ghi lại. Dữ liệu thu được dùng để cập nhật cơ sở kiến thức của thuật
toán thứ hai (phân tích phân biệt tuyến tính, LDA) phân tích không gian hóa học và chọn thử nghiệm tiếp theo với chính
sách thăm dò. Quy trình này được thực hiện theo một vòng khép kín. Sử dụng chiến lược này nhưng với thuật toán mạng
thần kinh, bốn phản ứng mới đã được phát hiện.
Liệu các phương pháp tiếp cận AI (tái) mới nổi này Mặc dù AI đã đạt được một số kết quả ấn tượng trong
cùng với lời hứa về điện toán lượng tử để tăng tốc độ lĩnh vực hóa học và khám phá thuốc trong một khoảng
tính toán119 có làm gián đoạn cách thực hiện nghiên thời gian tương đối ngắn, nhưng chúng tôi cho rằng học
cứu tổng hợp hóa học hay không vẫn là một câu hỏi máy chỉ có thể là một công cụ có giá trị giúp tăng năng
mà nhiều người mong muốn được giải đáp; sự tích suất và sẽ không thể thay thế trực giác của con người cũng
hợp chặt chẽ hơn và hình thức hóa trực giác hóa học như không phải là thuốc chữa bách bệnh; những thất bại
sẽ là chìa khóa cho tương lai thành công của nó. Hơn sẽ là một phần của quá trình trưởng thành về công nghệ
nữa, cần phải thiết lập sự hợp tác hiệu quả giữa các và phải được cộng đồng đón nhận, cùng với những thành
nhà khoa học về máy học và các nhà hóa học tương lai công của nó, như một cơ hội để phát triển các phương
để tạo điều kiện giao tiếp, cho phép đối chiếu thông pháp mạnh mẽ và chính xác hơn. Để đạt được điều này,
tin còn thiếu từ cơ sở dữ liệu, giải quyết các thách thức điều quan trọng là phải thu thập và đối chiếu dữ liệu được
theo cách phù hợp về mặt thống kê và dần dần xây tiêu chuẩn hóa và chất lượng cao, bất kể kết quả là tích
dựng niềm tin mà các nhà hóa học sẽ đặt vào trong cực hay tiêu cực, trong các kho lưu trữ. Xu hướng hiện tại
các công cụ học máy. trong tài liệu về kết quả tích cực cản trở sự phát triển của
Điều quan trọng là cả mã và tập dữ liệu đều phải nhiều ứng dụng và kiến trúc học máy hơn nữa trong hóa
được tiết lộ, bất cứ khi nào có thể, không chỉ vì mục học. Tương tự, các câu hỏi nghiên cứu phù hợp phải được
Máy vectơ hỗ trợ (SVM).
đích đo điểm chuẩn mà còn là thước đo tính minh đặt ra trước khi triển khai AI và phạm vi ứng dụng, các
Một phương pháp học máy
phân tách các điểm dữ liệu trong bạch về mặt khoa học sẽ giúp phát triển khả năng ưu điểm cũng như hạn chế của nó cần phải được hiểu rõ
siêu không gian thông qua các trừu tượng hóa học thế hệ tiếp theo và tạo dựng để đánh giá tiện ích và sự phù hợp của một thuật toán
hàm toán học được gọi là hạt niềm tin giữa những người hoài nghi nhiệt thành. nhất định cho một nhiệm vụ cụ thể. Để đạt được mục tiêu
nhân.
đó, việc thường xuyên đưa các biện pháp kiểm soát đối
nghịch vào thực hành học máy cho phép
Nature Reviews | Chemistry
Reviews
Học chuyển tiếp Hộp 2 | AI cho tổng hợp: tóm tắt hiện trạng
Một phương pháp tinh chỉnh mô
hình được đào tạo trên một tập Các công nghệ trí tuệ nhân tạo (AI) được xem xét ở đây cung cấp các giải pháp khả thi để giải quyết những thách thức lớn
hợp lớn hơn các dữ liệu liên trong tổng hợp hữu cơ mà trước đây đòi hỏi trực giác hóa học chuyên sâu. Phần cứng hiện tại, các thuật toán cải tiến và dung
quan. Phương pháp này được sử lượng lưu trữ ngày càng tăng cho phép xem xét kỹ lưỡng các biến vượt quá khả năng của con người và phát hiện các mẫu ẩn
dụng khi dữ liệu hạn chế để trả trong cả tập dữ liệu nhỏ và lớn. Các phương pháp hiện tại (xem bảng bên dưới) và trong tương lai cuối cùng sẽ hỗ trợ các nhà
lời câu hỏi nghiên cứu.
hóa học trong việc thiết kế các quy trình tổng hợp hiệu quả (dự đoán tổng hợp ngược và tổng hợp thuận), cải tiến chúng (tối
ưu hóa các điều kiện phản ứng) và xác định chất hóa học mới.
Phương pháp Thuật toán Dữ liệu đào tạo nguồn mở Tính khả dụng của mã nguồn
Dự đoán tổng hợp ngược
Jensen và Tìm kiếm sự tương https://github.com/connorcoley/ https://github.com/connorcoley/
cộng sự39 đồng (không học) retrosim retrosim
3N-MCTS MCTS + học sâu Không Không
Chematica Tìm kiếm cây + AI Không Không
Dự đoán sản phẩm phản ứng
Jensen và Học kĩ càng https://github.com/connorcoley/ https://github.com/connorcoley/
cộng sự78 rexgen_direct rexgen_direct
Doyle và Rừng ngẫu nhiên https://github.com/doylelab/ https://github.com/doylelab/
cộng sự33 rxnpredict rxnpredict
Tối ưu hóa điều kiện phản ứng
Phoenics Mạng nơ-ron Bayes https://github.com/aspuru-guzik- https://github.com/aspuru-
group/phoenics guzik-group/phoenics
LabMate.AI Rừng ngẫu nhiên https://github.com/ https://github.com/tcorodrigues/
tcorodrigues/ActiveLearning ActiveLearning
Khám phá hóa học mới
Cronin và SVM + phân tích https://github.com/croningp/ https://github.com/croningp/
cộng sự109 phân biệt tuyến tính reaction_learning, reaction_learning
https://science.sciencemag.org/
content/359/6374/429.long
Tìm kiếm cây MCTS, Monte Carlo; SVM, máy vectơ hỗ trợ.
sự khác biệt giữa việc khai thác các đồ tạo tác dữ liệu Khi các khám phá khoa học diễn ra với tốc độ ngày càng
và các mối tương quan thực sự là một bước hướng tới nhanh với sự hỗ trợ của hệ thống robot thông lượng
việc xác thực AI tốt hơn, bất kể phương pháp đó có cao120,121, giờ đây, đủ dữ liệu có thể được tạo và quản lý để
thể diễn giải hoàn hảo hay hộp đen. cung cấp nhiều phương pháp phỏng đoán học sâu - đây là
nền tảng chung cho tất cả các hệ thống thần kinh các ứng
dụng mạng được thảo luận ở đây. Hiện nay nó đã được
Vị trí 3
chứng minh nhiều lần và được chấp nhận rộng rãi rằng trí
thông minh của máy được thiết kế để phân tích dữ liệu lớn.
Robot Tuy nhiên, hầu hết các khám phá về khoa học sức khỏe do
(thiết kế Con người con người thực hiện đều là ngẫu nhiên hoặc được thực hiện
phân tử) trên cơ sở các tập dữ liệu nhỏ có hàm lượng thông tin cao122.
Việc hợp lý hóa việc khai thác khả năng tình cờ vẫn còn là
Vị trí 1 Vị trí 2 một thách thức nhưng các nghiên cứu gần đây cho thấy bằng
chứng cho thấy cả thử nghiệm hóa học mới và mới lạ đều có
Robot Robot thể được công bố bằng các thuật toán thích hợp. Học tập tích
(hóa học) (hóa học)
Con người
cực cũng tương đối chưa được khám phá trong khoa học hóa
Robot Robot học, tuy nhiên chúng tôi thấy trước vai trò nổi bật của nó
(phân tích) (phân tích) trong tương lai, như một phương tiện để phát hiện các ngoại
lệ và cơ hội cho những khám phá đột phá, như một phương
pháp được lựa chọn để nén thông tin một cách hiệu quả đến
Con người
mức tối thiểu có liên quan hoặc để phát hiện các mẫu tinh vi
Điều khiển từ xa trong các tập dữ liệu cực nhỏ. Ngoài ra, để điều hướng hiệu
quả các không gian tìm kiếm thưa thớt, các phương pháp học
Hình 7 | Robot kết nối mạng. Robot thông minh có sự giám sát của con người tại chỗ chuyển giao47 có thể trở nên hữu ích cao cho hóa học tổng
hoặc từ xa giao tiếp để đưa ra các thí nghiệm tốt nhất nhằm đạt được một mục tiêu nhất hợp, bằng cách đề xuất các phối tử thích hợp cho các phản
định. Mạng bao gồm các vòng phản hồi nhằm thúc đẩy quá trình học tập tích cực của dữ ứng được xúc tác kim loại - và như một sự bổ sung cho các
liệu được tạo ra (tổng hợp, phân tích hoặc thao tác khác) hướng tới vật chất hóa học có công nghệ hiện có123 - bằng cách đề xuất các điều kiện phản
giá trị cao. ứng từ đầu hoặc phân phối sản phẩm
www.nature.com/natrevchem
Reviews
Việc kết hợp rộng rãi những công nghệ này trong công nghệ silico Ví dụ, phương pháp học không giám sát đơn giản nhất,
với robot để tự động thực hiện sàng lọc phản ứng và các nhiệm vụ liên chẳng hạn như phương pháp phỏng đoán giảm kích
quan có thể cải thiện đáng kể hiệu suất trong các phòng thí nghiệm hóa thước, có thể không chỉ giúp ích đáng kể cho các nhà
học ở các công ty khoa học học thuật, dược phẩm, hóa chất và vật liệu. nghiên cứu trong việc thiết kế các thí nghiệm tốt hơn và
Việc chuẩn hóa mã hóa học với phần cứng riêng biệt để tổng hợp có động cơ tốt hơn phù hợp với nhu cầu của dự án mà
theo yêu cầu đang diễn ra99,124 và cung cấp bằng chứng chắc chắn về còn phát hiện các ngoại lệ và đóng vai trò là điểm khởi
tiện ích của việc triển khai giao diện con người-AI-robot. Tương tự đầu cho quá trình nghiên cứu. triển khai các phương
như vậy, các giao diện robot-robot điển hình nguyên mẫu với hóa học pháp phỏng đoán học có giám sát, trong các trường hợp
đa nhiệm trong thời gian thực đã được phát minh125. Internet kết nối sử dụng trong đó quyền truy cập vào dữ liệu bị hạn chế.
van vật hứa hẹn sẽ cách mạng hóa nghiên cứu hóa học126 và thúc đẩy sự Nhìn chung, chúng tôi dự tính một tương lai trong đó hóa
tích hợp của nó trong bối cảnh phát triển toàn diện (Hình 7), trong đó học kỹ thuật số và hóa học thực nghiệm được kết hợp liền
các nhà nghiên cứu con người có thể giám sát các quy trình từ xa. Tuy mạch để cho phép nghiên cứu dựa trên xác suất, hiệu quả
nhiên, tác động thực sự của AI sẽ chủ yếu trở nên rõ ràng thông qua hơn và xác định các giải pháp khả thi cho những thách
quá trình dân chủ hóa đang diễn ra ở nhiều môi trường phòng thí thức lớn của hóa học.
nghiệm khác nhau, cụ thể là giữa những người thực hành trong phòng
thí nghiệm ướt.
1. Nantermet, P. G. Reaction: the art of synthetic chemistry in the era of big data. Drug Discov. Today 43. Friedrich, L., Rodrigues, T., Neuhaus, C. S., Schneider, P.
chemistry. Chem 1, 335–336 (2016). 19, 859–868 (2014). & Schneider, G. From complex natural products to
2. Nicolaou, K. C. & Chen, J. S. The art of total synthesis 23. Tetko, I. V., Engkvist, O., Koch, U., Reymond, J. L. & simple synthetic mimetics by computational de novo
through cascade reactions. Chem. Soc. Rev. 38, Chen, H. BIGCHEM: challenges and opportunities for design. Angew. Chem. Int. Ed. 55, 6789–6792 (2016).
2993–3009 (2009). big data analysis in chemistry. Mol. Inf. 35, 615–621 44. Lewell, X. Q., Judd, D. B., Watson, S. P. & Hann, M. M.
3. Baran, P. S. Natural product total synthesis: as exciting (2016). RECAP — retrosynthetic combinatorial analysis
as ever and here to stay. J. Am. Chem. Soc. 140, 24. Henson, A. B., Gromski, P. S. & Cronin, L. procedure: a powerful new technique for identifying
4751–4755 (2018). Designing algorithms to aid discovery by chemical privileged molecular fragments with useful applications
4. Ley, S. V. The engineering of chemical synthesis: robots. ACS Cent. Sci. 4, 793–804 (2018). in combinatorial chemistry. J. Chem. Inf. Comput. Sci.
humans and machines working in harmony. 25. Rich, A. S. & Gureckis, T. M. Lessons for artificial 38, 511–522 (1998).
Angew. Chem. Int. Ed. 57, 5182–5183 (2018). intelligence from the study of natural stupidity. 45. Reker, D., Bernardes, G. J. L. & Rodrigues, T.
5. Bergman, R. G. & Danheiser, R. L. Reproducibility Nat. Mach. Intell. 1, 174–180 (2019). Computational advances in combating colloidal
in chemical research. Angew. Chem. Int. Ed. 55, 26. Ekins, S. et al. Exploiting machine learning for end- aggregation in drug discovery. Nat. Chem. 11,
12548–12549 (2016). to-end drug discovery and development. Nat. Mater. 402–418 (2019).
6. Duros, V. et al. Human versus robots in the discovery 18, 435–441 (2019). 46. Liu, B. et al. Retrosynthetic reaction prediction using
and crystallization of gigantic polyoxometalates. 27. Wishart, D. S. et al. DrugBank 5.0: a major update to neural sequence-to-sequence models. ACS Cent. Sci.
Angew. Chem. Int. Ed. 56, 10815–10820 (2017). the DrugBank database for 2018. Nucleic Acids Res. 3, 1103–1113 (2017).
7. Roch, L. M. et al. ChemOS: Orchestrating autonomous 46, D1074–D1082 (2018). 47. Altae-Tran, H., Ramsundar, B., Pappu, A. S. & Pande, V.
experimentation. Science Robot. 3, eaat5559 (2018). 28. Gaulton, A. et al. The ChEMBL database in 2017. Low data drug discovery with one-shot learning.
8. Schneider, G. Mind and machine in drug design. Nucleic Acids Res. 45, D945–D954 (2017). ACS Cent. Sci. 3, 283–293 (2017).
Nat. Mach. Intell. 1, 128–130 (2019). 29. Kim, S. et al. PubChem 2019 update: improved 48. Chen, H., Engkvist, O., Wang, Y., Olivecrona, M. &
9. Wang, Y. et al. Acoustic droplet ejection enabled access to chemical data. Nucleic Acids Res. 47, Blaschke, T. The rise of deep learning in drug discovery.
automated reaction scouting. ACS Cent. Sci. 5, D1102–D1109 (2019). Drug Discov. Today 23, 1241–1250 (2018).
451–457 (2019). 30. Grzybowski, B. A. et al. Chematica: A story of 49. Ching, T. et al. Opportunities and obstacles for deep
10. Fitzpatrick, D. E., Battilocchio, C. & Ley, S. V. Enabling computer code that started to think like a chemist. learning in biology and medicine. J. R. Soc. Interface
technologies for the future of chemical synthesis. Chem 4, 390–398 (2018). 15, 20170387 (2018).
ACS Cent. Sci. 2, 131–138 (2016). 31. Segler, M. H. S., Preuss, M. & Waller, M. P. Planning 50. Baylon, J. L., Cilfone, N. A., Gulcher, J. R. &
11. Ley, S. V., Fitzpatrick, D. E., Myers, R. M., chemical syntheses with deep neural networks and Chittenden, T. W. Enhancing retrosynthetic reaction
Battilocchio, C. & Ingham, R. J. Machine-assisted symbolic AI. Nature 555, 604–610 (2018). prediction with deep learning using multiscale
organic synthesis. Angew. Chem. Int. Ed. 54, 32. Schneider, N., Lowe, D. M., Sayle, R. A., Tarselli, M. A. reaction classification. J. Chem. Inf. Model. 59,
10122–10136 (2015). & Landrum, G. A. Big data from pharmaceutical 673–688 (2019).
12. Lehmann, J. W., Blair, D. J. & Burke, M. D. Toward patents: A computational analysis of medicinal 51. Fialkowski, M., Bishop, K. J., Chubukov, V. A.,
generalization of iterative small molecule synthesis. chemists’ bread and butter. J. Med. Chem. 59, Campbell, C. J. & Grzybowski, B. A. Architecture and
Nat. Rev. Chem. 2, 0115 (2018). 4385–4402 (2016). evolution of organic chemistry. Angew. Chem. Int. Ed.
13. Corey, E. J. & Wipke, W. T. Computer-assisted design 33. Ahneman, D. T., Estrada, J. G., Lin, S., Dreher, S. D. & 44, 7263–7269 (2005).
of complex organic syntheses. Science 166, 178–192 Doyle, A. G. Predicting reaction performance in C–N 52. Gothard, C. M. et al. Rewiring chemistry: algorithmic
(1969). cross-coupling using machine learning. Science 360, discovery and experimental validation of one-pot
14. Pensak, D. A. & Corey, E. J. in Computer-Assisted 186–190 (2018). reactions in the network of organic chemistry.
Organic Synthesis Ch. 1 (eds Wipke, W. T. & 34. Roughley, S. D. & Jordan, A. M. The medicinal Angew. Chem. Int. Ed. 51, 7922–7927 (2012).
Howe, W. J.) 1-32 (American Chemical Society, chemist’s toolbox: an analysis of reactions used in 53. Grzybowski, B. A., Bishop, K. J., Kowalczyk, B. &
1977). the pursuit of drug candidates. J. Med. Chem. 54, Wilmer, C. E. The ‘wired’ universe of organic chemistry.
15. Lajiness, M. S., Maggiora, G. M. & 3451–3479 (2011). Nat. Chem. 1, 31–36 (2009).
Shanmugasundaram, V. Assessment of the 35. Lowe, D. AI designs organic syntheses. Nature 555, 54. Kowalik, M. et al. Parallel optimization of synthetic
consistency of medicinal chemists in reviewing 592–593 (2018). pathways within the network of organic chemistry.
sets of compounds. J. Med. Chem. 47, 4891–4896 36. Coley, C. W., Green, W. H. & Jensen, K. F. Machine Angew. Chem. Int. Ed. 51, 7928–7932 (2012).
(2004). learning in computer-aided synthesis planning. 55. Segler, M. H. S. & Waller, M. P. Neural-symbolic
16. Earkin, D. R. & Warr, W. A. in Computer-Assisted Acc. Chem. Res. 51, 1281–1289 (2018). machine learning for retrosynthesis and reaction
Organic Synthesis Ch. 10 (eds Wipke, W. T. & 37. Gelernter, H. L. et al. Empirical explorations of prediction. Chem. Eur. J. 23, 5966–5971 (2017).
Howe, W. J.) 217-226 (American Chemical Society, SYNCHEM. Science 197, 1041–1049 (1977). 56. Silver, D. et al. Mastering the game of Go with
1977). 38. Cadeddu, A., Wylie, E. K., Jurczak, J., Wampler-Doty, M. deep neural networks and tree search. Nature 529,
17. Sridharan, N. S. in Computer-Assisted Organic & Grzybowski, B. A. Organic chemistry as a language 484–489 (2016).
Synthesis Ch. 7 (eds Wipke, W. T. & Howe, W. J.) and the implications of chemical linguistics for 57. Browne, C. et al. A survey of Monte Carlo tree search
148-178 (American Chemical Society, 1977). structural and retrosynthetic analyses. Angew. Chem. methods. IEEE Trans. Comput. Intell. AI Games 4,
18. Wipke, W. T., Ouchi, G. I. & Krishnan, S. Simulation and Int. Ed. 53, 8108–8112 (2014). 1–43 (2012).
evaluation of chemical synthesis—SECS: An application 39. Coley, C. W., Rogers, L., Green, W. H. & Jensen, K. F. 58. Schreck, J. S., Coley, C. W. & Bishop, K. J. M. Learning
of artificial intelligence techniques. Artif. Intell. 11, Computer-assisted retrosynthesis based on retrosynthetic planning through simulated experience.
173–193 (1978). molecular similarity. ACS Cent. Sci. 3, 1237–1245 ACS Cent. Sci. 5, 970–981 (2019).
19. Hessler, G. & Baringhaus, K. H. Artificial intelligence (2017). 59. Szymkuc, S. et al. Computer-assisted synthetic planning:
in drug design. Molecules 23, E2520 (2018). 40. Hartenfeller, M. et al. DOGS: reaction-driven de novo The end of the beginning. Angew. Chem. Int. Ed. 55,
20. Sellwood, M. A., Ahmed, M., Segler, M. H. & Brown, N. design of bioactive compounds. PLoS Comput. Biol. 8, 5904–5937 (2016).
Artificial intelligence in drug discovery. Future Med. e1002380 (2012). 60. Klucznik, T. et al. Efficient syntheses of diverse,
Chem. 10, 2025–2028 (2018). 41. Rodrigues, T. et al. De novo design and optimization of medicinally relevant targets planned by computer and
21. Aspuru-Guzik, A., Lindh, R. & Reiher, M. The matter Aurora A kinase inhibitors. Chem. Sci. 4, 1229–1233 executed in the laboratory. Chem 4, 522–532 (2018).
simulation (r)evolution. ACS Cent. Sci. 4, 144–152 (2013). 61. Molga, K., Dittwald, P. & Grzybowski, B. A. Navigating
(2018). 42. Rodrigues, T. et al. Steering target selectivity and around patented routes by preserving specific motifs
22. Lusher, S. J., McGuire, R., van Schaik, R. C., potency by fragment-based de novo drug design. along computer-planned retrosynthetic pathways.
Nicholson, C. D. & de Vlieg, J. Data-driven medicinal Angew. Chem. Int. Ed. 52, 10006–10009 (2013). Chem 5, 460–473 (2019).
62. Badowski, T., Molga, K. & Grzybowski, B. A. Selection 89. Beker, W., Gajewska, E. P., Badowski, T. & 112. Blakemore, D. C. et al. Organic synthesis provides
of cost-effective yet chemically diverse pathways from Grzybowski, B. A. Prediction of major regio-, site-, opportunities to transform drug discovery. Nat. Chem.
the networks of computer-generated retrosynthetic and diastereoisomers in diels-alder reactions by 10, 383–394 (2018).
plans. Chem. Sci. 10, 4640–4651 (2019). using machine-learning: the importance of physically 113. Roberts, R. M. Serendipity: Accidental Discoveries
63. Burke, K. Perspective on density functional theory. meaningful descriptors. Angew. Chem. Int. Ed. 58, in Science 1-288 (John Wiley & Sons, 1989).
J. Chem. Phys. 136, 150901 (2012). 4515–4519 (2019). 114. Davey, S. Rapid reaction discovery. Nat. Chem. 4,
64. Chermette, H. Chemical reactivity indexes in density 90. Nielsen, M. K., Ahneman, D. T., Riera, O. & 69 (2012).
functional theory. J. Comput. Chem. 20, 129–154 Doyle, A. G. Deoxyfluorination with sulfonyl 115. McNally, A., Prier, C. K. & MacMillan, D. W. Discovery
(1999). fluorides: navigating reaction space with machine of an alpha-amino C–H arylation reaction using the
65. Hegde, G. & Bowen, R. C. Machine-learned learning. J. Am. Chem. Soc. 140, 5004–5008 strategy of accelerated serendipity. Science 334,
approximations to density functional theory (2018). 1114–1117 (2011).
Hamiltonians. Sci. Rep. 7, 42669 (2017). 91. Halford, G. S., Baker, R., McCredden, J. E. & Bain, J. D. 116. Amara, Z. et al. Automated serendipity with
66. Smith, J. S., Isayev, O. & Roitberg, A. E. ANI-1: How many variables can humans process? Psychol. Sci. self-optimizing continuous-flow reactors. Eur. J. Org.
an extensible neural network potential with DFT 16, 70–76 (2005). Chem. 2015, 6141–6145 (2015).
accuracy at force field computational cost. Chem. Sci. 92. Leardi, R. Experimental design in chemistry: A tutorial. 117. Dragone, V., Sans, V., Henson, A. B., Granda, J. M.
8, 3192–3203 (2017). Anal. Chim. Acta 652, 161–172 (2009). & Cronin, L. An autonomous organic reaction search
67. Grisafi, A. et al. Transferable machine-learning model 93. Murray, P. M. et al. The application of design of engine for chemical reactivity. Nat. Commun. 8,
of the electron density. ACS Cent. Sci. 5, 57–64 (2019). experiments (DoE) reaction optimisation and 15733 (2017).
68. Sadowski, P., Fooshee, D., Subrahmanya, N. & solvent selection in the development of new synthetic 118. Gromski, P. S., Henson, A. B., Granda, J. M. & Cronin, L.
Baldi, P. Synergies between quantum mechanics and chemistry. Org. Biomol. Chem. 14, 2373–2384 How to explore chemical space using algorithms and
machine learning in reaction prediction. J. Chem. Inf. (2016). automation. Nat. Rev. Chem. 3, 119–128 (2019).
Model. 56, 2125–2128 (2016). 94. Austin, N. D., Sahinidis, N. V., Konstantinov, I. A. 119. Cao, Y., Romero, J. & Aspuru-Guzik, A. Potential of
69. Moosavi, S. M. et al. Capturing chemical intuition in & Trahan, D. W. COSMO-based computer-aided quantum computing for drug discovery. IBM J. Res.
synthesis of metal-organic frameworks. Nat. Commun. molecular/mixture design: A focus on reaction Dev. 62, 6:1–6:20 (2019).
10, 539 (2019). solvents. AIChE J. 63, 104–122 (2018). 120. Rodrigues, T. et al. Multidimensional de novo design
70. Raccuglia, P. et al. Machine-learning-assisted 95. Struebing, H. et al. Computer-aided molecular design reveals 5-HT2B2B receptor-selective ligands.
materials discovery using failed experiments. Nature of solvents for accelerated reaction kinetics. Nat. Chem. Angew. Chem. Int. Ed. 54, 1551–1555 (2015).
533, 73–76 (2016). 5, 952–957 (2013). 121. Reutlinger, M., Rodrigues, T., Schneider, P. &
71. Kayala, M. A., Azencott, C. A., Chen, J. H. & Baldi, P. 96. Truhlar, D. G. Chemical reactivity: Inverse solvent Schneider, G. Combining on-chip synthesis of a
Learning to predict chemical reactions. J. Chem. Inf. design. Nat. Chem. 5, 902–903 (2013). focused combinatorial library with computational
Model. 51, 2209–2222 (2011). 97. Gao, H. et al. Using machine learning to predict target prediction reveals imidazopyridine GPCR
72. Fooshee, D. et al. Deep learning for chemical reaction suitable conditions for organic reactions. ACS Cent. ligands. Angew. Chem. Int. Ed. 53, 582–585 (2014).
prediction. Mol. Syst. Des. Eng. 3, 442–452 (2018). Sci. 4, 1465–1476 (2018). 122. Ban, T. A. The role of serendipity in drug discovery.
73. Schwaller, P., Gaudin, T., Lanyi, D., Bekas, C. & 98. Zhou, Z., Li, X. & Zare, R. N. Optimizing chemical Dialogues Clin. Neurosci. 8, 335–344 (2006).
Laino, T. “Found in Translation”: predicting outcomes reactions with deep reinforcement learning. ACS Cent. 123. Rosales, A. R. et al. Rapid virtual screening of
of complex organic chemistry reactions using neural Sci. 3, 1337–1344 (2017). enantioselective catalysts using CatVS. Nat. Catal. 2,
sequence-to-sequence models. Chem. Sci. 9, 99. Bedard, A. C. et al. Reconfigurable system for 41–45 (2019).
6091–6098 (2018). automated optimization of diverse chemical reactions. 124. Steiner, S. et al. Organic synthesis in a modular
74. Wei, J. N., Duvenaud, D. & Aspuru-Guzik, A. Neural Science 361, 1220–1225 (2018). robotic system driven by a chemical programming
networks for the prediction of organic chemistry 100. Reker, D. & Schneider, G. Active-learning strategies in language. Science 363, eaav2211 (2019).
reactions. ACS Cent. Sci. 2, 725–732 (2016). computer-assisted drug discovery. Drug. Discov. Today 125. Caramelli, D. et al. Networking chemical robots
75. Hughes, T. B., Dang, N. L., Miller, G. P. & 20, 458–465 (2015). for reaction multitasking. Nat. Commun. 9, 3406
Swamidass, S. J. Modeling reactivity to biological 101. Reker, D., Schneider, P. & Schneider, G. Multi- (2018).
macromolecules with a deep multitask network. objective active machine learning rapidly improves 126. Fitzpatrick, D. E., Maujean, T., Evans, A. C. & Ley, S. V.
ACS Cent. Sci. 2, 529–537 (2016). structure–activity models and reveals new protein– Across-the-world automated optimization and
76. Hughes, T. B., Miller, G. P. & Swamidass, S. J. protein interaction inhibitors. Chem. Sci. 7, continuous-flow synthesis of pharmaceutical agents
Modeling epoxidation of drug-like molecules with 3919–3927 (2016). operating through a cloud-based server. Angew. Chem.
a deep machine learning network. ACS Cent. Sci. 1, 102. Reker, D. & Brown, J. B. Selection of informative Int. Ed. 57, 15128–15132 (2018).
168–180 (2015). examples in chemogenomic datasets. Methods Mol. 127. Lavecchia, A. Machine-learning approaches in drug
77. Coley, C. W., Barzilay, R., Jaakkola, T. S., Green, W. H. Biol. 1825, 369–410 (2018). discovery: methods and applications. Drug Discov.
& Jensen, K. F. Prediction of organic reaction outcomes 103. Reker, D., Schneider, P., Schneider, G. & Brown, J. B. Today 20, 318–331 (2015).
using machine learning. ACS Cent. Sci. 3, 434–443 Active learning for computational chemogenomics. 128. Butler, K. T., Davies, D. W., Cartwright, H., Isayev, O.
(2017). Future Med. Chem. 9, 381–402 (2017). & Walsh, A. Machine learning for molecular and
78. Coley, C. W. et al. A graph-convolutional neural 104. Sans, V., Porwol, L., Dragone, V. & Cronin, L. A self materials science. Nature 559, 547–555 (2018).
network model for the prediction of chemical reactivity. optimizing synthetic organic reactor system using 129. Jordan, M. I. & Mitchell, T. M. Machine learning:
Chem. Sci. 10, 370–377 (2019). real-time in-line NMR spectroscopy. Chem. Sci. 6, Trends, perspectives, and prospects. Science 349,
79. Breiman, L. Random forests. Mach. Learn. 45, 5–32 1258–1264 (2015). 255–260 (2015).
(2001). 105. Häse, F., Roch, L. M., Kreisbeck, C. & Aspuru-Guzik, A. 130. Sanchez-Lengeling, B. & Aspuru-Guzik, A. Inverse
80. Ho, T. K. The random subspace method for constructing Phoenics: A Bayesian optimizer for chemistry. molecular design using machine learning: Generative
decision forests. IEEE Trans. Pattern Anal. Mach. Intell. ACS Cent. Sci. 4, 1134–1145 (2018). models for matter engineering. Science 361, 360–365
20, 832–844 (1998). 106. Frazier, P. I. A tutorial on Bayesian optimization. (2018).
81. Rodrigues, T. et al. De novo fragment design for drug Preprint at arXiv https://arxiv.org/abs/1807.02811 131. Wallach, I. & Heifets, A. Most ligand-based classification
discovery and chemical biology. Angew. Chem. Int. Ed. (2018). benchmarks reward memorization rather than
54, 15079–15083 (2015). 107. Brochu, E., Cora, V. M. & Freitas, N. d. A tutorial on generalization. J. Chem. Inf. Model. 58, 916–932
82. Rodrigues, T. et al. Machine intelligence decrypts Bayesian optimization of expensive cost functions, with (2018).
beta-lapachone as an allosteric 5-lipoxygenase application to active user modeling and hierarchical
inhibitor. Chem. Sci. 9, 6899–6903 (2018). reinforcement learning. Preprint at arXiv https://arxiv. Acknowledgements
83. Richter, M. F. et al. Predictive compound accumulation org/abs/1012.2599 (2010). A.F.A. acknowledges Fundação para a Ciência e Tecnologia
rules yield a broad-spectrum antibiotic. Nature 545, 108. Reker, D., Bernardes, G. J. L. & Rodrigues, T. (FCT) Portugal for financial support through a PhD grant (PD/
299–304 (2017). Evolving and nano data enabled machine intelligence BD/143125/2019). T.R. is an investigador auxiliar supported
84. Wolfe, J. M. et al. Machine learning to predict for chemical reaction optimization. Preprint at by FCT Portugal (CEECIND/00887/2017). T.R. acknowledges
cell-penetrating peptides for antisense delivery. ChemRxiv https://chemrxiv.org/articles/Evolving_ FCT/FEDER (02/SAICT/2017, grant 28333) for funding.
ACS Cent. Sci. 4, 512–520 (2018). and_Nano_Data_Enabled_Machine_Intelligence_for_ The authors thank the reviewers for their comments.
85. Chuang, K. V. & Keiser, M. J. Comment on “Predicting Chemical_Reaction_Optimization/7291205/1
reaction performance in C–N cross-coupling using (2018). Author contributions
machine learning”. Science 362, eaat8603 (2018). 109. Granda, J. M., Donina, L., Dragone, V., Long, D. L. & The authors contributed equally to all aspects of the article.
86. Estrada, J. G., Ahneman, D. T., Sheridan, R. P., Cronin, L. Controlling an organic synthesis robot with
Dreher, S. D. & Doyle, A. G. Response to Comment machine learning to search for new reactivity. Nature Competing interests
on “Predicting reaction performance in C–N cross- 559, 377–381 (2018). The authors declare no competing interests.
coupling using machine learning”. Science 362, 110. Ahmadi, M., Vogt, M., Iyer, P., Bajorath, J. & Frohlich, H.
eaat8763 (2018). Predicting potent compounds via model-based global Peer review information
87. Skoraczynski, G. et al. Predicting the outcomes of optimization. J. Chem. Inf. Model. 53, 553–559 Nature Reviews Chemistry thanks R. Lewis and B. Maryasin
organic reactions via machine learning: are current (2013). for their contribution to the peer review of this work.
descriptors sufficient? Sci. Rep. 7, 3582 (2017). 111. Patil, P. C. & Luzzio, F. A. Synthesis of extended
88. Chuang, K. V. & Keiser, M. J. Adversarial controls oxazoles II: Reaction manifold of 2-(halomethyl)- Publisher’s note
for scientific machine learning. ACS Chem. Biol. 13, 4,5-diaryloxazoles. Tetrahedron Lett. 57, 757–759 Springer Nature remains neutral with regard to jurisdictional
2819–2821 (2018). (2016). claims in published maps and institutional affiliations.
www.nature.com/natrevchem