Tổng Hợp Các Thuật Toán Docking

A.
RIGID-BODY DOCKING
Nguyên lý:
■ Nếu các góc liên kết, độ dài liên kết, góc xoắn của các thành phần không bị thay đổi ở
bất kỳ giai đoạn nào của quá trình tạo phức, nó được gọi là rigid-body docking.
■ Rigid-body docking tạo ra một số lượng lớn các cấu dạng phù hợp về sự bổ sung hình
dạng và bề mặt, sau đó xếp hạng các cấu dạng dựa trên năng lượng tự do.
■ Các ứng dụng rigid-body docking như ZDOCK sử dụng thuật toán shape matching
(SM) . SM là phương pháp tiếp cận xen phủ hình học giữa 2 phân tử. Các thuật toán
khác nhau được sử dụng để tạo ra một số liên kết phối tử và thụ thể. Phương pháp này
có thể xác định các vị trí liên kết có thể có của 1 protein bằng cách tìm kiếm bề mặt
protein. Các thuật toán cụ thể của SM thiết lập các cấu dạng có thể có vào vị trí liên
kết được dự đoán.
Các bước thực hiện tìm kiếm:
1. Biểu diễn phân tử dạng kĩ thuật số (từ tọa độ nguyên tử) bằng các hàm rời rạc 3 chiều
phân biệt giữa bề mặt và bên trong phân tử.
2. Tính toán, sử dụng biến đổi Fourier (Fourier transformation), một hàm tương quan
đánh giá mức độ xen phủ của bề mặt phân tử và sự thâm nhập tương đối của phân tử
trong không gian 3 chiều.
3. Quét tương đối các hướng của các phân tử trong không gian 3 chiều.
 Thuật toán FFT ( Fast Fourier transformation): Thuật toán cung cấp danh sách
các giá trị tương quan chỉ ra mức độ ghép nối hình học giữa các bề mặt các phân tử:
dựa vào 6 số liệu mô tả vị trí tương đối của phân tử (tịnh tiến và quay). Katchalski-
Katzir et al. (1992)
■ FFT cũng khám phá một cách có hệ thống không gian gắn cấu dạng sử dụng tương tác
tĩnh điện hoặc cả tương tác tĩnh điện và sự solvat hóa, tuy nhiên hàm tương quan còn
nhiều hạn chế.
Các phần mềm sử dụng thuật toán FFT:

■ FRODOCK: FFT Phân tích sóng cầu để tìm kiếm trên không gian 3D
■ Để cải thiện FFT docking, năng lượng tương tác nguyên tử được thêm vào để ước tính
năng lượng de solvat hóa trong RDOCK và tương tác tĩnh điện trong ZDOCK.
■ Ngoài ra cũng có các thuật toán dựa trên FFT như Hex.
■ MEGADOCK tương tự như ZDOCK trong việc tạo ra cấu dạng docking trong không
gian lưới 3D. Nhưng tinh toan nhanh hơn ZDOCK 8,8 lần do sử dụng hàm đơn giản
hơn.
■ Phần mềm DOT.
■ Các chương trình khác gồm SOFTDOCK, BiGGER và SKE-DOCK. Để kết nối hiệu
quả, mỗi điểm lưới được cho giá trị “1” khi gắn protein và “0” khi không có protein.
Hệ thống lưới này tương tự như tìm kiếm dựa trên FFT nhưng đơn giản hơn.
■ Để cải thiện FFT, F 2 Dock được phát triển dựa trên sự bổ sung hình dạng và tinh
điểm dựa trên thế Cu-lông (Coulombic potentials). Những đóng góp này được chứng
minh hiệu quả với hơn 70% bound-unbound complexes. RMSD thấp nhất được cải
thiện ít nhất 0.5A° với 45 phức hợp bound-unbound và nhỏ hơn 27 bound-bound
complexes.
 DOCK là một trong những phần mềm đầu tiên sử dụng tập hợp hình cầu trong việc
xác định tương tác ligand-protein. Thể tích chiếm bởi phối tử phụ thuộc vào đường
kính hình cầu bên trong binding pocket.
 SDOCK thực hiện tìm kiếm toan bộ bởi sự bổ sung năng lượng thế van der Walls, sự
va chạm hình học, sang lọc tinh điện, desolvation…
 Các phần mềm khác: Cell-Dock, LZerD, PatchDock,GAPDOCK
Carles Pons 1, Daniel Jiménez-González, Cecilia González-Álvarez, Harald

Servat, Daniel Cabrera-Benítez, Xavier Aguilar, Juan Fernández-Recio Cell-Dock:
high-performance protein-protein docking (2012)
Kết luận:
■ Mặc dù ái lực ligand-protein được xác định chủ yếu bằng đặc tinh lý-hóa, nhưng bổ
sung hình dạng là phần chủ yếu trong rigid-body docking (O’Sulivanetal 1991)
■ Do đó các thuật toán này thường không phù hợp với những cấu trúc unbound và mang
lại nhiều kết quả dương tinh giả xa so với phức hợp gốc, mặc dù có sự bổ sung bề mặt
tốt.
■ Thuật toán FFT chỉ đưa ra dự đoán chính xác khi những thay đổi cấu trúc là nhỏ, khi
những thay đổi cấu dạng vượt quá sự cho phép của thuật toán thì không mang lại kết
quả chinh xác. VD: trypsin-trypsin inhibitor (Katchalski-Katzir et al. (1992))
=> Rigid-body docking được sử dụng cho sàng lọc ảo ban đầu, phương pháp này được sử
dụng như là con đường nhanh nhất để thực hiện sàng lọc ban đầu cho dữ liệu các phân tử
nhỏ. Nó có độ chính xác tương đối cao khi so sanh với cấu trúc tinh thể học. Thông thường
flexible docking và hàm tính điểm được sử dụng cho sang lọc cụ thể hơn và tối ưu hóa sau
khi thực hiện rigid-body docking để tiết kiệm thời gian và CPU.
B. SYSTEMATIC SEARCH ALGORITHMS
Tìm kiếm tất cả các conformation có thể có của ligand bằng cách thay đổi dần dần tất cả các
liên kết và các góc quay được của phân tử.
• Khảo sát toàn bộ conformational space  Khi số lượng cấu dạng quá lớn 
combinatorial explosion
• Dễ tìm thấy local minimum thay vì global minimum
=> Thực hiện đồng thời nhiều điểm bắt đầu tìm kiếm
Systematic search algorithms có thể chia thành:
• Exhaustive search algorithms
• Fragment-based algorithms
• Incremental construction
• Distance geometry (DG)
• Fast shape matching (SM)
• Conformational ensemble
Exhaustive search algorithms
• Xoay lần lượt tất cả các liên kết có thể 1 góc định trước  không thể thực hiện với
conformational space rộng
• eg: GLIDE (c), FRED (a)
• GLIDE: sử dụng pp kinh nghiệm (heuristics) để tập trung vào vùng có khả năng có
pose đẹp nhất
• Receptor: tạo 1 grid ở TTHĐ(grid-based receptor field)
• Ligand: tạo 1 set các cấu dạng ban đầu của ligand -> chọn ra các favorable
poes bằng cách đặt và tính toán 1 cách xấp xỉ
=> Thu gọn không gian tìm kiếm
Fragment-based algorithms
1. Incremental construction
• Chia ligand thành các phần nhỏ hơn (fragments) để dock rồi ghép lại
• 2 cách ghép:
• De novo ligand design: dock tất cả các mảnh cùng 1 lúc rồi nối lại covalently
- không phải tất cả các mảnh đều phải có năng lượng thấp nhất
- khi ghép lại có góc và liên kết không phù hợp
• Anchor and grow: chia fragments thành 2 phần:
 Rigid (core): thường là phần rigid lớn nhất của ligand -> dock vào active site
trước tiên
 Flexible (side chains): lần lượt ghép vào dựa trên sự phù hợp về cấu trúc
không gian và ái lực liên kết với binding site, các tương tác khác
 Sau mỗi lần thêm side chain, sử dụng pruning algorithm sàng lọc các cấu dạng phù
hợp để tiếp tục
=> cấu dạng của ligand bị giới hạn trong binding site  thu gọn không gian tìm kiếm
Eg: DOCK (a), FlexX (c), Hammerhead (a), Surflex (c), ADAM (a), eHiTs (c)
2. Distance geometry
 Xây dựng một ma trận khoảng cách với giới hạn trên và dưới cho mỗi một cặp
nguyên tử của phân tử
 Nhanh nhưng không chính xác vì ít tính đến các góc quay
 Eg: FLOG
3. Fast shape matching
• Tương tự như rigid docking

• Phù hợp cho việc dock fragments hoặc ensemble of conformations
• Eg: DOCK
4. Conformational ensemble
• Tạo ra 1 set conformations (có thể xác định trước phần rigid của phân tử) -> dock và
score toàn bộ set cùng 1 lúc
 Nhanh hơn so với dock lần lượt
• Eg: DOCK, FLOG (a), MS-DOCK (a, c), Q-DOCK (f)
Reference
• Search algorithms and scoring methods in protein-ligand docking
(https://www.researchgate.net/deref/http%3A%2F%2Fdx.doi.org
%2F10.15406%2Femij.2018.06.00212)
• Molecular Docking Algorithms (https://www.researchgate.net/deref/http%3A%2F
%2Fdx.doi.org%2F10.2174%2F138945008786949432)
• Advances and Challenges in Protein-Ligand Docking
(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2996748/#:~:text=3.2.-,Systematic
%20Search,of%20freedom%20of%20the%20ligand.&text=In%20fragmentation
%20methods%2C%20the%20ligand,into%20different%20rigid%20parts
%2Ffragments.)
• Software for molecular docking: a review
(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5425816/)
• Computational medicinal chemistry for drug discovery. Patrick Bultinck, Hans De
Winter, Wilfried Langenaeker, Jan P. Tollenaere
C. STOCHASTIC SEARCH ALGORITHMS

Thực hiện các thay đổi ngẫu nhiên, thường thay đổi một bậc tự do của hệ thống tại một
thời điểm. Một trong những mối quan tâm chính đối với các tìm kiếm ngẫu nhiên là sự không
chắc chắn của sự hội tụ. Để cải thiện sự hội tụ, có thể thực hiện nhiều lần chạy độc lập.
1. Thuật toán Monte Carlo (AutoDock, ICM, QXP và Affinity)
Khi triển khai thuật toán này, tạo ra poses của ligand thông qua bond rotation, rigid-body
translation or rotation (các thay đổi ngẫu nhiên được thực hiện để thay đổi sự dịch chuyển và
quay của phối tử, cũng như các góc xoắn). Sau mỗi lần di chuyển, cấu trúc được thu nhỏ và
năng lượng của cấu trúc mới được xác định. Hình dạng thu được từ sự biến đổi này được
kiểm tra với tiêu chí lựa chọn dựa trên năng lượng. Nếu nó vượt qua tiêu chí năng lượng đó,
nó sẽ được lưu và sửa đổi thêm để tạo ra cấu trúc tiếp theo. Các bước lặp lại sẽ tiếp tục cho
đến khi thu thập được số lượng phù hợp được xác định trước.
Trong quy trình này, phối tử thường được đặt ngẫu nhiên vào vị trí liên kết. Để tăng cơ hội
tìm được global energy minimum, quá trình mô phỏng có thể bao gồm nhiều chu kì. Chu kì
đầu tiên được thực hiện ở nhiệt độ cao và các chu kì sau được thực hiện ở nhiệt độ ngày càng
thấp hơn. (simulated annealing MC)
Thông thường mỗi chu kỳ bắt đầu với năng lượng thấp nhất từ chu kỳ trước. AutoDock là
chương trình lắp ghép đầu tiên thực hiện simulated annealing MC. Hàng chục nghìn bước
được thực hiện trong mỗi chu kỳ. Vào đầu mỗi chu kỳ mới, nhiệt độ giảm.
(Xác suất chênh lệch MC đã được thực hiện trong chương trình ICM. Bậc tự do tịnh tiến
và quay được lấy mẫu bằng chuyển động giả Brown, trong khi góc xoắn được lấy mẫu bằng
chuyển động xác suất chênh lệch. Sau khi MC di chuyển, sự giảm thiểu năng lượng cục bộ
được thực hiện, sau đó là tính toán năng lượng solvat hóa dựa trên bề mặt và tính toán
entropi, và những số hạng này được thêm vào năng lượng pha khí từ sự tối thiểu hóa. Tổng
của ba thuật ngữ năng lượng được sử dụng trong tiêu chí lựa chọn Metropolis để xác định
xem cấu trúc mới bị từ chối hay được chấp nhận. Các xác suất chênh lệch có thể được rút ra
từ các cấu trúc đã biết (ví dụ, đồ thị Ramachandran của các góc nhị diện axit amin), và di
chuyển các vùng có khả năng lấy mẫu cao, được xấp xỉ bởi phân bố Gauss.)
Quy trình:
- Đầu tiên, tạo ra một list docked conformations dựa trên một energy function 🡪 loại bỏ
các tiếp xúc xấu giữa ligand atoms và receptor. Trong công việc sau này, hàm chồng chéo
được thay thế bằng tiềm năng Lennard-Jones được dịch chuyển.
- Thứ hai, các docked conformations chỉ chịu các chuyển động MC ngẫu nhiên của các
góc nhị diện, sau đó là quy trình tối thiểu hóa. Hàm năng lượng được sử dụng trong bước thứ
hai tương tự như trường lực cơ học phân tử với số hạng liên kết hydro
Phương pháp này sau đó đã được cải tiến bằng cách cho phép cả các chuyển động MC tịnh
tiến và quay.
MCDOCK tương tự như phương pháp MC ở chỗ đầu tiên nó tạo ra các cấu hình protein-
ligand dựa trên một hàm chồng chéo, tiếp theo là MC sử dụng một hàm tính điểm. Sự khác
biệt nằm ở thực tế là không có việc giảm thiểu năng lượng nào được thực hiện cho đến sau
MC dựa trên năng lượng.
Prodock
PRO LEADS
2. Simulated annealing:
3. Evolutionary programming algorithms: tương tụ MC (được sử dụng tìm global
energy minimum) (AutoDock, GOLD, DIVALI và DARWIN)
Thuật toán này yêu cầu những "cá thể" phù hợp nhất được chuyển sang thế hệ tiếp theo và
các đột biến ngẫu nhiên hoặc thiên vị có thể được thực hiện để tăng tính đa dạng di truyền và
ngăn chặn sự hội tụ sớm. Phép lai chéo, một quá trình hoán đổi các vùng lớn của “cha mẹ”,
được phép trong Genetic algorithms (GA). Có thể sử dụng các hàm tính điểm phức tạp,
không phân biệt. Kích thước của quần thể, tỷ lệ đột biến, tỷ lệ trao đổi chéo và số vòng tiến
hóa là những thông số có thể ảnh hưởng đến kết quả. Nói chung, việc giảm thiểu không được
áp dụng cho đến khi đạt được sự hội tụ.
Genetic algorithms (GA): Bậc tự do của phối tử được mã hóa dưới dạng chuỗi nhị phân
gọi là gen. Những gen này tạo nên ‘nhiễm sắc thể’ thực sự đại diện cho pose của ligand. Đột
biến và trao đổi chéo là hai loại toán tử di truyền trong GA. Đột biến làm thay đổi ngẫu nhiên
các gen; trao đổi chéo gen giữa hai nhiễm sắc thể. Khi các toán tử di truyền ảnh hưởng đến
các gen, kết quả là tạo một cấu trúc phối tử mới. Các cấu trúc mới sẽ được đánh giá bằng
scoring function và những cấu trúc còn tồn tại (tức là vượt quá ngưỡng) có thể được sử dụng
cho thế hệ tiếp theo.
Các bước trong GA bao gồm: tạo tổng thể ban đầu, đánh giá chức năng phù hợp, quá trình
lặp lại và kiểm tra các điều kiện kết thúc.
4. Tabu search
Tabu search tạo ra tỷ lệ thành công tốt nhất so với

3 thuật toán trên, cho thấy rằng nó có thể thoát
khỏi local minimum và xác định vị trí global
minimum thường xuyên hơn.
PRO LEADS thực hiện “tìm kiếm Tabu”, tương tự

như MC. Nó sử dụng các bước di chuyển ngẫu
nhiên để khám phá không gian và ghi lại các quy
tắc đã được lấy mẫu. Khi một giải pháp mới không
có năng lượng thấp hơn, nó chỉ được giữ lại nếu
nó không tương tự như bất kì phương pháp nào
trong danh sách "Tabu". Quy trình này kích thích
việc lấy mẫu không gian có chưa được lấy mẫu
trước đây.
5. Swarm optimisation (AutoDock)

SO SÁNH CÁC THUẬT TOÁN: annealing MC method, evolutionary algorithm,
genetic algorithm, Tabu search
Tabu search: tìm kiếm toàn cảnh rộng hơn, nhưng nó không tốt trong việc tối ưu hóa cục
bộ như GA
Brooks group đã nghiên cứu các thuật toán tìm kiếm khác nhau→ so sánh GA, MD-
simulated annealing method, and the AutoDock MC algorithm.
● MD algorithm: hiệu quả nhất trong việc gắn kết cấu trúc trong không gian tìm kiếm
lớn; cung cấp năng lượng trung bình thấp nhất cho các cấu trúc
● GA: hoạt động tốt nhất trong không gian tìm kiếm nhỏ; cho fraction lớn nhất của cấu
trúc không quá 3A˚ của cấu trúc tinh thể.
● Simulated annealing MC: hoạt động tốt cho cả không gian tìm kiếm nhỏ và lớn.
 Cả ba thuật toán đều hiệu quả hơn AutoDock, nhưng AutoDock tốt hơn trong
việc tìm ra global minimum.

Tổng Hợp Các Thuật Toán Docking

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tổng Hợp Các Thuật Toán Docking

Uploaded by

Copyright:

Available Formats

A.

Các phần mềm sử dụng thuật toán FFT:

Carles Pons 1, Daniel Jiménez-González, Cecilia González-Álvarez, Harald

• Tương tự như rigid docking

C. STOCHASTIC SEARCH ALGORITHMS

Tabu search tạo ra tỷ lệ thành công tốt nhất so với

PRO LEADS thực hiện “tìm kiếm Tabu”, tương tự

5. Swarm optimisation (AutoDock)

You might also like