Tin Sinh Học

Computer-Aided Drug Design
Cheminformatics and Bioinformatics
hoangson.med@gmail.com
Ngày 20 tháng 12 năm 2022

In silico
Phần I
Đại cương
2 / 358
In silico
Mục tiêu
• Nắm được chương trình học, đối tượng nghiên cứu của môn
học, phương pháp, hình thức kiểm tra - đánh giá kết quả học
tập môn học
• Nắm được các bước của quá trình nghiên cứu và phát triển
thuốc hiện đại.
• Nắm được khái niệm hóa tin và hóa tin dược và nêu được
các thành phần của hóa tin dược.
• Nắm được khái niệm về sàng lọc ảo: Sàng lọc ảo dựa trên
phối tử và sàng lọc ảo dựa trên cấu trúc.
3 / 358
In silico
Vị trí môn học
4 / 358
In silico
Cheminformatics
Khái niệm
Hóa tin học (hóa học tính toán) (Cheminformatics, chemoinformatics,
chemioinformatics and chemical informatics) là việc sử dụng các kỹ
thuật máy tính ứng dụng trong lĩnh vực hóa học. Hóa tin học kết hợp
các lĩnh vực khoa học: hóa học, máy tính và công nghệ thông tin trong
các lĩnh vực cấu trúc tô pô, lý thuyết đồ thị hóa học, tìm kiếm thông tin
và khai thác dữ liệu trong không gian hóa học; hay mô hình hóa phân
tử (molecular modeling), tìm kiếm và mã hóa cấu trúc hóa học, trực
quan hóa thông tin hóa học (chemical data visualization)
5 / 358
In silico
Bioinformatics
Khái niệm
Tin sinh học (sinh học tính toán) (bioinformatics): là một lĩnh vực khoa
học sử dụng các công nghệ của các ngành toán học ứng dụng, tin
học, thống kê, khoa học máy tính, trí tuệ nhân tạo, hóa học và hóa
sinh (biochemistry) để giải quyết các vấn đề sinh học. Tin sinh học
nghiên cứu về hệ gene học (genomics) (Phân tích trình tự, chỉ định
Genome, dò tìm đột biến và SNP) ; Sinh học tiến hoá (phân loại học
phân tử), Phân tích chức năng gene ; Các hệ thống sinh học kiểu mẫu
6 / 358
In silico
Drug repurposing
Drug repurposing
The process of finding new uses outside the scope of the original
medical indication for existing drugs
Ashburn & Thor, 2004
7 / 358
In silico
Drug repurposing
• Acetylsalicylic acid chỉ định kháng viêm năm 1897 và chỉ

định chống cục máu đông năm 1956.
• Zidovudine là thuốc chống ung thư 1964 và trở thành kháng
HIV năm 1987.
• Thất bại trên lâm sàng của Ceftriaxone khi đề nghị điều trị
teo cơ sơ cứng (amyotrophic lateral sclerosis). 8 / 358
In silico
Drug repurposing

HIV năm 1987.
In silico
Drug repurposing

HIV năm 1987.
Tại sao phát triển thuốc ban đầu không tìm kiếm được hết tác
dụng điều trị??
In silico
Cơ sở khoa học của Drug repurposing

One Disease-One Target
Target
Disease Ligand
"The magic bullet" được phát triển bởi nhà khoa học Đức Paul Ehrlich
được giải nobel năm 1900.
"The magic shotguns" được mô tả mở rộng khi sử dụng "multitarget
ligand" bởi Roth et al năm 2004.
12 / 358
In silico
Cơ sở khoa học của Drug repurposing

Disease-Pathway-Target-Ligand
Ligand Target
Disease
Pathway
Hopkins, 2017: Đề xuất khái niệm Network pharmacognosy

trong đánh giá tác dụng của thuốc trên các mối liên hệ tác dụng.
13 / 358
In silico
Bài học từ phát triển thuốc Pravastatin

• Năm 1970, công ty Sankyo • Hầu hết hoạt chất sẽ tồn
phát hiện CS-514 từ nấm tại đa đích.
Penicillium citrinum có khả • Hiểu biết về tác dụng sinh
năng ức chế HMG-CoA để học trên hệ thống thường
phát triển thuốc hạ lipid. không hoàn thiện
• Thất bại trên chuột nhắt và • Bất cứ sàng lọc in vitro và
chuột cống. mô hình dược lý đều chỉ
• Cơ hội cuối cùng thử thể hiện được một phần
nghiệm thành công trên tiềm năng của hoạt chất.
gà.
• Sau đó tác dụng trên thỏ,
chó và người.
• CS-514 trở thành thuốc tỷ
đô tại thị trường Hoa Kỳ.
14 / 358
In silico
Các cách tiếp cận để tìm kiếm chỉ định mới
• Tình cờ và khai thác văn bản (text mining)

• Quan sát các tác dụng không mong muốn
• Tìm con đường mới của bệnh
• Xác định mục tiêu tương tác mới của thuốc
• Xác định vai trò mới của các target đã có
• Kiểu hình của bệnh
15 / 358
In silico
In Silico and Drug repurposing
• Target-based method
• Knowledge-based method
• Signature-based method
• Network-base method
• Targeted-mechanism method
16 / 358
In silico
Các khái niệm
Các khái niệm
17 / 358
In silico
Các khái niệm
Phát triển thuốc dưới sự trợ giúp của máy tính

Gene Tiền
Hit và Lâm
liên Target lâm
Lead sàng
quan sàng
• Bioinformatics • Molecular • In silico ADMET

• Reverse Docking docking prediction
• Pharmacophore • Reverse Docking • Physiologically-
mapping • Pharmacophore based
modeling pharmacokinetic
• Protein structure simulations
Prediction • De novo design
• Target • virtual library
druggabillity design
• Chemical probe • QSAR (2D, 3D,
design 4D)
• Sequence-based
method
18 / 358
In silico
Các khái niệm
Drug Target
Đích tác dụng
Mục tiêu phân tử hay còn gọi là

đích tác dụng của thuốc. Đích tác
dụng là 1 tổ chức tế bào hoặc
phân tử liên quan đến quá trình
bệnh sinh là nơi mà thuốc sẽ tác
dụng vào để biến đổi quá trình
bệnh sinh.
19 / 358
In silico
Các khái niệm
Ligand
Phối tử
Theo hóa sinh và dược học, phối tử (ligand, theo tiếng Latin
ligandum, binding) là một chất (thường là một phân tử nhỏ) hình
thành một phức hợp với phân tử sinh học phục vụ một mục đích
sinh học. Trong liên kết protein-phối tử, phối tử thường là một
phân tử kích hoạt tín hiệu, liên kết tại 1 vị trí trên protein đích.
Phối tử bao gồm cơ chất, chất ức chế, chất hoạt hóa và chất dẫn
truyền thần kinh.
20 / 358
In silico
Các khái niệm
Hit and lead
Hit Generation
Một hợp chất mà các kết quả sàng lọc sinh hóa sơ bộ chỉ ra
rằng có thể được tiếp tục nghiên cứu như là một phần của dự
án nghiên cứu thuốc. Một hợp chất hit có liên kết với một mục
tiêu phân tử được xác định là quan trọng trong điều trị bệnh.
Lead Development
Mục đích của giai đoạn này là để tối ưu hóa các hợp chất hit cố
gắng tạo ra các hợp chất mạnh hơn và có chọn lọc hơn mà có
tính chất PK hợp lý để kiểm tra hiệu quả của chúng trong bất kỳ
trong mô hình in vivo sẵn có nào.
21 / 358
In silico
Các khái niệm
Ứng cử viên làm thuốc
Candidate
Là một hợp chất liên kết với một đích sinh học (protein,
enzyme, receptor), và theo cách này kích hoạt hoặc ức chế một
quá trình sinh học ảnh hưởng đến quá trình bệnh sinh.
22 / 358
In silico
Các khái niệm
Sàng lọc ảo
Khái niệm
Sàng lọc ảo (virtual screening): Sàng lọc ảo đề cập đến một
loạt các kỹ thuật in silico được sử dụng để sàng lọc các CSDL
hợp chất lớn để lựa chọn một số lượng nhỏ hơn để thử nghiệm
sinh học.
• Dựa trên cấu trúc (Structure-based)

• Dựa trên phối tử (Ligand-based)
• De novo design: Dựa trên cấu trúc 3D protein
• Khác
• Thư viện liên kết (Combichem)
• Sàng lọc định lượng
• Sàng lọc bằng các quy tắc
23 / 358
In silico
Các khái niệm
Tài liệu tham khảo
• Cheminformatics và bioinformatics
(1) Bioinformatics Methods and Applications, Dev Bukhsh Singh and
Rajesh Kumar Pathak, 2022
(2) Docking Screens for Drug Discovery, John M. Walker, 2019
(3) In Silico Drug Design: Repurposing Techniques and Methodologies,
Dr. Kunal Roy, 2019.
• Biểu diễn cấu trúc hóa học của hợp chất trên máy tính và
bài cơ sở dữ liệu trong ngành dược
(4) Cheminformatics OLCC (2019)
https://chem.libretexts.org/Courses/Intercollegiate_
Courses/Cheminformatics_OLCC_(2019)
24 / 358
In silico
Các khái niệm
Tài liệu tham khảo
• Mô tả phân tử
(5) Molecular Descriptors for Chemoinformatics, Prof., Dr. Roberto
Todeschini, Dr. Viviana Consonni, 2009.
• QSAR
(6) Advances in QSAR Modeling Applications in Pharmaceutical,
Chemical, Food, Agricultural and Environmental Sciences, Jerzy
Leszczynski, 2017.
• Docking
(7) Molecular Docking for Computer-Aided Drug Design Fundamentals,
Techniques, Resources and Applications, MOHANE S. COUMAR,
2021.
25 / 358
In silico
Các khái niệm
Ngôn ngữ lập trình Python
Conda giúp tạo ra môi trường cô lập python với nhiều phiên bản
khác nhau.
Vai trò Mã lênh
Tạo môi trường conda create -n myenv python=3.8
Kích hoạt môi trường conda activate myenv
Cài đặt gói phần mềm conda install vina
pip install vina
Thoát môi trường conda deactivate
jupyter-notebook pip install jupyter
Cài đặt nhân ipython kernel install –name myenv –user
26 / 358
In silico
Các khái niệm
Teachopencadd
https://volkamerlab.org/projects/teachopencadd/
27 / 358
In silico
Các khái niệm
Phần mềm vẽ cấu trúc hóa học

Cdraw
http://www.structuralchemistry.org/pcsb/cdraw.
28 / 358
In silico
Phần II
Chemoinformatics
29 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Biểu diễn cấu trúc hợp chất hóa học trên máy
tính
30 / 358
In silico
Mục tiêu
• Trình bày được một số cách chuyển đổi cấu trúc hóa học
thành ngôn ngữ để biểu diễn và sử dụng trên máy tính.
• Trình bày được nguyên tắc biểu diễn cấu trúc theo ngôn
ngữ SMILES.
• Hiểu được khái niệm bảng liên kết và 02 dạng biểu diễn
Molfiles và Sdfile.
• Biết được một số phần mềm để vẽ, trực quan cấu trúc hóa
học và chuyển đổi giữa các dạng biểu diễn.
31 / 358
In silico
Đại cương
Biểu diễn cấu trúc hóa học hợp chất hóa học
• Tên thông thường (Trivial name) Aspirin

• Tên hệ thống (Systematic name) 2-acetyloxybenzoic acid
• Công thức (Formulation) C9 H8 O4
32 / 358
In silico
Đại cương
Biểu diễn hợp chất hóa học trong Cheminformatics

Với một hoạt chất hóa học
Con người: hoạt Lĩnh vực Máy tính

động trong ý niệm cheminformatics • Nhận biết
• Đăng ký • Lưu trữ • Trao đổi
• Tìm kiếm • Tìm kiếm • Xác nhận
• Xem xét • Phân tích cấu
• Công bố cấu trúc hóa học
trúc • Khai thác dữ
liệu từ cấu
trúc
Hoạt động con người trong Cheminformatics hiểu được cách
máy tính lưu trữ, phân tích cấu trúc, nguyên tắc chương trình
thực hiện và kết quả thu được.
33 / 358
In silico
Đại cương
Yêu cầu của xây dựng dữ liệu về công thức phân tử

Trong Cheminformatics, các nhà hóa học phải làm việc trong
một hệ thống có nguyên tắc được xác định trước. Khi xây dựng
các nguyên tắc cần phải giữ các yêu cầu sau:
• Tính không mơ hồ: khi tên hoặc công thức được nhắc đến
phải đề cập chính xác cấu trúc hóa học và thường sẽ vẽ ra
được cấu trúc của nó.
• Tính duy nhất: trong một hệ thống, biểu diễn một hợp chất
là duy nhất
• Tính phù hợp: thông tin rõ ràng và thông tin ẩn.
• Thông tin rõ ràng (Explicit information): là những gì trình
bày trực tiếp trong cấu trúc dữ liệu và phải chứa tối thiểu
thông tin.
• Thông tin ẩn (Implicit inforamtion): là thông tin có thể vẽ ra
được chính xác cấu trúc dựa trên các nguyên tắc được
cung cấp trước và một chút công việc tính toán
34 / 358
In silico
Đại cương
Phân tích trường hợp C3 H6 O
CC(C)=O and CCC=O

C[C@H]1CO1 and InChI=1S/C3H6O/c1-3-2-4-3/h3H,2H2,1H3/t3-/m1/s1
C[C@@H]1CO1 and InChI=1S/C3H6O/c1-3-2-4-3/h3H,2H2,1H3/t3-/m0/s1
35 / 358
In silico
Đại cương
Phân loại các biểu diễn cấu trúc hóa học
• Hệ thống tên (Systematic Names): Đặt tên cho một hoạt

chất dựa trên các nguyên tắc và từ khóa.
• Tên IUPAC (International Union of Pure and Applied
Chemistr)
• Hệ thống tên CAS
• Công thức cấu tạo (Structural Formula): Thể hiện được
cách liên kết trong hoạt chất hoặc thể hiện được các
nguyên tử liên kết với nhau thông qua các liên kết hóa học.
• Biểu diễn dưới dạng dòng
• Bảng liên kết
36 / 358
In silico
Hệ thống tên (Systematic Names)
IUPAC
37 / 358
In silico
Hệ thống tên (Systematic Names)
CAS
Số đăng ký CAS (CAS Registry Number- CAS RN): chuỗi số định danh duy nhất
cho các chất hóa học. Mục đích của nó là làm cho việc tìm kiếm trong các CSDL
được thuận tiện hơn, do các hóa chất thông thường có rất nhiều tên gọi khác nhau.
• PubChem (https://pubchem.ncbi.nlm.nih.gov/);
• NIH ChemIDplus
(http://chem2.sis.nlm.nih.gov/chemidplus/chemidlite.jsp);
• NIST Chemistry WebBook
(http://webbook.nist.gov/chemistry/);
• NCI Database Browser (http://cactvs.cit.nih.gov/)
• Chemspider (http://www.chemspider.com/)
• SciFinder (http://www.cas.org/products/scifinder)
• STN databases (http://www.cas.org/products/stn)
• Trang Web của CAS (http://www.cas.org/)
• ChEBI (http://www.ebi.ac.uk/chebi/):
• ChEMBL (https://www.ebi.ac.uk/chembldb/)
38 / 358
In silico
Công thức cấu tạo (Structural Formula)
Connection table - Bảng liên kết

Bảng liên kết được hiểu là hệ thống danh pháp của các nhà hóa học dựa trên cách
tổ chức thông tin của cấu trúc dựa trên mạng phân tử mà máy tính có thể hiểu
được. Bảng liên kết đặc biệt cung cấp thông tin về nguyên tử trong cấu trúc cũng
như cách liên kết hóa học và loại liên kết.
Máy tính thực hiện đọc, sắp xếp, tìm kiếm và nhóm các bảng liên kết nhanh
hơn con người khi thực hện công việc trên hệ thống tên danh pháp hoặc bất
cứ loại công thức cấu tạo nào khác.
Tạo độ 3D (x,y,z) cung cấp cấu hình của phân tử. Cấu hình này được xác định
dựa vào X-ray hoặc tính toán lý thuyết.
Trong bảng liên kết tất cả các nguyên tử (trừ hydro), liên kết, và cách các
nguyên tử liên kết với nhau đều được thể hiện rõ ràng.
Các quy tắc thiết lập tương đối đơn giản.
Bảng kết nối được chấp nhận bởi hầu hết các phần mềm vẽ và trực quan cấu
trúc và các CSDL.
39 / 358
In silico
Line Notation- Biểu diễn dòng

Hệ thống biểu diễn dưới dạng dòng sử dụng các ký tự hệ ASCII (American
Standard Code for Information Interchange), dựa vào bảng chữ cái tiếng anh (128
ký tự), các số từ 0-9, một số biểu tượng, code, khoảng trắng.
Tính toán dựa trên biểu diễn dòng dễ dàng hơn so dạng bảng
liên kết.
Thiết kế dòng dễ hiểu với con người hơn.
Thiết kế dòng phù hợp với khả năng nhận dạng và đặc tính như:
• So sánh giữa các phân tử;

• Đánh giá tỷ lệ giống nhau;
• Liệu hai phân tử liên quan tới nhau thông qua một số phép
tính toán;
• Liệu một phân tử này có phải cấu trúc con trong phân tử
khác không;
• Điều gì xảy ra nếu cắt thành các phân mảnh và ghép lại
với nhau. 40 / 358
In silico
Graphic Visualization
SMILES:
CC(O)C
41 / 358
In silico
Một số dạng biểu diễn phổ biến
InChI
The IUPAC International Chemical Identifier: Là một định dạng văn bản để mã hóa
thông tin của các hợp chất hóa học, được phát triển ban đầu bởi IUPAC.
InChI mô tả hợp chất theo các lớp thông tin: các nguyên tử và
liên kết giữa chúng, thông tin tautomeric, đồng vị, lập thể, và
điện tử. Một lớp thông tin nào đó có thể không có nếu nó không
quan trọng trong từng trường hợp cụ thể.
InChIs có thể được xem như là một phiên bản chính thức của tên
IUPAC. Thông tin về tọa độ không gian 3 chiều của các nguyên
tử không được biểu diễn trong Inchi; vì thế một định dạng khác
như PDB có thể được sử dụng.
InChIs khác với số CAS ở 3 điểm:
• Được sử dụng tự do và không độc quyền;
• Có thể được tính toán từ các thông tin về cấu trúc và không cần được
chỉ định bởi một tổ chức nào (có liên quan đến cấu trúc);
• Hầu hết các thông tin trong một Inchi có thể được đọc.
42 / 358
In silico
InChI
43 / 358
In silico
InChIKey
Là 1 biểu diễn ngắn gọn của InChI có chiều dài cố định (25 ký
tự), và không thể hiểu được chỉ bằng mắt thường. InChIKey được
đưa vào sử dụng vào tháng 9 năm 2007, vì các InChI thường dài
và khó lưu trữ.
Lưu ý: InChIKey không phải là duy nhất.
44 / 358
In silico
SMILES- Simplified Molecular Input Line Entry

System
Nghĩa dịch từ tiếng Anh là: Hệ thống đơn giản hóa với đầu vào dưới dạng dòng để
biểu diễn phân tử. SMILES được xây dựng dựa trên nodes và edges của molecular
graph
Là ngôn ngữ tương đối đơn giản và ngắn gọn, có dạng cấu trúc
ngôn ngữ hơn là 1 cấu trúc dữ liệu máy tính.
SMILES thật sự là một ngôn ngữ, mặc dù có một vốn từ vựng
đơn giản (nguyên tử và ký tự biểu diễn các liên kết, nhánh) và
chỉ một vài quy tắc ngữ pháp.
Rất đơn giản và được sử dụng rộng rãi hiện nay.
Đuôi tệp (File Extensions): .smi
45 / 358
In silico
SMILES
Các nguyên tắc
Các nguyên tử được đại diện bởi các nguyên tố hóa học và đặt
trong [] trừ H ví dụ như [Au]. Một số trường hợp ngoại lệ không
cần đặt trong ngoặc vuông như sau:
• Thuộc nhóm B, C, N, O, P, S, F, Cl, Br, or I và
• Không có điện tích hình thức (formal charge) và
• Đang ở trạng thái hóa trị bình thường thấp nhất như sau B
(3), C (4), N (3,5), O (2), P (3,5), S (2,4,6), and 1 for the
halogens và
• Đồng vị thông thường và
• Không có cấu hình
Hydro không đính kèm khi không có dấu ngoặc kép thì có thể ký
hiệu như sau C (CH4), P (PH3), N (NH3), S (H2S), O(H2O), Cl
(HCl).
46 / 358
In silico
SMILES
Các nguyên tắc
Trong dấu ngoặc vuông, phải luôn ghi rõ số hydrogens và số

điện tích hình thức. Số lượng hydrogens được đính kèm được
thể hiện bằng ký hiệu H theo sau là một chữ số. Tương tự, một
số điện tích hình thức được hiển thị bằng một trong các ký hiệu
+ hoặc -, theo sau là một chữ số. Nếu không xác định, số lượng
hydro và điện tích kèm theo được giả định bằng 0 đối với một
nguyên tử bên trong dấu ngoặc. Các công thức [Fe +++] đồng
nghĩa với dạng [Fe + 3].
47 / 358
In silico
SMILES
Liên kết-bone
Liên kết đơn, đôi, ba và thơm được biểu diễn bằng các ký hiệu ,
¯, #, và , tương ứng.
Các nguyên tử liền kề được cho là liên kết với nhau bằng liên kết
đơn hoặc thơm (liên kết đơn và thơm có thể luôn bị bỏ qua)
48 / 358
In silico
SMILES
Cấu trúc vòng/hợp chất no
• Vòng thơm C, O, S, N được đại diện bởi c o s n

• Vòng no C, O, S, N được đại diện bởi C O S N
• Vòng được biểu diễn bằng cách phá vỡ một liên kết trong
mỗi vòng. Các liên kết được đánh số theo thứ tự bất kỳ quy
định liên kết mở vòng (hoặc đóng vòng) bằng một chữ số
ngay sau ký tự biểu diễn nguyên tố.
49 / 358
In silico
SMILES
Mạch nhánh
Mạch nhánh được biểu diễn bằng dấu ngoặc đơn (phần mạch
nhánh nằm trong dấu ngoặc đơn), các mạch có thể có thể lồng
vào nhau.
Nếu có thể, tránh sử dụng hai dấu mở ngoặc liền nhau.
Cố gắng ít nhánh nhất có thể
Không bắt đầu một biểu diễn bằng một nhánh.
Sau một nhánh, không biểu diễn liên kết đôi và liên kết ba
50 / 358
In silico
Đồng phân Với cấu hình E-Z thì Cis thể hiện bởi Trans
51 / 358
In silico
Bảng liên kết dạng rút gọn
52 / 358
In silico
Tính duy nhất
53 / 358
In silico
Thêm Hydrogens vào công thức
54 / 358
In silico
Nhược điểm của bảng liên kết đơn giản hóa
• Cấu trúc hóa học ở trong không gian ba chiều và các liên
kết vừa dao động vừa quay (Định hướng trong không gian).
• Không cung cấp thông tin để mô tả duy nhất một loại phân
tử.
• Bảng liên kết công kềnh và khó đọc với con người.
55 / 358
In silico
Atom Coordinates
56 / 358
In silico
Chirality and Connection Tables
57 / 358
In silico
Geometric Isomers
58 / 358
In silico
Aromatic Ring
the Kekulé structure in the structural formula
59 / 358
In silico
Aromatic Ring
60 / 358
In silico
Structure Data File

Các tệp cấu trúc
• Molfile (single molecule)

• SDfile (set of molecules and data)
• RGfile (Markush structure)
• Rxnfile (single reaction)
• RDfile (set of reactions with data)
61 / 358
In silico
Molfile
62 / 358
In silico
Phần mềm vẽ cấu trúc và chuyển đổi giữa các dạng
• Phần mềm vẽ cấu trúc: cDraw

• Chuyển đổi giữa các dạng cấu trúc hóa học
• http://cactus.nci.nih.gov/translate/: Online
SMILES Translator and Structure File Generator
• http://openbabel.org/wiki/Main_Page: A
chemical toolbox designed to speak the many languages of
chemical data.
63 / 358
In silico
Cơ sở dữ liệu hóa học
Database là gì
A database usually means an electronic database
A database is an “organized collection of information.” The information

in a database can be in any format, including texts, numbers,
images, audios, videos, and many others (and combination of
these), but this information must be “organized” for efficient retrieval.
• Primary databases contain experimentally-derived data that are directly

submitted by researchers (also called “primary data”).
• Secondary databases contain secondary data, which are derived from
analyzing and interpreting primary data. These databases often provide
value-added information related to the primary data, by using
information from other databases and scientific literature.
The term “data provenance” refers to a record trail that describes the origin or
source of a piece of data and the process by which it entered in a database.
64 / 358
In silico
Quản lý dữ liệu
Thiết kế dữ liệu
Lưu trữ dữ liệu
Triển khai dữ liệu
Thiết kế mối liên hệ
Tạo dữ liệu
Thêm dữ liệu
Chỉnh sửa dữ liệu
Xóa dữ liệu
65 / 358
In silico
Các cơ sở dữ liệu hóa
• PubChem: chemical information repository at the U.S. NIH.

• ChemSpider: a chemical database integrated with RSC′s
publishing process.
• ChEMBL: literature-extracted biological activity information
• ChEBI: a dictionary of small molecular entity
• NIST Webbook: thermodynamic and spectroscopic data of
chemicals
• DrugBank: comprehensive information on drug molecules
• HMDB: the Human Metabolome Database
• TOXNET: a collection of toxicological information
• Protein Data Bank (PDB): a key source for protein-bound
ligand structures
66 / 358
In silico
Các cơ sở dữ liệu về dược
• STITCH
• Chemprot
• Zinc
67 / 358
In silico
Pubchem
Dữ liệu thuốc lĩnh vực hóa tin, tin sinh và hóa dược.
Các loại mã trong Pubchem

• SID
• CID
• AID
Substance code SID: records chứa thông tin về hợp chất mà
các nhà cung cấp gửi cho Pubchem. Bao gồm: thông tin cấu
trúc, tên, bình luận, Synthesis Reference, Absorption, Distribution
and Excretion, và link với depositor’s web site và các tài liệu trên
Pubmed.
68 / 358
In silico
Pubchem
Dữ liệu thuốc lĩnh vực hóa tin, tin sinh và hóa dược.
Compound code CID: chứa các thông tin không lặp lại của các
cấu trúc được tiêu chuẩn hóa và xác thực. A compound record
có thể link với hơn một PubChem Substance record, nếu nhiều
nhà cung cấp cùng cung cấp một cấu trúc. Tên hợp chất trong
PubChem Compound records là tổng hợp của tất cả các linked
substances, với thứ hạng mặc định là tần số sử dụng tên đó.
BioAssay code AID: The PubChem BioAssay Database bao
gồm thông tin về hoạt tính sinh học của các chất được mô tả
trong PubChem Substance. Cung cấp mô tả (có thể tìm được)
của từng BioAssay, bao gồm điều kiện và kết quả của từng quy
trình.
Thông thường sẽ tìm kiếm theo tên hoặc cấu trúc trong PubChems
Compound database. Thông tin sẽ chín xác và bao quát hơn.
69 / 358
In silico
Khai thác dữ liệu
Pubchem
70 / 358
In silico
Khai thác dữ liệu
ChEMBL
ChEMBL is a manually curated database of bioactive molecules with drug-like
properties. It brings together chemical, bioactivity and genomic data to aid the
translation of genomic information into effective new drugs." ([ChEMBL
website](https://www.ebi.ac.uk/chembl/))
• Open large-scale bioactivity database

• Current data content (as of 09.2020, ChEMBL 27):
1.9 million distinct compounds
16 million activity values
Assays are mapped to 13,000 targets
• Data sources include scientific literature, PubChem bioassays, Drugs
for Neglected Diseases Initiative (DNDi), BindingDB database
• ChEMBL data can be accessed via a
[web-interface](https://www.ebi.ac.uk/chembl/), the [EBI-RDF
platform](https://www.ncbi.nlm.nih.gov/pubmed/24413672)
and the [ChEMBL webrescource client](https:
//github.com/chembl/chembl_webresource_client)
71 / 358
In silico
Mô tả phân tử
Mô tả phân tử
72 / 358
In silico
Mô tả phân tử
Mục tiêu
• Trình bày được khái niệm và vai trò của mô tả phân tử

• Trình bày được tính chất và phân loại của mô tả phân tử
• Trình bày được định nghĩa một số mô tả phân tử
• Biết được một số phần mềm tính toán các tham số phân tử
73 / 358
In silico
Mô tả phân tử
Đại cương
Molecular descriptor- Mô tả Phân tử
Mô tả phân tử(Todeschini và Consonni, 2000.)

The molecular descriptor is the final result of a logic and
mathematical procedure which transforms chemical information
encoded within a symbolic representation of a molecule into an
useful number or the result of some standardized experiment.
Useful có hai nghĩa, một là số thu thập nhiều thông tin hơn từ
cấu trúc và hoặc có thể là một phần của mô hình dự đoán cùng
các cấu trúc khác.
74 / 358
In silico
Mô tả phân tử
Đại cương
Tầm quan trọng của Mô tả Phân tử
QSAR: Mối quan hệ giữa cấu trúc – hoạt tính

QSPR: Mối quan hệ giữa cấu trúc – tính chất
Giả thuyết: “Các cấu trúc phân tử khác nhau có tính chất hóa học khác nhau
và các cấu trúc phân tử giống nhau có tính chất phân tử giống nhau”
75 / 358
In silico
Mô tả phân tử
Đại cương
Tính chất của mô tả phân tử
Mô tả phân tử mới có thể chứa đựng những thông tin mới của
của cấu trúc phân tử. Đây là loại quan nghiên cứu cần sự sáng
tạo và trí tưởng tượng cùng với cơ sở lý thuyết vững chắc để
phát triển được con số mang ý nghĩa cấu trúc hóa học.
T
here are no restriction on the design of structural invariants, the
limiting factor is one’s own imagination.
M. Randic (1996), Molecular bonding profiles
76 / 358
In silico
Mô tả phân tử
Đại cương

Một tham số phân tử cần phải có
• Bất biến (invariants ) với cách đặt tên và đánh số thứ tự

nguyên tử
• Bất biến với dịch roto (Roto-translations): dịch chuyển liên
quan tới tọa độ?
• Được định nghĩa và tính toán với thuật toán rõ ràng
(unambiguous algorithm).
• Có giá trị trong trong một phạm vi số thích hợp để tính toán
cho một tập hợp các phân tử.
77 / 358
In silico
Mô tả phân tử
Đại cương

Một tham số phân tử nên có
• Có mối tương quan với ít nhất một tính chất

• Không có mối tương quan ngẫu nhiên với các mô tả phân
tử khác
• Giá trị thay đổi khi có thay đổi nhỏ về mặt cấu trúc
• Không bao gồm trong định nghĩa các tính chất thực nghiệm
(không chứa các thông số. . . thu thập trong thực nghiệm)
• Nên có khả năng phân biệt các isomer (đồng phân)
• Nên có khả năng suy ngược (từ giá trị mô tả phân tử ra cấu
trúc
78 / 358
In silico
Mô tả phân tử
Đại cương
Đánh giá mô tả phân tử
• Dựa vào nguyên lý “tính chất giống nhau” : “Phân tử có cấu

trúc giống nhau được hy vọng là có tính chất giống nhau
hoặc hoạt tính sinh học giống nhau”.
Dự đoán tính chất của hợp chất đó so sánh với các hợp
chất có cấu trúc tương đồng nhất.
• Chúng ta có thể tiến hành một số thí nghiệm sử dụng:
- Các tập hợp mô tả phân tử khác
- CSDL các hợp chất đã biết hoạt tính sinh học
- CSDL hợp chất đã biết giá trị tính chất hoá lý
79 / 358
In silico
Mô tả phân tử
Phân loại
Phân loại
Phân loại mô tả phân tử theo chiều biểu diễn phân tử
• 0D: Số lượng nguyên tố, số lượng liên kết, khối lượng phân
tử, tổng các tính chất nguyên tử
Ví dụ: KL phân tử, khối lượng phân tử TB; số lượng: nguyên tố, hiđrô,
các bon, nguyên tố dị nguyên, nguyên tố không phải là hiđrô, liên kết,
liên kết đôi, liên kết ba, liên kết thơm, liên kết quan được, vòng, vòng 3
(4-7) thành viên, tổng thể tích van der Waals nguyên tố.
• 1-D: Đếm số lượng mảnh cấu trúc
Ví dụ: Số lượng: C bậc 1 (sp3), C bậc 2 (sp3), C bậc 3 (sp3), C bậc 4
(sp3), C bậc 2 (sp3) trong một vòng, C bậc 3 (sp3) trong một vòng, C
bậc 4 (sp3) trong một vòng, C thơm không có nhóm thế, C thế, C bậc 1
(sp2, =CH2), C bậc 2 (sp2, =CHR), C bậc 3 (sp2, =CR2), nhóm alen (
=C=), C cuối (sp), C trung gian (sp)
80 / 358
In silico
Mô tả phân tử
Phân loại
Phân loại
• 2D Mô tả tôpô
Ví dụ: Chỉ số Zagreb, Chỉ số Wiener, Chỉ số J Balaban, Chỉ số kết nối
chi , chỉ số kappa, số lượng đường phân tử, mô tả phân tử BCUT, Véc
tơ tự tương quan (autocorrelation), TOMOCOMD
• 3D Mô tả hình học không gian
Ví dụ: Độ lệch tâm phân tử (Molecular eccentricity), Bán kính hồi
chuyển (radius of gyration), Tham số đồ thị trạng thái E (E-state
topological parameter), Chỉ số Wiener 3D, Chỉ số Balaban 3D, Chỉ số
MoRSE 3D, hàm phân bố xuyên tâm [radial distribution function (RDF
code)], Mô tả WHIM, Mô tả GETAWAY, Véc tơ tự tương quan 3D
81 / 358
In silico
Mô tả phân tử
Phân loại
Phân loại
• Tính chất bề mặt 3D

Ví dụ: Thế tĩnh điện molar (molecular electrostatic potential), Tiềm
năng kỵ nước (hydrophobicity potential), tiềm năng tạo liên kết hyđrô
• Tính chất lưới 3D
Ví dụ: Phân tích so sánh trường phân tử [Comparative Molecular Field
Analysis (CoMFA)]
• 4D
Ví dụ: Tọa độ 3D (3D coordinates) + lấy mẫu cấu trạng (sampling of
conformations)
82 / 358
In silico
Mô tả phân tử
Phân loại
0D và 1D
Biến chỉ số giả
Dummy variables and indicator variables: là một trong những

cách mô tả đơn giản nhất và sử dụng khi không thể đại diện một
vấn đề thú vị bằng giá trị thực. Chúng thường đại diện bởi giá trị
âm, dương và giá trị 0 để chỉ thuộc tính. Ví dụ như để chỉ sự tồn
tại cấu hình cấu hình cis and trans trong cấu trúc hoa học:

+1 trans-isomer

I= 0 no cis-trans isomer (1)

−1 cis isomer

83 / 358
In silico
Mô tả phân tử
Phân loại
0D và 1D
Biến chỉ số giả
Thực tế, các giá trị của biến này thường chỉ là mô tả nhị phân
với giá trị 1 khi xuất hiện và mang giá trị 0 khi không xuất hiện.
Chúng thường được sử dụng để đại diện cho
• Sự có mặt hoặc không có mặt của vòng thơm
• Sự có mặt hoặc không có mặt của đồng phân quang học
• Sự có mặt hoặc không có mặt của nhóm thể đặc biệt
• Sự có mặt hoặc không có mặt của một mảnh
Dãy bít (Bit-strings) là tập hợp các mô tả nhị phân (Mô tả vectơ)
và thường được sử dụng như vân tay để mô tả cấu trúc, giúp
cho việc khai phá DL nhanh chóng.
84 / 358
In silico
Mô tả phân tử
Phân loại
2D-3D
Topological vs topographical descriptors
85 / 358
In silico
Mô tả phân tử
Phân loại
2D
Topological descriptors
86 / 358
In silico
Mô tả phân tử
Phân loại
2D
sự phát triển
• Nhóm đấu tiên: the Wiener index (1947), the Platt index
(1947), N2 (1964), Hosoya Z, Zagreb Group indices, the
Balaban centric indices và the Schultz MTI
• Nhóm thứ 2: Molecular connectivity index or χ, The Randic
index, information- theoretic indices, the J index, and the
shape or kappa indices
• Nhóm thứ 3: the hyper-Wiener index or the molecular
identification (ID) numbers, The E-state index
87 / 358
In silico
Mô tả phân tử
Phân loại
2D
Topological descriptors
• Mô tả chỉ mang 1 giá trị duy nhất được tính từ đồ thị 2D phân tử.
• Biểu diễn các cấu trúc theo kích thước, độ phân nhánh, và hình dạng
tổng thể.
Ví dụ Wiener index: W (G) = 11 u,v∈G d(u, v)
P
88 / 358
In silico
Mô tả phân tử
Phân loại
2D
Structural keys
Structural key được hiểu là cách mã hóa nhị phân của cấu trúc
theo một thư viện được định nghĩa sẵn. Nếu xuất hiện đoạn mã
đó thì sẽ là 1, nếu không sẽ ghi là 0
• MACCS keys hay còn gọi là MDL keys:

• PubChem Fingerprints
89 / 358
In silico
Mô tả phân tử
Phân loại
2D
Hashed Fingerprints
Chúng được tạo ra bằng cách liệt kê thông qua phân tử tất cả
các đoạn có thể không lớn hơn một kích thước nhất định và sau
đó chuyển đổi các đoạn này thành giá trị số bằng cách sử dụng
hàm “băm” . Các giá trị số này có thể được sử dụng để chỉ ra vị
trí bit trong các dấu vân tay được băm.
90 / 358
In silico
Mô tả phân tử
Phân loại
3D
91 / 358
In silico
Mô tả phân tử
Phân loại
3D
92 / 358
In silico
Mô tả phân tử
Phân loại
Tài liệu tham khảo và phần mềm

a molecular descriptor calculation software
Gói trên python: padelpy

Cách cài đặt: pip install padelpy
Cách sử dụng
from padelpy import from smiles
93 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Vân tay điện tử và phương pháp tìm kiếm sự

tương đồng
94 / 358
In silico
Mục tiêu
• Trình bày được phương pháp tìm kiếm sự tương đồng: khái
niệm, thành phần và ứng dụng.
• Trình bày được khái niệm vân tay điện tử, cấu trúc vân tay
điện tử 2D và 3D
• Trình bày được khái niệm về hệ số tương đồng và một số
ví dụ về hệ số tương đồng.
95 / 358
In silico
Đại cương
Computer-aided drug design
Ligand-based drug design (LBDD): LBDD exploits experimental

knowledge of active/inactive molecules.
Hendrickson, 1991
The principle of LBDD is that structurally similar molecules are
likely to have similar properties.
• Molecular similarity-based search

• Quantitative structureeactivity relationship (QSAR)
• Pharmacophore Modeling
Structure-based drug design (SBDD): demands the structural
knowledge of the therapeutic target.
96 / 358
In silico
Đại cương
Molecular similarity
Similarity and diversity (Willett, 1987)

The concept of similarity and its dual concept of diversity play a
fundamental role in several QSAR strategies and chemometric
methods. By definition, similarity is a binary relationship, i.e. a
relationship between two objects.
97 / 358
In silico
Đại cương
Similarity searching Rouvray, 1990b; Bath et al.,1994;Klein,

1995;Willett, 1998Downs and Willett, 1999
Similarity searchingis a standard tool for drug design, based on
the idea that, given a target structure with interesting
properties, similar compounds chosen in large databases
should have similar properties. Similarity searching involves the
specification of the target structure and its characterization by
one or more structural descriptors; then, this set of reference
structural descriptors is compared with the corresponding sets
of descriptors for each of the molecules in the database. A
measure of similarity between the target structure and each of
the database structures allows a ranking of decreasing
similarity with the target for all the molecules.
98 / 358
In silico
Đại cương
The numerical value of a similarity/diversity measure depends

on three main components:
1 The description of the objects (e.g. molecular descriptors)
2 The weighting scheme of the description elements, and
3 The selected similarity index or distance
99 / 358
In silico
Đại cương
Similarity has many different meanings
Chemical or molecular similarity

Chemical similarity is based primarily on
the physicochemical characteristics of
compounds (e.g., solubility, boiling point, log
P, molecular weight, electron densities, dipole
moments, etc.) while molecular similarity
focuses primarily on the structural features
(e.g., shared substructures, ring systems,
topologies, etc.) of compounds and their
representation.
In the current work, the focus is more on
molecular than chemical similarity
100 / 358
In silico
Đại cương
2D versus 3D Similarity
Similarity can be evaluated on the basis of 2D
and 3D molecular representations.
Direct graph comparisons and graph similarity
calculations
molecular descriptors that capture graph
information such as fragment or topological
atom environment fingerprints are very
popular. Fingerprints are generally defined
as bit string or feature set representations of
molecular structure and properties.
As pointed out above, chemists are generally
more familiar with 2D than 3D representations
of compounds and consider similarity mostly
on the basis of 2D molecular graphs.
101 / 358
In silico
Đại cương
Molecular versus Biological Similarity.

the usual structural or physicochemical
property descriptors are replaced by
the activities of the compounds against
a panel of reference targets, generally
proteins, that provide “biological signatures”
analogous to the structure- or property-based
representations extensively discussed herein.
The activity profiles corresponding to the
biological signatures of the compounds are
compared using an appropriate similarity
function as a measure of pairwise similarity,
irrespective of the structural features of the
compounds. Hence, in this case, biological
similarity is assessed in target space rather
than chemical space.
102 / 358
In silico
Đại cương
Global versus Local Similarity.

A very important criterion for similarity analysis
is distinguishing between global and local
similarity views.
103 / 358
In silico
Đại cương
Medicinal Chemistry Perspective.

Clearly, such similarity considerations fall into
a gray zone, as they are influenced by
subjective criteria as well as the experience
of the investigator, and hence, there is no
generally accepted way to judge such similarity
relationships
104 / 358
In silico
Đại cương
Ưu điểm của phương pháp
• Một hợp chất có hoạt tính đã được biết sẽ là khóa tìm kiếm.
• Người sử dụng có thể thiết lập các giới hạn về đầu ra.
• Khả năng tái sử dụng lại kết quả trên cùng để tìm những
khả năng khác.
• Quyết định chủ quan về mức độ tương đồng.
105 / 358
In silico
Đại cương
Bản chất chủ quan của tìm kiếm sự tương đồng
NGUYÊN LÝ TÍNH CHẤT GIỐNG NHAU: Những phân tử có cấu

trúc giống nhau được hy vọng (expected) có tính chất hoặc hoạt
tính sinh học giống nhau” Cũng được biết đến như là “tính chất
hàng xóm
SIMILARITY PARADOX: Không chắc chắn về mối liên hệ giữa
những điểm tương đồng tính toán được và khả năng có hoạt tính
sinh học
• Không có quy tắc cứng và nhanh chóng.
• Mô tả số được sử dụng để so sánh các phân tử.
• Định lượng mức độ tương đồng bằng hệ số tương đồng.
• Về nguyên tắc xếp hạng độ tương đồng có thể khác nhau.
106 / 358
In silico
Đại cương
Ứng dụng
• Đánh giá tính độc đáo của các hợp chất mới được phân lập
hoặc tổng hợp.
• Tìm cơ sở cho điểm bắt đầu hoặc trung gian trong thiết kế
quá trình tổng hợp.
• Xử lý các phản ứng hóa học và hỗn hợp.
• Tìm kiếm các hợp chất theo nhu cầu của người sử dụng,
ngay cả khi không chắc chắn những gì là cần thiết.
107 / 358
In silico
Mô tả phân tử
Mô tả phân tử
Mô tả phân tử trong tìm kiếm sự tương đồng
Structual keys
Structual keys là một vector nhị phân mà mỗi thành phần là
"True" hoặc "False" đại diện cho sự có hoặc không có của một
đặc trưng của khung hóa học. Ví dụ như MACCCS keys,
Pubchem Fingerprints
Mỗi 0 hoặc 1 có thể được biểu diễn
như là một bit đơn trên máy tính (một
"bitstring”)
Các vân tay thông thường có độ dài
150-2500 bit.
Cần một từ điển
Sử dụng mảnh tổng quát
108 / 358
In silico
Mô tả phân tử
Mô tả phân tử
Hashed Fingerprints
Hashed Fingerprints: Là một vector Boolean xác định dựa trên một tập hợp
các mẫu (set of patterns) để lập chỉ mục. Các mẫu này được tạo ra từ chính
các phân tử và do đó các mẫu sẽ khác nhau từ phân tử này sang phân tử
khác, điều này đồng nghĩa với việc các bit cụ thể không được xác định rõ
ràng. Ví dụ như THe path-based fingerprints, The Daylight fingerprints,
circular fingerprints
Không cần tử điển

Nhiều mảnh khác nhau thiết lập cùng
một bit
109 / 358
In silico
Mô tả phân tử
Mô tả phân tử
Hash structural code: Là biểu diễn chuối ký tự có nguồn tốc từ

các thuật toán băm và nhằm mục đích mô tả các cấu trúc phân
tử và giúp tăng tốc độ truy cập vào các phân tử trong cơ sở dữ
liệu hóa học.
Cần phân biệt với Hashed Fingerprints
110 / 358
In silico
Mô tả phân tử
Mô tả phân tử
Pharmacophore-based descriptors: Là các mô tả cấu trúc con

dựa trên khái niệm về dược chất, có thể được coi là một tập hợp
các đặc điểm cấu trúc trong một sắp xếp không gian, biểu thị
các tương tác được tạo ra bởi một tập hợp các phối tử với một
thụ thể protein. Với điều kiện là dược chất cần thiết cho liên kết
phân tử - thụ thể, nó được coi là mã hóa thông tin quan trọng về
hình dạng hoạt tính sinh học và đặc tính điện tử.
111 / 358
In silico
So sánh 2D và 3D
2D và 3D
• Những người ủng hộ mô tả phân tử 3D cho rằng để liên kết

với thụ thể protein sự sắp xếp trong không gian 3D của
phân tử là quan trọng.
• Tuy nhiên, các nghiên cứu tiến hành tại các phòng thí
nghiệm của Abbott vào giữa những năm 1990 chỉ ra rằng
các mảnh cấu trúc 2D có tính ổn định cao hơn.
Vân tay điện tử tốt nhất là các vân tay được sử dụng trong
các phần mềm ISIS của MDL (“MACCS keys” or “ISIS
keys”)
• Chúng dựa vào các nhóm chức đơn giản và các vòng.
• Một phiên bản chỉ có 166 bits, với nhiều bits không cần thiết
112 / 358
In silico
So sánh 2D và 3D
2D và 3D
Vấn để chúng ta có thể có với các mô tả 3D (3-point pharmacophores

with binned distances)
• Có thể có “độ chính xác giả” trong các khoảng cách.
• Độ linh hoạt cấu dạng có thể gây ra vấn đề (như là một
khoảng cách càng lớn hơn, trong khi đó khoảng cách khác
thì càng nhỏ hơn).
• Phân tử có thể thay đổi hình dạng trong quá trình liên kết.
113 / 358
In silico
So sánh 2D và 3D
2D và 3D
• Mô tả 2D cung cấp “giới hạn” trên các hình dạng 3D: Mô tả

“2 12 D” (bao gồm một số thông tin hóa lập thể
stereochemical information) có thể là hữu ích.
• Ưu thế của các mô tả 2D trong một số nghiên cứu có thể là
kết quả của CSDL sử dụng:
• CSDL có thể có nhiều hợp chất tương tự nhau.
• Các hợp chất này có tính tương đồng 2D cao, cũng như các
hoạt tính tương ứng.
114 / 358
In silico
Hệ số tương đồng
Các hệ số tương đồng
Tên Công thức Khoảng

C
Tanimoto (Jaccard) coefficient SAB = A+B−C 0-1
2C
Dice coefficient (Hodgkin index) SAB = A+B 0-1
Cosine coefficient (Carbo index) SAB = √Cab 0-1
Soergel distance DAB = a+b−2c 0-1
√a+b−c
Euclidean distance DAB = a + b − 2c 0-N α
Hamming (Manhattan or city-block) distance DAB = a + b − 2c 0-N α
115 / 358
In silico
Hệ số Tanimoto
C
SAB = A+B−C Trong đó: a và b là số đặc trưng xuất hiện trong
hoạt chất A và B, và C là số đặc trưng chia sẻ giữa A và B
A + B − C = (A − C) + (B − C) + C
C
SAB =
(A − C) + (B − C) + C
RA,B,C
SAB =
1 + R( A, B, C)
C
RA,B,C =
(A − C) + (B − C)
A và B gần giống nhau thì A-C và B-C tiến gần tới 0 và RA,B,C
tiến tới vô cùng và ngược lại.
Giá trị này không giải thích được tần xuất suất hiện một đặc
trưng cho một hoạt chất 116 / 358
In silico
Tương đồng và khoảng cách
• Khoảng cách là đối lập với tương đồng

• Một hệ số tương đồng nằm trong khoảng từ 0-1 có thể
chuyển đổi thành một khoảng cách bằng cách lấy phần “bổ
sung” của nó : Khoảng cách = 1 – Tương đồng
117 / 358
In silico
Hệ số khoảng cách
Hệ số khoảng cách Soergel
C
DAB = 1 − SAB = 1 −
A+B−C
(A + B − C) − C
DAB =
A+B−C
(A − C) + (B − C)
DAB =
A+B−C
118 / 358
In silico
Hệ số Tversky
C
Tvα,β (A, B) =
α(A − C) + β(B − C) + C
α, β: là đơn vị của số lượng các đặc trưng duy nhất của A hoặc
B, (A-C) và (B-C). Đây là các đơn vị không âm.
Khi α = β= 1 thì Tv=Tc
Khi α = β=0.5 thì Tv được định nghĩa là hệ số Dice
c
DC (A, B) = 1
2
(A + B)
Thông thường α + β = 1. Khi α càng nhỏ thì B góp phần tạo ra cấu trúc của
A càng lớn, B càng gần tương tự với A. Khi α càng lớn thì cấu trúc của B Khi
α= 1 và β=0 sẽ tạo ra thước đo mà đánh giá tương đương A là một phần cấu
trúc con của B. Khi α = 0 và β = 1 sẽ tạo ra thước đo mà tại đó đánh giá A
tương tự với B. Do độ nhiễu của tính toán, cặp giá trị này thường được ghi là
xem xét ở 90/10. Trong một số trường hợp sẽ xem xét giá trị này lớn hơn 1.
119 / 358
In silico
Đặc trưng của hệ số tương đồng
Giá trị Tc có thể hiện được hoạt chất B có cùng hoạt tính với
hoạt chất C
Con số huyền thoại 0.85.
• Sự khác nhau trong thiết kết Fingerprints
• Sự phân bố của giá trị
120 / 358
In silico
Sự khác nhau trong thiết kết Fingerprints
121 / 358
In silico
Sự phân bố của giá trị
122 / 358
In silico
Phần mềm
123 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Giới thiệu phươnng pháp khảo sát mối quan

hệ định lượng cấu trúc hoạt tính sinh
học-QSAR
124 / 358
In silico
Đại cương
Similar-Structure, Similar-Property Principle

The Similar-Structure, Similar Property Principle is the fundamental assertion that
similar molecules will also tend to exhibit similar properties. These properties can
either be physical (e.g. boiling points) or biological (e.g. activity).
Hình: Quantitative Structure-Property Relationships (QSPR)
Hình: Quantitative Structure-Activity Relationships (QSAR)
125 / 358
In silico
Đại cương
Quantitative Structure-Activity Relationships

QSAR là các kỹ thuật nhằm dự đoán các kết quả trước khi các test được tiến hành
trong phòng thí nghiệm. QSAR cung cấp thông tin dự đoán về kết quả có thể có
của một thử nghiệm nào đó và khả năng mới này cung cấp các yếu tố liên quan để
thiết lập thứ tự ưu tiên cho một chất mới để các thử nghiệm
Năm 1863, Crum-Brown quan sát thấy mối liên hệ giữa độc tính và độ tan theo
hàm số của cấu trúc hóa học.
Năm 1868, Crum-Brown and Fraser báo cáo mối liên hệ giữa nhóm thế với
đặc tính hóa lý của hợp chất.
Vào thập niên 1890s, Hans Horst Meyer độc tính phụ thuộc vào khả năng thân
dầu của hợp chất đó.
Năm 1891, Louis Hammett đã nghiên cứu mối quan hệ giữa tính chất điện
tử của cặp acid-base với khả năng phản ứng của chúng. Đây là báo cáo đầu
tiên thiết lập ý tưởng cấu trúc phân tử ảnh hưởng trực tiếp tới điểm cuối (the
endpoint).
Năm 1962, Hansch và cộng sự đã chính thức đưa ra khái niệm QSAR khi đưa
ra mối liên hệ giữa cấu trúc và chất điều hòa sinh trưởng thực vật cũng như
trừ sâu phục thuộc vào hằng số Hammett và tính kỵ nước.
126 / 358
In silico
Đại cương
QSAR và sự chuyển đổi

• Từ một tập hợp dữ liệu nhỏ với đồng nhất dữ liệu và tác
động sang tập hợp dữ liệu lớn hơn, không đồng nhất và
nhiều phương thức tác động hơn.
• Từ mô hình dữ liệu nhỏ với 1 protein duy nhất sang nghiên
cứu mô hình proteochemometric (ngoài ligand còn thêm
mô tả protein).
127 / 358
In silico
Đại cương
QSAR
Áp dụng và quy trình triển khai
Phân loại cấu trúc

Xác định cơ chế của thuốc
Dự đoán hoạt tính
Tối ưu cấu trúc của hoạt chất LEAD
Xây Sử
Xây Đánh
Mô tả dựng dụng
dựng giá mô
phân tử mô mô
CSDL hình
hình hình
128 / 358
In silico
Đại cương
Tầm quan trọng mô tả phân tử
129 / 358
In silico
Đại cương
130 / 358
In silico
Đại cương
Ví dụ về sơ đồ QSAR
131 / 358
In silico
Đại cương
Đánh giá QSAR

• Có đích xác định (defined endpoint)
• Sử dụng một thuật toán rõ ràng (mô hình có thể được tái xây dựng lại
cho những hợp chất mới),
• Có miền ứng dụng được xác định (sử dụng phương pháp đòn bẩy).
• Thỏa mãn các đánh giá nội trên tập TrS để kiểm tra mức độ khớp
(goodness-of-fit), độ mạnh và ổn định của mô hình (robustness).
• Có khả năng giải thích cơ chế
132 / 358
In silico
Các phần của QSAR
Cơ sở dữ liệu
• Thông tin về hoạt tính hóa học (QSAR)

• Thông tin về đặc trưng hóa học (QSPR)
133 / 358
In silico
Hoạt tính hóa học
MIC: Nồng độ ức chế tối thiểu, hay nồng độ kiềm khuẩn tối thiểu
của vi khuẩn (dùng trong vi sinh).
MBC: Nồng độ diệt khuẩn tối thiểu, là nồng độ thấp nhất làm giảm
99.9% lượng vi khuẩn.
IC50 : Nồng độ ức chế 50% đối tượng thử hay còn gọi là hằng số
Michaelis-Menten.
EC50 : (Effective Concentration) nồng độ 50% hiệu quả tối đa.
ED50 : (Effective Dose) liều tác dụng tối đa trên 50% đối tượng thử.
GI50 : Nồng độ ức chế 50% sự tăng sinh tế bào (sự phân chia) cell
proliferation, và thường được sử dụng cho các hợp chất
cytostatic (trái ngược với cytotoxic) agents.
SD50 : Liều tiêu diệt 50% đối tượng thử.
LD50 : Liều gây chế 50% thú thử.
TI: Chỉ số trị liệu (TI càng lớn độ an toàn sử dụng càng cao).
134 / 358
In silico
Molecular Descriptor
Mô tả phân tử
• Constitutional: Khối lượng phân tử, Số vọng, nhóm thế, số

liên kết hydrogen
• Topological: kết nối
• Electrostatic: Điện thế
• Geometrial: Thể tích phân tử, diện tích bề mặt, hình dạng
liên kết
135 / 358
In silico
Molecular Descriptor
Mô tả phân tử
• 0D molecular Descriptor: Loại nguyên tử, khối lượng, loại

liên kết
• Wiener Index W (G) = 12 u,v∈G d(v, u)
P
• Zagreb Indices M1 = ni−1 σi2 M2 =

P P
σi σj
• 1D Số nguyên tử, số liên kết hydro hay liên kết cho nhận,
số vòng, số nhóm chức năng
• 2D Mô hình toán học xây dựng trên lý thuyết mạng hay tính
toán thông số thân dầu hay bề mặt phân cực
• 3D Mô tả hình học không gian hay diện tích bề mặt
• Hóa lượng tử HOMO, LUMO, DM
136 / 358
In silico
137 / 358
In silico
Mô hình QSAR
QSAR model
• Classification Model
• Logistic Regression
• Support Vector Machine (SVM)
• Random Forest
• Deep Neural Network
• Regression Model
• Multiple Linear Regression (MLR)
• Polynomial Regression
• Support Vector Regression
• Deep Neural Network
138 / 358
In silico
Mô hình QSAR
139 / 358
In silico
Mô hình QSAR
QSAR model
• Black Box Learning Methods

• Support Vector Machine
• Artificial Neural Network
• Deep Learning
• Towards Opening the Black Box
• White Box Learning Methods
• Multiple Linear Regression
• Logistic Regression
• Efficient Linear Method
• Principal Component Analysis
• Partial Least Squares Regression
• Decision Tree
• Random Forest
140 / 358
In silico
Mô hình QSAR
141 / 358
In silico
Mô hình QSAR
Support Vector Machine
142 / 358
In silico
Mô hình QSAR
143 / 358
In silico
Mô hình QSAR
144 / 358
In silico
Mô hình QSAR
Multiple Linear Regression
m
X
yi = bi xi + b0
i=1
• Regression coefficients can be obtained via the use of the

least squares method.
• A general rule of thumb states that the sample size (i.e.
number of compounds in the data set) should be at least
five times the number of descriptors that are used.
145 / 358
In silico
Mô hình QSAR
146 / 358
In silico
Mô hình QSAR
Logistic Regression
Hosmer et al. 2013

The transformation of MLR to a logistic regression (LR), can be
easily performed by representing the Y variable via the
conditional probability of Y given X variables (π(X )) when the
logistic distribution is used. The specific formula of LR is
defined as follows:
eb0 +b1 x1 +b2 x2 +...+bM xM
π(X ) =
1 + eb0 +b1 x1 +b2 x2 +...+bM xM
147 / 358
In silico
Mô hình QSAR
π(X )
g(X ) = ln[ ] = b0 + b1 x1 + b2 x2 + . . . + bM xM
1 − π(X )
Xác suất xảy ra sự kiện của cặp (x,y) trong đó x = x1 , x2 , . . . , xn
và y = y1 , y2, . . . , yn thì hàm xác suất được định nghĩa là
π(xi )yi [1 − π(xi )]1−yi
Đối với tập dữ liệu (X,Y) với giả thiết là biến độc lập, hàm xác
xuất được định nghĩa
M
Y
l(bi ) = π(xi )yi [1 − π(xi )]1−yi
i=1
148 / 358
In silico
Mô hình QSAR
et 1
σ(t) = =
t
e +1 1 + e−t
1
Nếu t = β0 + β1 x thì σ(t) =
1+e−(β0 +β1 x)
149 / 358
In silico
Validation of QSAR models
Validation of QSAR
• Cross-validation
• Training/evaluation set splitting
• Bootstrap
• External validation
• y-scrambling
• Lateral validation
• QUIK rule
150 / 358
In silico
151 / 358
In silico
Internal Validation
Least Squares Fit
Pn
2 (yi − ŷi )2
R = 1 − Pi=1
n 2
i=1 (yi − ȳi )
Hiệu chỉnh sau khi loại bỏ các giá trị thô quá khác biệt.
Pn
2 (yi − ŷi )2
Radj = 1 − Pni=1 2
i=1 (yi − ȳi )
2
R2 và Radj lệch không quá 0.3
152 / 358
In silico
Internal Validation
Fit of the Model
n
X (yi − ŷi )2
χ2 =
ŷi
i=1
v
u n
uX (yi − ȳ)2
RMSE = t
n−1
i=1
n
X |yi − ŷi |
MSE =
n
i=1
2
Nếu χ > 0.5 và RMSE > 1.0 thì mô hình vẫn không chính xác dù giá trị R2 >0.7.
Mô hình được coi là tốt khi giá trị χ2 <0.5 và RMSE<0.3.
Các thông số này không chỉ báo hợp lệ của mô hình.
153 / 358
In silico
Internal Validation
Cross-validation
Cross-validation là quá trình lặp lại trên một tập con của dữ liệu
ban đầu thông quá đánh giá các thông số CV , Q 2 , q 2 , jack −
knifing.
• LOO method (In the leave-one-out) là quá trình CV khi loại
bỏ 1 phân tử trong tệp dữ liệu ban đầu, tạo và đánh giá lại
mô hình trên toàn bộ dữ liệu riêng lẻ sau khi được thử
nghiệm lại. Giá trị trung bình của mỗi Q 2 được tính toán.
• LMO method (leave-many-out ) là quá trình CV khi lọai bỏ
nhiều phần từ trong tệp dữ liêu ban đầu.
154 / 358
In silico
Internal Validation
Cross-validation
Pn
(yi − ŷi )
R 2 = 1 − Pi=1
n
i=1 (yi − ȳi )
Pn
2 (yi − yˆi/i )
QLOO = 1 − Pi=1
n
i=1 (yi − ȳi )
Q 2 và R 2 không lệch quá 0.3. Q 2 >0.5 nhiều không không là chỉ dấu cho mô
hình tốt nếu như chưa xem xét với hợp chất bên ngoài.
155 / 358
In silico
External validation
Training/evaluation set splitting
A validation technique where, together with the training and

evaluation sets, an additional external set is created to perform
a further check on the predictive capabilities of a model
obtained from a training set and with predictive power
optimized by an evaluation set. When the number of objects is
large enough, the use of an external data set for a further
model validation is strongly suggested.
156 / 358
In silico
• correlation coefficient R between the predicted and observed activities

• coefficients of determination (R 2 ) (predicted vs. observed activities r02 ,
r 2 −r02
and observed vs. predicted activities r0′ ) Rpred
2
> 0.6; r2
< 0.1;
r 2 −r02
r2
< 0.1
• slopes k and k ′ of the regression lines through the origin. 0.85<k<1.15;
0.85 <k ′ <1.15
157 / 358
In silico
Internal Validation
Bootstrapping
Mẫu được lựa chọn ngẫu nhiên từ tập dữ liệu.

Nếu K nhóm được chọn ngẫu nhiên từ tập dữ liệu có thể có phần
tử xuất hiện nhiều lần trong khi có thể có phần tử không bao giờ
được chọn.
Pn
(yi − yˆi/i )
QLOO = 1 − Pi=1
2
n
i=1 (yi − ȳi )
Giá trị trung bình của Q 2 cao thể hiện mô hình ổn định.
158 / 358
In silico
Internal Validation
y-scrambling (y-randomization test)
Gán ngẫu nhiên giá trị Y từ các giá trị Y đúng.

Đánh giá lại mô hình thông qua R 2 hoặc Q 2 .
Nếu R 2 > 0.5 thì phải đặt câu hỏi.
159 / 358
In silico
Cut-off
MLR and PLS
• If correlation coefficient R > 0.8 (for in vivo data).

• If coefficient of determination R 2 > 0.6
• If the standard deviation s is not much larger than standard deviation of
the biological data.
• If its F value indicate that overall significance level is better than 95%.
• If its confidence interval of all individual regression coefficients proves
that they are justified at the 95% significance level.
• If cross-validated R 2 (Q 2 ) > 0.5
• If R 2 for external test set, Rpred
2
> 0.6
• Randomized R 2 value should be as low as to R 2 .
• Randomized Q 2 value should be as low as to Q 2 .
• (r 2 ˘r02 )/r 2 <0.1 and 0.85 <=k<= 1.15, or (r 2 ˘r ′20 )/r 2 < 0.1 and 0.85 < = k ′
< = 1.15 (for test set).
160 / 358
In silico
Software QSAR modeling
161 / 358
In silico
Molecular docking
Molecular docking
162 / 358
In silico
Molecular docking
Mục tiêu
• Nêu được định nghĩa và ý nghĩa của phương pháp

Docking.
• Trình bày được các thành phần cơ bản của một chương
trình Docking.
• Sử dụng được phần mềm để tiến hành Docking một số
trường hợp đơn giản.
164 / 358
In silico
Molecular docking
Cơ sở lý thuyết
Mô hình của molecular docking

Năm Mô hình Tác giả
1890 Lock and Key Emil Fischer
1958 Induced-fit Daniel Koshland
2003 Conformation ensemble Buyong ma et al
165 / 358
In silico
Molecular docking
Sự đồng bộ về mô hình
Cả 3 mô hình không phải mẫu thuẫn nhau mà sự bổ sung cho
nhau. Mỗi mô hình thể hiện một khía cạnh của quá trình. Mô
hình lock and key thể hiện nguyên tắc liên kết không gian 3
chiều, The induced-fit thể hiện cách mà nguyên tắc đạt được
trong khi mô hình the conformation ensemble thể hiện sự phức
tạp của không gian 3 chiều của protein.
166 / 358
In silico
Molecular docking
Các thực nghiệm để nghiên cứu molecular docking
• Kỹ thuật NMR, X-ray, electro micoscopy.

• Cho phép nghiên cứu chi tiết mối liên hệ trong cấu trúc 3D.
• Thông tin thu được lại quá ít.
167 / 358
In silico
Molecular docking
Các khái niệm
Molecular docking trên máy tính

Computational docking (also called in silico molecular docking or just docking) is a
computational science aiming at predicting the optimal binding orientation and
conformation of interacting molecules in space, and to estimate the stability of their
complex
• Kỹ thuật docking là khoa học máy tính đạt được dự đoán

tối ưu hướng liên kết, không gian tương tác giữa các cấu
hình và ước lượng độ ổn định của phức.
• Molecular docking dự đoán liệu có hay không tương tác
giữa 2 cấu trúc, ái lực liên kết và cấu trúc 3D của phức
168 / 358
In silico
Molecular docking
Các khái niệm
Ý nghĩa
• Docking có vai trò quan trọng trong việc dự đoán ái lực và

hoạt tính của các dược chất đối với protein, từ đó dự đoán
khả năng hoạt hóa hoặc ức chế một protein chức năng.
• Bên cạnh đó Docking cũng giúp dự đoán trung tâm hoạt
động và vị trí, cấu hình thuận lợi của cơ chất tham gia phản
ứng khi xem xét cơ chế xúc tác của enzyme (cũng là một
loại protein chức năng)
• Docking cóthể đưa ra cơ sở để giải thích các dữ liệu thực
nghiệm (vd: sự khác nhau trong ái lực liên kết vàhỗ trợ
thiết kế các cơ chất mới)
169 / 358
In silico
Molecular docking
Các khái niệm
Ứng dụng
• Thiết kế thuốc dựa vào cấu trúc (structure- based drug

design);
• Tối ưu hóa cấu trúc hợp chất dẫn đường (lead
optimization);
• Sàng lọc ảo (virtual screening);
• Thiết kế các thư viện liên kết (combinatorial library design);
• Nghiên cứu cơ chế tác dụng của các thuốc (chemical
mechanism studies).
• Dự đoán tác dụng
• Dự đoán vị trí liên kết
• protein-protein interaction
170 / 358
In silico
Molecular docking
Các khái niệm
Nhược điểm
• Docking cần thông tin về cấu trúc 3D của Protein.

• Cơ chất và protein đều có thể thay đổi cấu dạng.
• Hàng trăm đến hàng ngàn bậc tự do.
• Cấu dạng cơ chất và protein là vô tận.
• Giữa cơ chất và enzym còn những tương tác khác như
tương tác Van der Waals, tương tác tĩnh điện, trong nhiều
trường hợp còn có tương tác hóa học.
171 / 358
In silico
Molecular docking
Các khái niệm
Phân loại
172 / 358
In silico
Molecular docking
Các khái niệm
Pose
173 / 358
In silico
Molecular docking
Các khái niệm
Mối liên hệ giữa giữa các phân tử
• Mối liên hệ về hình dạng là tiêu chí đầu tiên về liên hệ giữa
các phân tử
• Mối liên hệ hóa lý là tiêu chuẩn thứ hai khi xem xét liên hệ
giữa các ứng cử viên
174 / 358
In silico
Molecular docking
Các khái niệm
Thế năng
• The complex has a lower potential energy than its

constituent parts, and this keeps the parts together
• The goal of computational docking is to find the 3D
configuration of the complex that minimizes the energy
175 / 358
In silico
Molecular docking
Các khái niệm
Cứng-Linh hoạt
• Việc lắp ghép cơ thể cứng nhắc bỏ qua tính linh hoạt của các phân tử
và coi chúng như những vật cứng
• Cơ quan thụ cảm cứng nhắc - ghép nối phối tử mềm dẻo: chỉ có phối tử
được coi là mềm dẻo, cơ quan thụ cảm là cứng
• Cơ quan thụ cảm linh hoạt - kết nối phối tử linh hoạt: cả protein và phối
tử đều được coi là linh hoạt.
176 / 358
In silico
Molecular docking
Phần mềm docking
Cấu thành của phần mềm docking
• Biểu diễn phân từ (Molecular representation ): atomic,

surface, grid representation
• Thuật toán tìm kiếm (Searching algorithm ): Xác định các
cấu hình có thể có của protein-ligand còn gọi là pose
(exhaustive search, Monte Carlo, genetic algorithms,
simulated annealing, tabu search)
• Cách đánh giá (Scoring method, scoring function): Mô hình
toán học để đánh giá các pose( force field,
knowledge-based approach)
177 / 358
In silico
Molecular docking
Molecular representation
Biểu diễn phân tử thông qua loại nguyên tử và góc tọa độ.
178 / 358
In silico
Molecular docking
Searching algorithm
Mục tiêu: Nếu nhóm liên kết trên ligand và vị trí liên kết đã được
xác định, chúng sẽ cần xác định bởi toán tử sao cho nhóm liên
trên ligand bắt cặp hoàn toàn với nhóm ghép nối trong vị trí liên
kết. Khoảng cách liên kết tiềm năng cũng như các nhóm bắt cặp
đã được quy định từ trước. Sau đó, phân tử sẽ được di chuyển
xung quanh vị trí liên kết để thử nghiệm sao cho kết quả thu
được là tốt nhất.
179 / 358
In silico
Molecular docking
The surface of binding site

One could do this by
defining each atom
within the binding site
by its van der Waals
radius, but this results
in an extensive surface
area, much of which
would be inaccessible
to a ligand. In practice
a probe sphere of
radius 1.4 1.5 A is
used to represent a
water molecule and
this is rolled over the
surface of the binding
site
180 / 358
In silico
Molecular docking
Rigid docking by shape complementarity

Mỗi điểm (dot) đại diện cho bề mặt
cấu trúc phân tử, hình cầu được
xây dựng từ điểm này dựa trên khả
năng mỗi hình cầu có khả năng
tiếp xúc với hình cầu khác. Nếu N
là số lượng điểm đại diện cho bề
mặt cấu trúc phân tử thì N-1 là số
hình cầu tạo ra được.
181 / 358
In silico
Molecular docking

• Với mỗi điểm trong bề mặt cấu trúc phân tử, hình
cầu có đường kính nhỏ nhất sẽ được chọn. Điều
này đảm bảo cho không có hình cầu nào giao
nhau.
• Có một số điểm liên kết với bề mặt của một
nguyên tử cụ thể và mỗi điểm này có một hình
cầu liên kết với nó. Quá trình lọc tiếp theo này sẽ
chọn hình cầu có bán kính lớn nhất. Khi điều này
đã được hoàn thành, số lượng quả cầu còn lại
bằng với số nguyên tử nằm trên vùng liên kết.
Các hình cầu được phép chồng lên nhau và tâm
của mỗi hình cầu xác định chính xác vị trí duy
nhất của không gian 3D trong vùng liên kết.
182 / 358
In silico
Molecular docking

Pseudoatom Là hình cầu xuất
hiện trong vùng liên kết.
183 / 358
In silico
Molecular docking

Cách thức xác định ligand atom
và pseudoatom có thể chồng
lên nhau:
• Đo khoảng cách giữa các ligand atom cũng như
pseudoatom
• Một biểu đồ (graph) thu được từ mỗi ligand atom
(1,2,3. . . ) sẽ chồng lên được hình cầu trong
recepter (A,B, C. . . ) là một danh sách các cặp
atom/pseudoatom (1A, 1B, 1C . . . , 2A, 2B, 2C
. . . 3A, 3B, 3C, . . . , etc)
• Xem xét 2 cặp có phù hợp không ví dị 1A có khả
năng trùng với 2C thông qua khoảng cách giữa 1
và 2 so sánh với khoảng cách A và C
• Nếu chúng bằng nhau thì coi như phù hợp.
• Số lượng cặp nhỏ nhất yêu cầu được chấp thuận
trong docking là bằng 4.
184 / 358
In silico
Molecular docking
Acceptable or Unacceptable
185 / 358
In silico
Molecular docking

The Stepwise Search Approach
The approach is driven by a scoring function which guides the search algorithm.
In computational docking the stepwise search involves two components:
• A positioning module which generates new complex arrangements
• A scoring module that assesses the quality of each individual
arrangement
186 / 358
In silico
Molecular docking
Rigid docking by matching hydrogen bonding

groups
Based Matching Methods
the Directed Dock algorithm
• Firstly, a hydrogen bonding group on the ligand must be the correct

distance from a hydrogen bonding group in the binding site.
• Secondly, the two groups concerned must have the correct orientation
with respect to each other
187 / 358
In silico
Molecular docking
Rigid docking by matching hydrogen bonding

groups
Based Matching Methods
the Directed Dock algorithm
• Firstly, a hydrogen bonding group on the ligand must be the correct

distance from a hydrogen bonding group in the binding site.
• Secondly, the two groups concerned must have the correct orientation
with respect to each other
188 / 358
In silico
Molecular docking
The use of grids in docking programs
Atom probes are

C, H, N, and O.
T Typical fragment
probes are C=O,
CO2, NH, etc.
Grids and probe atoms are used to measure steric, electrostatic, and hydrophobic
fields around molecules.
Grids can be placed in binding sites in order to identify the nature and strength
of potential binding interactions at different locations within the binding site.
These can be tabulated and used to measure binding energies of ligands.
189 / 358
In silico
Molecular docking
Rigid docking
Search Algorithms
The following approaches are used in computational docking:

• Exhaustive search (for small systems only)
• Monte Carlo
• Genetic Algorithms
• Simulated Annealing
• Tabu searches
190 / 358
In silico
Molecular docking
Docking of flexible ligand

Degrees of Freedom in Flexible Docking
• The rigid-body docking approaches are often not sufficient to predict the
structure of a protein complex from the separate unbound structures
• The incorporation of molecular flexibility into docking algorithms requires
to add conformational degrees of freedom to translations and rotations
• Approximation algorithms need to be introduced to reduce the
dimensionality of the problem and produce acceptable results within a
reasonable computing time
191 / 358
In silico
Molecular docking

Methods for Handling Ligand Flexibility
• Ligand-ensemble docking method: The simplest method

to account for small molecule flexibility is to consider it as
an "ensemble" of rigid and independent ligand
conformations
• Fragmentation method: Fragmentation methods break
down the molecule into small rigid fragments, the
fragments are then reassembled in the binding pocket
• The place-and-join
• The incremental approach
• Stochastic conformational search method: Stochastic
search methods modify the conformation of the small
molecule in the receptor site and assess it on the fly
192 / 358
In silico
Molecular docking

Ligand-Ensemble Docking Method
193 / 358
In silico
Molecular docking

The place-and-join
Directed Dock and Dock 4.0
Directed Dock and Dock 4.0 use a method where the algorithm identifies the
rotatable bonds that are present in a ligand, allowing the identification of rigid
and flexible regions. The molecule is then split into molecular components or
fragments
194 / 358
In silico
Molecular docking

The incremental approach
FlexX
195 / 358
In silico
Molecular docking
Docking of flexible ligands

Stochastic Search Methods
Simulated annealing and genetic algorithms
196 / 358
In silico
Molecular docking
Scoring method
Scoring methods aim at assessing the quality of docked complexes

and guiding the docking algorithm
The binding process that leads to the formation of a complex
between a ligand and its receptor is controlled by several factors
including:
• The interaction energies between the two molecules
• The desolvation and solvation energies associated with the
interacting molecules
• The entropic factors that occur upon binding
The final free energy of binding will depend on the overall balance
of these factors
197 / 358
In silico
Molecular docking
Interaction Energies
• Electrostatic interactions
• Hydrogen bond interactions
• Van der Waals interactions
• Hydrophobic forces
198 / 358
In silico
Molecular docking
Desolvation Energies
199 / 358
In silico
Molecular docking
Entropic Effects
200 / 358
In silico
Molecular docking
Calculation of the Binding Energies
201 / 358
In silico
Molecular docking
Force-Field Calculations
• Molecular mechanics can be used to estimate the internal energy of the

system, which makes it useful for calculating ∆G
• The total energy of a system is described as the sum of the
independent terms of the force field
• The energies obtained by force field methods can be used directly to
approximate free energies of binding
202 / 358
In silico
Molecular docking
Target
Protein Data Bank
• Protein Data Bank (PDB) là kho lưu trữ dữ liệu cấu trúc 3D
của các phân tử sinh học lớn như là protein và axit nucleic.
• Các file dữ liệu cấu trúc được đưa lên bởi các nhàsinh học
phân tử trên khắp thế giới. Các file dữ liệu cấu trúc cóthể
truy cập vàtải về miễn phíqua các trang web thành viên
PDBe, PDBj„ RCSB. Dữ liệu đưa lên PDB được kiểm tra lại
bằng phần mềm PDB Validation Suite.
• Dữ liệu tại đây được cập nhật hàng tuần.
• Miễn phí truy vấn cấu trúc.
203 / 358
In silico
Molecular docking
Target
Protein Data Bank
• Tất cả các phân tử được tìm thấy trong các sinh vật từ vi
khuẩn, nấm, thực vật, động vật vàcon người.
• Được xây dựng vào năm 1971 tại Brookhaven National
Laboratory dưới sự lãnh đạo của Walter Hamilton.
• Từ năm 1998, the Research Collaboratory for Structural
Bioinformatics (RCSB) chịu trách nhiệm chính quản lýPBD.
• Việc tìm kiếm thông thông cóthể được tiến hành theo
PDBID, tên, tên tác giả hoặc theo cơ chất.
204 / 358
In silico
Molecular docking
Target
Độ phân giải của protein

• Là thước đo chất lượng của dữ liệu được tập hợp
• Nếu độ phân giải lớn hơn 4.0 Ao thì không thể xác định
được tọa độ riêng rẽ của các nguyên tử.
• Độ phân giải trong khoảng 3.0- 4.0 Ao: cấu trúc bộ khung
có thể đúng nhưng phần mạch nhánh có cấu dạng không
đáng tin cậy.
• Độ phân giải trong khoảng 2.5-3.0 Ao:bộ khung có thể xác
định đúng, với các nhánh dài vàmảnh của một số
aminoaxit như Lys, Glu, Gln,...và các nhánh nhỏ của Ser,
Val, Thr...có cấu dạng không đáng tin cậy.
• Độ phân giải trong khoảng 2.0- 2.5 Ao: số nhánh có cấu
dạng sai ít hơn đáng kể. Cóthể xác định được các phân tử
nước vàcác phối tử nhỏ.
• Độ phân giải trong khoảng 1.5-2.0 Ao:chỉ còn lỗi nhỏ về
cấu dạng
205 / 358
In silico
Molecular docking
Target
Dự đoán vị trí gắn kết
• Vị trí của ligand gắn với protein

• Sử dụng phần mềm dự đoán
206 / 358
In silico
Druglikness
Druglikness
207 / 358
In silico
Druglikness
Mục tiêu
• Trình bày được khái niệm hợp chất “giống thuốc” và ứng
dụng khái niệm này trong quá trình nghiên cứu thuốc mới.
• Trình bày được quy tắc Lipinski, ưu nhược điểm và ứng
dụng của quy tắc, so sánh với một số quy tắc sàng lọc hợp
chất giống thuốc khác.
• Trình bày được khái niệm hợp chất “giống dẫn đường” và
một số quy tắc sàng lọc lead-likess.
• Trình bày được một số quy tắc sàng lọc các nhóm chức và
alert cấu trúc.
208 / 358
In silico
Druglikness
Đại cương
Rào cản đối với thuốc trong cơ thể
• Hạn chế lượng thuốc đến đích tác dụng

• Bao gồm: màng sinh học, pH, các enzyme chuyển hóa và
các chất mang
• Lý tưởng: hấp thu tối đa, phân bố tại cơ quan đích, ít
chuyển hóa, thải trừ hợp lý, độc tính thấp.
209 / 358
In silico
Druglikness
Đại cương
Yếu tố ảnh hưởng đến phân tử thuốc
• Màng tế bào
• Ezyme chuyển hóa
• Dung môi
• pH môi trường
• Bơm tống xuất
• Protein liên kết
210 / 358
In silico
Druglikness
Đại cương
Khái niệm Giống thuốc
Christopher A. Lipinski-1997
Drug-like được hiểu là các hợp chất có tính chất dược động học
và độc tính (ADME/Tox) phù hợp với nghiên cứu lâm sàng pha
1 trên người.
Walters và Murko-2002
Phân tử chứa nhóm chức và có tính chất vật lý tương tự như
phần lớn các thuốc đang sử dụng.
211 / 358
In silico
Druglikness
Đại cương
Khái niệm Giống thuốc
Muegge-2003
Drug-likeness chủ yếu dùng để chỉ kết quả thống kê một (hoặc
một vài) tham số phân tử được tính toán từ một cơ sở dữ liệu
các thuốc. Vì thế nó có thể được dùng để xác định tính giống
thuốc của một (hoặc một vài) hợp chất khác được lựa chọn từ
một cơ sở dữ liệu nào đó.
Khái niệm
Thuật ngữ drug-like tương ứng với phân tử thuốc với đặc điểm
tính chất đảm bảo rằng các phân tử này có khả năng thành
công lớn hơn các phân tử khác trong quá trình phát triển thành
thuốc.
212 / 358
In silico
Druglikness
Đại cương
Các đặc điểm cấu trúc của phân tử
• Khả năng hình thành liên kết hydro

• Tính thân dầu
• Trọng lượng phân tử
• Diện tích bề mặt phân cực
• Hình dạng
• Khả năng phản ứng
• Hằng số phân ly (vd: acid là pKa)
213 / 358
In silico
Druglikness
Đại cương
Tính chất hóa lý
• Tính tan
• Tính thấm
• Tính bền vững hóa học
214 / 358
In silico
Druglikness
Đại cương
Tính chất hóa sinh
• Chuyển hóa pha 1 và pha 2

• Khả năng liên kết với protein và các mô
• Phương thức vận chuyển
215 / 358
In silico
Druglikness
Đại cương
Đặc điểm dược động học và độc tính
• Đô thanh thải
• Thời gian bán thải
• Sinh khả dụng
• Tương tác thuốc
216 / 358
In silico
Druglikness
Đại cương
Ứng dụng
• Lên kế hoạch, thực hiện và giải thích tốt hơn các thí
nghiệm trong quá trình nghiên cứu thuốc
• Tiết kiệm thời gian do không phải giải quyết các vấn đề liên
quan đến tính chất tại thời điểm cuối cùng
• Nhanh và hiệu quả hơn
• Các ứng cử viên sẽ ít nguy cơ và tăng giá trị hơn
• Thời gian được bảo hộ sẽ cao hơn
• Sự được bệnh nhân dễ chấp nhận hơn
217 / 358
In silico
Druglikness
Đại cương
Đặc điểm chung của quy tắc giống thuốc
• Cho phép đánh giá nhanh đặc điểm cấu trúc của các hợp
chất trước khi tiếp tục nghiên cứu thực nghiệm.
• Là một tập hợp các quy tắc với các ngưỡng giới hạn của
các đặc điểm cấu trúc hay tính chất lý hóa của các hợp
chất. Các cấu trúc nằm trong các giới hạn này có độ hấp
thu cao hơn các hợp chất nằm ngoài.
• Các quy tắc giống thuốc là một phần không thể thiếu trong
các phần mềm tính toán tham số cấu trúc.
218 / 358
In silico
Druglikness
Một số quy tắc
Quy tắc 5 của Lipinski
• Có không quá 5 trung tâm cho liên kết hydro (OH, NH)
• Có không quá 10 trung tâm nhận liên kết hydro (O,N)
• Có khối lượng phân tử không quá 500g/mol
• Có giá trị logP không quá 5
• Không ứng dụng cho các thuốc là cơ chất của vận chuyển
sinh học
219 / 358
In silico
Druglikness
Quy tắc 5 của Lipinski

Lịch sử
• Khi nghiên cứu các đặc điểm cấu trúc của các hợp chất đã
qua pha 1 thử nghiệm lâm sàng và được chuyển sang pha
2. Pha 1 nghiên cứu liều trên người để xác định độc tính và
dược động học của thuốc. Việc chúng được chuyển sang
nghiên cứu ở pha 2, chứng tỏ chúng được hấp thu tương
đối tốt trên người để có thể được tiếp tục được phát triển.
• Một tập hợp gồm 2245 hợp chất đã được nghiên cứu và đã
quan sát được một xu hướng rõ ràng, trở thành tiền đề cho
các quy tắc này.
• 90% các hợp chất được hấp thu tốt sau khi uống có tính
chất phân tử nằm trong giới hạn của Lipinski
• Các hợp chất tiệm cận hoặc vượt quá các giá trị này có
nhiều nguy cơ kém hấp thu sau khi uống
220 / 358
In silico
Druglikness
Ưu điểm
• Quy tắc có thể được thiết lập nhanh chóng, dễ dàng và

không tốn kém
• Quy tắc 5 dễ nhớ
• Trực quan rõ ràng cho các nhà hóa dược
• Được sử dụng rộng rãi hiện nay như các tiêu chuẩn để
đánh giá sớm một hợp chất trong quá trình nghiên cứu và
phát triển thành thuốc
• Được phát triển trên một nghiên cứu cẩn thận
• Sử dụng hiệu quả
221 / 358
In silico
Druglikness
Nhược điểm
• Ro5 chỉ áp dụng cho các hợp chất theo đường tiêu hóa
(không áp dụng cho các cơ chất của các chất vận chuyển
và hợp chất tự nhiên)
• Ro5 chỉ áp dụng đối với các hợp chất được hấp thu theo co
chế bị động.
• Nhiều thuốc kháng sinh, kháng nấm, vitamin và một số
glycosides tim mạch không thỏa mãn Ro5.
• Các hợp chất thỏa mãn tất cả các quy tắc không nhất thiết
sẽ là thuốc tốt
• Ro5 không nói về các đặc điểm cấu trúc hóa học cụ thể
nào được tìm thấy trong các thuốc hoặc không thuốc
222 / 358
In silico
Druglikness
Lưu ý
• Vi phạm một quy tắc có thể không dẫn đến hấp thu kém.
• Tuy nhiên khả năng hấp thu kém tăng lên theo số lượng
các quy tắc bị vi phạm và mức độ vi phạm quy tắc đó.
223 / 358
In silico
Druglikness
Cơ sở khoa học của quy tắc

Số liên kết hydro
Liên kết hydro làm tăng độ tan trong nước, nhưng liên kết này
cần phải được phá vỡ để hợp chất có thể hấp thu qua màng lipid
kép.
Do đó, khi tăng số liên kết hydro sẽ giảm sự phân bố từ pha lỏng
sang pha dầu nên giảm sự hấp thu theo cơ chế khuếch tán bị
đông.
224 / 358
In silico
Druglikness

Khối lượng phân tử
• Khối lượng phân tử liên quan đến kích thước phân tử.
• Khi kích thước phân tử tăng, sẽ làm giảm độ tan (do nước
phải hình thành một khoang lớn hơn để hòa tan hợp chất).
• Kích thước phân tử tăng cũng làm giảm khuếch tán bị
động do bị giữ lại bởi các mạch nhánh carbon của màng
lipid kép.
225 / 358
In silico
Druglikness

Tính thân dầu
Là khả năng 1 hợp chất khuếch tán vào môi trường không phân
cực so với nước.
Đánh giá: hệ số phân bố giữa octanol và nước của hoá chất
(logP hoặc logD )
Vai trò: quyết định đối với một số tính chất ADME/Tox và hoạt
tính
Tính toán: trực tiếp, dễ dàng (LogP ) dựa trên các nghiên cứu
của Hansch và Leo (1995
226 / 358
In silico
Druglikness
LogD
Phụ thuộc vào khả năng khuếch tán của cả 2 dạng (ion và phân
tử).
Dạng ion có ái lực với pha nước cao hơn pha dầu.
Khả năng khuếch tán của dạng ion phụ thuộc vào pH của môi
trường hòa tan, hằng số phân ly pKa của hợp chất và đặc điểm
acid hay base của phân tử
227 / 358
In silico
Druglikness
logP
Tăng giá trị của logP sẽ làm giảm tính tan ở trong nước, dẫn đến
giảm sự hấp thu
Quá trình vận chuyển qua màng tế bào có thể được tăng cường
hay giảm bớt bởi vận chuyển chủ động hoặc cơ chế đẩy ra ngoài
(efflux mechanism)
Điều này có nghĩa là các chất vận chuyển có tác động mạnh tới
tăng hoặc giảm khả năng hấp thu.
228 / 358
In silico
Druglikness
Ứng dụng
Được sử dụng rộng rãi để sàng lọc các hợp chất “giống thuốc”
(drug-likeness) của nhiều phân tử khác nhau.
Được sử dụng rộng rãi đến mức gần như là bản quyền (almost
“copyright” ) trong lĩnh vực nghiên cứu và phát triển thuốc.
Tuy nhiên, cũng có nhiều nghiên cứu khác được tiến hành trong
lĩnh vực này.
229 / 358
In silico
Druglikness
Quy tắc Verber
• Nghiên cứu khi khảo sát sinh khả dụng (đường uống) của
các ứng cử viên tiềm năng trở thành thuốc trên chuột.
• Các quy tắc để mô tả druglikeness khác Linpiski
• Thông số chính được lấy từ nghiên cứu này là số liên kết
quay được (rotatable bonds) – một dấu hiệu của linh hoạt
phân tử.
230 / 358
In silico
Druglikness
Quy tắc Verber
Liên kết có thể quay

Giải thích: Phân tử ít liên kết tự quay tốn ít năng lượng để thay
đổi cấu trúc bề mặt thành dạng thân dầu hơn một phân tử có
quá nhiều liên kết tự quay (Entropy thấp hơn)
Diện tích bề mặt phân cực ảnh hưởng lớn đến tính thấm qua
màng của thuốc. Phân tử có diện tích bề mặt phân cực lớn.
không qua màng lipid.
231 / 358
In silico
Druglikness
Quy tắc Verber
Drug-likeness:
• Liên kết có thể quay < 12
• Diện tích bề mặt phân cực < 140
Còn MW (Lipinski) và logP? Veber không dám chắc quy tắc của
ông là tổng quát cho drug-likeness
Rất khó để xây dựng một quy tắc chung cho tất cả các trường
hợp
232 / 358
In silico
Druglikness
Lead Likeness
Lead Likeness
Ban đầu dựa trên Ro5 (không có giá trị để lựa chọn các hợp chất
lead)
Kết quả là các hợp chất lead (nền tảng) phải có một số đặc điểm
cấu trúc tự do để không cản trở khả năng của chúng thành các
ứng cử viên lâm sàng
Kinh nghiệm đã chỉ ra rằng trong quá trình tối ưu hóa cấu trúc
các hợp chất lead các mảnh cấu trúc (substructures) thường sẽ
được thêm vào sườn cấu trúc của hợp chất lead ban đầu để làm
tăng ái lực và sự chọn lọc với target.
Các nhóm không phân cực (Non-polar groups) có thể được thêm
vào để làm tăng khả năng liên kết với các khoang ưa dầu
Các nhóm phân cực có thể được thêm vào để làm tăng số lượng
liên kết hydro với các target.
233 / 358
In silico
Druglikness
Lead Likeness
Lead Likeness
Quá trình này dẫn đến vi phạm các quy tắc Ro5
Lý luận hiện tại đã dẫn tới việc sàng lọc các thư viện cấu trúc
các hợp chất lead với:
Khối lượng phân tử (Molecular weight) 100-350
ClogP : 1-3
Điều này làm tăng tỷ lệ các kết quả tối ưu hóa thành các hợp
chất với tính chất giống thuốc chập thuận được.
234 / 358
In silico
Druglikness
Lead Likeness
Lead Likeness
Mục tiêu tìm hợp chất có hoạt tính mạnh nhất, nhưng phải “gần”
giống thuốc
Sàng lọc từ một cơ sở dữ liệu dựa trên hoạt tính dễ dàng hơn
rất nhiều khi phải xem xét đồng thời nhiều tính chất (dược động
học, độc tính)
cần tổng hợp nhiều yếu tố khi tìm kiếm hợp chất dẫn đường
235 / 358
In silico
Druglikness
Lead Likeness
Bảo tồn sườn cấu trúc

Template Conservation
Sườn cấu trúc xuất phát từ tối ưu hóa hợp chất dẫn đường
Là phần mà phải được bảo lưu nhằm đảm bảo tính chất dược lý
của hợp chất dẫn đường. Thay đổi các nhóm thế trên sườn cấu
trúc nhằm tối ưu hóa tính chất dược động học và độc tính.
236 / 358
In silico
Druglikness
Lead Likeness
Lọc nhóm chức
Giúp nhận biết và loại bỏ các cấu trúc chứa nhóm chức gây tác
dụng không mong muốn.
Tác dụng không mong muốn: độc tính, tính kém bền trong điều
kiện sinh lý
237 / 358
In silico
Druglikness
Lead Likeness
Alert cấu trúc

Ashby
Là các quy tắc (filter) giúp nhận dạng các phần của cấu trúc liên
quan đến khả năng gây ung thư và đột biến gen.
Alert cấu trúc phải được đánh giá trên cơ sở ngưỡng gây độc với
cơ thể (Threshold Toxicological Concern (TTC)).
Cơ thể phải tiếp xúc với cấu trúc đó sau một thời gian nhất định,
ở một điều kiện nhất định mới gây độc.
không phải tất cả các alert cấu trúc đều nguy hiểm như nhau tìm
ra các alerts cấu trúc mà vẫn nằm dưới ngưỡng độc.
238 / 358
In silico
Druglikness
Lead Likeness
Tìm kiếm các alert cấu trúc từ thực phẩm và phụ da
Cheeseman tìm kiếm các alert cấu trúc có trong thực phẩm.
Nhận biết các alert cấu trúc có trong thực phẩm và phụ da: yêu
cầu cẩn thiết cho xét duyệt, kiểm định và đánh giá thực phẩm.
Tất cả phải xem xét trong ngưỡng gây độc.
239 / 358
In silico
Phần III
Bioinformatics
240 / 358
In silico
Các cơ sở dữ liệu tin sinh học
241 / 358
In silico
Mục tiêu
• Trình bày được một số bài toán cơ bản và ứng dụng của
Tin sinh học
• Nêu được các nguồn CSDL cơ bản
• Nắm được thao tác tìm kiếm và phân tích dữ liệu trên NCBI
242 / 358
In silico
Đại cương
Bioinformatics
243 / 358
In silico
Đại cương
Sequence analysis
Phân tích chuỗi
Sequence analysis is one of the major applications of bioinformatics

with the development of the Basic Local Alignment Search Tool
(BLAST) program in 1990 and has become popular. The area of
sequence analysis is very broad; here, we analyze the nucleotide
or protein sequence of any organism for several purposes. Here,
we can analyze single or multiple sequences to find out similarity
and identity among them via several sequence alignment tools,
such as BLAST and FASTA Clustal. It is also used in the annotation
of newly discovered sequences, find out conserved regions, and
other regulatory regions among them. Besides, the prediction of
the physicochemical properties of sequences also comes under
the sequence analysis.
244 / 358
In silico
Đại cương
Phylogenetic analysis
Phân tích cây phát sinh loài
Phylogenetic analysis is another important research area in bioinformat

Here, we can visualize the evolutionary event and construct a
relationship among organisms or sequences. It is extensively
used in evolutionary biology for the objective of determining the
evolutionary event via multiple sequence alignment followed by
tree construction. It also supports the identification of key regions
within sequences and plays an important role in vaccine and
drug designing programs etc.
245 / 358
In silico
Đại cương
Discovery and designing of small molecules leading

to drugs/agrochemical development
Bioinformatics plays a vital role in the discovery of lead molecules.

Techniques, such as molecular docking, virtual screening, and
molecular dynamics simulation, are widely used for this purpose.
With the help of molecular docking and virtual screening, we
can identify novel molecules for the treatment and prevention of
diseases in humans, animals, and plants. Furthermore, it can
be validated in terms of conformational behav- ior and stability
during target ligand interaction with respect to time using a molecular
dynamics simulation study. This study helps in the identification
of lead compound quickly with the help of computational tools
and reduced the time and experimental cost, the fast drug discovery
process for downstream validation.
246 / 358
In silico
Đại cương
Một số bài toán cơ bản
1 Xây dựng, quản lý và khai thác hệ thống dữ liệu sinh học

và hóa học.
2 Phân tích mối quan hệ giữa các trình tự sinh học
1 Bài toán sắp hàng hai/nhiều trình tự
2 Đo độ giống nhau giữa các trình tự
Nghiên cứu tiến hóa, đa dạng si truyền nguồn gen dược liệu
Phát triển các giống cây trồng
Kiểm soát dịch bệnh dựa trên phân tích nguồn gốc các tác
nhân gây bệnh
3 Dự đoán cấu trúc phân tử, tương tác phân tử, sàng lọc ảo
Phát triển thuốc và chuẩn đoán bệnh
247 / 358
In silico
Đại cương
Các nguồn cơ sở dữ liệu cơ bản
248 / 358
In silico
Đại cương
Sequence databases
249 / 358
In silico
Các khái niệm cơ bản
Đại phân tử
Đại phân tử sinh học là một đa phân tử (polymer) cấu tạo nên từ
nhiều phân tử cùng loại, gọi là đơn phân tử (monomer), liên kết
với nhau bằng liên kết cộng hóa trị.
Cấu trúc và chức nẵng của 4 đại phân tử hình thành nên cơ thể
sống:
• Polysaccharide: tham gia cấu tạo tế bào, là nguồn dự trữ
năng lượng chính
• Lipid: thành phần của màng tế bào, được cấu tạo từ các
acid béo; là nhân tố chính để hình thành các màng sinh
học.
• Protein: biểu hiện của vật chất sống
• Nucleic acid: lưu trữ thông tin di truyền
250 / 358
In silico
64 Mã bộ ba
Condo
• 1 codon mở đầu, mã cho methionine: AUG

• 3 codon mã kết thúc: UAA, UAG, UGA
• 61 codon mã hóa cho 20 acid amin
251 / 358
In silico
Khung đọc mở-ORF
• Khung đọc mở (Open Reading Frame): Là một đoạn trình

tự DNA có khả năng dịch mã thành một chuỗi polypeptide.
• Một ORF được bắt đầu bởi start codon và kết thúc bởi stop
codon
• Gene: là một ORF mã hóa cho một protein
• Có thể truy cập trang web Sequence Manipulation Siute
(Ver 2.0) tại http://www.bioinformatics.org/sms2
để thực hiện các thao tác liên quan đến trình tự sinh học.
252 / 358
In silico
Phương pháp six-frame

Dùng phương pháp six-frame với 3 dịch chuyển ký hiệu +1, +2, +3
DNA tồn tại là 2 chuối xoắn kép theo từng cặp A-T, C-G. Dẫn tới có 6
trường hợp dịch mã với khung đọc khác nhau.
253 / 358
In silico
Bài toàn sắp hàng hai trình tư
254 / 358
In silico
Biological sequence analysis
255 / 358
In silico
Mục tiêu
• Hiểu được ứng dụng của sắp hàng hai trình tự

• Nắm được phương pháp thực hiện sắp hàng hai trình tự
axit nucleic
• Nắm được phương pháp thực hiện sắp hàng hai trình tự
protein
256 / 358
In silico
Đại cương
Tiến hóa và đột biến
Trong quá trình tiến hóa, một đoạn gen có thể:

• Mất hoặc thêm trình tự
• Đột biến thay đổi trình tự
• Di truyền lại (giữ lại)
257 / 358
In silico
Đại cương

Trong sự tiến hóa, các vị trí giống nhau đó chính là một phần
của trình tự sinh học tổ tiên
• Hai trình tự DNA càng giống nhau thì khả năng càng cao
chúng tương đồng với nhau giống nhau về chức năng
• Ứng dụng trong dự đoán đặc điểm, chức năng của một
trình tự
Còn các vị trí không giống nhau chính là sự đột biến của một
trong hai trình tự.
• Tuy nhiên, không thể xác định trình tự nào bị đột biến so
với trình tự nào.
• Đột biến thêm hoặc mất (indel) làm độ dài hai trình tự khác
nhau.
• Đột biến có thể xảy ra tại bất cứ đâu trên DNA: các gene
mã hóa protein, trình tự điều hòa biểu hiện gene . . .
258 / 358
In silico
Đại cương
• Đột biến có thể ảnh hưởng hay không ảnh hưởng đến kiểu
hình của sinh vật.
• Qua thời gian, những đột biến có lợi hoặc không có hại sẽ
được giữ lại trong quần thể, kích thích sự hình thành và
phát triển loài mới.
Đó chính là sự tiến hóa (evaluation), trong đó đột biến là nguyên
liệu quan trọng
259 / 358
In silico
Đại cương
Hai trình tự tương đồng
Tương đồng(Homologs):hai trình tự cùng tiến hóa từ một tổ tiên

chung.
• Có trình tự giống nhau, các vùng chức năng giống nhau.
• Hai chuỗi giống nhau nhưng chưa chắc đã tương đồng
Hai dạng tương đồng
• Trực giao (Orthologs): tương đồng nhưng thuộc hai loài
khác nhau. Thường giữ lại chức năng ban đầu nên chức
năng của 2 gen gần hoặc giống nhau
• Đẳng giao (Paralogs): tương đồng, thuộc một loài. Một bản
sao được tự do biến đổi và có được chức năng mới, nên 2
gen có chức năng khác nhau
260 / 358
In silico
Đại cương
Ứng dụng của sắp hàng hai trình tự
• Bắt cặp trình tự nhằm nghiên cứu tiến hóa

• Tìm kiếm, so sánh mức độ tương đồng giữa các trình tự
261 / 358
In silico
Phương pháp sắp hàng hai trình tự acid nucleic
Cách thực hiện

Mục đích: Đạt đến sự giống nhau đến mức tối đa của các trình
tự
Cách thực hiện: Thêm các kí tự _ thể hiện 1 Nu đã mất khỏi
trình tự sao để thu được hai trình tự:
• Có chiều dài bằng nhau
• Các Nu giống nhau ở hai trình tự được cho là cùng tiến
hóa từ một Nu tổ tiên chung
• Không tồn tại bất cứ vị trí nào mà cả hai trình tự đều là _
262 / 358
In silico
Cách đánh giá đơn giản nhất
Match =1, MisMacth = -1

1 Sắp hàng dựa vào mắt:
S1 ATGGCGT Cách tính điểm
S2 ATG-AGT +1+1+1+0-1+1+1=4
2 Sắp hàng cách khác:
S1 ATGGCGT Cách tính điểm
S2 A-TGAGT +1+0-1+1-1+1+1=2
263 / 358
In silico
Ma trận thay thế

Match =1, MisMacth = -1
C T A G
C 1 -1 -1 -1
T -1 1 -1 -1
A -1 -1 1 -1
G -1 -1 -1 1
Nếu giả sử cặp A, G ít xảy ra đột biến hơn so với cặp C, T khi đó
ma trận sẽ thay thế như sau:
C T A G
C 2 -1 -1 -1
T -1 2 -1 -1
A -1 -1 2 -1
G -1 -1 -1 2
264 / 358
In silico
GAP
GAP- Khoảng trống của chuỗi

Gây ra dán đoạn quá tình phiên mã của chuỗi DNA, thường xem
là quan trọng hơn so với đột biến.
265 / 358
In silico
GAP
1 Cách sắp xếp 1

ATGTAGTGTATAGTACATGCA
ATGTAG-------TACATGCA
2 Cách sắp xếp tốt hơn
ATGTAGTGTATAGTACATGCA
ATGTA--G--TA---CATGCA
266 / 358
In silico
GAP
ANRGDFS
ANR-EFS
score:4+6+5-10+2+6+4=17
ANRGDFS
ANRE-FS
score:4+6+5-2-10+6+4=13
Giúp so sánh giữa các chuỗi nhưng không cho phép đâu là cách
sắp xếp tốt nhất
Cách giải quyết đơn giản nhất là sắp xếp cách chuỗi khả dĩ và
tính điển chúng
Hệ quả khả năng sắp xếp hai chuỗi có độ dài N là
22N
√
πN
267 / 358
In silico
Các thuật toán sắp hàng hai trình tự
Sắp hàng toàn bộ Sắp hàng cục bộ

Global alignment Local alignment
Áp dụng trên toàn bộ trình tự Áp dụng tìm ra vùng trình tự
để tìm sự tương đồng giữa tương đồng nhất trên hai trình
các trình tự. tự.
Thường được sử dụng khi 2 Sử dụng khi so sánh 2 trình tự
trình tự có độ tương đồng có chiều dài khác nhau, mức
cao, chiều dài xấp xỉ nhau độ tương đồng trên toàn bộ là
thấp.
Needleman Wunsch Smith Waterman
Thuật toán sắp hàng toàn bộ và cục bộ là tương tự nhau, chỉ khác nhau ở chiến
lược tối ưu hóa sử dụng trong khi căn các ký tự giống nhau.
Cả hai dạng thuật toán được dựa vào một trong 3 phương pháp, ma trận điểm
(dot matrix), chương trình động (dynamic programing) và từ hay ký tự (word).
268 / 358
In silico
Thuật toán với Needleman Wunsch
Match = 1 Mismatch = -1 GAP = -2
269 / 358
In silico
Thuật toán Smith Waterman
Negative become 0
270 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Local Alignment
Blast
Basic Local Alignment Search Tool
271 / 358
In silico
Đặt vấn đề
Tương đồng là dấu vết chủ yếu đề dự đoán gene và chức năng
protein nhưng làm sao có thể dự đoán được tính tương đồng??
Similarity
Ls x2
S= x100
La + Lb
Identity
Li x2
I= x100
La + Lb
272 / 358
In silico
Homologs, Paralogs, Orthologs, Xenologs, Analogs
273 / 358
In silico
Homologs, Paralogs, Orthologs, Xenologs, Analogs

1 Homologs: Sequences that have a common origin or
shared ancestry are usually termed homologs or
homologous sequences.
2 Paralogs: Homologs in the same common organism arise
through gene duplication, for example, hemoglobin A and
hemoglobin F are paralogs.
3 Orthologs: Homologs in different organisms arise through
speciation (divergent copies of a solitary gene), e.g.,
histone H1 of humans and histone H1 of chimpanzees.
4 Xenologs: Orthologs arise through horizontal gene transfer.
5 Analogs: Sequences that have a different origin or no
shared ancestry are usually termed analogs or analogous
sequences. Analogs and homologs are thus antonymous,
and are the very opposite of each other, e.g., wings of a
bat and wings of a sparrow.
274 / 358
In silico
DNA and Protein

DNA có 4 loại
A,T,G,C
protein có 20 loại
acid amin
Hệ số điểm của
protein sẽ khác
mismatch/substitution
mutation of protein
must have a
properly defined
scoring system
PAM [point
accepted mutation]
BLOSUM [BLOcks
amino acid
SUbstitution 275 / 358
In silico
Sắp hàng hai trình tự protein
1 Protein có đặc điểm bảo tồn cấu trúc và chức năng cao
(bởi nếu mất chức năng sẽ gây bất lợi)
Khuynh hướng chỉ thay thế các axit amin có cấu trúc tương
tự, ít làm thay đổi đến cấu trúc và chức năng protein
2 Những trình tự protein trong cùng một họ tiến hóa chung
thường có sự thay thế giữa các axit amin có cùng đặc tính
hóa lý.
276 / 358
In silico
Tương tự bài toán sắp hàng hai trình tự DNA, tuy nhiên có 2
điểm khác biệt cơ bản:
• 4 ký tự thay bởi 20 ký tự
• Ma trận điểm phức tạp hơn, xác định dựa vào:
• Thuộc tính lý hóa của các axit amin (càng giống nhau điểm
càng cao)
• Loại dữ liệu nghiên cứu (động vật, virus,...)
• Tác động làm thay đổi chức năng protein. Có thay thế acid
amin vẫn bảo toàn cấu trúc và chức năng protein
277 / 358
In silico
Ma trận PAM (Percentage Accepted Mutation):

• Phù hợp với các đột biến có khoảng cách tiến hóa ngắn
• Ước lượng tỷ lệ thay thế thể hiện trong ma trận với giả thiết
ban đầu.
Ma trận BLOSUM (BLOck SUbstitution Matrix): được tính toán
thông qua tần suất thay thế của các cặp amino acid trong việc
bắt cặp các trình tự có độ tương đồng cao.
Ví dụ: BLOSUM45 gồm các nhóm trình tự giống nhau 45
278 / 358
In silico
279 / 358
In silico
BLAST
That very particular sequence might lead to the

breakthrough discovery of a drug target to a menacing
disease.
280 / 358
In silico
BLAST
BLAST (Basic Local Alignment Search Tool) là công cụ thường
xuyên nhất được sử dụng để tính toán trình tự giống nhau.
BLAST đi kèm trong các biến thể để sử dụng với các chuỗi truy
vấn khác nhau đối với cơ sở dữ liệu khác nhau.
• Thuật toán BLAST cho phép so sánh rất nhanh một trình
tự X với các trình tự trong cơ sở dữ liệu để tìm ra các cặp
đoạn có độ giống nhau cao giữa chúng.
• Thuật toán BLAST được phát triển để có thể làm việc với
nhiều loại dữ liệu khác nhau.
281 / 358
In silico
Ví dụ sử dụng BLAST
Looking for species If you are sequencing DNA from unknown

species, BLAST may help identify the correct
species or homologous species.
Looking for domains If you BLAST a protein sequence (or a
translated nucleotide sequence) BLAST will look
for known domains in the query sequence.
282 / 358
In silico
Ví dụ sử dụng BLAST
Looking at phylogeny You can use the BLAST web pages to

generate a phylogenetic tree of the BLAST result.
Mapping DNA to a known chromosome If you are sequencing
a gene from a known species but have no idea of
the chromosome location, BLAST can help you.
BLAST will show you the position of the query
sequence in relation to the hit sequences.
Annotations BLAST can also be used to map annotations from
one organism to another or look for common
genes in two related species.
283 / 358
In silico
Phân loại
Blastn Helps in comparing a nucleotide query sequence
with nucleotide database. It has high speed but
less sensitivity.
BlastP Used for comparing a protein query with a
database.
BlastX Used for comparing a nucleotide query with a
protein database by translating the query
sequence into six possible frames, and comparing
each against the database.
tblastn Compares a protein query to a nucleotide
database in six possible frames.
tblastX Used for comparing protein encoded by a query
nucleotide to the protein encoded in a nucleotide
database.
284 / 358
In silico
Phân loại
blast2 An advance version of BLAST. It can also perform

gapped alignments.
PSI-Blast (Position Specific Iterated BLAST): Performs
iterative database searching.
RPSBLAST (Reverse-Position-Specific BLAST): Quickly
searches a protein query against a database of
position-specific scoring matrices (PSSMs) that
were usually produced by PSI-BLAST.
DELTA-BLAST Produces a PSSM with a fast RPSBLAST
search of the query, followed by searching this
PSSM against a database of protein sequences.
285 / 358
In silico
Thuật toán BLAST
Thuật toán BLAST
• Thuật toán BLAST là một chương trình heuristic, có nghĩa

là nó dựa vào một số phím tắt thông minh để thực hiện tìm
kiếm nhanh hơn.
• Để chạy, BLAST cần đầu vào là 2 chuỗi: một là chuỗi truy
vấn (hay còn gọi là chuỗi đích) và một cơ sở dữ liệu chuỗi.
BLAST sẽ tìm kiếm các chuỗi con trong câu truy vấn mà
giống với các chuỗi con trong cơ sở dữ liệu chuỗi. Thông
thường, khi sử dụng, chuỗi truy vấn là nhỏ hơn rất nhiều so
với cơ sở dữ liệu, ví dụ: chuỗi truy vấn có thể chỉ gồm 1
nghìn nucleotide trong khi cơ sở dữ liệu chuỗi có hàng tỉ
nucleotide.
286 / 358
In silico
Thuật toán BLAST
Các bước thuật toán
1 BLAST hoạt động bằng cách đầu tiên tạo một bảng tra cứu
tất cả “W” - word (chuỗi con ngắn với chiều dài W, giá trị W
tham khảo cho Protein là 3 và DNA là 11)
2 BLAST tìm kiếm các chuỗi con ngắn với chiều dài cố định
W có tính tương tự cao giữa chuỗi truy vấn và các chuỗi
trong cơ sở dữ liệu. những chuỗi con nào có số điểm lớn
hơn một giá trị ngưỡng T (threshold value) thì được gọi là
tìm thấy và được BLAST gọi là Hạt giống
287 / 358
In silico
Thuật toán BLAST
Các bước thuật toán
3 BLAST kéo dài sự bắt cặp dài hơn giữa chuỗi truy vấn và
chuỗi cơ sở dữ liệu theo hướng trái và phải, từ vị trí nơi kết
hợp chính xác xảy ra. Việc gia hạn không dừng lại cho đến
khi tổng điểm HSP tích lũy bắt đầu giảm.
4 Cuối cùng liệt kê các HSP có điểm lớn hơn một giá trị
ngưỡng S (threshold value). Những cặp HSP đã tìm được
được BLAST sắp xếp theo giá trị đánh giá giảm dần, đưa
ra màn hình, và thực hiện phần đánh giá thống kê trên
những cặp HSP này.
288 / 358
In silico
Thuật toán BLAST
289 / 358
In silico
Thuật toán BLAST
290 / 358
In silico
Thuật toán BLAST
291 / 358
In silico
Thuật toán BLAST
292 / 358
In silico
Thuật toán BLAST
293 / 358
In silico
Thuật toán BLAST
294 / 358
In silico
Thuật toán BLAST
Điểm số và thống kê BLAST

BLAST sử dụng lý thuyết thống kê để tạo ra một giá trị gọi là ”Bit-score” (dựa trên
cơ sở đánh giá của một cặp HSP để tính ra) và giá trị trông đợi “E-score”
(Expect-Score) phụ thuộc vào Bit-Score, thể hiện xác suất ngẫu nhiên của các bắt
cặp.
1 E - score cho biết ý nghĩa thống kê của việc căn chỉnh theo
từng cặp nhất định và phản ánh kích thước của cơ sở dữ
liệu và hệ thống tính điểm được sử dụng.
Giá trị E score càng cao thể hiện khả năng sự bắt cặp là
ngẫu nhiên càng cao; giá trị càng nhỏ, thể hiện việc bắt
cặp có khả năng thấp là do ngẫu nhiên.
2 Bit - score cho biết mức độ liên kết tốt; điểm càng cao thì
sự liên kết càng tốt.
Bit - score được tính từ một công thức có tính đến sự liên
kết của các gốc tương tự hoặc giống hệt nhau, cũng như
bất kỳ khoảng trống nào được đưa vào để sắp xếp các
trình tự. Yếu tố quan trọng trong phép tính này là "ma trận 295 / 358
In silico
Thuật toán BLAST
296 / 358
In silico
Thuật toán BLAST
Chạy chương trình BLAST
• Nucleotide-BLAST
• Protein-BLAST
297 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Sắp hàng nhiều trình tự

Multiple Sequence Alignment
298 / 358
In silico
Mục tiêu
• Trình bày được khái niệm, ý nghĩa của sắp hàng nhiều
trình tự
• Trình bày được nguyên lý thực hiện và các thuật toán sắp
hàng đa trình tự
• Thực hiện được sắp hàng đa trình tự bằng một số chương
trình tin sinh
299 / 358
In silico
Đại cương
Điều cần khẳng định
Constructing reliable MSA is a biologically complex task

and computationally intense; to date, no MSA algorithm
can be considered to produce biologically perfect results.
300 / 358
In silico
Đại cương
Một số định nghĩa

Definition
Given k strings, S1 , S2 , ..., Sk , a multiple sequence alignment
(MSA) is obtained by inserting gaps in the strings to make them
all the same length.
301 / 358
In silico
Đại cương
Khái niệm
Sắp hàng nhiều trình tự là quá trình chèn thêm các kí tự ‘-’ vào
các trình tự ADN/protein để sau khi sắp hàng chúng ta thu được
các trình tự ADN hoặc protein thỏa mãn các điều kiện:
• Các trình tự sau khi sắp hàng có độ dài bằng nhau và độ
dài đó được gọi là độ dài của đa trình tự sắp hàng.
• Các nucleotit/axit amin ở cùng một vị trí trên các trình tự
được cho là tương đồng, tức là cùng tiến hóa từ một
nucleotit/axit amin tổ tiên chung.
• Không tồn tại bất kỳ vị trí i nào mà tất cả các trình tự cùng
chứa ký tự ‘’
302 / 358
In silico
Đại cương
Mục đích
• Nhu cầu tìm hiểu mối quan hệ tiến hóa của các loài trong
sinh giới
• Làm sáng tỏ các lý giải sinh học về các protein
• Xây dựng giả thiết về cấu trúc 3D và chức năng của protein
Đánh giá sự giống nhau và quan hệ giữa các trình tự DNA
Nghiên cứu và giải thích sự tiến hóa của các trình tự từ 1 tổ tiên
chung
Xác định các bắt cặp không chính xác trong trình tự tương ứng
với các đột biến
303 / 358
In silico
Đại cương
SCORING MULTIPLE SEQUENCE ALIGNMENTS

Sum-of-Pair Score
Definition
The multiple alignment score of n induced sequences
s1′ , s2′ , . . . , sn′ , where si′ , sj′ ∈ A, is
P|A| P
S(A) = S(s1′ , s2′ , . . . , sn′ ) = k=1 nj,j̸=i S(s[k]
′ , s′ ).
[k]
n=2
BLOSUM62???
304 / 358
In silico
Đại cương

Sum-of-Pair Score
Definition
P|A| P
′ , s′ ).
[k]
305 / 358
In silico
Đại cương

Sum-of-Pair Score
Definition
P|A| P
′ , s′ ).
[k]
If, instead, the gap penalty score is chosen to be -10, both of these alignments yield the same score.
306 / 358
In silico
Đại cương

Sum-of-Pair Score
Definition
P|A| P
′ , s′ ).
[k]
Nhược điểm của các tính điểm này
307 / 358
In silico
Đại cương
CONSERVATION SCORE SCHEMES and

DIVERSITY SCORING SCHEMES
When multiple residues are grouped together, scoring them are

no longer trivial. Each residue has its own stereochemical
property and biological meaning. Thus, most scoring schemes
rely on the conservation and diversity of the symbols instead.
1 CONSERVATION SCORE SCHEMES

• Wu and Kabat’s Method
• Jores’s Method
• Lockless and Ranganathan’s Method
2 DIVERSITY SCORING SCHEMES
308 / 358
In silico
Đại cương
CONSERVATION SCORE SCHEMES

Wu and Kabat’s Method
309 / 358
In silico
Đại cương

Shannon entropy
Shannon’s entropy, proposed in 1948, is commonly used to

quantify the residue diversity in alignment columns.
310 / 358
In silico
Đại cương

Shannon entropy

311 / 358
In silico
Đại cương

Shannon entropy

312 / 358
In silico
Đại cương
Sequence Format
FASTA format (or Pearson format)
AB1, ACE, CAF, EMBL, FASTA, FASTAQ, GenBank, PHD, SCF,

Nexus, GFF, Stockholm, Swiss-Prot
Chú thích bắt đầu bằng dấu ";" và chỉ dành cho người.
Dấu "*" có thể đánh dấu kết thúc và có thể bỏ qua
313 / 358
In silico
Đại cương
Sequence Format
NCBI’s sequence formats.
314 / 358
In silico
Đại cương
Sequence Format
Illustration of GenBank sequence format
315 / 358
In silico
Đại cương
Sequence Format
Phylis format
Represent sequence alignments
316 / 358
In silico
Đại cương
Sequence Format
Clustal formats
Represent sequence alignments
317 / 358
In silico
Thuật toán
Vấn đề khi thực hiện
• Sự tương thích giữa các bắt cặp hai trình tự

• Vậy việc xây dựng bài kết quả cho bài toán sắp đa trình tự
không thể giải quyết một cách đơn giản bằng cách kết hợp
các nghiệm của tất cả các sắp hàng hai trình tự với nhau.
318 / 358
In silico
Thuật toán
Thuật toán
1 DYNAMIC PROGRAMMING: DCA

2 PROGRESSIVE ALIGNMENT: Clustal Family, PIMA: Pattern-Induced Multisequence
Alignment, PRIME: Profile-Based Randomized Iteration Method, DIAlign
3 CONSISTENCY AND PROBABILISTIC: POA: Partial Order Graph Alignment,
PSAlign, ProbCons: Probabilistic Consistency-Based Multiple Sequence Alignment,
T-Coffee: Tree-Based Consistency Objective Function for Alignment Evaluation,
MAFFT: MSA Based on Fast Fourier Transform, AVID, Eulerian Path MSA
4 GENETIC ALGORITHMS: SAGA- Sequence Alignment by Genetic Algorithm, GA and
Self-Organizing Neural Networks, FAlign
5 NEW DEVELOPMENT IN MULTIPLE SEQUENCE ALIGNMENT ALGORITHMS:
KB-MSA: Knowledge-Based Multiple Sequence Alignment, PADT: Progressive
Multiple Sequence Alignment Based on Dynamic Weighted Tree,
319 / 358
In silico
Thuật toán
DYNAMIC PROGRAMMING
Số chuỗi so sánh nhỏ hơn 8
320 / 358
In silico
Thuật toán
DYNAMIC PROGRAMMING
Determine the Cutting Position
321 / 358
In silico
Thuật toán
DYNAMIC PROGRAMMING
THUẬT TOÁN QUY HOẠCH ĐỘNG
Xây dựng lời giải bài toán lớn dựa trên lời giải các bài toán có
kích thước nhỏ hơn.
Thuật toán quy hoạch động để sắp hàng đa trình tự bao gồm 3
bước chính:
• Tìm bài toán cơ sở mà nghiệm tối ưu của bài toán đó có thể
dễ dàng tìm được. Nghiệm tối ưu của bài toán cơ sở là 0.
• Xây dựng công thức truy hồi để tìm nghiệm tối ưu của bài
toán với các trình tự tiền tố được xây dựng trên nghiệm tối
ưu của các bài toán có kích thước nhỏ hơn.
• Từ bảng lưu nghiệm của các bài toán với kích thước khác
nhau, xây dựng nghiệm của bài toán với dữ liệu đầu vào.
Với độ phức tạp của thuật toán quy hoạch động cho bài toán sắp
hàng n trình tự là O (2n k n ) (k độ dài của đa sắp hàng) thuật toán
322 / 358
In silico
Thuật toán
PROGRESSIVE ALIGNMENT
THUẬT TOÁN SẮP HÀNG LŨY TIẾN
323 / 358
In silico
Thuật toán
• Clustal Family
• PIMA: Pattern-Induced Multisequence Alignment
• PRIME: Profile-Based Randomized Iteration Method
324 / 358
In silico
Thuật toán
Xây dựng một đa sắp hàng lớn từ hai đa sắp hàng nhỏ hơn,
Quá trình sắp hàng sẽ dừng lại khi thu được một đa sắp hàng
chứa n các trình tự đầu vào.
Thuật toán sắp hàng lũy tiến gồm 4 bước:
Bước khởi tạo: Coi mỗi trình tự đầu vào là một đa sắp hàng.
Bước tìm kiếm: Tìm hai đa sắp hàng giống nhau nhất trong số các đa sắp
hàng hiện tại
Bước sắp hàng: Sắp hàng hai đa sắp hàng để được một đa sắp hàng mới
thay thế hai đa sắp hàng cũ bằng đa sắp hàng mới
Bước kiểm tra: Kết thúc thuật toán nếu chỉ còn lại một đa sắp hàng chứa tất
cả n trình tự, nếu không quay lại Bước tìm kiếm.
Độ phức tạp là O(n3 k 2 ) thuật toán sắp hàng lũy tiến có thể sắp hàng các tập
dữ liệu lớn với hàng nghìn trình tự.
Sắp hàng lũy tiến là một trong các chiến lược sắp hàng gần đúng tốt nhất để
325 / 358
In silico
Thuật toán
CONSISTENCY AND PROBABILISTIC MSA
326 / 358
In silico
Thuật toán

POA Partial Order Graph Alignment
327 / 358
In silico
Thuật toán

PSAlign
328 / 358
In silico
Thuật toán
GENETIC ALGORITHMS
329 / 358
In silico
Phân tích phylogenetic
330 / 358
In silico
Mục tiêu
• Trình bầy được bài toán xây dựng cây phát sinh chủng loại
• Trình bầy được phương pháp xây dựng cây phát sinh
chủng loại
• Thực hiện được xây dựng và biểu diễn cây phát sinh chủng
loại bằng một số chương trình tin sinh học
331 / 358
In silico
Phylogenetic Trees
332 / 358
In silico
Đại cương
Tree of life
Phylogeny : sự phát sinh chủng loài

Hai từ gốc Hy Lạp: Phylo nghĩa là trực hệ (tuyến tính của một
dòng họ) và genesis tức là nguồn gốc.
Definition
Molecular phylogenetics:The study of phylogenies and
processes of evolution by the analysis of DNA or amino acid
sequence data.
• EMPIRICALLY (Kinh nghiệm)

• PARAMETRICALLY (Dựa trên thông số)
333 / 358
In silico
Đại cương
Lịch sử
• Trước thập kỷ 1970, việc tái tạo cây tiến hóa chủ yếu dựa
trên phân tích hình thái và các đặc tính siêu cấu trúc của tế
bào, các con đường sinh hóa.
• Việc so sánh hình thái của các bằng chứng hóa thạch và
các loài đang còn tồn tại đã cung cấp nhiều kết quả rất có
giá trị. So sánh hình thái tỏ ra không có ý nghĩa khi nghiên
cứu trên các sinh vật hiển vi, không có bằng chứng hóa
thạch hay những đặc tính đồng dạng đáng tin cậy.
• Từ 1970, các kỹ thuật sinh học phân tử bùng nổ mạnh mẽ,
cho phép đọc được trình tự DNA và protein.
• Trong nửa cuối thập niên 1980, nguồn dữ liệu trình tự DNA
gia tăng đồng nghĩa với việc gia tăng các đặc tính đồng
dạng, cung cấp những công cụ mạnh mẽ và nhanh chóng
giải quyết vác bài toán phát sinh chủng loài đang chưa có
lời giải.
334 / 358
In silico
Đại cương
1 Mọi dạng sống đều có quan hệ với nhau qua lịch sử tiến
hóa (cách đọc/ diễn giải cây phát sinh chủng loại -
CPSCL).
2 Xây dựng CPSCL từ tính trạng của các loài/quần thể/ cơ
thể/ gen (taxon) (Cách vẽ CPSCL)
3 CPSCL là cơ sở cho Sinh học so sánh và sinh học dự đoán
(ứng dụng của CPSCL)
4 CPSCL là nền tảng của phân loại sinh học
335 / 358
In silico
Đại cương
Các tiền đề
Thông thường, người xây dựng cây sinh loài thường phải "chấp
nhận" các tiên đề sau:
• Thuyết tiến hóa Darwin về tổ tiên chung (common descent)
• Thuyết tiến hóa trung tính đối với các đột biến DNA, nghĩa
là không có áp lực chọn lọc tự nhiên
• Không có trường hợp hồi biến
336 / 358
In silico
Đại cương
Thuật ngữ
"A binary Tree": Mỗi điểm chỉ có 1 đến 2 nhánh

Cấu trúc cây: Cladogram, Phylogram, and Dendrogram
• Nút (đỉnh): biểu diễn cho một loài sinh vật
• Nút bên trong cây: biểu diễn cho một loài sinh vật tổ tiên
(Thông thường chúng ta không có thông tin về các loài
sinh vật tổ tiên này).
• Cành cây: nối hai nút của cây và biểu diễn mối quan hệ
trực tiếp giữa hai loài sinh vật ở hai nút đó.
• Độ dài của cành: cho biết khoảng cách tiến hóa (thời gian ,
số lượng các đột biến nuclêôtit giữa hai trình tự)
337 / 358
In silico
Đại cương
Root and UnRoot
338 / 358
In silico
Đại cương
Three type of Tree
339 / 358
In silico
Đại cương
Thuật ngữ
340 / 358
In silico
Thuật toán xây dựng cây
• Distance-based method
• Unweighted paired group method with arithmetic mean
(UPGMA)
• NJ
• Fitch-Margoliash method (FM)
• minimum evolution method (ME)
• Character-based method
• The maximum likelihood (ML) method
• The maximum parsimony (MP) method
341 / 358
In silico
Distance-based method
342 / 358
In silico
Distance-based method
Finding a tree that best fits the data
Cavalli-Sforza and Edwards method finds a distance dij that minimizes

X
(Mij − dij )2
ij
Fitch and Margoliash method finds a distance dij such that
X (Mij − dij)2
ij
Mij2
343 / 358
In silico
Character-based method
344 / 358
In silico
Các bước xây dựng cây
Bài toán xây dựng
Dữ liệu vào: Một đa sắp hàng A = (X1... ,Xn) gồm n trình tự

ADN/protein của n sinh vật. Sinh vật thứ i được
biểu diễn bởi trình tự Xi.
Bài toán: Xây dựng cây phân loài biểu diễn mối quan hệ
giữa các loài sinh vật trên dựa vào phân tích sự
giống nhau và khác nhau giữa các trình tự
ADN/protein của chúng.
Dữ liệu ra: Một cây nhị phân không gốc biểu diễn mối quan hệ
của n sinh vật. Mỗi sinh vật được biểu diễn ở một
nút lá của cây. Độ dài các cạnh của cây biểu diễn
số lượng đột biến nuclêôtit giữa các nút của cây.
Ví dụ: Cây nhị phân không gốc biểu diễn cây phân loài cho 4
loài sinh vật: Người, Tinh tinh, Khỉ đột, Khỉ nâu.
345 / 358
In silico
Định dạng dữ liệu Newick
Khái niệm: biểu diễn phân loại theo chuẩn newick là một xâu ký
nhằm mục đích lưu giữ và trao đổi thông tin.
346 / 358
In silico
Các phương pháp dùng để xây dựng cây chủng loài
Các dạng đặc tính có thể sử dụng là cấu trúc hình thái, siêu cấu
trúc của tế bào, các con đường sinh hóa, gene, trình tự DNA và
protein miễn rằng chúng thỏa điều kiện là Đồng dạng.
Khi một đặc tính đồng dạng đã được chỉ định, người ta sẽ thiết
lập một ma trận đặc tính (character matrix) mỗi một biến (điểm
trong ma trận) ứng với đặc tính quan sát (cột ma trận) và loài
được chọn (hàng của ma trận).
347 / 358
In silico
Nguyên lý thực hiện

Tùy thuộc nhiều vấn đề mà các bước của một nghiên cứu phát
sinh chủng loài phân tử có thể thiết lập khác nhau, nhưng cơ
bản nó gồm các bước sau:
1 Chọn lựa dữ liệu, lấy mẫu sinh vật
2 Chọn marker phân tử (gene, protein) cần đọc trình tự
3 Đọc trình tự, hiệu chỉnh trình tự
4 Sắp hàng các trình tự
5 Chọn mô hình tiến hóa
6 Phân tích sự phát sinh chủng loài
7 Kiểm tra độ tin cậy của cây tiến hóa
8 Chấp nhận kết quả hoặc quay lại bước 2
9 Xuất cây tiến hóa
348 / 358
In silico
CHỌN LỰA DỮ LIỆU VÀ LẤY MẪU ĐẠI DIỆN

• Số lượng taxon cũng ảnh hưởng rất lớn đến kết quả phân
tích.
• Lấy được nhiều loài đại diện thì khả năng lỗi hệ thống và
một số vấn đề phát sinh khác có thể giảm xuống.
• Nếu có loài nghi ngờ gây “nhiễu” kết quả: thêm một/ nhiều
loài gần hoặc cùng taxa với loài nghi ngờ để kiểm chứng
kết quả sơ bộ
• Điều này đặc biệt có ý nghĩa quyết định khi kết quả sơ bộ
cho thấy tốc độ tiến hóa của những taxa khác nhau có
những sai khác quá lớn.
• Nhóm nhóm ngoại (outgroup) có ý nghĩa định hướng tiến
hóa, tăng độ chính xác của cây.
• Yêu cầu của nhóm outgroup: không cùng taxon nhưng,
thường là nhóm có quan hệ gần nhất với nhóm đang được
phân tích.
349 / 358
In silico
CHỌN MARKER PHÂN TỬ
• Với những loài sinh vật được cho là có quan hệ gần thì
người ta có thể chọn những gene hay vùng DNA có độ linh
động cao (intron, ITS,...)
• Với nhóm sinh vật có quan hệ xa thì người ta lại chọn gene
hay vùng DNA có độ bảo tồn cao (ribosomal LSU, rDNA,
gene mã hóa protein,...).
• Việc chọn gene hay vùng DNA có độ bảo tồn quá hay độ
biến thiên cao quá sẽ có thể ảnh hưởng đến kết quả cuối
cùng, vì vậy khuynh hướng hiện nay cũng là khuynh hướng
tốt nhất là người ta kết hợp cả hai hướng này cho cùng một
nghiên cứu.
350 / 358
In silico
ĐỌC VÀ HIỆU CHỈNH CÁC TRÌNH TỰ
• Do các phân tích phát sinh chủng loài dựa trên những sự
khác biệt khi quan sát các trình tự được so sánh thẳng
hàng nên lỗi đọc trình tự có thể đưa đến một cây tiến hóa
không thật chính xác.
• Với vùng DNA có độ bảo tồn cao hay mô hình tiến hóa
được chọn phức tạp thì lỗi trình tự sẽ cho ra kết quả có độ
sai khác rất lớn.
• Để tránh trường hợp lỗi trình tự do chủ quan, người ta nên
đọc trình tự cả hai sợi để việc hiệu chỉnh sau đó được đảm
bảo tính khách quan hơn.
351 / 358
In silico
SẮP HÀNG CÁC TRÌNH TỰ
• Chương trình tự động như Clustal X/W.

• Với những gene/ vùng DNA kém bảo tồn, và/hoặc chứa
indel: sắp hàng tự động rất dễ gây ra lỗi, phải thực hiện
sắp hàng bằng mắt (thủ công).
• Với những vùng không có khả năng sắp xếp thẳng hàng thì
người ta sẽ dứt khóat lọai bỏ trước khi đưa vào phân tích.
352 / 358
In silico
CHỌN MÔ HÌNH TIẾN HÓA
• Các thông số cơ bản thường có trong mô hình tiến hóa là

tần xuất base, ma trận tốc độ biến đổi, phân bố gamma, tỷ
lệ vị trí hằng định (không biến thiên) và sự đồng tiến hóa.
• Mô hình tiến hóa đơn giản nhất giả định:
• Tần xuất xuất hiện các base là như nhau, (25% cho một
trong 4 base ATGC). Tuy nhiên thông thường, tần xuất base
thường được ước tính trước đó từ chuỗi dữ liệu đưa vào
phân tích do đó mà tần xuất thực sự của mỗi base ứng với
những chuỗi dữ liệu khác nhau sẽ khác nhau.
• Tốc độ biến đổi bằng nhau cho mỗi dạng đột biến điểm.
• Mô hình tiến hóa phức tạp nhất hiện nay là mô hình có khả
năng hồi biến tổng quát theo thời gian (General time
reverible model): có 6 kiển biến đổi và mỗi kiểu biến đổi có
một tốc độ khác nhau.
353 / 358
In silico
PHÂN TÍCH PHÁT SINH CHỦNG LOÀI

1 Nhóm các phương pháp khoảng cách (Distance methods):
Biến ma trận đặc tính thành ma trận khoảng cách với ý
nghĩa khỏang cách chính là khoảng cách tiến hóa giữa các
cặp đối tượng đang được so sánh. Thuật toán neighbour
joining hoặc minimum evolution.
2 Nhóm phương pháp tiết kiệm tối đa (Maximum parsimony):
Cây “ tối ưu” là cây ít sự kiên tiến hóa nhất, số lượng đặc
tính bị biến đổi thấp nhất để giải thích những dữ liệu đã
quan sát được.
3 Nhóm phương pháp khả năng xác suất (Likelihood
methods): nhóm phương pháp này dựa trên một hàm tính
tóan xác suất khả năng một cây tiến hóa được tạo thành từ
dữ liệu đã quan sát. Hàm này cho phép việc tích hợp các
quá trình tiến hóa của đặc tính thành mô hình xác suất.
4 Phương pháp xác xuất tối đa (Maximum likelihood): chọn
354 / 358
In silico
KIỂM TRA ĐỘ TIN CẬY CỦA CÂY TIẾN HÓA

Phân tích bootstrap được thực hiện nhằm kiểm tra tính chính
xác và độ tin cậy cho từng nhánh trong cây tiến hóa.
• Các vị trí từ chuỗi trình tự đã sắp xếp thẳng hàng sẽ được
lấy mẫu lại một cách ngẫu nhiên để tạo ra nhiều mẫu phụ
(gọi là sự lặp lại bootstrap).
• Các mẫu phụ có kích thước giống mẫu gốc nhưng vị trí
thành phần không giống nhau.
• Sau đó các mẫu phụ sẽ được phân tích tương tự như mẫu
gốc đã trải qua.
• Kết quả từ những mẫu phụ sẽ được dùng để tính toán giá
trị support (ủng hộ) cho một nhánh đơn lẻ nào đó.
• Do giá trị support được biểu diễn bằng tỷ lệ % nên ít nhất
phải có 100 lần lặp lại, tức 100 lần tạo mẫu phụ. Thông
thường thì người ta làm với 1000 lần lặp lại.
• Nếu một nhóm taxa cho giá trị support từ 95% trở lên thì
355 / 358
In silico
CHẤP NHẬN KẾT QUẢ?
• So sánh kết quả với cây tiến hóa mà nhà nghiên cứu đã
định nghĩa sẵn từ trước.
• Sự sai khác giữa hai cây tiến hóa này có thể giúp nhà
nghiên cứu đi đến quyết định chấp nhận kết quả hay quay
lại hiệu chỉnh.
356 / 358
In silico
MỘT SỐ CHƯƠNG TRÌNH XÂY DỰNG CPSCL
• Cây phân loài thường được lưu giữ dưới dạng một xâu kí tự
theo định dạng Newick
• Nhiều chương trình đã được phát triển để biểu diễn cây từ
dạng xâu kí tự sang dạng hình ảnh.
• Các chương trình này thường có thể chạy trực tuyến hoặc
có thể tải về và chạy trên máy tính cá nhân.
• Một số chương trình trực tuyến phổ biến
357 / 358
In silico
Kết thúc
358 / 358

Tin Sinh Học

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tin Sinh Học

Uploaded by

Copyright:

Available Formats

Computer-Aided Drug Design

Cheminformatics and Bioinformatics

Ngày 20 tháng 12 năm 2022

Vị trí môn học

• Acetylsalicylic acid chỉ định kháng viêm năm 1897 và chỉ

• Acetylsalicylic acid chỉ định kháng viêm năm 1897 và chỉ

• Acetylsalicylic acid chỉ định kháng viêm năm 1897 và chỉ

Cơ sở khoa học của Drug repurposing

Cơ sở khoa học của Drug repurposing

Hopkins, 2017: Đề xuất khái niệm Network pharmacognosy

Bài học từ phát triển thuốc Pravastatin

Các cách tiếp cận để tìm kiếm chỉ định mới

• Tình cờ và khai thác văn bản (text mining)

In Silico and Drug repurposing

Các khái niệm

Phát triển thuốc dưới sự trợ giúp của máy tính

• Bioinformatics • Molecular • In silico ADMET

Mục tiêu phân tử hay còn gọi là

Hit and lead

Ứng cử viên làm thuốc

• Dựa trên cấu trúc (Structure-based)

Tài liệu tham khảo

Tài liệu tham khảo

Ngôn ngữ lập trình Python

Phần mềm vẽ cấu trúc hóa học

• Tên thông thường (Trivial name) Aspirin

Biểu diễn hợp chất hóa học trong Cheminformatics

Con người: hoạt Lĩnh vực Máy tính

Yêu cầu của xây dựng dữ liệu về công thức phân tử

Phân tích trường hợp C3 H6 O

CC(C)=O and CCC=O

Phân loại các biểu diễn cấu trúc hóa học

• Hệ thống tên (Systematic Names): Đặt tên cho một hoạt

Connection table - Bảng liên kết

Line Notation- Biểu diễn dòng

• So sánh giữa các phân tử;

SMILES- Simplified Molecular Input Line Entry

Trong dấu ngoặc vuông, phải luôn ghi rõ số hydrogens và số

• Vòng thơm C, O, S, N được đại diện bởi c o s n

Bảng liên kết dạng rút gọn

Tính duy nhất

Thêm Hydrogens vào công thức

Nhược điểm của bảng liên kết đơn giản hóa

Chirality and Connection Tables

Structure Data File

• Molfile (single molecule)

Phần mềm vẽ cấu trúc và chuyển đổi giữa các dạng

• Phần mềm vẽ cấu trúc: cDraw

A database is an “organized collection of information.” The information

• Primary databases contain experimentally-derived data that are directly

Các cơ sở dữ liệu hóa

• PubChem: chemical information repository at the U.S. NIH.

Các cơ sở dữ liệu về dược

Các loại mã trong Pubchem

• Open large-scale bioactivity database

• Trình bày được khái niệm và vai trò của mô tả phân tử

Molecular descriptor- Mô tả Phân tử

Mô tả phân tử(Todeschini và Consonni, 2000.)

Tầm quan trọng của Mô tả Phân tử

QSAR: Mối quan hệ giữa cấu trúc – hoạt tính

Tính chất của mô tả phân tử

M. Randic (1996), Molecular bonding profiles

Tính chất của mô tả phân tử

• Bất biến (invariants ) với cách đặt tên và đánh số thứ tự