Professional Documents
Culture Documents
Tin Sinh Học
Tin Sinh Học
hoangson.med@gmail.com
Phần I
Đại cương
2 / 358
In silico
Mục tiêu
• Nắm được chương trình học, đối tượng nghiên cứu của môn
học, phương pháp, hình thức kiểm tra - đánh giá kết quả học
tập môn học
• Nắm được các bước của quá trình nghiên cứu và phát triển
thuốc hiện đại.
• Nắm được khái niệm hóa tin và hóa tin dược và nêu được
các thành phần của hóa tin dược.
• Nắm được khái niệm về sàng lọc ảo: Sàng lọc ảo dựa trên
phối tử và sàng lọc ảo dựa trên cấu trúc.
3 / 358
In silico
Vị trí môn học
4 / 358
In silico
Vị trí môn học
Cheminformatics
Khái niệm
Hóa tin học (hóa học tính toán) (Cheminformatics, chemoinformatics,
chemioinformatics and chemical informatics) là việc sử dụng các kỹ
thuật máy tính ứng dụng trong lĩnh vực hóa học. Hóa tin học kết hợp
các lĩnh vực khoa học: hóa học, máy tính và công nghệ thông tin trong
các lĩnh vực cấu trúc tô pô, lý thuyết đồ thị hóa học, tìm kiếm thông tin
và khai thác dữ liệu trong không gian hóa học; hay mô hình hóa phân
tử (molecular modeling), tìm kiếm và mã hóa cấu trúc hóa học, trực
quan hóa thông tin hóa học (chemical data visualization)
5 / 358
In silico
Vị trí môn học
Bioinformatics
Khái niệm
Tin sinh học (sinh học tính toán) (bioinformatics): là một lĩnh vực khoa
học sử dụng các công nghệ của các ngành toán học ứng dụng, tin
học, thống kê, khoa học máy tính, trí tuệ nhân tạo, hóa học và hóa
sinh (biochemistry) để giải quyết các vấn đề sinh học. Tin sinh học
nghiên cứu về hệ gene học (genomics) (Phân tích trình tự, chỉ định
Genome, dò tìm đột biến và SNP) ; Sinh học tiến hoá (phân loại học
phân tử), Phân tích chức năng gene ; Các hệ thống sinh học kiểu mẫu
6 / 358
In silico
Vị trí môn học
Drug repurposing
Drug repurposing
The process of finding new uses outside the scope of the original
medical indication for existing drugs
Ashburn & Thor, 2004
7 / 358
In silico
Vị trí môn học
Drug repurposing
Drug repurposing
Drug repurposing
Target
Disease Ligand
"The magic bullet" được phát triển bởi nhà khoa học Đức Paul Ehrlich
được giải nobel năm 1900.
"The magic shotguns" được mô tả mở rộng khi sử dụng "multitarget
ligand" bởi Roth et al năm 2004.
12 / 358
In silico
Vị trí môn học
Ligand Target
Disease
Pathway
13 / 358
In silico
Vị trí môn học
15 / 358
In silico
Vị trí môn học
• Target-based method
• Knowledge-based method
• Signature-based method
• Network-base method
• Targeted-mechanism method
16 / 358
In silico
Các khái niệm
17 / 358
In silico
Các khái niệm
Drug Target
Đích tác dụng
19 / 358
In silico
Các khái niệm
Ligand
Phối tử
Theo hóa sinh và dược học, phối tử (ligand, theo tiếng Latin
ligandum, binding) là một chất (thường là một phân tử nhỏ) hình
thành một phức hợp với phân tử sinh học phục vụ một mục đích
sinh học. Trong liên kết protein-phối tử, phối tử thường là một
phân tử kích hoạt tín hiệu, liên kết tại 1 vị trí trên protein đích.
Phối tử bao gồm cơ chất, chất ức chế, chất hoạt hóa và chất dẫn
truyền thần kinh.
20 / 358
In silico
Các khái niệm
Hit Generation
Một hợp chất mà các kết quả sàng lọc sinh hóa sơ bộ chỉ ra
rằng có thể được tiếp tục nghiên cứu như là một phần của dự
án nghiên cứu thuốc. Một hợp chất hit có liên kết với một mục
tiêu phân tử được xác định là quan trọng trong điều trị bệnh.
Lead Development
Mục đích của giai đoạn này là để tối ưu hóa các hợp chất hit cố
gắng tạo ra các hợp chất mạnh hơn và có chọn lọc hơn mà có
tính chất PK hợp lý để kiểm tra hiệu quả của chúng trong bất kỳ
trong mô hình in vivo sẵn có nào.
21 / 358
In silico
Các khái niệm
Candidate
Là một hợp chất liên kết với một đích sinh học (protein,
enzyme, receptor), và theo cách này kích hoạt hoặc ức chế một
quá trình sinh học ảnh hưởng đến quá trình bệnh sinh.
22 / 358
In silico
Các khái niệm
Sàng lọc ảo
Khái niệm
Sàng lọc ảo (virtual screening): Sàng lọc ảo đề cập đến một
loạt các kỹ thuật in silico được sử dụng để sàng lọc các CSDL
hợp chất lớn để lựa chọn một số lượng nhỏ hơn để thử nghiệm
sinh học.
23 / 358
In silico
Các khái niệm
• Cheminformatics và bioinformatics
(1) Bioinformatics Methods and Applications, Dev Bukhsh Singh and
Rajesh Kumar Pathak, 2022
(2) Docking Screens for Drug Discovery, John M. Walker, 2019
(3) In Silico Drug Design: Repurposing Techniques and Methodologies,
Dr. Kunal Roy, 2019.
• Biểu diễn cấu trúc hóa học của hợp chất trên máy tính và
bài cơ sở dữ liệu trong ngành dược
(4) Cheminformatics OLCC (2019)
https://chem.libretexts.org/Courses/Intercollegiate_
Courses/Cheminformatics_OLCC_(2019)
24 / 358
In silico
Các khái niệm
• Mô tả phân tử
(5) Molecular Descriptors for Chemoinformatics, Prof., Dr. Roberto
Todeschini, Dr. Viviana Consonni, 2009.
• QSAR
(6) Advances in QSAR Modeling Applications in Pharmaceutical,
Chemical, Food, Agricultural and Environmental Sciences, Jerzy
Leszczynski, 2017.
• Docking
(7) Molecular Docking for Computer-Aided Drug Design Fundamentals,
Techniques, Resources and Applications, MOHANE S. COUMAR,
2021.
25 / 358
In silico
Các khái niệm
Conda giúp tạo ra môi trường cô lập python với nhiều phiên bản
khác nhau.
Vai trò Mã lênh
Tạo môi trường conda create -n myenv python=3.8
Kích hoạt môi trường conda activate myenv
Cài đặt gói phần mềm conda install vina
pip install vina
Thoát môi trường conda deactivate
jupyter-notebook pip install jupyter
Cài đặt nhân ipython kernel install –name myenv –user
26 / 358
In silico
Các khái niệm
Teachopencadd
https://volkamerlab.org/projects/teachopencadd/
27 / 358
In silico
Các khái niệm
http://www.structuralchemistry.org/pcsb/cdraw.
28 / 358
In silico
Phần II
Chemoinformatics
29 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Biểu diễn cấu trúc hợp chất hóa học trên máy
tính
30 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Mục tiêu
• Trình bày được một số cách chuyển đổi cấu trúc hóa học
thành ngôn ngữ để biểu diễn và sử dụng trên máy tính.
• Trình bày được nguyên tắc biểu diễn cấu trúc theo ngôn
ngữ SMILES.
• Hiểu được khái niệm bảng liên kết và 02 dạng biểu diễn
Molfiles và Sdfile.
• Biết được một số phần mềm để vẽ, trực quan cấu trúc hóa
học và chuyển đổi giữa các dạng biểu diễn.
31 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Đại cương
Biểu diễn cấu trúc hóa học hợp chất hóa học
32 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Đại cương
35 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Đại cương
36 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Hệ thống tên (Systematic Names)
IUPAC
37 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Hệ thống tên (Systematic Names)
CAS
Số đăng ký CAS (CAS Registry Number- CAS RN): chuỗi số định danh duy nhất
cho các chất hóa học. Mục đích của nó là làm cho việc tìm kiếm trong các CSDL
được thuận tiện hơn, do các hóa chất thông thường có rất nhiều tên gọi khác nhau.
• PubChem (https://pubchem.ncbi.nlm.nih.gov/);
• NIH ChemIDplus
(http://chem2.sis.nlm.nih.gov/chemidplus/chemidlite.jsp);
• NIST Chemistry WebBook
(http://webbook.nist.gov/chemistry/);
• NCI Database Browser (http://cactvs.cit.nih.gov/)
• Chemspider (http://www.chemspider.com/)
• SciFinder (http://www.cas.org/products/scifinder)
• STN databases (http://www.cas.org/products/stn)
• Trang Web của CAS (http://www.cas.org/)
• ChEBI (http://www.ebi.ac.uk/chebi/):
• ChEMBL (https://www.ebi.ac.uk/chembldb/)
38 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Công thức cấu tạo (Structural Formula)
Máy tính thực hiện đọc, sắp xếp, tìm kiếm và nhóm các bảng liên kết nhanh
hơn con người khi thực hện công việc trên hệ thống tên danh pháp hoặc bất
cứ loại công thức cấu tạo nào khác.
Tạo độ 3D (x,y,z) cung cấp cấu hình của phân tử. Cấu hình này được xác định
dựa vào X-ray hoặc tính toán lý thuyết.
Trong bảng liên kết tất cả các nguyên tử (trừ hydro), liên kết, và cách các
nguyên tử liên kết với nhau đều được thể hiện rõ ràng.
Các quy tắc thiết lập tương đối đơn giản.
Bảng kết nối được chấp nhận bởi hầu hết các phần mềm vẽ và trực quan cấu
trúc và các CSDL.
39 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Công thức cấu tạo (Structural Formula)
Tính toán dựa trên biểu diễn dòng dễ dàng hơn so dạng bảng
liên kết.
Thiết kế dòng dễ hiểu với con người hơn.
Thiết kế dòng phù hợp với khả năng nhận dạng và đặc tính như:
Graphic Visualization
SMILES:
CC(O)C
41 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
InChI
The IUPAC International Chemical Identifier: Là một định dạng văn bản để mã hóa
thông tin của các hợp chất hóa học, được phát triển ban đầu bởi IUPAC.
InChI mô tả hợp chất theo các lớp thông tin: các nguyên tử và
liên kết giữa chúng, thông tin tautomeric, đồng vị, lập thể, và
điện tử. Một lớp thông tin nào đó có thể không có nếu nó không
quan trọng trong từng trường hợp cụ thể.
InChIs có thể được xem như là một phiên bản chính thức của tên
IUPAC. Thông tin về tọa độ không gian 3 chiều của các nguyên
tử không được biểu diễn trong Inchi; vì thế một định dạng khác
như PDB có thể được sử dụng.
InChIs khác với số CAS ở 3 điểm:
• Được sử dụng tự do và không độc quyền;
• Có thể được tính toán từ các thông tin về cấu trúc và không cần được
chỉ định bởi một tổ chức nào (có liên quan đến cấu trúc);
• Hầu hết các thông tin trong một Inchi có thể được đọc.
42 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
InChI
43 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
InChIKey
Là 1 biểu diễn ngắn gọn của InChI có chiều dài cố định (25 ký
tự), và không thể hiểu được chỉ bằng mắt thường. InChIKey được
đưa vào sử dụng vào tháng 9 năm 2007, vì các InChI thường dài
và khó lưu trữ.
Lưu ý: InChIKey không phải là duy nhất.
44 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
Là ngôn ngữ tương đối đơn giản và ngắn gọn, có dạng cấu trúc
ngôn ngữ hơn là 1 cấu trúc dữ liệu máy tính.
SMILES thật sự là một ngôn ngữ, mặc dù có một vốn từ vựng
đơn giản (nguyên tử và ký tự biểu diễn các liên kết, nhánh) và
chỉ một vài quy tắc ngữ pháp.
Rất đơn giản và được sử dụng rộng rãi hiện nay.
Đuôi tệp (File Extensions): .smi
45 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
SMILES
Các nguyên tắc
Các nguyên tử được đại diện bởi các nguyên tố hóa học và đặt
trong [] trừ H ví dụ như [Au]. Một số trường hợp ngoại lệ không
cần đặt trong ngoặc vuông như sau:
• Thuộc nhóm B, C, N, O, P, S, F, Cl, Br, or I và
• Không có điện tích hình thức (formal charge) và
• Đang ở trạng thái hóa trị bình thường thấp nhất như sau B
(3), C (4), N (3,5), O (2), P (3,5), S (2,4,6), and 1 for the
halogens và
• Đồng vị thông thường và
• Không có cấu hình
Hydro không đính kèm khi không có dấu ngoặc kép thì có thể ký
hiệu như sau C (CH4), P (PH3), N (NH3), S (H2S), O(H2O), Cl
(HCl).
46 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
SMILES
Các nguyên tắc
47 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
SMILES
Liên kết-bone
Liên kết đơn, đôi, ba và thơm được biểu diễn bằng các ký hiệu ,
¯, #, và , tương ứng.
Các nguyên tử liền kề được cho là liên kết với nhau bằng liên kết
đơn hoặc thơm (liên kết đơn và thơm có thể luôn bị bỏ qua)
48 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
SMILES
Cấu trúc vòng/hợp chất no
49 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
SMILES
Mạch nhánh
Mạch nhánh được biểu diễn bằng dấu ngoặc đơn (phần mạch
nhánh nằm trong dấu ngoặc đơn), các mạch có thể có thể lồng
vào nhau.
Nếu có thể, tránh sử dụng hai dấu mở ngoặc liền nhau.
Cố gắng ít nhánh nhất có thể
Không bắt đầu một biểu diễn bằng một nhánh.
Sau một nhánh, không biểu diễn liên kết đôi và liên kết ba
50 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
Đồng phân Với cấu hình E-Z thì Cis thể hiện bởi Trans
51 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
52 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
53 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
54 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
• Cấu trúc hóa học ở trong không gian ba chiều và các liên
kết vừa dao động vừa quay (Định hướng trong không gian).
• Không cung cấp thông tin để mô tả duy nhất một loại phân
tử.
• Bảng liên kết công kềnh và khó đọc với con người.
55 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
Atom Coordinates
56 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
57 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
Geometric Isomers
58 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
Aromatic Ring
the Kekulé structure in the structural formula
59 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
Aromatic Ring
60 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
61 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
Molfile
62 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Một số dạng biểu diễn phổ biến
63 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Cơ sở dữ liệu hóa học
Database là gì
A database usually means an electronic database
64 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Cơ sở dữ liệu hóa học
Quản lý dữ liệu
Thiết kế dữ liệu
Lưu trữ dữ liệu
Triển khai dữ liệu
Thiết kế mối liên hệ
Tạo dữ liệu
Thêm dữ liệu
Chỉnh sửa dữ liệu
Xóa dữ liệu
65 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Cơ sở dữ liệu hóa học
• STITCH
• Chemprot
• Zinc
67 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Cơ sở dữ liệu hóa học
Pubchem
Dữ liệu thuốc lĩnh vực hóa tin, tin sinh và hóa dược.
68 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Cơ sở dữ liệu hóa học
Pubchem
Dữ liệu thuốc lĩnh vực hóa tin, tin sinh và hóa dược.
Compound code CID: chứa các thông tin không lặp lại của các
cấu trúc được tiêu chuẩn hóa và xác thực. A compound record
có thể link với hơn một PubChem Substance record, nếu nhiều
nhà cung cấp cùng cung cấp một cấu trúc. Tên hợp chất trong
PubChem Compound records là tổng hợp của tất cả các linked
substances, với thứ hạng mặc định là tần số sử dụng tên đó.
BioAssay code AID: The PubChem BioAssay Database bao
gồm thông tin về hoạt tính sinh học của các chất được mô tả
trong PubChem Substance. Cung cấp mô tả (có thể tìm được)
của từng BioAssay, bao gồm điều kiện và kết quả của từng quy
trình.
Thông thường sẽ tìm kiếm theo tên hoặc cấu trúc trong PubChems
Compound database. Thông tin sẽ chín xác và bao quát hơn.
69 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Khai thác dữ liệu
Pubchem
70 / 358
In silico
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
Khai thác dữ liệu
ChEMBL
ChEMBL is a manually curated database of bioactive molecules with drug-like
properties. It brings together chemical, bioactivity and genomic data to aid the
translation of genomic information into effective new drugs." ([ChEMBL
website](https://www.ebi.ac.uk/chembl/))
71 / 358
In silico
Mô tả phân tử
Mô tả phân tử
72 / 358
In silico
Mô tả phân tử
Mục tiêu
73 / 358
In silico
Mô tả phân tử
Đại cương
Useful có hai nghĩa, một là số thu thập nhiều thông tin hơn từ
cấu trúc và hoặc có thể là một phần của mô hình dự đoán cùng
các cấu trúc khác.
74 / 358
In silico
Mô tả phân tử
Đại cương
75 / 358
In silico
Mô tả phân tử
Đại cương
Mô tả phân tử mới có thể chứa đựng những thông tin mới của
của cấu trúc phân tử. Đây là loại quan nghiên cứu cần sự sáng
tạo và trí tưởng tượng cùng với cơ sở lý thuyết vững chắc để
phát triển được con số mang ý nghĩa cấu trúc hóa học.
T
here are no restriction on the design of structural invariants, the
limiting factor is one’s own imagination.
76 / 358
In silico
Mô tả phân tử
Đại cương
77 / 358
In silico
Mô tả phân tử
Đại cương
78 / 358
In silico
Mô tả phân tử
Đại cương
79 / 358
In silico
Mô tả phân tử
Phân loại
Phân loại
Phân loại mô tả phân tử theo chiều biểu diễn phân tử
• 0D: Số lượng nguyên tố, số lượng liên kết, khối lượng phân
tử, tổng các tính chất nguyên tử
Ví dụ: KL phân tử, khối lượng phân tử TB; số lượng: nguyên tố, hiđrô,
các bon, nguyên tố dị nguyên, nguyên tố không phải là hiđrô, liên kết,
liên kết đôi, liên kết ba, liên kết thơm, liên kết quan được, vòng, vòng 3
(4-7) thành viên, tổng thể tích van der Waals nguyên tố.
• 1-D: Đếm số lượng mảnh cấu trúc
Ví dụ: Số lượng: C bậc 1 (sp3), C bậc 2 (sp3), C bậc 3 (sp3), C bậc 4
(sp3), C bậc 2 (sp3) trong một vòng, C bậc 3 (sp3) trong một vòng, C
bậc 4 (sp3) trong một vòng, C thơm không có nhóm thế, C thế, C bậc 1
(sp2, =CH2), C bậc 2 (sp2, =CHR), C bậc 3 (sp2, =CR2), nhóm alen (
=C=), C cuối (sp), C trung gian (sp)
80 / 358
In silico
Mô tả phân tử
Phân loại
Phân loại
Phân loại mô tả phân tử theo chiều biểu diễn phân tử
• 2D Mô tả tôpô
Ví dụ: Chỉ số Zagreb, Chỉ số Wiener, Chỉ số J Balaban, Chỉ số kết nối
chi , chỉ số kappa, số lượng đường phân tử, mô tả phân tử BCUT, Véc
tơ tự tương quan (autocorrelation), TOMOCOMD
• 3D Mô tả hình học không gian
Ví dụ: Độ lệch tâm phân tử (Molecular eccentricity), Bán kính hồi
chuyển (radius of gyration), Tham số đồ thị trạng thái E (E-state
topological parameter), Chỉ số Wiener 3D, Chỉ số Balaban 3D, Chỉ số
MoRSE 3D, hàm phân bố xuyên tâm [radial distribution function (RDF
code)], Mô tả WHIM, Mô tả GETAWAY, Véc tơ tự tương quan 3D
81 / 358
In silico
Mô tả phân tử
Phân loại
Phân loại
Phân loại mô tả phân tử theo chiều biểu diễn phân tử
82 / 358
In silico
Mô tả phân tử
Phân loại
0D và 1D
Biến chỉ số giả
83 / 358
In silico
Mô tả phân tử
Phân loại
0D và 1D
Biến chỉ số giả
Thực tế, các giá trị của biến này thường chỉ là mô tả nhị phân
với giá trị 1 khi xuất hiện và mang giá trị 0 khi không xuất hiện.
Chúng thường được sử dụng để đại diện cho
• Sự có mặt hoặc không có mặt của vòng thơm
• Sự có mặt hoặc không có mặt của đồng phân quang học
• Sự có mặt hoặc không có mặt của nhóm thể đặc biệt
• Sự có mặt hoặc không có mặt của một mảnh
Dãy bít (Bit-strings) là tập hợp các mô tả nhị phân (Mô tả vectơ)
và thường được sử dụng như vân tay để mô tả cấu trúc, giúp
cho việc khai phá DL nhanh chóng.
84 / 358
In silico
Mô tả phân tử
Phân loại
2D-3D
Topological vs topographical descriptors
85 / 358
In silico
Mô tả phân tử
Phân loại
2D
Topological descriptors
86 / 358
In silico
Mô tả phân tử
Phân loại
2D
sự phát triển
• Nhóm đấu tiên: the Wiener index (1947), the Platt index
(1947), N2 (1964), Hosoya Z, Zagreb Group indices, the
Balaban centric indices và the Schultz MTI
• Nhóm thứ 2: Molecular connectivity index or χ, The Randic
index, information- theoretic indices, the J index, and the
shape or kappa indices
• Nhóm thứ 3: the hyper-Wiener index or the molecular
identification (ID) numbers, The E-state index
87 / 358
In silico
Mô tả phân tử
Phân loại
2D
Topological descriptors
• Mô tả chỉ mang 1 giá trị duy nhất được tính từ đồ thị 2D phân tử.
• Biểu diễn các cấu trúc theo kích thước, độ phân nhánh, và hình dạng
tổng thể.
Ví dụ Wiener index: W (G) = 11 u,v∈G d(u, v)
P
88 / 358
In silico
Mô tả phân tử
Phân loại
2D
Structural keys
Structural key được hiểu là cách mã hóa nhị phân của cấu trúc
theo một thư viện được định nghĩa sẵn. Nếu xuất hiện đoạn mã
đó thì sẽ là 1, nếu không sẽ ghi là 0
89 / 358
In silico
Mô tả phân tử
Phân loại
2D
Hashed Fingerprints
Chúng được tạo ra bằng cách liệt kê thông qua phân tử tất cả
các đoạn có thể không lớn hơn một kích thước nhất định và sau
đó chuyển đổi các đoạn này thành giá trị số bằng cách sử dụng
hàm “băm” . Các giá trị số này có thể được sử dụng để chỉ ra vị
trí bit trong các dấu vân tay được băm.
90 / 358
In silico
Mô tả phân tử
Phân loại
3D
91 / 358
In silico
Mô tả phân tử
Phân loại
3D
92 / 358
In silico
Mô tả phân tử
Phân loại
93 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
94 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Mục tiêu
• Trình bày được phương pháp tìm kiếm sự tương đồng: khái
niệm, thành phần và ứng dụng.
• Trình bày được khái niệm vân tay điện tử, cấu trúc vân tay
điện tử 2D và 3D
• Trình bày được khái niệm về hệ số tương đồng và một số
ví dụ về hệ số tương đồng.
95 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Đại cương
96 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Đại cương
Molecular similarity
97 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Đại cương
Molecular similarity
98 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Đại cương
Molecular similarity
99 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Đại cương
100 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Đại cương
2D versus 3D Similarity
Similarity can be evaluated on the basis of 2D
and 3D molecular representations.
Direct graph comparisons and graph similarity
calculations
molecular descriptors that capture graph
information such as fragment or topological
atom environment fingerprints are very
popular. Fingerprints are generally defined
as bit string or feature set representations of
molecular structure and properties.
As pointed out above, chemists are generally
more familiar with 2D than 3D representations
of compounds and consider similarity mostly
on the basis of 2D molecular graphs.
101 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Đại cương
102 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Đại cương
103 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Đại cương
104 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Đại cương
• Một hợp chất có hoạt tính đã được biết sẽ là khóa tìm kiếm.
• Người sử dụng có thể thiết lập các giới hạn về đầu ra.
• Khả năng tái sử dụng lại kết quả trên cùng để tìm những
khả năng khác.
• Quyết định chủ quan về mức độ tương đồng.
105 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Đại cương
106 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Đại cương
Ứng dụng
• Đánh giá tính độc đáo của các hợp chất mới được phân lập
hoặc tổng hợp.
• Tìm cơ sở cho điểm bắt đầu hoặc trung gian trong thiết kế
quá trình tổng hợp.
• Xử lý các phản ứng hóa học và hỗn hợp.
• Tìm kiếm các hợp chất theo nhu cầu của người sử dụng,
ngay cả khi không chắc chắn những gì là cần thiết.
107 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Mô tả phân tử
Mô tả phân tử
Mô tả phân tử trong tìm kiếm sự tương đồng
Structual keys
Structual keys là một vector nhị phân mà mỗi thành phần là
"True" hoặc "False" đại diện cho sự có hoặc không có của một
đặc trưng của khung hóa học. Ví dụ như MACCCS keys,
Pubchem Fingerprints
Mỗi 0 hoặc 1 có thể được biểu diễn
như là một bit đơn trên máy tính (một
"bitstring”)
Các vân tay thông thường có độ dài
150-2500 bit.
Cần một từ điển
Sử dụng mảnh tổng quát
108 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Mô tả phân tử
Mô tả phân tử
Mô tả phân tử trong tìm kiếm sự tương đồng
Hashed Fingerprints
Hashed Fingerprints: Là một vector Boolean xác định dựa trên một tập hợp
các mẫu (set of patterns) để lập chỉ mục. Các mẫu này được tạo ra từ chính
các phân tử và do đó các mẫu sẽ khác nhau từ phân tử này sang phân tử
khác, điều này đồng nghĩa với việc các bit cụ thể không được xác định rõ
ràng. Ví dụ như THe path-based fingerprints, The Daylight fingerprints,
circular fingerprints
Mô tả phân tử
Mô tả phân tử trong tìm kiếm sự tương đồng
110 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Mô tả phân tử
Mô tả phân tử
Mô tả phân tử trong tìm kiếm sự tương đồng
111 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
So sánh 2D và 3D
2D và 3D
112 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
So sánh 2D và 3D
2D và 3D
113 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
So sánh 2D và 3D
2D và 3D
114 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Hệ số tương đồng
115 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Hệ số tương đồng
Hệ số Tanimoto
C
SAB = A+B−C Trong đó: a và b là số đặc trưng xuất hiện trong
hoạt chất A và B, và C là số đặc trưng chia sẻ giữa A và B
A + B − C = (A − C) + (B − C) + C
C
SAB =
(A − C) + (B − C) + C
RA,B,C
SAB =
1 + R( A, B, C)
C
RA,B,C =
(A − C) + (B − C)
A và B gần giống nhau thì A-C và B-C tiến gần tới 0 và RA,B,C
tiến tới vô cùng và ngược lại.
Giá trị này không giải thích được tần xuất suất hiện một đặc
trưng cho một hoạt chất 116 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Hệ số tương đồng
117 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Hệ số tương đồng
Hệ số khoảng cách
Hệ số khoảng cách Soergel
C
DAB = 1 − SAB = 1 −
A+B−C
(A + B − C) − C
DAB =
A+B−C
(A − C) + (B − C)
DAB =
A+B−C
118 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Hệ số tương đồng
Hệ số Tversky
C
Tvα,β (A, B) =
α(A − C) + β(B − C) + C
α, β: là đơn vị của số lượng các đặc trưng duy nhất của A hoặc
B, (A-C) và (B-C). Đây là các đơn vị không âm.
Khi α = β= 1 thì Tv=Tc
Khi α = β=0.5 thì Tv được định nghĩa là hệ số Dice
c
DC (A, B) = 1
2
(A + B)
Thông thường α + β = 1. Khi α càng nhỏ thì B góp phần tạo ra cấu trúc của
A càng lớn, B càng gần tương tự với A. Khi α càng lớn thì cấu trúc của B Khi
α= 1 và β=0 sẽ tạo ra thước đo mà đánh giá tương đương A là một phần cấu
trúc con của B. Khi α = 0 và β = 1 sẽ tạo ra thước đo mà tại đó đánh giá A
tương tự với B. Do độ nhiễu của tính toán, cặp giá trị này thường được ghi là
xem xét ở 90/10. Trong một số trường hợp sẽ xem xét giá trị này lớn hơn 1.
119 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Hệ số tương đồng
Giá trị Tc có thể hiện được hoạt chất B có cùng hoạt tính với
hoạt chất C
Con số huyền thoại 0.85.
• Sự khác nhau trong thiết kết Fingerprints
• Sự phân bố của giá trị
120 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Hệ số tương đồng
121 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Hệ số tương đồng
122 / 358
In silico
Vân tay điện tử và phương pháp tìm kiếm sự tương đồng
Hệ số tương đồng
Phần mềm
123 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
124 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Đại cương
125 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Đại cương
Năm 1863, Crum-Brown quan sát thấy mối liên hệ giữa độc tính và độ tan theo
hàm số của cấu trúc hóa học.
Năm 1868, Crum-Brown and Fraser báo cáo mối liên hệ giữa nhóm thế với
đặc tính hóa lý của hợp chất.
Vào thập niên 1890s, Hans Horst Meyer độc tính phụ thuộc vào khả năng thân
dầu của hợp chất đó.
Năm 1891, Louis Hammett đã nghiên cứu mối quan hệ giữa tính chất điện
tử của cặp acid-base với khả năng phản ứng của chúng. Đây là báo cáo đầu
tiên thiết lập ý tưởng cấu trúc phân tử ảnh hưởng trực tiếp tới điểm cuối (the
endpoint).
Năm 1962, Hansch và cộng sự đã chính thức đưa ra khái niệm QSAR khi đưa
ra mối liên hệ giữa cấu trúc và chất điều hòa sinh trưởng thực vật cũng như
trừ sâu phục thuộc vào hằng số Hammett và tính kỵ nước.
126 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Đại cương
127 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Đại cương
QSAR
Áp dụng và quy trình triển khai
128 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Đại cương
129 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Đại cương
130 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Đại cương
Ví dụ về sơ đồ QSAR
131 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Đại cương
132 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Các phần của QSAR
Cơ sở dữ liệu
133 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Các phần của QSAR
MIC: Nồng độ ức chế tối thiểu, hay nồng độ kiềm khuẩn tối thiểu
của vi khuẩn (dùng trong vi sinh).
MBC: Nồng độ diệt khuẩn tối thiểu, là nồng độ thấp nhất làm giảm
99.9% lượng vi khuẩn.
IC50 : Nồng độ ức chế 50% đối tượng thử hay còn gọi là hằng số
Michaelis-Menten.
EC50 : (Effective Concentration) nồng độ 50% hiệu quả tối đa.
ED50 : (Effective Dose) liều tác dụng tối đa trên 50% đối tượng thử.
GI50 : Nồng độ ức chế 50% sự tăng sinh tế bào (sự phân chia) cell
proliferation, và thường được sử dụng cho các hợp chất
cytostatic (trái ngược với cytotoxic) agents.
SD50 : Liều tiêu diệt 50% đối tượng thử.
LD50 : Liều gây chế 50% thú thử.
TI: Chỉ số trị liệu (TI càng lớn độ an toàn sử dụng càng cao).
134 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Các phần của QSAR
Molecular Descriptor
Mô tả phân tử
135 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Các phần của QSAR
Molecular Descriptor
Mô tả phân tử
136 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Các phần của QSAR
137 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Mô hình QSAR
QSAR model
• Classification Model
• Logistic Regression
• Support Vector Machine (SVM)
• Random Forest
• Deep Neural Network
• Regression Model
• Multiple Linear Regression (MLR)
• Polynomial Regression
• Support Vector Regression
• Deep Neural Network
138 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Mô hình QSAR
139 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Mô hình QSAR
QSAR model
140 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Mô hình QSAR
141 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Mô hình QSAR
142 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Mô hình QSAR
143 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Mô hình QSAR
144 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Mô hình QSAR
m
X
yi = bi xi + b0
i=1
145 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Mô hình QSAR
146 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Mô hình QSAR
Logistic Regression
147 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Mô hình QSAR
π(X )
g(X ) = ln[ ] = b0 + b1 x1 + b2 x2 + . . . + bM xM
1 − π(X )
Xác suất xảy ra sự kiện của cặp (x,y) trong đó x = x1 , x2 , . . . , xn
và y = y1 , y2, . . . , yn thì hàm xác suất được định nghĩa là
Đối với tập dữ liệu (X,Y) với giả thiết là biến độc lập, hàm xác
xuất được định nghĩa
M
Y
l(bi ) = π(xi )yi [1 − π(xi )]1−yi
i=1
148 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Mô hình QSAR
et 1
σ(t) = =
t
e +1 1 + e−t
1
Nếu t = β0 + β1 x thì σ(t) =
1+e−(β0 +β1 x)
149 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Validation of QSAR models
Validation of QSAR
• Cross-validation
• Training/evaluation set splitting
• Bootstrap
• External validation
• y-scrambling
• Lateral validation
• QUIK rule
150 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Validation of QSAR models
151 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Validation of QSAR models
Internal Validation
Least Squares Fit
Pn
2 (yi − ŷi )2
R = 1 − Pi=1
n 2
i=1 (yi − ȳi )
Hiệu chỉnh sau khi loại bỏ các giá trị thô quá khác biệt.
Pn
2 (yi − ŷi )2
Radj = 1 − Pni=1 2
i=1 (yi − ȳi )
2
R2 và Radj lệch không quá 0.3
152 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Validation of QSAR models
Internal Validation
Fit of the Model
n
X (yi − ŷi )2
χ2 =
ŷi
i=1
v
u n
uX (yi − ȳ)2
RMSE = t
n−1
i=1
n
X |yi − ŷi |
MSE =
n
i=1
2
Nếu χ > 0.5 và RMSE > 1.0 thì mô hình vẫn không chính xác dù giá trị R2 >0.7.
Mô hình được coi là tốt khi giá trị χ2 <0.5 và RMSE<0.3.
Các thông số này không chỉ báo hợp lệ của mô hình.
153 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Validation of QSAR models
Internal Validation
Cross-validation
Cross-validation là quá trình lặp lại trên một tập con của dữ liệu
ban đầu thông quá đánh giá các thông số CV , Q 2 , q 2 , jack −
knifing.
• LOO method (In the leave-one-out) là quá trình CV khi loại
bỏ 1 phân tử trong tệp dữ liệu ban đầu, tạo và đánh giá lại
mô hình trên toàn bộ dữ liệu riêng lẻ sau khi được thử
nghiệm lại. Giá trị trung bình của mỗi Q 2 được tính toán.
• LMO method (leave-many-out ) là quá trình CV khi lọai bỏ
nhiều phần từ trong tệp dữ liêu ban đầu.
154 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Validation of QSAR models
Internal Validation
Cross-validation
Pn
(yi − ŷi )
R 2 = 1 − Pi=1
n
i=1 (yi − ȳi )
Pn
2 (yi − yˆi/i )
QLOO = 1 − Pi=1
n
i=1 (yi − ȳi )
Q 2 và R 2 không lệch quá 0.3. Q 2 >0.5 nhiều không không là chỉ dấu cho mô
hình tốt nếu như chưa xem xét với hợp chất bên ngoài.
155 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Validation of QSAR models
External validation
Training/evaluation set splitting
156 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Validation of QSAR models
157 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Validation of QSAR models
Internal Validation
Bootstrapping
Giá trị trung bình của Q 2 cao thể hiện mô hình ổn định.
158 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Validation of QSAR models
Internal Validation
y-scrambling (y-randomization test)
159 / 358
In silico
Giới thiệu phươnng pháp khảo sát mối quan hệ định lượng cấu trúc hoạt tính sinh học-QSAR
Validation of QSAR models
Cut-off
MLR and PLS
161 / 358
In silico
Molecular docking
Molecular docking
162 / 358
In silico
Molecular docking
Mục tiêu
164 / 358
In silico
Molecular docking
Cơ sở lý thuyết
165 / 358
In silico
Molecular docking
Cơ sở lý thuyết
Sự đồng bộ về mô hình
Cả 3 mô hình không phải mẫu thuẫn nhau mà sự bổ sung cho
nhau. Mỗi mô hình thể hiện một khía cạnh của quá trình. Mô
hình lock and key thể hiện nguyên tắc liên kết không gian 3
chiều, The induced-fit thể hiện cách mà nguyên tắc đạt được
trong khi mô hình the conformation ensemble thể hiện sự phức
tạp của không gian 3 chiều của protein.
166 / 358
In silico
Molecular docking
Cơ sở lý thuyết
167 / 358
In silico
Molecular docking
Các khái niệm
168 / 358
In silico
Molecular docking
Các khái niệm
Ý nghĩa
169 / 358
In silico
Molecular docking
Các khái niệm
Ứng dụng
170 / 358
In silico
Molecular docking
Các khái niệm
Nhược điểm
171 / 358
In silico
Molecular docking
Các khái niệm
Phân loại
172 / 358
In silico
Molecular docking
Các khái niệm
Pose
173 / 358
In silico
Molecular docking
Các khái niệm
• Mối liên hệ về hình dạng là tiêu chí đầu tiên về liên hệ giữa
các phân tử
• Mối liên hệ hóa lý là tiêu chuẩn thứ hai khi xem xét liên hệ
giữa các ứng cử viên
174 / 358
In silico
Molecular docking
Các khái niệm
Thế năng
175 / 358
In silico
Molecular docking
Các khái niệm
Cứng-Linh hoạt
• Việc lắp ghép cơ thể cứng nhắc bỏ qua tính linh hoạt của các phân tử
và coi chúng như những vật cứng
• Cơ quan thụ cảm cứng nhắc - ghép nối phối tử mềm dẻo: chỉ có phối tử
được coi là mềm dẻo, cơ quan thụ cảm là cứng
• Cơ quan thụ cảm linh hoạt - kết nối phối tử linh hoạt: cả protein và phối
tử đều được coi là linh hoạt.
176 / 358
In silico
Molecular docking
Phần mềm docking
177 / 358
In silico
Molecular docking
Phần mềm docking
Molecular representation
Biểu diễn phân tử thông qua loại nguyên tử và góc tọa độ.
178 / 358
In silico
Molecular docking
Phần mềm docking
Searching algorithm
Mục tiêu: Nếu nhóm liên kết trên ligand và vị trí liên kết đã được
xác định, chúng sẽ cần xác định bởi toán tử sao cho nhóm liên
trên ligand bắt cặp hoàn toàn với nhóm ghép nối trong vị trí liên
kết. Khoảng cách liên kết tiềm năng cũng như các nhóm bắt cặp
đã được quy định từ trước. Sau đó, phân tử sẽ được di chuyển
xung quanh vị trí liên kết để thử nghiệm sao cho kết quả thu
được là tốt nhất.
179 / 358
In silico
Molecular docking
Phần mềm docking
180 / 358
In silico
Molecular docking
Phần mềm docking
181 / 358
In silico
Molecular docking
Phần mềm docking
182 / 358
In silico
Molecular docking
Phần mềm docking
183 / 358
In silico
Molecular docking
Phần mềm docking
184 / 358
In silico
Molecular docking
Phần mềm docking
Acceptable or Unacceptable
185 / 358
In silico
Molecular docking
Phần mềm docking
186 / 358
In silico
Molecular docking
Phần mềm docking
188 / 358
In silico
Molecular docking
Phần mềm docking
Grids and probe atoms are used to measure steric, electrostatic, and hydrophobic
fields around molecules.
Grids can be placed in binding sites in order to identify the nature and strength
of potential binding interactions at different locations within the binding site.
These can be tabulated and used to measure binding energies of ligands.
189 / 358
In silico
Molecular docking
Phần mềm docking
Rigid docking
Search Algorithms
190 / 358
In silico
Molecular docking
Phần mềm docking
• The rigid-body docking approaches are often not sufficient to predict the
structure of a protein complex from the separate unbound structures
• The incorporation of molecular flexibility into docking algorithms requires
to add conformational degrees of freedom to translations and rotations
• Approximation algorithms need to be introduced to reduce the
dimensionality of the problem and produce acceptable results within a
reasonable computing time
191 / 358
In silico
Molecular docking
Phần mềm docking
192 / 358
In silico
Molecular docking
Phần mềm docking
193 / 358
In silico
Molecular docking
Phần mềm docking
Directed Dock and Dock 4.0 use a method where the algorithm identifies the
rotatable bonds that are present in a ligand, allowing the identification of rigid
and flexible regions. The molecule is then split into molecular components or
fragments
194 / 358
In silico
Molecular docking
Phần mềm docking
195 / 358
In silico
Molecular docking
Phần mềm docking
196 / 358
In silico
Molecular docking
Phần mềm docking
Scoring method
197 / 358
In silico
Molecular docking
Phần mềm docking
Interaction Energies
• Electrostatic interactions
• Hydrogen bond interactions
• Van der Waals interactions
• Hydrophobic forces
198 / 358
In silico
Molecular docking
Phần mềm docking
Desolvation Energies
199 / 358
In silico
Molecular docking
Phần mềm docking
Entropic Effects
200 / 358
In silico
Molecular docking
Phần mềm docking
201 / 358
In silico
Molecular docking
Phần mềm docking
Force-Field Calculations
202 / 358
In silico
Molecular docking
Target
• Protein Data Bank (PDB) là kho lưu trữ dữ liệu cấu trúc 3D
của các phân tử sinh học lớn như là protein và axit nucleic.
• Các file dữ liệu cấu trúc được đưa lên bởi các nhàsinh học
phân tử trên khắp thế giới. Các file dữ liệu cấu trúc cóthể
truy cập vàtải về miễn phíqua các trang web thành viên
PDBe, PDBj„ RCSB. Dữ liệu đưa lên PDB được kiểm tra lại
bằng phần mềm PDB Validation Suite.
• Dữ liệu tại đây được cập nhật hàng tuần.
• Miễn phí truy vấn cấu trúc.
203 / 358
In silico
Molecular docking
Target
• Tất cả các phân tử được tìm thấy trong các sinh vật từ vi
khuẩn, nấm, thực vật, động vật vàcon người.
• Được xây dựng vào năm 1971 tại Brookhaven National
Laboratory dưới sự lãnh đạo của Walter Hamilton.
• Từ năm 1998, the Research Collaboratory for Structural
Bioinformatics (RCSB) chịu trách nhiệm chính quản lýPBD.
• Việc tìm kiếm thông thông cóthể được tiến hành theo
PDBID, tên, tên tác giả hoặc theo cơ chất.
204 / 358
In silico
Molecular docking
Target
206 / 358
In silico
Druglikness
Druglikness
207 / 358
In silico
Druglikness
Mục tiêu
• Trình bày được khái niệm hợp chất “giống thuốc” và ứng
dụng khái niệm này trong quá trình nghiên cứu thuốc mới.
• Trình bày được quy tắc Lipinski, ưu nhược điểm và ứng
dụng của quy tắc, so sánh với một số quy tắc sàng lọc hợp
chất giống thuốc khác.
• Trình bày được khái niệm hợp chất “giống dẫn đường” và
một số quy tắc sàng lọc lead-likess.
• Trình bày được một số quy tắc sàng lọc các nhóm chức và
alert cấu trúc.
208 / 358
In silico
Druglikness
Đại cương
209 / 358
In silico
Druglikness
Đại cương
• Màng tế bào
• Ezyme chuyển hóa
• Dung môi
• pH môi trường
• Bơm tống xuất
• Protein liên kết
210 / 358
In silico
Druglikness
Đại cương
Christopher A. Lipinski-1997
Drug-like được hiểu là các hợp chất có tính chất dược động học
và độc tính (ADME/Tox) phù hợp với nghiên cứu lâm sàng pha
1 trên người.
Walters và Murko-2002
Phân tử chứa nhóm chức và có tính chất vật lý tương tự như
phần lớn các thuốc đang sử dụng.
211 / 358
In silico
Druglikness
Đại cương
Muegge-2003
Drug-likeness chủ yếu dùng để chỉ kết quả thống kê một (hoặc
một vài) tham số phân tử được tính toán từ một cơ sở dữ liệu
các thuốc. Vì thế nó có thể được dùng để xác định tính giống
thuốc của một (hoặc một vài) hợp chất khác được lựa chọn từ
một cơ sở dữ liệu nào đó.
Khái niệm
Thuật ngữ drug-like tương ứng với phân tử thuốc với đặc điểm
tính chất đảm bảo rằng các phân tử này có khả năng thành
công lớn hơn các phân tử khác trong quá trình phát triển thành
thuốc.
212 / 358
In silico
Druglikness
Đại cương
213 / 358
In silico
Druglikness
Đại cương
• Tính tan
• Tính thấm
• Tính bền vững hóa học
214 / 358
In silico
Druglikness
Đại cương
215 / 358
In silico
Druglikness
Đại cương
• Đô thanh thải
• Thời gian bán thải
• Sinh khả dụng
• Tương tác thuốc
216 / 358
In silico
Druglikness
Đại cương
Ứng dụng
• Lên kế hoạch, thực hiện và giải thích tốt hơn các thí
nghiệm trong quá trình nghiên cứu thuốc
• Tiết kiệm thời gian do không phải giải quyết các vấn đề liên
quan đến tính chất tại thời điểm cuối cùng
• Nhanh và hiệu quả hơn
• Các ứng cử viên sẽ ít nguy cơ và tăng giá trị hơn
• Thời gian được bảo hộ sẽ cao hơn
• Sự được bệnh nhân dễ chấp nhận hơn
217 / 358
In silico
Druglikness
Đại cương
• Cho phép đánh giá nhanh đặc điểm cấu trúc của các hợp
chất trước khi tiếp tục nghiên cứu thực nghiệm.
• Là một tập hợp các quy tắc với các ngưỡng giới hạn của
các đặc điểm cấu trúc hay tính chất lý hóa của các hợp
chất. Các cấu trúc nằm trong các giới hạn này có độ hấp
thu cao hơn các hợp chất nằm ngoài.
• Các quy tắc giống thuốc là một phần không thể thiếu trong
các phần mềm tính toán tham số cấu trúc.
218 / 358
In silico
Druglikness
Một số quy tắc
• Có không quá 5 trung tâm cho liên kết hydro (OH, NH)
• Có không quá 10 trung tâm nhận liên kết hydro (O,N)
• Có khối lượng phân tử không quá 500g/mol
• Có giá trị logP không quá 5
• Không ứng dụng cho các thuốc là cơ chất của vận chuyển
sinh học
219 / 358
In silico
Druglikness
Một số quy tắc
• Khi nghiên cứu các đặc điểm cấu trúc của các hợp chất đã
qua pha 1 thử nghiệm lâm sàng và được chuyển sang pha
2. Pha 1 nghiên cứu liều trên người để xác định độc tính và
dược động học của thuốc. Việc chúng được chuyển sang
nghiên cứu ở pha 2, chứng tỏ chúng được hấp thu tương
đối tốt trên người để có thể được tiếp tục được phát triển.
• Một tập hợp gồm 2245 hợp chất đã được nghiên cứu và đã
quan sát được một xu hướng rõ ràng, trở thành tiền đề cho
các quy tắc này.
• 90% các hợp chất được hấp thu tốt sau khi uống có tính
chất phân tử nằm trong giới hạn của Lipinski
• Các hợp chất tiệm cận hoặc vượt quá các giá trị này có
nhiều nguy cơ kém hấp thu sau khi uống
220 / 358
In silico
Druglikness
Một số quy tắc
Ưu điểm
221 / 358
In silico
Druglikness
Một số quy tắc
Nhược điểm
• Ro5 chỉ áp dụng cho các hợp chất theo đường tiêu hóa
(không áp dụng cho các cơ chất của các chất vận chuyển
và hợp chất tự nhiên)
• Ro5 chỉ áp dụng đối với các hợp chất được hấp thu theo co
chế bị động.
• Nhiều thuốc kháng sinh, kháng nấm, vitamin và một số
glycosides tim mạch không thỏa mãn Ro5.
• Các hợp chất thỏa mãn tất cả các quy tắc không nhất thiết
sẽ là thuốc tốt
• Ro5 không nói về các đặc điểm cấu trúc hóa học cụ thể
nào được tìm thấy trong các thuốc hoặc không thuốc
222 / 358
In silico
Druglikness
Một số quy tắc
Lưu ý
• Vi phạm một quy tắc có thể không dẫn đến hấp thu kém.
• Tuy nhiên khả năng hấp thu kém tăng lên theo số lượng
các quy tắc bị vi phạm và mức độ vi phạm quy tắc đó.
223 / 358
In silico
Druglikness
Một số quy tắc
Liên kết hydro làm tăng độ tan trong nước, nhưng liên kết này
cần phải được phá vỡ để hợp chất có thể hấp thu qua màng lipid
kép.
Do đó, khi tăng số liên kết hydro sẽ giảm sự phân bố từ pha lỏng
sang pha dầu nên giảm sự hấp thu theo cơ chế khuếch tán bị
đông.
224 / 358
In silico
Druglikness
Một số quy tắc
• Khối lượng phân tử liên quan đến kích thước phân tử.
• Khi kích thước phân tử tăng, sẽ làm giảm độ tan (do nước
phải hình thành một khoang lớn hơn để hòa tan hợp chất).
• Kích thước phân tử tăng cũng làm giảm khuếch tán bị
động do bị giữ lại bởi các mạch nhánh carbon của màng
lipid kép.
225 / 358
In silico
Druglikness
Một số quy tắc
Là khả năng 1 hợp chất khuếch tán vào môi trường không phân
cực so với nước.
Đánh giá: hệ số phân bố giữa octanol và nước của hoá chất
(logP hoặc logD )
Vai trò: quyết định đối với một số tính chất ADME/Tox và hoạt
tính
Tính toán: trực tiếp, dễ dàng (LogP ) dựa trên các nghiên cứu
của Hansch và Leo (1995
226 / 358
In silico
Druglikness
Một số quy tắc
LogD
Phụ thuộc vào khả năng khuếch tán của cả 2 dạng (ion và phân
tử).
Dạng ion có ái lực với pha nước cao hơn pha dầu.
Khả năng khuếch tán của dạng ion phụ thuộc vào pH của môi
trường hòa tan, hằng số phân ly pKa của hợp chất và đặc điểm
acid hay base của phân tử
227 / 358
In silico
Druglikness
Một số quy tắc
logP
Tăng giá trị của logP sẽ làm giảm tính tan ở trong nước, dẫn đến
giảm sự hấp thu
Quá trình vận chuyển qua màng tế bào có thể được tăng cường
hay giảm bớt bởi vận chuyển chủ động hoặc cơ chế đẩy ra ngoài
(efflux mechanism)
Điều này có nghĩa là các chất vận chuyển có tác động mạnh tới
tăng hoặc giảm khả năng hấp thu.
228 / 358
In silico
Druglikness
Một số quy tắc
Ứng dụng
Được sử dụng rộng rãi để sàng lọc các hợp chất “giống thuốc”
(drug-likeness) của nhiều phân tử khác nhau.
Được sử dụng rộng rãi đến mức gần như là bản quyền (almost
“copyright” ) trong lĩnh vực nghiên cứu và phát triển thuốc.
Tuy nhiên, cũng có nhiều nghiên cứu khác được tiến hành trong
lĩnh vực này.
229 / 358
In silico
Druglikness
Một số quy tắc
• Nghiên cứu khi khảo sát sinh khả dụng (đường uống) của
các ứng cử viên tiềm năng trở thành thuốc trên chuột.
• Các quy tắc để mô tả druglikeness khác Linpiski
• Thông số chính được lấy từ nghiên cứu này là số liên kết
quay được (rotatable bonds) – một dấu hiệu của linh hoạt
phân tử.
230 / 358
In silico
Druglikness
Một số quy tắc
231 / 358
In silico
Druglikness
Một số quy tắc
Drug-likeness:
• Liên kết có thể quay < 12
• Diện tích bề mặt phân cực < 140
Còn MW (Lipinski) và logP? Veber không dám chắc quy tắc của
ông là tổng quát cho drug-likeness
Rất khó để xây dựng một quy tắc chung cho tất cả các trường
hợp
232 / 358
In silico
Druglikness
Lead Likeness
Lead Likeness
Ban đầu dựa trên Ro5 (không có giá trị để lựa chọn các hợp chất
lead)
Kết quả là các hợp chất lead (nền tảng) phải có một số đặc điểm
cấu trúc tự do để không cản trở khả năng của chúng thành các
ứng cử viên lâm sàng
Kinh nghiệm đã chỉ ra rằng trong quá trình tối ưu hóa cấu trúc
các hợp chất lead các mảnh cấu trúc (substructures) thường sẽ
được thêm vào sườn cấu trúc của hợp chất lead ban đầu để làm
tăng ái lực và sự chọn lọc với target.
Các nhóm không phân cực (Non-polar groups) có thể được thêm
vào để làm tăng khả năng liên kết với các khoang ưa dầu
Các nhóm phân cực có thể được thêm vào để làm tăng số lượng
liên kết hydro với các target.
233 / 358
In silico
Druglikness
Lead Likeness
Lead Likeness
Quá trình này dẫn đến vi phạm các quy tắc Ro5
Lý luận hiện tại đã dẫn tới việc sàng lọc các thư viện cấu trúc
các hợp chất lead với:
Khối lượng phân tử (Molecular weight) 100-350
ClogP : 1-3
Điều này làm tăng tỷ lệ các kết quả tối ưu hóa thành các hợp
chất với tính chất giống thuốc chập thuận được.
234 / 358
In silico
Druglikness
Lead Likeness
Lead Likeness
Mục tiêu tìm hợp chất có hoạt tính mạnh nhất, nhưng phải “gần”
giống thuốc
Sàng lọc từ một cơ sở dữ liệu dựa trên hoạt tính dễ dàng hơn
rất nhiều khi phải xem xét đồng thời nhiều tính chất (dược động
học, độc tính)
cần tổng hợp nhiều yếu tố khi tìm kiếm hợp chất dẫn đường
235 / 358
In silico
Druglikness
Lead Likeness
Sườn cấu trúc xuất phát từ tối ưu hóa hợp chất dẫn đường
Là phần mà phải được bảo lưu nhằm đảm bảo tính chất dược lý
của hợp chất dẫn đường. Thay đổi các nhóm thế trên sườn cấu
trúc nhằm tối ưu hóa tính chất dược động học và độc tính.
236 / 358
In silico
Druglikness
Lead Likeness
Giúp nhận biết và loại bỏ các cấu trúc chứa nhóm chức gây tác
dụng không mong muốn.
Tác dụng không mong muốn: độc tính, tính kém bền trong điều
kiện sinh lý
237 / 358
In silico
Druglikness
Lead Likeness
Là các quy tắc (filter) giúp nhận dạng các phần của cấu trúc liên
quan đến khả năng gây ung thư và đột biến gen.
Alert cấu trúc phải được đánh giá trên cơ sở ngưỡng gây độc với
cơ thể (Threshold Toxicological Concern (TTC)).
Cơ thể phải tiếp xúc với cấu trúc đó sau một thời gian nhất định,
ở một điều kiện nhất định mới gây độc.
không phải tất cả các alert cấu trúc đều nguy hiểm như nhau tìm
ra các alerts cấu trúc mà vẫn nằm dưới ngưỡng độc.
238 / 358
In silico
Druglikness
Lead Likeness
Cheeseman tìm kiếm các alert cấu trúc có trong thực phẩm.
Nhận biết các alert cấu trúc có trong thực phẩm và phụ da: yêu
cầu cẩn thiết cho xét duyệt, kiểm định và đánh giá thực phẩm.
Tất cả phải xem xét trong ngưỡng gây độc.
239 / 358
In silico
Phần III
Bioinformatics
240 / 358
In silico
Các cơ sở dữ liệu tin sinh học
241 / 358
In silico
Các cơ sở dữ liệu tin sinh học
Mục tiêu
• Trình bày được một số bài toán cơ bản và ứng dụng của
Tin sinh học
• Nêu được các nguồn CSDL cơ bản
• Nắm được thao tác tìm kiếm và phân tích dữ liệu trên NCBI
242 / 358
In silico
Các cơ sở dữ liệu tin sinh học
Đại cương
Bioinformatics
243 / 358
In silico
Các cơ sở dữ liệu tin sinh học
Đại cương
Sequence analysis
Phân tích chuỗi
244 / 358
In silico
Các cơ sở dữ liệu tin sinh học
Đại cương
Phylogenetic analysis
Phân tích cây phát sinh loài
245 / 358
In silico
Các cơ sở dữ liệu tin sinh học
Đại cương
246 / 358
In silico
Các cơ sở dữ liệu tin sinh học
Đại cương
247 / 358
In silico
Các cơ sở dữ liệu tin sinh học
Đại cương
248 / 358
In silico
Các cơ sở dữ liệu tin sinh học
Đại cương
Sequence databases
249 / 358
In silico
Các cơ sở dữ liệu tin sinh học
Các khái niệm cơ bản
Đại phân tử
Đại phân tử sinh học là một đa phân tử (polymer) cấu tạo nên từ
nhiều phân tử cùng loại, gọi là đơn phân tử (monomer), liên kết
với nhau bằng liên kết cộng hóa trị.
Cấu trúc và chức nẵng của 4 đại phân tử hình thành nên cơ thể
sống:
• Polysaccharide: tham gia cấu tạo tế bào, là nguồn dự trữ
năng lượng chính
• Lipid: thành phần của màng tế bào, được cấu tạo từ các
acid béo; là nhân tố chính để hình thành các màng sinh
học.
• Protein: biểu hiện của vật chất sống
• Nucleic acid: lưu trữ thông tin di truyền
250 / 358
In silico
Các cơ sở dữ liệu tin sinh học
Các khái niệm cơ bản
64 Mã bộ ba
Condo
251 / 358
In silico
Các cơ sở dữ liệu tin sinh học
Các khái niệm cơ bản
252 / 358
In silico
Các cơ sở dữ liệu tin sinh học
Các khái niệm cơ bản
253 / 358
In silico
Bài toàn sắp hàng hai trình tư
254 / 358
In silico
Bài toàn sắp hàng hai trình tư
255 / 358
In silico
Bài toàn sắp hàng hai trình tư
Mục tiêu
256 / 358
In silico
Bài toàn sắp hàng hai trình tư
Đại cương
257 / 358
In silico
Bài toàn sắp hàng hai trình tư
Đại cương
• Đột biến có thể ảnh hưởng hay không ảnh hưởng đến kiểu
hình của sinh vật.
• Qua thời gian, những đột biến có lợi hoặc không có hại sẽ
được giữ lại trong quần thể, kích thích sự hình thành và
phát triển loài mới.
Đó chính là sự tiến hóa (evaluation), trong đó đột biến là nguyên
liệu quan trọng
259 / 358
In silico
Bài toàn sắp hàng hai trình tư
Đại cương
260 / 358
In silico
Bài toàn sắp hàng hai trình tư
Đại cương
261 / 358
In silico
Bài toàn sắp hàng hai trình tư
Phương pháp sắp hàng hai trình tự acid nucleic
262 / 358
In silico
Bài toàn sắp hàng hai trình tư
Phương pháp sắp hàng hai trình tự acid nucleic
263 / 358
In silico
Bài toàn sắp hàng hai trình tư
Phương pháp sắp hàng hai trình tự acid nucleic
GAP
265 / 358
In silico
Bài toàn sắp hàng hai trình tư
Phương pháp sắp hàng hai trình tự acid nucleic
GAP
266 / 358
In silico
Bài toàn sắp hàng hai trình tư
Phương pháp sắp hàng hai trình tự acid nucleic
GAP
ANRGDFS
ANR-EFS
score:4+6+5-10+2+6+4=17
ANRGDFS
ANRE-FS
score:4+6+5-2-10+6+4=13
Giúp so sánh giữa các chuỗi nhưng không cho phép đâu là cách
sắp xếp tốt nhất
Cách giải quyết đơn giản nhất là sắp xếp cách chuỗi khả dĩ và
tính điển chúng
Hệ quả khả năng sắp xếp hai chuỗi có độ dài N là
22N
√
πN
267 / 358
In silico
Bài toàn sắp hàng hai trình tư
Phương pháp sắp hàng hai trình tự acid nucleic
268 / 358
In silico
Bài toàn sắp hàng hai trình tư
Phương pháp sắp hàng hai trình tự acid nucleic
269 / 358
In silico
Bài toàn sắp hàng hai trình tư
Phương pháp sắp hàng hai trình tự acid nucleic
Negative become 0
270 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Local Alignment
Blast
Basic Local Alignment Search Tool
271 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Đặt vấn đề
Tương đồng là dấu vết chủ yếu đề dự đoán gene và chức năng
protein nhưng làm sao có thể dự đoán được tính tương đồng??
Similarity
Ls x2
S= x100
La + Lb
Identity
Li x2
I= x100
La + Lb
272 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
273 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
1 Protein có đặc điểm bảo tồn cấu trúc và chức năng cao
(bởi nếu mất chức năng sẽ gây bất lợi)
Khuynh hướng chỉ thay thế các axit amin có cấu trúc tương
tự, ít làm thay đổi đến cấu trúc và chức năng protein
2 Những trình tự protein trong cùng một họ tiến hóa chung
thường có sự thay thế giữa các axit amin có cùng đặc tính
hóa lý.
276 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Tương tự bài toán sắp hàng hai trình tự DNA, tuy nhiên có 2
điểm khác biệt cơ bản:
• 4 ký tự thay bởi 20 ký tự
• Ma trận điểm phức tạp hơn, xác định dựa vào:
• Thuộc tính lý hóa của các axit amin (càng giống nhau điểm
càng cao)
• Loại dữ liệu nghiên cứu (động vật, virus,...)
• Tác động làm thay đổi chức năng protein. Có thay thế acid
amin vẫn bảo toàn cấu trúc và chức năng protein
277 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
278 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
279 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
BLAST
280 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
BLAST
BLAST (Basic Local Alignment Search Tool) là công cụ thường
xuyên nhất được sử dụng để tính toán trình tự giống nhau.
BLAST đi kèm trong các biến thể để sử dụng với các chuỗi truy
vấn khác nhau đối với cơ sở dữ liệu khác nhau.
• Thuật toán BLAST cho phép so sánh rất nhanh một trình
tự X với các trình tự trong cơ sở dữ liệu để tìm ra các cặp
đoạn có độ giống nhau cao giữa chúng.
• Thuật toán BLAST được phát triển để có thể làm việc với
nhiều loại dữ liệu khác nhau.
281 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Ví dụ sử dụng BLAST
282 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Ví dụ sử dụng BLAST
283 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Phân loại
Blastn Helps in comparing a nucleotide query sequence
with nucleotide data- base. It has high speed but
less sensitivity.
BlastP Used for comparing a protein query with a
database.
BlastX Used for comparing a nucleotide query with a
protein database by translating the query
sequence into six possible frames, and comparing
each against the database.
tblastn Compares a protein query to a nucleotide
database in six possible frames.
tblastX Used for comparing protein encoded by a query
nucleotide to the protein encoded in a nucleotide
database.
284 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Phân loại
285 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Thuật toán BLAST
286 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Thuật toán BLAST
1 BLAST hoạt động bằng cách đầu tiên tạo một bảng tra cứu
tất cả “W” - word (chuỗi con ngắn với chiều dài W, giá trị W
tham khảo cho Protein là 3 và DNA là 11)
2 BLAST tìm kiếm các chuỗi con ngắn với chiều dài cố định
W có tính tương tự cao giữa chuỗi truy vấn và các chuỗi
trong cơ sở dữ liệu. những chuỗi con nào có số điểm lớn
hơn một giá trị ngưỡng T (threshold value) thì được gọi là
tìm thấy và được BLAST gọi là Hạt giống
287 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Thuật toán BLAST
3 BLAST kéo dài sự bắt cặp dài hơn giữa chuỗi truy vấn và
chuỗi cơ sở dữ liệu theo hướng trái và phải, từ vị trí nơi kết
hợp chính xác xảy ra. Việc gia hạn không dừng lại cho đến
khi tổng điểm HSP tích lũy bắt đầu giảm.
4 Cuối cùng liệt kê các HSP có điểm lớn hơn một giá trị
ngưỡng S (threshold value). Những cặp HSP đã tìm được
được BLAST sắp xếp theo giá trị đánh giá giảm dần, đưa
ra màn hình, và thực hiện phần đánh giá thống kê trên
những cặp HSP này.
288 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Thuật toán BLAST
289 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Thuật toán BLAST
290 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Thuật toán BLAST
291 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Thuật toán BLAST
292 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Thuật toán BLAST
293 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Thuật toán BLAST
294 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Thuật toán BLAST
1 E - score cho biết ý nghĩa thống kê của việc căn chỉnh theo
từng cặp nhất định và phản ánh kích thước của cơ sở dữ
liệu và hệ thống tính điểm được sử dụng.
Giá trị E score càng cao thể hiện khả năng sự bắt cặp là
ngẫu nhiên càng cao; giá trị càng nhỏ, thể hiện việc bắt
cặp có khả năng thấp là do ngẫu nhiên.
2 Bit - score cho biết mức độ liên kết tốt; điểm càng cao thì
sự liên kết càng tốt.
Bit - score được tính từ một công thức có tính đến sự liên
kết của các gốc tương tự hoặc giống hệt nhau, cũng như
bất kỳ khoảng trống nào được đưa vào để sắp xếp các
trình tự. Yếu tố quan trọng trong phép tính này là "ma trận 295 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Thuật toán BLAST
296 / 358
In silico
Local Alignment,Blast,Basic Local Alignment Search Tool
Thuật toán BLAST
• Nucleotide-BLAST
• Protein-BLAST
297 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
298 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Mục tiêu
• Trình bày được khái niệm, ý nghĩa của sắp hàng nhiều
trình tự
• Trình bày được nguyên lý thực hiện và các thuật toán sắp
hàng đa trình tự
• Thực hiện được sắp hàng đa trình tự bằng một số chương
trình tin sinh
299 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Đại cương
300 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Đại cương
301 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Đại cương
Khái niệm
Sắp hàng nhiều trình tự là quá trình chèn thêm các kí tự ‘-’ vào
các trình tự ADN/protein để sau khi sắp hàng chúng ta thu được
các trình tự ADN hoặc protein thỏa mãn các điều kiện:
• Các trình tự sau khi sắp hàng có độ dài bằng nhau và độ
dài đó được gọi là độ dài của đa trình tự sắp hàng.
• Các nucleotit/axit amin ở cùng một vị trí trên các trình tự
được cho là tương đồng, tức là cùng tiến hóa từ một
nucleotit/axit amin tổ tiên chung.
• Không tồn tại bất kỳ vị trí i nào mà tất cả các trình tự cùng
chứa ký tự ‘’
302 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Đại cương
Mục đích
• Nhu cầu tìm hiểu mối quan hệ tiến hóa của các loài trong
sinh giới
• Làm sáng tỏ các lý giải sinh học về các protein
• Xây dựng giả thiết về cấu trúc 3D và chức năng của protein
Đánh giá sự giống nhau và quan hệ giữa các trình tự DNA
Nghiên cứu và giải thích sự tiến hóa của các trình tự từ 1 tổ tiên
chung
Xác định các bắt cặp không chính xác trong trình tự tương ứng
với các đột biến
303 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Đại cương
Definition
The multiple alignment score of n induced sequences
s1′ , s2′ , . . . , sn′ , where si′ , sj′ ∈ A, is
P|A| P
S(A) = S(s1′ , s2′ , . . . , sn′ ) = k=1 nj,j̸=i S(s[k]
′ , s′ ).
[k]
n=2
BLOSUM62???
304 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Đại cương
Definition
The multiple alignment score of n induced sequences
s1′ , s2′ , . . . , sn′ , where si′ , sj′ ∈ A, is
P|A| P
S(A) = S(s1′ , s2′ , . . . , sn′ ) = k=1 nj,j̸=i S(s[k]
′ , s′ ).
[k]
305 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Đại cương
Definition
The multiple alignment score of n induced sequences
s1′ , s2′ , . . . , sn′ , where si′ , sj′ ∈ A, is
P|A| P
S(A) = S(s1′ , s2′ , . . . , sn′ ) = k=1 nj,j̸=i S(s[k]
′ , s′ ).
[k]
If, instead, the gap penalty score is chosen to be -10, both of these alignments yield the same score.
306 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Đại cương
Definition
The multiple alignment score of n induced sequences
s1′ , s2′ , . . . , sn′ , where si′ , sj′ ∈ A, is
P|A| P
S(A) = S(s1′ , s2′ , . . . , sn′ ) = k=1 nj,j̸=i S(s[k]
′ , s′ ).
[k]
307 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Đại cương
308 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Đại cương
309 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Đại cương
310 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Đại cương
311 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Đại cương
312 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Đại cương
Sequence Format
FASTA format (or Pearson format)
Chú thích bắt đầu bằng dấu ";" và chỉ dành cho người.
Dấu "*" có thể đánh dấu kết thúc và có thể bỏ qua
313 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Đại cương
Sequence Format
NCBI’s sequence formats.
314 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Đại cương
Sequence Format
Illustration of GenBank sequence format
315 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Đại cương
Sequence Format
Phylis format
316 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Đại cương
Sequence Format
Clustal formats
317 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Thuật toán
318 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Thuật toán
Thuật toán
319 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Thuật toán
DYNAMIC PROGRAMMING
Số chuỗi so sánh nhỏ hơn 8
320 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Thuật toán
DYNAMIC PROGRAMMING
Determine the Cutting Position
321 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Thuật toán
DYNAMIC PROGRAMMING
THUẬT TOÁN QUY HOẠCH ĐỘNG
Xây dựng lời giải bài toán lớn dựa trên lời giải các bài toán có
kích thước nhỏ hơn.
Thuật toán quy hoạch động để sắp hàng đa trình tự bao gồm 3
bước chính:
• Tìm bài toán cơ sở mà nghiệm tối ưu của bài toán đó có thể
dễ dàng tìm được. Nghiệm tối ưu của bài toán cơ sở là 0.
• Xây dựng công thức truy hồi để tìm nghiệm tối ưu của bài
toán với các trình tự tiền tố được xây dựng trên nghiệm tối
ưu của các bài toán có kích thước nhỏ hơn.
• Từ bảng lưu nghiệm của các bài toán với kích thước khác
nhau, xây dựng nghiệm của bài toán với dữ liệu đầu vào.
Với độ phức tạp của thuật toán quy hoạch động cho bài toán sắp
hàng n trình tự là O (2n k n ) (k độ dài của đa sắp hàng) thuật toán
322 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Thuật toán
PROGRESSIVE ALIGNMENT
THUẬT TOÁN SẮP HÀNG LŨY TIẾN
323 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Thuật toán
PROGRESSIVE ALIGNMENT
THUẬT TOÁN SẮP HÀNG LŨY TIẾN
• Clustal Family
• PIMA: Pattern-Induced Multisequence Alignment
• PRIME: Profile-Based Randomized Iteration Method
324 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Thuật toán
PROGRESSIVE ALIGNMENT
THUẬT TOÁN SẮP HÀNG LŨY TIẾN
Xây dựng một đa sắp hàng lớn từ hai đa sắp hàng nhỏ hơn,
Quá trình sắp hàng sẽ dừng lại khi thu được một đa sắp hàng
chứa n các trình tự đầu vào.
Thuật toán sắp hàng lũy tiến gồm 4 bước:
Bước khởi tạo: Coi mỗi trình tự đầu vào là một đa sắp hàng.
Bước tìm kiếm: Tìm hai đa sắp hàng giống nhau nhất trong số các đa sắp
hàng hiện tại
Bước sắp hàng: Sắp hàng hai đa sắp hàng để được một đa sắp hàng mới
thay thế hai đa sắp hàng cũ bằng đa sắp hàng mới
Bước kiểm tra: Kết thúc thuật toán nếu chỉ còn lại một đa sắp hàng chứa tất
cả n trình tự, nếu không quay lại Bước tìm kiếm.
Độ phức tạp là O(n3 k 2 ) thuật toán sắp hàng lũy tiến có thể sắp hàng các tập
dữ liệu lớn với hàng nghìn trình tự.
Sắp hàng lũy tiến là một trong các chiến lược sắp hàng gần đúng tốt nhất để
325 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Thuật toán
326 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Thuật toán
327 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Thuật toán
328 / 358
In silico
Sắp hàng nhiều trình tự , Multiple Sequence Alignment
Thuật toán
GENETIC ALGORITHMS
329 / 358
In silico
Phân tích phylogenetic
330 / 358
In silico
Phân tích phylogenetic
Mục tiêu
• Trình bầy được bài toán xây dựng cây phát sinh chủng loại
• Trình bầy được phương pháp xây dựng cây phát sinh
chủng loại
• Thực hiện được xây dựng và biểu diễn cây phát sinh chủng
loại bằng một số chương trình tin sinh học
331 / 358
In silico
Phân tích phylogenetic
Phylogenetic Trees
332 / 358
In silico
Phân tích phylogenetic
Đại cương
Tree of life
333 / 358
In silico
Phân tích phylogenetic
Đại cương
Lịch sử
• Trước thập kỷ 1970, việc tái tạo cây tiến hóa chủ yếu dựa
trên phân tích hình thái và các đặc tính siêu cấu trúc của tế
bào, các con đường sinh hóa.
• Việc so sánh hình thái của các bằng chứng hóa thạch và
các loài đang còn tồn tại đã cung cấp nhiều kết quả rất có
giá trị. So sánh hình thái tỏ ra không có ý nghĩa khi nghiên
cứu trên các sinh vật hiển vi, không có bằng chứng hóa
thạch hay những đặc tính đồng dạng đáng tin cậy.
• Từ 1970, các kỹ thuật sinh học phân tử bùng nổ mạnh mẽ,
cho phép đọc được trình tự DNA và protein.
• Trong nửa cuối thập niên 1980, nguồn dữ liệu trình tự DNA
gia tăng đồng nghĩa với việc gia tăng các đặc tính đồng
dạng, cung cấp những công cụ mạnh mẽ và nhanh chóng
giải quyết vác bài toán phát sinh chủng loài đang chưa có
lời giải.
334 / 358
In silico
Phân tích phylogenetic
Đại cương
1 Mọi dạng sống đều có quan hệ với nhau qua lịch sử tiến
hóa (cách đọc/ diễn giải cây phát sinh chủng loại -
CPSCL).
2 Xây dựng CPSCL từ tính trạng của các loài/quần thể/ cơ
thể/ gen (taxon) (Cách vẽ CPSCL)
3 CPSCL là cơ sở cho Sinh học so sánh và sinh học dự đoán
(ứng dụng của CPSCL)
4 CPSCL là nền tảng của phân loại sinh học
335 / 358
In silico
Phân tích phylogenetic
Đại cương
Các tiền đề
Thông thường, người xây dựng cây sinh loài thường phải "chấp
nhận" các tiên đề sau:
• Thuyết tiến hóa Darwin về tổ tiên chung (common descent)
• Thuyết tiến hóa trung tính đối với các đột biến DNA, nghĩa
là không có áp lực chọn lọc tự nhiên
• Không có trường hợp hồi biến
336 / 358
In silico
Phân tích phylogenetic
Đại cương
Thuật ngữ
337 / 358
In silico
Phân tích phylogenetic
Đại cương
338 / 358
In silico
Phân tích phylogenetic
Đại cương
339 / 358
In silico
Phân tích phylogenetic
Đại cương
Thuật ngữ
340 / 358
In silico
Phân tích phylogenetic
Thuật toán xây dựng cây
• Distance-based method
• Unweighted paired group method with arithmetic mean
(UPGMA)
• NJ
• Fitch-Margoliash method (FM)
• minimum evolution method (ME)
• Character-based method
• The maximum likelihood (ML) method
• The maximum parsimony (MP) method
341 / 358
In silico
Phân tích phylogenetic
Thuật toán xây dựng cây
Distance-based method
342 / 358
In silico
Phân tích phylogenetic
Thuật toán xây dựng cây
Distance-based method
Finding a tree that best fits the data
X (Mij − dij)2
ij
Mij2
343 / 358
In silico
Phân tích phylogenetic
Thuật toán xây dựng cây
Character-based method
344 / 358
In silico
Phân tích phylogenetic
Các bước xây dựng cây
Khái niệm: biểu diễn phân loại theo chuẩn newick là một xâu ký
nhằm mục đích lưu giữ và trao đổi thông tin.
346 / 358
In silico
Phân tích phylogenetic
Các bước xây dựng cây
Các dạng đặc tính có thể sử dụng là cấu trúc hình thái, siêu cấu
trúc của tế bào, các con đường sinh hóa, gene, trình tự DNA và
protein miễn rằng chúng thỏa điều kiện là Đồng dạng.
Khi một đặc tính đồng dạng đã được chỉ định, người ta sẽ thiết
lập một ma trận đặc tính (character matrix) mỗi một biến (điểm
trong ma trận) ứng với đặc tính quan sát (cột ma trận) và loài
được chọn (hàng của ma trận).
347 / 358
In silico
Phân tích phylogenetic
Các bước xây dựng cây
• Với những loài sinh vật được cho là có quan hệ gần thì
người ta có thể chọn những gene hay vùng DNA có độ linh
động cao (intron, ITS,...)
• Với nhóm sinh vật có quan hệ xa thì người ta lại chọn gene
hay vùng DNA có độ bảo tồn cao (ribosomal LSU, rDNA,
gene mã hóa protein,...).
• Việc chọn gene hay vùng DNA có độ bảo tồn quá hay độ
biến thiên cao quá sẽ có thể ảnh hưởng đến kết quả cuối
cùng, vì vậy khuynh hướng hiện nay cũng là khuynh hướng
tốt nhất là người ta kết hợp cả hai hướng này cho cùng một
nghiên cứu.
350 / 358
In silico
Phân tích phylogenetic
Các bước xây dựng cây
• Do các phân tích phát sinh chủng loài dựa trên những sự
khác biệt khi quan sát các trình tự được so sánh thẳng
hàng nên lỗi đọc trình tự có thể đưa đến một cây tiến hóa
không thật chính xác.
• Với vùng DNA có độ bảo tồn cao hay mô hình tiến hóa
được chọn phức tạp thì lỗi trình tự sẽ cho ra kết quả có độ
sai khác rất lớn.
• Để tránh trường hợp lỗi trình tự do chủ quan, người ta nên
đọc trình tự cả hai sợi để việc hiệu chỉnh sau đó được đảm
bảo tính khách quan hơn.
351 / 358
In silico
Phân tích phylogenetic
Các bước xây dựng cây
352 / 358
In silico
Phân tích phylogenetic
Các bước xây dựng cây
353 / 358
In silico
Phân tích phylogenetic
Các bước xây dựng cây
• So sánh kết quả với cây tiến hóa mà nhà nghiên cứu đã
định nghĩa sẵn từ trước.
• Sự sai khác giữa hai cây tiến hóa này có thể giúp nhà
nghiên cứu đi đến quyết định chấp nhận kết quả hay quay
lại hiệu chỉnh.
356 / 358
In silico
Phân tích phylogenetic
Các bước xây dựng cây
• Cây phân loài thường được lưu giữ dưới dạng một xâu kí tự
theo định dạng Newick
• Nhiều chương trình đã được phát triển để biểu diễn cây từ
dạng xâu kí tự sang dạng hình ảnh.
• Các chương trình này thường có thể chạy trực tuyến hoặc
có thể tải về và chạy trên máy tính cá nhân.
• Một số chương trình trực tuyến phổ biến
357 / 358
In silico
Phân tích phylogenetic
Các bước xây dựng cây
Kết thúc
358 / 358