Professional Documents
Culture Documents
Chương 3 Căn chỉnh trình tự - Pairwise Sequence alignment
Chương 3 Căn chỉnh trình tự - Pairwise Sequence alignment
Một đột biến điểm được chấp nhận trong protein là sự thay thế một amino
acid này bằng một amino acid khác, chấp nhận bởi chọn lọc tự nhiên. Nó là
kêt quả của hai quá trình khác biệt:
- Đầu tiên là xảy ra đột biến trong thành phần của khung gene tạo ra
amino acid của một protein.
- Thứ 2 là sự tồn tại của đột biến giống như một phần ưu thế mới trong
loài.
Để được tồn tại thì đột biến tạo ra amino acid mới này phải có chức năng
giống với amino acid cũ: tính chất hóa lí phải tương tự khi chúng được hoán
đổi cho nhau thường xuyên.
GIỚI THIỆU
Một trong những câu hỏi cơ bản nhất về gene và protein là liệu rằng chúng có
liên quan đến tất cả những gene hay protein khác? Sự liên quan của hai protein
ở mức độ chuỗi cho thấy chúng tương đồng, chúng có thể có cùng chức năng.
Bằng việc phân tích trình tự DNA và protein chúng ta có thể biết được vùng
tương đồng và motifs mà chúng trao đổi trong cùng nhóm phân tử. Những
phân tích mối liên hệ giữa genes và proteins được hoàn thành bởi sự căn chỉnh
trình tự. Giống như việc chúng ta đã hoàn thành trình tự gene ở một số loài ,
nhiệm vụ xác định các protein đã liên quan với nhau như thế nào trong sinh
vật và giữa các sinh vật ngày càng trở nên quan trọng đối với sự hiểu biết của
chúng ta.
Ở chương này chúng tôi sẽ giới thệu về căn chỉnh trình tự cặp. Chúng tôi áp
dụng một quan điểm tiến hóa trong một tả làm thế nào các amino acid
(nucleotide) ở 2 trình tự có thể căn chỉnh và so sánh? Sau đó chúng tôi sẽ miêu
tả thuật toán và chương trình cho việc căn chinh trình tự.
Hai gene (protein) là tương đồng nếu chúng tiến hóa từ cùng tổ tiên
CĂN CHỈNH PROTEIN: Mở ra nhiều thông tin hơn căn chỉnh DNA
Lựa chọn việc căn chỉnh DNA hay Protein, thông thường sẽ thu được nhiều
thông tin hơn khi so sánh trình tự protein. Có rất nhiều lí do để giải thích vấn
đề này.
- Có nhiều thay đổi trong trình tự của DNA( đặc biệt là ở vị trí codon số
3) không làm đổi trình tự của amino acid đặc hiệu. Hơn thế nữa nhiều
amino acid có đặc điểm hóa lí tương tự (VD Lysine và arginine là hai
amino acid cơ bản)
- Điều quan trọng là việc so sánh Các mối quan hệ quan trọng giữa các
axit amin liên quan (nhưng không khớp) trong một liên kết có thể được
tính cho việc sử dụng các hệ thống tính điểm – SCORING SYSTEM
(được mô tả trong chương này)
- Trình tự DNA cho ít thông tin hơn. So sánh trình tự protein có thể xác
định được trình tự tương đồng trong khi so sánh trình tự DNA tương
ứng thì không (Pearson, 1996).
Khi phân tích trình tự nucleotide, thông thông thường dùng để nghiên cứu
protein được mã hóa từ trình tự đó. CHương 4 (Nghiên cứu về BLAST), chúng
ta thấy rằng cod thể chuyển đổi thông tin dễ dàng giữa trình tự DNA và
Protein. VD: TBLASTN của NCBI BLAST website cho phép các protein liên
quan có nguồn gốc từ cơ sở dữ liệu DNA sẽ biết được trình tự aa của protein.
Tuy nhiên trong một số trường hợp, so sánh trình tự Nucleotide thích hợp hơn.
So sánh này có thể quan trọng trong việc xác nhận danh tính của chuỗi DNA
trong tìm kiếm cơ sở dữ liệu, trong tìm kiếm đa hình, trong việc phân tích
danh tính của đoạn cDNA được nhân bản, trong so sánh các khu vực quy định
hoặc trong nhiều ứng dụng khác.
Given the choice of aligning a DNA sequence or the sequence of the protein
it encodes, it is often more informative to compare protein sequence.
- Many changes in a DNA sequence do not change the amino acid that is
specified (particularly at third position of a codon).
- Many amino acid shares related biophysical properties (Lysine
&Arginine are both basic amino acid).
- The important relationships between related (but mismatched) amino
acids in an alignment can be accounted for using scoring systems .
- Protein sequence comparisons can identify homologous sequences
while the corresponding DNA sequence comparisons cannot (Pearson,
1996).
Myoglobin and hemoglobin are thoughts to have diverged some 450 million
years ago, near the time human and cartilaginous fish lineages diverged
1. Homology
similarity by chance. Such proteins are presumed not to have descended from a common ancestor .)
parallel) .)
The purpose is
- Substitutions: occur when a mutation results in the codon for one amino
acid being changed into that for another.
- Insertions and deletion: occur when residues are added or removed.
Insertions or deletions (even those just one character long) are referred
Note that one of the effects of adding gaps is to make the overall length of
each alignment exactly the same.The addition of gaps can help to create an
alignment that models evolutionary changes that have occurred – tạo nên sự
liên kết mô hình “thay đổi trong quá trình tiến hóa” đã xảy.
In a typical scoring scheme there are two gap penalties called affine gap costs.
- They compare protein sequences from many species and see that the
sequences are homologous or not.
- The study of homologous protein (or DNA) sequences by pairwise
alignment involves an investigation of the evolutionary history of that
protein (or gene).
For a brief overview of the time scale of life on Earth, the divergence of
different species is established through the use of data, especially the fossil
record.
SCORING MATRICES
To model the probability that one aligned amino acid in a protein changes to
another, we need to know the frequencies of occurrence of each amino acid.
DAYHOFF STEP 3: RELATIVE MUTABILITY OF AMINO ACIDS –
SỰ BIẾN ĐỔI MANG TÍNH TƯƠNG ĐỐI CỦA AMINO ACIDS
To calculate the relative mutability, they divided the number of times each
amino acid was observed to mutate (m i) by the overall frequency of
occurrence of that amino acid (fi) – để tính toán sự thay đổi tương đối của
amino acid, họ chia số lần đột biến của aa cho tần số xuất hiện chung của aa
đó.
(a fairly number (20%) of the interchanges observed, required 2 nucleotides
changes – một lượng khá lớn các nút giao, khoảng 20%, yêu cầu thay đổi 2
Nu mới làm thay đổi aa, trường hợp khác chỉ cần thay đổi một Nu).
In other cases such as Gly and Trp, only a single – Nucleotide change would
be required for the substitution; this was never empirically observed however,
presumably because such a change has been rejected by natural selection)
Each element of the matrix Mi,j shows the probability that an original amino
acid j will be replaced by another amino acid i over a defined evolutionary
interval.
In this case, the interval is one PAM, which is defined as the unit of
evolutionary divergence in which 1% of the amino acids have been changed
between the two protein sequences.
(3.1)
Mi,j: the probability that an original amino acid j will be replaced by a
amino acid from row i.
Ai,j: An element of the accepted point mutation matrix (such as the
value corresponding to the original alanine being substituted by an
arginine.)
λ : is a proportionality constant
mj: is the mutability of the jth amino acid
(3.2)
Mjj: is the probability that original amino acid j will remain without
undergoing a substitution to another amino acid.
(Dayhoff and colleagues used the assumption that accepted amino acid
mutations are undirected, that is, they equally likely in either direction. In the
PAM1 matrix, the close relationship of the proteins makes it unlikely that the
ancestral residue is entirely different from both of the observed, aligned
residues.)
The PAM1 matrix was based upon the alignment of closely related protein
sequences, having an average 1% change.
PAM matrices such as PAM100, PAM250 were generated to reflect the kinds
of amino acid substitutions that occur in distantly related protein.
(3.3)