Professional Documents
Culture Documents
מצגת :1
•ביואינפורמטיקה – המקום בו טכנולוגית מידע וביולוגיה נפגשים לתורה
משותפת .טכנלוגית המידע מספק אלגוריתמים ואילו החלק הביולוגי
מכוונן אותם ומשתמש בהם לטובת מחקר ביולוגי.
•שאלות ביולוגיות שניתן לענות בעזרת אלגוריתמים לחיפוש רצפים:
oהאם הרצף שמצאתי כבר נמצא ע"י מישהו אחר
oבנית מקטע דנ"א ארוך ע"ס מידע על מקטעם קצרים
יותר
oחיפוש תבניות
oמציאת האזורים המקודדים לחלבון בגנום
oהשוואת רצפי ח.אמינו של חלבונים לצורך קביעת זהות /
שונות
oמחקר (משפחות חלבונים)
oמדידת מרחק אבולוציוני בין מינים
oחיזוי תכונות של חלבונים
•החלק המחשבי – DNAהוא Stringאנחנו יודעים לשחק עם -stirngים.
•החלק הביולוגי – חשוב לזכור שפתרון שמתמטית הוא הנכון ביותר לא
תמיד נכון ביותר מבחינה ביולוגית.
מצגת :2
•הצורך בבסיסי נתונים ביולוגיים:
oגידול בכמות המידע
oדרך פרסום מועדפת של מידע חדש
oכלי טוב לשימוש מחקרי
•סוגי :DB
oביביליוגרפיים -לדוגמא Medlineאו – PubMedמכיל
Abstractשל מאמרים ,כניסות של עיתונים חשובים,
ספרים (טקסט חלקי /מלא)....
oרצפים (דנ"א ,חלבונים) –
מידע חשוב שצריך להכיל:
•רצף
•AC
•Refrences
•מידע טקסונומי (קבוצות
אורגניזמים)
•אנוטציות ,מילות מפתח ו-
Cross Reference
DBשונים משתמשים בפורמטים שונים
להצגת המידע – אין רגולציה
דוגמאות לפורמטים . Fasta, GenBank, EMBL :ישנם כלים (
)ReadSeqלהחלפה בין פורמטים.
DBמרכזיים ל:DNA-
• – GeneBank – USAמחולק
לתת :DB
oמולקולרים –
דנ"א,
חלבונים
oרצפים:
m/Rna, Gene,
...EST
oקבוצות
אורגניזמים:
– Humאדם...
oסימונים:
G
e
n
e
=
1
.
.
1
2
5
6
7
/
g
e
n
e
=
”
x
x
x
”
–
ג
ן
x
x
x
ה
ח
ל
מ
נ
ו
ק
'
1
ו
ע
ד
1
2
5
6
7
.
m
R
N
A
:
j
o
i
n
(
1
.
.
6
4
,
2
1
4
0
-
2
2
7
4
…
)
א
ק
ס
ו
נ
י
ם
U
T
R
-
י
ם
C
D
S
:
j
o
i
n
(
2
6
.
6
4
,
2
1
4
0
.
.
2
2
7
4
…
)
–
ה
מ
י
ד
ע
ה
מ
ק
ו
ד
ד
ב
ל
ב
ד
–
ל
ל
א
U
T
R
-
י
ם
,
ה
-
S
t
o
p
C
o
d
o
n
מ
ו
פ
י
ע
ב
מ
ק
ט
ע
ה
א
ח
ר
ו
ן
.
כ
א
ש
ר
מ
ד
ו
ב
ר
ב
מ
ק
ט
ע
ק
ו
מ
פ
ל
י
מ
נ
ט
ר
י
א
ז
י
:
oיתרונות/חסרו
נות:
נ
פ
ח
מ
י
ד
ע
ג
ד
ו
ל
,
C
R
ע
ם
D
B
א
ח
ר
י
ם
ב
-
N
C
B
I
,
ת
ת
D
B
’
s
ב
-
N
C
B
I
נ
פ
ח
מ
י
ד
ע
ג
ד
ו
ל
,
א
י
ן
ב
ק
ר
ה
,
מ
י
ד
ע
ל
א
י
ו
צ
א
ה
ח
ו
צ
ה
–
א
נ
ו
ט
צ
י
ו
ת
ל
א
ע
י
ק
ב
י
ו
ת
–
מ
ב
ו
צ
ע
ע
"
י
ה
מ
ש
ג
ר
י
ם
.
oתת db:
dbEST
מ
כ
י
ל
ר
צ
פ
י
E
S
T
ש
נ
ו
צ
ר
ו
מ
ר
י
צ
ו
ף
ש
ל
c
D
N
A
.
א
ו
ת
ם
י
ת
ר
ו
נ
ו
ת
/
ח
ס
ר
ו
נ
ו
ת
ש
ל
G
e
n
B
a
n
k
– RefSeqo
בסיס נותנים
מבוקר ,כל
רצף /
מולקולה
מופיע פעם
אחת בלבד.
oישנו פורמט
אחר ל AC-ב-
RefSeq
שמתאר אותו,
למשל:
– NM_1111
RNA,
– NP_1111
חלבון..
oסטטוס:
G
e
n
o
m
e
A
n
n
o
t
a
t
i
o
n
–
ה
ר
ש
ו
מ
ה
ה
ת
ק
ב
ל
ה
א
ו
ט
ו
מ
ט
י
ת
,
ו
א
י
נ
ה
נ
ת
ו
נ
ה
ל
ב
ד
י
ק
ה
.
I
n
f
r
r
e
d
–
ה
ת
ק
ב
ל
ה
מ
ח
י
פ
ו
ש
ר
צ
ף
,
ע
ד
י
ן
ל
א
ב
ו
צ
ע
ו
נ
י
ס
ו
י
י
ם
ל
א
י
מ
ו
ת
P
r
e
d
i
c
t
e
d
-
ה
ר
ש
ו
מ
ה
ע
ו
ד
ל
א
ע
ב
ר
ה
ב
י
ק
ו
ר
ת
,
ח
ל
ק
מ
ה
מ
י
ד
ע
ב
ר
ש
ו
מ
ה
ח
ז
ו
י
ו
ל
א
א
ו
מ
ת
.
P
r
o
v
i
s
i
o
n
a
l
–
ע
ד
י
ן
ל
א
נ
ב
ח
ן
,
ה
מ
י
ד
ע
ה
ת
ק
ב
ל
מ
מ
ק
ו
ר
ש
נ
ח
ש
ב
א
מ
י
ן
.
R
e
v
i
e
w
d
–
נ
ב
ח
ן
.
V
a
l
i
d
a
t
e
d
–
א
ו
ש
ר
.
•EMBL – EBI - England
•DDBJ – Japan
•כל השלושה מעודכנים
ברמה שבועית ,מחליפים
מידע בינהם ,אורך מקסימלי
לכניסה של רצף 300Kbp
מינימום.10bp :
•מקור המידע :קבוצות
מחקר ,מכונים לחקר הגנום,
פטנטים (שיגור ישיר – אין
בקרה).
oגנומים -מכילים מידע כל גנים ,מיפוי ,קישורים
לרצפים....
קיימים לכל המינים החשובים– GDB :אדם,
– MGDעכבר...
– Ensemblמכיל את כל רצפי הDNA-
(אדם) ברמה גנומית.
ע"י שימוש בכלי תוכנה ,ניתן לבצע
אנאליזות:
•גנים ,SNP ,חזרות,
הומולוגיות.
•שייך ל.EBI-
oחלבונים (משפחות/אתרים)
oמוטציות /פולימורפיזם – מכיל מידע על וריאיות של
רצפים – כאשר ישנו קישור (או לא) למחלות גנטיות.
כלליים:
• – OMIMקטלוג למידע
הגנטי ופגמים גנטיים –
מכיל סיכומי ספרות,
תמונות ,קישורים למידע
נוסף ומאמרים.
• – dbSNPמכיל את המידע
על SNPומוטציות מחיקה
קטנות.
•ספציפיים למחלותp53, :
...Astma
D3oמבני
oמטבולי /רגולטורי
• DBלחלבונים:
– SwissProtoמספק :רמת דיוק/בקרה טובה ,אנוטציות:
פונקציה ,מבנה ,דומיינים ,שינויים לאחר תרגום.
– trEMBLoמכיל רצפי mRNAמתורגמים – מיוצר
אוטומטית ע"ס CDSמ ,EMBL-מכיל את כל המידע
שעדיין לא נכנס ל.Swiss Prot -
– GenPeptoתרגום אוטומטי של CDSמ– GenBank -
מלוכלך.
Pir – CRoבין... EMBL/ GenBannk / PDB/ GDB / OMIM :
DBoלמשפחות חלבונים -Domain /ים:
זיהוי אתרים ע"י MSA
ניתנים להגדרה ע"פ :תבנית (לנפוצים
מאוד) ,פרופיל (מטריצות השוואה) ,מודל
מרקוב – מודל הסתברותי.
מכיל מידע /כלי אנאליזה לאיתור מהיר
של משפחת החלבונים אליה רצף חדש
שייך ,ואלי גם לאבחן באופן כללי פונקציה
של רצף חדש.
נקראים Secondery DBשכן מבוססים על
המידע שהושג ב( Primary-גנים /
גנומים ,)..נוצרים ידנית או מופקים
אוטומטית.
– Prositeמכיל מידע על דומיינים
פונקציונלים.
A C G T
GAP = -2 A 1 -1 -1 -1
C -1 1 -1 -1
G -1 -1 1 -1
באופן עקרוני: T -1 -1 -1 1
תזוזה לאחד הצדדים = GAP Gap = -2
תזוזה באלכסון =
ערך במטריצה (זהות/החלפה)
נקודות חשובות:
•המסלול האופטימלי הוא
תוצאה של מניפולציה
חישובית ואינה בהכרח
אומרת שזוהי ההתאמה
הביולוגית הנכונה.
•שכיחות החלפות של ח.א.
אינה שווה בכל עמדה ברצף
•הכנסת -GAPים אינה דומה
למוטציות הכנסה/מחיקה.
•מתוכנית המחשב תמיד
מתקבלת תוצאה – גם כאשר
לא הגיוני בכלל לבצע
.Alignment
•כלים:
EMBOSSo
programs
& (global
local) - SRS
NCBI Blasto
)(local
מצגת :4
•מדוע מבצעים ?MSA
oזיהוי משפחת של חלבונים ע"ס איזורים הומולוגיים.
oעזרה בזיהוי מבנה שניוני ושלישוני של רצפים חדשים
oסיוע בחקר אבולוציוני ,ובניית עצים פילוגניטים.
oמהנחות ה - Alignment-אורגניזמים קרובים בעלי DNA
ורצף חלבונים דומה.
חלבונים דומים ,לעיתים קרובות בעלי אותה
פונק'.
שני גנים נקראים Paralogousאם עברו - Paralogouso
דופליקציה.
– Orthologusoשני גנים נקראים Orthologusאם עברו
ספציאציה (היו זהים והפכו להיות שונים).
- :MSAoלקבוצת רצפים אין התאמה יחידה נכונה ,אלא
רק ה Alignmnet-שנחשב אופטימלי ע"ס החישובים.
קביעת ה Alignment-הטוב ביותר עבור ההשפעה נתונה
לשיקול דעתו של החוקר.
מצגת :5
•המטרה :מציאת התאמות של רצף מבוקש אל מול בסיסי
נתונים.
•אלגוריתם מדויק :ביצוע PWAלכל רצץ ב ,DB-החיסרון :בDB-
יש מליוני רצפים – מאוד איטי.
•אלגוריתם מקורב :שימוש באלגוריתם Heuristicע"מ להוציא את
הרצפים הלא רלוונטים בטרם ביצוע ( PWAהאלגוריתם המדויק)
אל מול קבוצה מצומצמת יותר של רצפים.
•הנחות האלגוריתם המקורב :רצפים הומולוגים מכילים מקטעים
דומים (מותר החלפות ח.א .אך אסורים מרווחים).
•ל DB-מבוצע Pre Processשממפתח אותו מראש (פעם אחת בחיי ה)DB-
ומאפשר גישה מהירה למקטעים קצרים.
המפתוח מבוצע ע"י בניית טבלה המכילה רצפים קצרים (אורך
מילה עבור חלבונים 1-2ח.א .עבור נוקליאודוטידים ,4-6בדנ"א
בדרך כלל משתמשים באורך מילה של )3ושרשור ע"ס רצף
המפתח את כל הרצפיםב DB-המכילים את הרצף הקצר הזה +
המיקומים המדויקים בתוך הרצף.
באופן דומה נבנית טבלה כזו לרצף עליו אנו מבצעים את
השאילתה.
ככל שאורך המילה המשמשת כמפתח אורך יותר :חיפוש
מהיר יותר ,מדויק פחות.
•:FastaA
oשלב – Iעבור כל רצף ב DB-מתבצע חיפוש לאיתור כל
המקטעים התואמים לפי טבלאות המפתח.
oשלב - IIזיהוי 10ההתאמות (האלכסוניות) הטובות
מבוצע ע"ס PAM250של כל ההתאמות II+IIIלמשל
ביותר (ניקוד
רצף. לכל
ובחירת ה 10-הטובות ביותר) .התוצאה הטובה ביותר
נקראת ( init1בתרשים מסומן ב)*-
oשלב – IIIחיבור המקטעים האלכסוניים שהתקבלו ,תוך
"הורדת ניקוד" בשל החיבור .הניקוד של הרצף המחובר
נקרא.initn :
oשלב – IVהרצפים בעלי ערך ה initn-הגבוה ביותר,
עוברים חישוב של ,local AlignmentהLocal Alignment-
מבוצע בתוך רצועה שרוחבה בד"כ 32ח.א( .ז"א שלא
יבוצע Local Alignmentבאמצע אחד הרצפים למשל
וינטרל את כל מה שביצענו עד עכשיו) .הניקוד של ה-
Local Alignmentנקרא.opt :
oבדיקת מותאמות סטטיסטית לשיטה:
חישוב ממוצע של ניקודים אקראים
והשוואת הניקוד Alignmentספציפי אל מול
הערך הממוצע וחישוב סטיית התקן
מהערך הממוצע –
.Z-Score
ככל שה Z-Score-יותר גבוה יותר טוב ,שכן
ככל שהתוצאה שלנו רחוקה מן הממוצע
(ע"ס ערכי סטיית התקן) ,היא יותר
מדויקת.
– E Valueמייצג את כמות הרצפים בעלי Z-
Scoreמסויים שיתקבלו כתוצאה מסריקת
ה DB-עבור רצף רנדומלי.
הגדרה מקבילה :מס' ה-Alignmnet-ים השונים ,בעלי
ניקוד מקביל או גבוה יותר אשר צפוי שיופיעו כאשר
יבוצע חיפוש רנדומלי ב.DB-
E Valueמחושב לכל רשומה שהתקבלה בתוצאות ,הערך
משקף בין השאר את גודל ה DB-ושיטת ביצוע הניקוד.
•כאשר Zעולה )תוצאה
שמצאנו מדויקת יותר)E ,
יורד (פחות התאמות
מדויקות שכאלו) ולהפך.
– FastaAגם שם של פורמט לרצפים ,וגם
משפחה של תוכניות מחשב כמו שתואר
לעיל.
מצגת :6
•ראינו חיפוש ב DB-ע"י כלים שמבצעים ,PWAכגון FastA,
...Blastאך בכלים אלו יש פספוס של 10-20%של תוצאות
אמיתיות .אחוז הפספוס נעשה גבוה יותר כאשר מבצעים
חיפושים מול חלבונים המורכבים ממס' -Domainים .ניתן לבצע
גם MSAאל מול .DB’s
• – Motifמס' מבנים שיניונים אשר מסודרים בסדר קבוע ,כגון
...helix -> loop -> helixלחלק מן ה-Motif-ים יש גם תפקיד
ביולוגי.
• – Domainהיחידה הבסיסית של מבנה המסוגלת לעבור קיפול
D3עצמאי ,מורכב מאוסף של -motifים אשר ארוזים כחלק
ממבנה ה .Domain-ל Domain-יש תפקוד ביולוגי ספציפי.
•משפחות -Domainים :חלבונים בעלי אותו .Domain
•משפחות חלבונים :חלבונים בעלי אותה קומבינציה של -Domain
ים.
•בסיסי נתונים של -Domainים נקראים Secondary DBהיות
ותוכנם נגזר (ידנית/אוטומטית) ממידע שנמצא בPrimary DB-
ולא מתוצאות ניסיוניות.
•ייצוג -Domainים:
– Patternoמשמש עבור -Domainים קטנים ,שמורים היטב
לאורך האבולוציה ,דימיון גבוה ברמת הרצף בין ה-
-Domainים מאותו הסוג .דוגמא:
< – }A[ST](2)-x(1,2)-{Vמתחיל באלנין ,אחריו סרין או
טראונין
פעמיים ,לאחר מכן כל חומצת אמינו (בכמות 1או )2
ולאחר מכן כל
ח.א .מלבד .Valin
– ]Regular Exp: ^A.[ST]{2}.?[^Vכנ"ל.
– Profileoמשמש לתאור -Domainים קצת פחות שמורים
בעיקר בחתך של משפחת חלבונים .ניתן לבדוק מידת
דימיון לרצף שחשוד כ Domain-ששיך למשפחה.
מצגת :7
•כל שני יצורים חולקים איזשהו אב קדמון בעבר.
• – CladoGenesisהתפצלות לשני מסלולי התפתחות עצמאיים
מבחינה גנטית.
• – Anagenesisהתפתחות אבולוציונית לאורך מסלול גנטי אחד.
•ניתן לחשב את המרחק הגנטי בין כל שני אורגניזמים בעץ
מינים ,מתרגמים את תוצאת החישוב למידות של זמן התפתחותי.
•????? - MonoPhyletic Group
•מטרות פילוגניזה:
oקשירת הקשרים הביולוגים הנכונים בין
אורגניזמים.
oחישוב זמן ,וסדר כרונולוגי של תהליכי
התפתחות של אורגניזמים שונים.
•מושגים.ROOT, Internal Node, Braches, Newick Format :
מצגת :8
•אילו מאפיינים של DNAניתצן למצוא ע"ס אנאליזה של הרצף
oחזרות – הגנום האנושי מכיל המון חזרות
( Interspersedמשובצות/מפוזרות) – בגנום
של רוב האורגניזמים האאוקריוטים ישנה
כמות רבה של רצפים חוזרים מסוג זה
(באדם כרבע מהגנם).
– Short Interspresed -מקטעים קצרים של חזרות אלו
(פחות מ 500-בסיסים בכל מקטע ופחות מ5^10-
חזרות).
– Long Interspresed -מקטעים ארוכים של חזרות אלו
(יותר
מ 5Kb-בכל מקטע
חזרות רצף פשוטות – בדרך עד 12
בסיסים ליחידה במס' חזרות
Mini/MicroSatellits
בלוקי חזרות מסוג – tandemחזרות
בטלומרים ובצנטרומר .אורך החזרות יכול
להמשך ע"פ מיליוני בסיסים והתוכן בד"כ
ספציפי למין.
oמציאת גנים
oמציאת פרומוטורים.
•כלי תוכנה שנועדו לסייע בידנו לזיהוי חזרות:
RepBase – DBoשמכיל מידע לגבי רצפי חזרות ידועים,
ואזורי .Low Complexity
– RepeatMaskeroכלי לאיתור חזרות ומיסוך חזרות ע"פ
רצפי ,DNAהשימוש ב DB-הוא הבסיס לאיתור החזרות.
בד"כ מריצים על רצף לפני שמבצעים .Gene Prediction
oסוגי חזרותSINE, LINE, LTR,DNA, SIMPLE, Low :
…Complex, Satellite,tRna
oגן :סה"כ מקטעי ה DNA-שאחראים ליצירת תוצר
פונקציונלי :חלבונים...rRNA, RNAi ,
oתופעות שיש לקחת בחשבון :פרוקריוטי/אאוקריוטי,
אינטרונים/אקסונים ,שיחבור אלנטרנטיבי ,ביטוי
דיפרנציאלי...
oזיהוי גנים:
הומולוגיה -ע"ס חלבון ,CDNA ,או מקטעי
)RNA (EST). (Extrinsic
שימוש בכלי ( Local Alignmentכגון)Smith-Waterman :
ע"מ למצוא התאמות בבסיסי נתונים של חלבונים,
– ...cDNA, ESTהבעיות כאן הן :חוסר יכולת לזהות גנים
שהחלבונים שלהם למשל עדיין לא ב ...DB-ועדיין אין
הגדרה טובה לגבולות הדימיון בהומולוגיה.
סיכום יתרונות/חסרונות:
יתרונות :מסתמך על נתונים קיימים ,מיד ביולוגי קודם.
חסרונות :מסתמך על מידע קודם ,חלקי ,חשוף לטעויות
ב ,DB-וישנו קושי להגדיר היטב את גבולות הדימיון.
-באמצעות שימוש ב :EST-אם ישנה התאמה ז"א זה
מקטע שבא לידי ביטוי – ולכן בסבירות גבוהה זהו גן ,כמו
כן ניתן בעזרתו לקבל מידע מדוייק על גבולות
אקסונים/אינטרונים.
כלים.sim4, BLAT :
השוואה בין גנומים של מינים שונים –
מבוסס על ההנחה מידע מקודד שמור
יותר ממידע שאינו מקודד .שתי גישות:
• – Intra-Genomicע"י
משפחות גנים
• – Inter Genomicבין מינים.
•בעת ביצוע ה Alignment-יש
חשיבות למרחק
האבולוציוני :קרוב מידי – כל
האיזורים יראו דימיון לא רק
גנים ,רחוק מידי – תיתכן
מידה רבה של אי דימיון
שתוביל לאיבוד מידע /מידע
שגוי.
חיזוי גנים ע"פ סמנים ()intrinsic): (ab initio
•פרוקריוטים – זיהוי – ORF
סדר גודל של גנום קטן ,ג-
90%מהמידע בגנום מקודד,
זיהוי גנים קל יחסית – אחוז
הצלחה גבוה מאוד .מבנה
של אופרונים – יחידת
שיעתוק אחת למס' גנים ,אין
אינטרונים ,גן = 1חלבון ,1
לכל גן יש ORFשמתחיל ב-
)start codon(ATGונגמר ב-
)stop codon(TAA/TAG/TGA
(אין end codonבדרך).
oשיטת חיפוש
היא פשוטה:
חיפוש הORF-
בכל 6
מסגרות
הקריאה
האפשריות (3
קדימה3 ,
ברוורס).
oסינון ע"פ
קריטריונים
נוספים:
א
ו
ר
ך
ה
-
O
R
F
צ
ר
י
ך
ל
ה
י
ו
ת
ל
פ
ח
ו
ת
3
0
0
b
p
ע
"
מ
ש
י
כ
י
ל
ג
ן
,
צ
ר
י
ך
ל
ה
כ
י
ל
ה
ר
כ
ב
ח
.
א
.
ע
"
פ
ה
מ
ק
ו
ב
ל
ב
א
ו
ר
ג
נ
י
ז
ם
ה
ס
פ
צ
י
פ
י
,
צ
ר
י
ך
מ
ב
נ
ה
/
צ
י
ר
ו
ף
c
o
d
o
n
-
י
ם
ש
מ
ו
פ
י
ע
ס
פ
צ
י
פ
י
ת
ב
א
ו
ר
ג
נ
י
ז
י
ם
ה
ז
ה
.
oבעיות :טעות
קטנה ,של
בסיס אחד ב-
start/stopקודון
יכולה
להשפיע על
זיהוי של גנים,
מקטעים
קצרים מאוד
(למשל קטנים
מ)300b-
שבכ"ז
מכילים גנים
יפוספסו.
•אאוקריוטים – פרומוטורים,
,PolyAאתרי שחבור
אלטרנטיבי וStart/Stop-
-Codonsגנומים גדולים
מאוד ,צפיפות המידע
המקודד קטנה ,מבנה של
אינטרונים/אקסונים ,באופן
כללי זיהוי גנים קשה.
oשלב : Iהקלט הינו
רצף ,DNAהפלט
הינו אנוטציה של
הרצף שמראה
עבור כל נוק' האם
הוא מקודד או לא
וזיהוי ע"ס זה של
האקסונים בגנים
המקודדים
לחלבונים
(מתעלמים מאיזורי
.)UTR 5/3
oשימוש בכלים
סטטיסטיים ע"מ
לבחון האם רצף
דנ"א מקודד
לחלבון .הנחת
הבסיס היא שישנו
שוני באופן
השימוש בקודונים
בין מקטעים
מקודדים ללא
מקודדים וזוהי
תכונה בסיסית של
הגנום שבאה לידי
ביטוי ,לדוגמא,
בכך שבמקטע
מקודד באופן
סטטיסטי ישנו שוני
בכמות הקידוד
לח.א .באיזורים
מקודדים /לא
מקודדים וכמו כן
ישנו הבדל בכמות
השימוש בקודונים
מקבילים לאותה
ח.א. .
oבדרך כלל חישוב
הניקוד הסטטיסטי
עבור רצף מסויים
מתבצע בשיטת
,Sliding Window
כאשר נדרש חלקון
גדול 50-200bpע"מ
לאתר סיגנל.
oסיגנל – רצף DNA
שמזוהה ע"י מנגנון
בתא לצורך פעילות
כלשהיא ,כגון
שיעתוק.
– CPG Islandso
איזורים בגנום
בעלי שכיחות
גבוהה יותר של ה-
דינוקליאוטיד ,CG
בדרך כלל נמצאים
סמוך לאזור בו
נמצא גן – ז"א
סיגנל לכך
שבאיזור יש גן.
oדוגמא נוספת
לסיגנל היא אתר
שיחבור אלטרנטיבי
– אינטרון מתחיל
ב GU, A-באמצע,
וחזרות של .AG
oאתר קישור
לפקטור שיעתוק
הוא בעייתי –
האתרים קטנים (
,)6bpיש בעיותיות
בזיהוי הפרומוטור
גם אם מוצאים את
אתר הקישור ,ישנם
מס' פקטורי
שיעתוק שנקשרים
מבקביל ויש צורך
לזהות את
הקומבינציה
המדוייקת – מאוד
קשה.
oשיטות לזיהוי
סיגנלים:
ר
צ
פ
י
ק
ו
נ
צ
ז
ו
ס
מ
ט
ר
י
צ
ו
ת
/
מ
ע
ר
כ
י
מ
ש
ק
ל
י
ם
ע
צ
י
ה
ח
ל
ט
ה
,
H
M
M
.
.
.
oבין גנים
מפרידים
מרווחים
גדולים
oחלוקת הגן
למקטעים:
אקסונים/אינט
רונים
oבאדם ,החלק
המקודד
בגנום קטן
מאוד יחסית
לגודל הגנום.
oמגוון רחב של
סיגנלים.
oשחבור
אלטרנטיבי
ורצפים
חוזרים.
oבעיה בזיהוי
מדוייק של
אקסונים
ראשון ואחרון
–בגלל נוכחות
של -UTRים.
oגנים קטנים –
לא נופלים
בחתכים
הסטטיסטיים
ולא מזוהים.
oהמידע
שמשמש
לבניית
אלגוריתמי
החיפוש
מבוסס על
מידע שנרכש
מגנים אחרים
– קיבעון
תכנותי – יתכן
שיש דברים
שלא נזהה...
oלא תמיד יש
סימוך ביולוגי
לתוצאות
הריצה.
oקושי באימות
הנתונים –
תוצאות
שגויות חיוביות
(זוהה גן אבל
בפועל אין גן).
oיכולת הדיוק
בחיזוי גבוהה
– לא מספיק.
•אחת הדרכים לאמת המידע
היא להצליב הרצות של מס'
שיטות חיזוי גנים ,ולהשתמש
בחיתוך של התוצאות
שהתקבלו.
•דרך נוספת היא להשתמש
בתוכנות שונות ,שכ"א
מתמקדת בחיזוי דרך
אלמנטים שונים בגן ע"מ
להשלים את התמונה.
•שיטת העבודה המקובלת:
oמיסוך רצפים
חוזרים -
RepeatMasker
oהרצת הרצף
דרך מס'
תוכניות חיזוי
oביצוע בדיקת
תוצאות
שהתקבלו על
גנים חזויים
אל מול DB
של ,EST
וגנים
באורגניזמים
אחרים ,כנ"ך
ביצוע חיפוש
דומה של
הרצפים
שהתקבלו
כלא
מקודדים.