You are on page 1of 35

‫עבודת גמר במקצוע ביולוגיה‬

‫חקר הקשר בין רצף הנוקלאוטידים באזור המקודד ב‪ mRNA-‬לבין יעילות דיכוי‬
‫ע"י ‪.miRNAs‬‬

‫בוצע במסגרת תכנית "אלפא" באוניברסיטת תל אביב‬

‫מוגש ע"י אריה חייקין‬


‫מספר זהות ‪32619383‬‬
‫כתובת‪ :‬דר יהודה פרח ‪ ,5‬נתניה‬
‫דוא"ל‪ararik33@gmail.com :‬‬
‫טלפון‪0547348808 :‬‬
‫ביה"ס‪ :‬תיכון להנדסאים הרצליה‬
‫סמל )מס'( ביה"ס‪570358 :‬‬
‫כיתה‪ :‬יא‪1‬‬

‫העבודה בוצעה באוניברסיטת ת"א בהנחיית‪:‬‬


‫שקד ברגמן במעבדתו של פרופ' תמיר טולר‬
‫הפקולטה להנדסה‪ ,‬המחלקה להנדסה ביו‪-‬רפואית‬
‫תודות‬
‫אני רוצה להודות לכל המשפחה שלי על העזרה הנפשית‪ ,‬אני רוצה להודות לחברי ריו שעזר לי‬
‫לעבור את השנה האחרונה‪ ,‬למנחה האישי שלי שקד‪ ,‬למנחה הקבוצתי אוהד‪ ,‬ולכל צוות אלפא‪.‬‬

‫‪1‬‬
‫תוכן עניינים‬
‫הקדמה ‪3 ..................................................................................................................‬‬

‫מבוא ‪5 ......................................................................................................................‬‬

‫סקירת ספרות‪8 ..........................................................................................................‬‬

‫‪8 ................................................................................................................... DNA‬‬

‫הדוגמה המרכזית ‪10 ................................................................................................‬‬

‫‪13 ............................................................................................................. miRNA‬‬

‫שיטות החיזוי ‪18 ......................................................................................................‬‬

‫שיטות וחומרים ‪21 ...................................................................................................‬‬

‫כלים וחומרים ‪21 ......................................................................................................‬‬

‫שיטות ‪21 ................................................................................................................‬‬

‫תוצאות ‪24 ..............................................................................................................‬‬

‫חיפוש אתרים ‪24 ......................................................................................................‬‬

‫השוואת הקורלציה ‪24 ...............................................................................................‬‬

‫דיון ‪31 ...................................................................................................................‬‬

‫ביבליוגרפיה ‪33 .......................................................................................................‬‬

‫‪2‬‬
‫הקדמה אישית‬
‫השנה אחרונה לא הייתה קלה‪ .‬כולנו היינו צריכים להתמודד עם הסגר ועם הלימודים הדיגיטליים‬
‫המקשים‪ .‬הפסקת החיים הסוציאליים‪ ,‬בגיל שלי‪ ,‬פגעה בי מאוד‪ .‬אבל בכל השנה והשנה לפני‬
‫זה‪ ,‬כשהתחלתי את פרויקט אלפא‪ ,‬אני התכוונתי לסיים אותו‪ .‬עכשיו שאני כותב את הפרק הזה‬
‫יום לפני ההגשה‪ ,‬ממש על קו הסיום‪ ,‬אני חושב שאני באמת יכול להיות גאה בעצמי שאני כן יכול‬
‫לעשות את מה שאני רוצה למרות המכשולים המרובים‪ .‬אני הייתי צריך לוותר על מספר דברים‬
‫כדי לסיים את הפרויקט‪ ,‬למשל הציונים שלי‪ ,‬והרבה זמן חופשי‪ ,‬אבל אני חושב שהמטרה‬
‫הסופית שלו הייתה הדבר שכיוון אותי לאורך כל המסע שעברתי‪ .‬אני מקווה שהמחקר שלי יצליח‬
‫לתרום למישהו מעבר לעליי‪ ,‬כי זה באמת הדבר שאני מוצא כל כך מושך במדע‪ .‬השימוש‬
‫בפיסות הידע הקטנות כדי שקהילת האנשים העוסקים בו יוכלו‪ ,‬לאט לאט‪ ,‬לבנות דבר גרנדיוזי‪.‬‬

‫‪3‬‬
‫תקציר‬

‫‪ miRNA‬הוא סוג של ‪ RNA‬קצר ובליתי‪-‬מקודד בעל תפקיד מרכזי לוויסות גנים ע"י חיבור‬
‫לאתרי קשירה ב‪ mRNA-‬והשבתת ה‪ .mRNA-‬רוב אתרי הקשירה המשמעותיים ביותר נמצאים‬
‫בקצוות ‪ UTR '3‬ו‪ UTR '5-‬ב‪ ,mRNA-‬ובשל כך מודלים לחיזוי רמת דיכוי ע"י ‪ miRNA‬בעבר‬
‫לא התייחסו לאתרי הקשירה הנמצאים בקטע המתורגם )‪ (ORF‬ב‪ .mRNA-‬בגלל חשיבותם‬
‫כמניעיי ‪ ,RNAi‬וקישורם למגוון רחב של מחלות‪ ,‬כגון סרטן‪ ,‬הבנת גורמי פעולה של ‪miRNA‬‬
‫וניבוי השפעתם על ביטוי גנים הוא נושא חקירה מעניין‪.‬‬
‫מטרת מחקר זה היא השוואת ביצועי מודל בעל פיצ'רים המבוססים על ה‪ ORF-‬כנגד מודל‬
‫שאינו משתמש בהם‪ .‬שני מודלים הופעלו על סט של ‪ miRNA‬ו‪ mRNA‬בעליי רמות דיכויי‬
‫ידועות‪ ,‬מודל המשתמש בפיצ'ריי ‪ ORF‬ומודל שאינו לוקח אותם בחשבון‪ .‬ביצועי המודלים נמדדו‬
‫בשיטת רגרסיה לינארית בין רמת הדיכוי הנחזה ע"י המודל ורמת הדיכוי הנמדדת‪ ,‬וביצועיי‬
‫הפיצ'רים נמדדו ע"י מדידת החשיבות שלהם בשיטת ‪.random forest‬‬
‫במודל בעל הפיצ'רים המבוססים על ה‪ -ORF‬נמצא שיפור קטן מעל המודל הישן‪ .‬למען בדיקת‬
‫השיפור ב‪ -mRNA‬בעליי תכונות שונות‪ ,‬הגנים חולקו לקבוצות לפי רמת הביטוי שלהם ונמצא‬
‫שהמודל החדש הרבה פחות מדויק מהמודל הישן כאשר רמת הביטוי של הגן גבוהה‪ ,‬אך הרבה‬
‫יותר מדויק מהישן כאשר רמת ביטוי הגן בינונית או קטנה‪.‬‬
‫מכך הוסקה המסקנה העיקרית שהתחשבות בפיצ'ריי ‪ ORF‬משמעותית בעיקר עבור גנים‬
‫שרמת הביטוי שלהם אינה גבוהה במיוחד או נמוכה במיוחד‪ ,‬מכיוון שכך מתאפשרת ההשפעה‬
‫המקסימלית של ריבוזומים על פעולת ה‪ . miRNA-‬מסקנה זו התבטאה גם בבדיקת ביצועי‬
‫המודל וגם בבדיקת חשיבות הפיצ'רים עצמם‪.‬‬

‫‪4‬‬
‫מבוא‬
‫‪ MicroRNAs‬הם סוג של מולקולות ‪ RNA‬קצרות‪ ,‬באורך של כ‪ 24-‬נוקלאוטידים‪ ,‬שאינן מקודדות‬
‫לחלבון‪ .‬תפקידם העיקרי הוא בבקרת ביטוי גנים‪ ,‬ע"י קשירה למולקולות ‪ mRNA‬והשתקת ביטוי‬
‫גנים )‪ miRNA .(Bartel, 2018‬יכולים להיקשר לאתרים קנוניים‪ ,‬ע"י חיבור ווטסון‪-‬קריק בין אתר‬
‫הקשירה ב‪ mRNA-‬לאזור ה‪ '5-‬ב‪ ;miRNA-‬או לאתרים לא קנוניים )וחלשים יותר(‪ ,‬כלומר‬
‫שקיימים בהם אי‪ -‬התאמות של נוקלאוטידים‪ ,‬או חיבור לאזורים אחרים ב‪Bartel ) miRNA-‬‬
‫‪ .(2009‬ה‪ miRNA-‬מוכנס לקומפלקס ההשתקה ‪(RNA-induced silencing complex) RISC‬‬
‫ומנחה אותו לגן המטרה שלו‪ .‬ביטוי הגנים מושתק כתוצאה מדגרדציה של ה‪ mRNA-‬ע"י ה‪-‬‬
‫‪ ,miRNA‬עיכוב התרגום‪ ,‬או שניהם‪ .‬רוב המחקרים הקיימים בנושא יותר התמקדו בעיקר באזור‬
‫ה‪ ,UTR'3-‬מכיוון שאתרי הקישור הראשונים של ‪ miRNA‬שהתגלו שכנו באזור הזה ‪ -‬אם כי ידוע‬
‫שקיימים גם אתרים פונקציונליים ב‪ . (Lewis et al., 2005) ORF-‬האתרים ב‪ ORF-‬אכן פחות‬
‫אפקטיביים מהאתרים ב‪ ,3’UTR-‬והסברה המקובלת היא שהריבוזומים העוברים על פני ה‪-‬‬
‫‪ ORF‬מקשים על פעילותם היעילה של ‪ miRNA‬בכך שהריבוזומים גורמים לניתוקם או מונעים‬
‫מהם להיקשר מלכתחילה‪.‬‬

‫במודלים לחיזוי דיכוי ע"י ‪ miRNA‬שפותחו בעבר‪ ,‬ה‪ ORF-‬קיבל תפקיד משני‪ ,‬או לא נלקח‬
‫בחשבון כלל‪ ,‬למשל ‪ (Vejnar & Zdobnov, 2012) miRmap‬ו‪Agarwal et ) TargetScan-‬‬
‫‪ .(al.,2015‬מודלים אלו כוללים בדרך כלל פיצ'רים תרמודינמיים )המעריכים את חוזק הקשר בין‬
‫ה‪ miRNA-‬ל‪ ;(mRNA-‬פיצ'רים הקשורים לשמירות אבולוציוניות; ופיצ'רים התלויים ברצף‪ ,‬כמו‬
‫‪ AU content‬ואורך ה‪ .3’UTR-‬לאחרונה‪ ,‬מודל חדש פותח אשר מתחשב גם במאפייניו‬
‫הייחודיים של ה‪ ,ORF-‬כאזור ב‪ mRNA-‬שעוברים עליו ריבוזומים‪(Bergman et al., 2020) .‬‬
‫ביצועי המודל היו טובים יותר משל מודלים קודמים‪ ,‬שלא השתמשו בפיצ'רים הקשורים לתרגום‬
‫חלבונים‪ ,‬ובכך הדגימו את חשיבות השפעת הריבוזומים על הדיכוי ע"י ‪ – miRNA‬וכיצד היא‬
‫מאפשרת לנו להבין טוב יותר את פעולת ה‪ .miRNA-‬מטרת מחקר זה היא לחקור את הגורמים‬
‫השונים המשפיעים על האינטראקציה בין הריבוזומים ל‪ ,miRNA-‬ע"י בדיקת ביצועי המודל עם‬
‫פיצ'רי ה‪ ORF-‬בהשוואה לביצועי המודל ללא התייחסות אל ה‪ ORF-‬כלל‪ .‬בעבודה זו אנו מראים‬
‫שהוספת ה‪ ORF-‬משפרת את דיוק החיזוי במודל‪ ,‬ומציג תובנות חדשות על השפעת אורך ה‪-‬‬
‫‪ UTR'3‬ורמת ביטוי ה‪ mRNA-‬על יעילות פעולתו של ‪.miRNA‬‬

‫‪5‬‬
‫שאלת המחקר‬
‫כיצד רצף נוקלאוטידים באזור מקודד ב‪ mRNA-‬משפיע על יעילות דיכוי גנים ע"י ‪?microRNA‬‬

‫‪6‬‬
‫השערת המחקר‬
‫האזור המקודד ב‪ mRNA-‬משפיע על תהליך התרגום עצמו לא רק ע"י קידוד החלבון המיועד‪.‬‬
‫קיימים בו קודים המשפיעים על תהליך התרגום בכל שלב‪ ,‬מווידוי הקשר של הריבוזום ל‪-‬‬
‫‪ ,mRNA‬השפעה על מהירות התרגום וגם סיום התהליך בקודון הסיום‬
‫לפי זאת‪ ,‬אנו משערים שהוספת הפיצ'רים הנוספים למודל תשפר את רמת הדיוק שלו‪ ,‬במיוחד‬
‫על גנים עם רמות ביטוי גבוהות מכיוון שהפרמטרים החדשים מושפעים מתהליך תרגום ה‪-‬‬
‫‪ ,mRNA‬כגון רצף הנוקלאוטידים באזור המתורגם ויעילות תרגום הריבוזומים‬

‫‪7‬‬
‫סקירת ספרות‬
‫‪DNA‬‬
‫‪ Deoxyribonucleic Acid‬או ‪ DNA‬הוא מקרומולקולה בה מקודד כל המידע התורשתי הדרוש‬
‫לבניית החלבונים בכל יצור חי‪ .‬ה‪ DNA-‬מורכב מארבע יחידות בסיסיות הנקראות נוקלאוטידים‪.‬‬
‫כל נוקלאוטיד מורכב מסוכר‪-‬פוספט המחובר בקשר קוולנטי לבסיס חנקני כלשהו‪ .‬הבסיס הוא‬
‫שמבדיל בין ארבעת הנוקלאוטידים ב‪ :DNA-‬אדנין‪ ,((A‬גואנין )‪ ,(G‬תימין )‪ (T‬וציטוזין )‪.(C‬‬
‫)‪( Alberts et al., 2002‬‬

‫איור ‪ :1‬מבנה בסיסי של נוקלאוטיד‬

‫ארבע היחידות האלו משמשות לשמירת הסכמות של המבנים של כל החלבונים בתא‪ .‬בתחילת‬
‫שנות ה‪ ,'50-‬על בסיס קריסטלוגרפיה בקרני רנטגן‪ ,‬הוצע כי ה‪ DNA-‬בנוי משתי שרשראות‬
‫שזורות ביחד לצורת סליל‪ .‬גילוי המבנה הזה היה צעד חשוב להבנת הדרך שבה ה‪ DNA-‬מקודד‬
‫את המידע‪ ,‬אך היא תוארה במלואה רק ב‪ 1961-‬כאשר נמצא שה‪ DNA‬מקודד חומצות אמינו‬
‫ברצפים של ‪ 3‬נוקלאוטידים‪ .‬רצף של שלושה נוקלאוטידים כאלה נקרא קודון‪ ,‬והוא תואם‬
‫לחומצת אמינו מסויימת‪ .‬לכל נוקלאוטיד יש בן‪-‬זוג קבוע לו הוא נקשר בקשר מימן‪ A+T .‬ו‪,G+C-‬‬
‫חיבור הנקרא חיבור וואטסון‪-‬קריק ‪.‬י‪ C+G‬ו‪T-A-‬אורגניזימים שונים אחד מהשני מכיוון‬
‫שלמולקולות ה‪ DNA-‬שלהם יש רצפי נוקלאוטידים שונים‪ .‬ישנן שתי משפחות עיקריות שכל‬
‫אורגניזם חיי מתחלק אליהם‪ :‬הפרוקריוטים‪ ,‬הפשוטים יותר והחד תאיים‪ ,‬והאאוקריוטים‪,‬‬

‫‪8‬‬
‫המשפחה הכוללת גם יצורים חד תאיים וגם רב תאיים )וביניהם בעלי החיים(‪ ,‬ועליהם המחקר‬
‫שלנו יבוצע‪ .‬בין ההבדלים הרבים בין שני המשפחות כמו גודלם‪ ,‬חומר הממברנה ורמת‬
‫המורכבות שלהם ה‪ DNA -‬בתאים האאוקריוטיים בעלי האברונים נמצא בגרעין התא‪ ,‬בניגוד‬
‫לפרוקריוטים חסרי הגרעין בהם הוא צף בחופשיות בתוך הציטופלזמה‪( Alberts et al., 2002) .‬‬

‫רצף של נוקלאוטידים ב‪ DNA‬המבטאים ביחד חלבון או ‪) RNA‬הסבר בהמשך( אחד נקרא גן‬
‫)‪ .(gene‬האוסף המלא של כל הגנים באורגניזם נקרא הגנום שלו‪ ,‬הנשמר על אחד או יותר‬
‫כרומוזומים‪ .‬כל כרומוזום בנוי מגדיל ‪ DNA‬יחיד וארוך ביותר‪ ,‬ובתאים איקריוטים גם מחלבוני‬
‫אריזה השומרים עליו מהסתבכות‪( Alberts et al., 2002) .‬‬

‫‪ DNA‬אינו מייצר את החלבונים המקודדים עליו בעצמו‪ .‬הוא משמש כתוכנית לבניה‪ .‬בעת ביטוי‬
‫גן בתא‪ ,‬רצף הנוקלאוטידים שלו משועתק קודם לסוג אחר של חומצה ‪ RNA -‬או ‪ribonucleic‬‬
‫‪ .acid‬עותקי ‪ RNA‬אלו יתורגמו לחלבון עצמו‪ .‬ה‪ RNA-‬בנוי בצורה דומה ל‪ ,DNA-‬עם כמה‬
‫הבדלים עיקריים‪ .‬ראשית‪ ,‬בניגוד ל‪ DNA-‬הדו‪-‬גדילי‪ ,‬ה‪ RNA-‬הוא לרוב חד‪-‬גדילי‪ .‬הוא עדיין‬
‫מורכב מרצף נוקלאוטידים‪ ,‬אך המבנה הכימי שלהם שונה במקצת‪ :‬הסוכר הנמצא במרכזם כולל‬
‫קבוצת הידרוקסיל אחת יותר )לכן ‪ DNA‬קרוי ‪ .(deoxyribo nucleic acid‬שלושה מתוך‬
‫ארבעת הבסיסים החנקניים בנוקלאוטידים משותפים ל‪ DNA-‬ול‪ ,RNA-‬אך ‪" (uracil (U‬מחליף"‬
‫את ‪ (thymine (T‬והוא הבסיס המשלים ל‪A-‬‬
‫ישנם סוגים רבים של ‪ :RNA‬כאלה שמתורגמים לחלבונים כמו )‪messenger RNA) mRNA‬‬
‫וכאלה ה"תומכים" בתהליך התרגום ובתפקוד האורגניזם‪ ,‬למשל ‪ transfer RNA‬ו‪,micro RNA-‬‬
‫בו מתרכז המחקר הנוכחי‪( Alberts et al, 2002) . .‬‬

‫כל חלבון בנוי מחומצות אמינו‪ ,‬קבוצה של ‪ 20‬מולקולות דומות המהוות את יחידות המבנה‬
‫הבסיסיות של חלבונים ‪.‬כל חומצות האמינו כוללות קצה בסיסי )הקבוצה האמינית( וקצה חומצי‬
‫)חומצה קרבוקסילית( המחוברות לאטום פחמן‪ .‬לכל חומצת אמינו ישנה גם קבוצה צדדית‬
‫המחוברת לאטום הפחמן‪ ,‬ומבנה השרשרת הזאת מבדיל בין חומצות האמינו השונות‪ .‬חומצות‬
‫האמינו בכל חלבון נקשרות זו לזו ע"י קשר פפטידי )קשר קוולנטי בין שני חומצות אמינו( לכל‬
‫חלבון יש קבוצה אמינית בקצה אחד )הקרוי ‪ ,(N-terminus‬וקבוצה קרבוקסילית בקצה האחר‬
‫)‪ .(C-terminus‬השוני בשני הקצוות נותן לכל חלבון כיווניות ברורה במבנהו‪ .‬מגוון המבנים‬
‫לסידור ‪ 20‬סוגי חומצות האמינו מאפשר מגוון רחב של חלבונים המותאמים לפעולתם באורגניזם‬

‫‪9‬‬
‫איור ‪ :3‬מבנה בסיסי של חומצת אמינו‬

‫הדוגמה המרכזית‬
‫הדוגמה המרכזית של הביולוגיה המולקולרית היא העיקרון בו מידע גנטי מועבר בתאים‪ .‬לפי‬
‫הדוגמה יש כיוון עיקרי אחד להעברת אינפורמציה‪ :‬מ‪ DNA-‬ל‪ RNA-‬ומשם לחלבונים‪ .‬תהליך‬
‫העברת ‪ DNA‬ל‪ RNA-‬נקרא שעתוק ותהליך העברת ‪ RNA‬לחלבונים נקרא תרגום‪ .‬תהליך‬
‫השעתוק מתחיל בקישור אנזים הנקרא ‪ RNA‬פולימראז לגן ב‪ DNA-‬ביחד עם גורמי שעתוק‬
‫נוספים‪ .‬הפולימראז עובר על גדיל ה‪ DNA-‬ויוצר את ה‪ mRNA-‬המתורגם לחלבון לפיו‪ .‬לאחר‬
‫מכן מתחיל תהליך התרגום‪ .‬כמו ב‪ ,DNA-‬המידע הגנטי של ‪ mRNA‬מקודד ברצף של‬
‫נוקלאוטידים‪ ,‬אשר מרכיבים קודונים‪ .‬כל קודון מקודד לחומצה אמינית מסוימת‪ ,‬למעט קודוני‬
‫עצירה‪ ,‬המסיימים את תהליך התרגום‪ .‬ה‪ ,mRNA-‬בדומה ל‪ ,DNA-‬הוא אסימטרי‪ ,‬ויש לו שני‬
‫קצוות שונים‪ :‬קצה ה‪ '5-‬וקצה ה‪ ,'3-‬בהתחלה ובסוף של הקטע המקודד‪ ,‬בהתאמה‪.‬‬
‫הנוקלאוטידים באזור המקודד‪ ,‬מקודדים לא רק את רצף חומצות האמינו אלא גם אספקטים‬
‫רבים אחרים של בקרת ביטוי גנים‪ .‬ב‪ mRNA‬יש קודונים מסוימים המסמנים את נקודת תחילת‬
‫וסוף התרגום‪ .‬קודון ההתחלה באאוקריוטים הנו ‪ ,AUG‬המקודד לחומצת האמינו מתיונין; וישנם‬
‫שלושה קודוני סיום‪ .UGA,UAG,UAA :‬קודון הסיום מפסיק את התרגום כאשר הוא קושר‬
‫לעצמו חלבונים הנקראים גורמי שחרור‪ .‬בכל ‪ mRNA‬יש רצף נוקלאוטידים בקצוות האלו ‪ -‬לפני‬
‫קודון ההתחלה ואחרי קודון הסיום ‪ -‬שאינם מתורגמים‪ .‬אזור כזה קרוי ‪UTR (untranslated‬‬
‫‪ .(region‬ה‪ UTR '5-‬נמצא לפני קודון ההתחלה‪ ,‬ה‪ UTR '3-‬נמצא אחרי קודון הסיום‪ .‬שניהם‬
‫משמשים לרגולציה של תהליך התרגום‪ .‬אחרי ה‪ UTR '3-‬יש "זנב" שבנוי מרצף של הנוקלאוטיד‬

‫‪10‬‬
‫‪ .A‬לפני ה‪ UTR '5-‬גם יש נוקלאוטיד שעבר מודיפיקציה יחודית )‪ ,(cap‬והוא חיוני ליצירת‬
‫‪ mRNA‬יציב ובוגר‪( Alberts et al, 2002) . .‬‬

‫איור ‪:4‬מבנה כללי של ‪. mRNA‬‬

‫הקודונים במולקולת ‪ mRNA‬אינם קושרים ישירות את חומצות האמינו שהם מייצגים‪ .‬במקום‬
‫זאת‪ ,‬התרגום של ‪ mRNA‬לחלבון תלוי במולקולות שיכולות לזהות ולהקשר לקודון מסוים‪ ,‬אבל‬
‫גם לקשור לעצמן את חומצת האמינו התואמת לו‪ .‬המולקולות האלה הן קבוצה של מולקולות‬
‫‪ RNA‬קטנות המכונות ‪ ,(transfer RNAs) tRNA‬שאורכן כ‪ 80-‬נוקלאוטידים‪ .‬כל ‪ tRNA‬כולל‬
‫אנטיקודון‪ ,‬הבנוי מנוקלאוטידים הנקשרים דרך זיווג בסיסים לקודון המטרה שלו; ובקצה ה ‪'3‬‬
‫שלו‪ ,‬קשורה אליו חומצת האמינו המתאימה )‪.( Alberts et al, 2002‬‬

‫איור ‪ :5‬מבנה של מולקולת ‪ tRNA‬טעונה בחומצת אמינו‪.‬‬

‫‪11‬‬
‫ה‪ mRNA-‬מתחבר לקומפלקס הנקרא ריבוזום‪ .‬הריבוזום הוא מכונה תאית מורכבת ביותר‪,‬‬
‫שנמצאת בכל תא חי הבנויה ברובה מ‪ RNA-‬מסוים הנקרא ‪ ribosomal RNA‬וכן עשרות‬
‫חלבונים שונים אחרים‪ .‬הריבוזום בנוי משני חלקים‪ ,‬היחידה הגדולה והיחידה הקטנה שעובדות‬
‫יחד כדי לתרגם את ה‪ mRNA-‬לשרשרת חומצות אמינו שמהווה חלבון‪ .‬הריבוזום מתחבר‬
‫למולקולת ה‪ mRNA-‬בצד ה‪ UTR '5-‬ונע לכיוון ה‪ .'3-‬בזמן שהוא נע‪ ,‬מולקולות ‪tRNA‬‬
‫מתחברות לאזור ההתחלתי שלו אם האנטיקודון שלהם תואם לקודון שהריבוזום נמצא עליו‪.‬‬
‫בריבוזום יש שלושה אזורים עיקריים המשמשים בתהליך התרגום‪ ,A site :‬אזור הקשירה‬
‫הראשוני ל‪ tRNA-‬טעון בחומצת אמינו; ‪ ,P site‬בו ה‪ tRNA-‬מוסר את חומצת האמינו התואמת‬
‫לקודון שנקשר אליו; ו‪ ,E site-‬אתר יציאה בו מתנתק ה‪ tRNA-‬שמסר את חומצת האמינו שלו‬
‫מסליל ה‪.mRNA-‬‬

‫איור ‪ :6‬סכמה של תהליך התרגום ליצירת שרשרת חומצות אמינו המרכיבות את החלבון‬

‫בקוד הגנטי הסטנדרטי ישנם ‪ 61‬סוגי קודונים‪ ,‬לעומת זאת‪ ,‬ב‪ mRNA-‬המקודדים לחומצת אמינו‬
‫אך רק ‪ 20‬חומצות אמינו שונות‪ .‬כלומר‪ ,‬שני קודונים שונים עשויים לקודד לאותה חומצת אמינו‬
‫וקיימת יתירוּת קודונים‪ .‬קודונים כאלה מכונים קודונים סינונימיים והמוטציות המשנות אחד‬
‫מהקודונים לסינונים שלו נקראת מוטציה שקטה‪ ,‬כי היא לא משנה את שרשרת חומצות האמינו‬
‫שהגן מתורגם אליה‪ .‬הופעת הקודונים אינה אחידה לאורך הגנום‪ ,‬כלומר קיימת נטייה לשימוש‬
‫בקודונים מסוימים ונטייה זו משתנה מאורגניזם לאורגניזם )‪ .(Mitra et al., 2016‬זאת מכיוון‬

‫‪12‬‬
‫שקודונים מסוימים מתורגמים בצורה יותר יעילה או יותר מהירה מהקודונים הסינונימים שלהם‪,‬‬
‫ויעילות זו משתנה בין אורגניזמים )‪ .( Sabi & Tuller, 2015) (dos Reis et al.,2004‬הקוד‬
‫הגנטי נמצא תחת לחץ אבולוציוני לשיפור יעילותו‪ ,‬ולכן באזור המקודד ישנם רצפי קודונים‬
‫חופפים המקודדים רגולציה של ביטוי גנים )‪.(Bergman & Tuller, 2020‬‬

‫איור ‪ :7‬טבלה המציגה את הקודונים הסינונימיים‬

‫עוד משתנה המשפיע על תהליך התרגום הוא קישור הוובל )‪ .(wobble‬קישור וובל הוא חיבור בין‬
‫שני נוקלאוטידים ב‪ RNA-‬שלא לפי חיבור ווטסון‪-‬קריק; הדוגמה העיקרית לכך היא קישור ‪.G-U‬‬
‫הקשר הזה יכול להתקיים רק בין זוג הנוקלאוטידים האחרון בחיבור בין קודון לאנטיקודון‬
‫)הנוקלאוטיד השלישי של הקודון והראשון של האנטיקודון(‪ .‬קשרי וובל הם חיוניים לתרגום נכון‬
‫של ‪ ,mRNA‬מכיוון שישנם ‪ 61‬קודונים אך פחות מ‪ 61-‬סוגי ‪ tRNA‬בתא‪ ,‬כלומר חלק מה‪-‬‬
‫‪ tRNAs‬צריכים לזהות יותר מקודון אחד‪ .‬הוראה גם שקשר וובל בין קודונים מאט את פעולת‬
‫התרגום ובכך משפיע על קצב הריבוזומים )‪.(Stadler & Fire, 2011‬‬

‫‪miRNA‬‬
‫‪ MicroRNAs‬הם סוג של מולקולות ‪ RNA‬קצרות‪ ,‬שאינן מקודדות לחלבון‪ ,‬באורך ‪ 18‬עד ‪24‬‬
‫נוקלאוטידים שנמצאות בכל צורות החיים וגם סוגי וירוסים מסוימים‪ .‬תפקידם העיקרי הוא‬
‫בבקרת ביטוי גנים‪ ,‬ע"י קשירה למולקולות ‪ mRNA‬והשתקת גנים‪ .‬אצל בני אדם‪miRNAs ,‬‬

‫‪13‬‬
‫מווסתים את הביטוי של לפחות ‪ 60%‬מכל ה‪ .mRNAs-‬הם מעורבים בתהליכים תאיים רבים‪,‬‬
‫כגון התמיינות תאים‪ ,‬מחזור התא ואפופטוזיס‪ .‬בתהליך יצירת ‪ miRNA‬השלב הראשון הוא‬
‫שעתוק של ה‪ pri-miRNA .(primary miRNA) pri-miRNA‬הוא שלב מוקדם של ‪miRNA‬‬
‫באורך מספר מאות נוקלאוטידים‪ .‬בכל ‪ pri-miRNA‬יש בין אחד לשישה מבני לולאה של ‪pre-‬‬
‫‪ .miRNA‬המבנה הזה עובר חיתוך ע"י אנזים ‪ Drosha‬המייצר מתוכו ‪ pre-miRNA‬עם מבנה‬
‫לולאה הנקרא לולאת גזע )‪.(Vishnoi & Rani, 2017) (Stem-loop‬‬

‫איור ‪ :8‬לולאת ‪Stem-loop‬‬

‫ה‪ pre-miRNA-‬מועברים מתוך הגרעין אל הציטופלזמה‪ ,‬ושם נחתך ע"י האנזים ‪ – Dicer‬כך‬
‫שנוצר דופלקס‪ ,‬המורכב מ‪ 2-‬גדילי ‪ miRNA‬המחוברים אחד לשני‪ .‬דופלקס זה נקרא‬
‫‪ .*miRNA/miRNA‬שני הגדילים יכולים לשמש כ‪ miRNA-‬אך רוב הזמן רק אחד נבחר ביניהם‬
‫כדי לבצע את תפקידו ולהתחבר לקומפלקס הקרוי ‪RNA-induced silencing ) RISC‬‬
‫‪.(complex‬‬

‫‪14‬‬
‫איור ‪ :9‬תהליך יצור ‪miRNA‬‬

‫ה‪ RISC-‬בנוי ממספר חלבונים‪ ,‬בראשם ‪ .argonaute‬גדיל ה‪ miRNA/miRNA‬שקצה ‪ '5‬שלו‬


‫פחות יציב נבחר ע"י החלבון ארגונאוט ומשולב לתוך ה‪ .RISC-‬תפקיד ה‪ RISC-‬הוא לגרום‬
‫לעיכוב תרגום ולפירוק ‪ ,mRNA‬והוא עושה זאת ע"י קשירה לפי חיבור ווטסון‪-‬קריק ל‪.mRNA-‬‬
‫אתר המטרה של ‪ RISC‬מוגדר ע"י ה‪ miRNA-‬שהוא לקח לעצמו‪ .‬לפי התאמת ה‪ miRNA-‬ל‪-‬‬
‫‪ ,mRNA‬ה‪ RISC-‬עוצר את תרגום ה‪ mRNA-‬אם התאמת ה‪ miRNA-‬נמוכה או גורם לפירוקו‬
‫מיד אם התאמת ה‪ miRNA-‬מושלמת‪ .‬ה‪ RISC-‬אז משתחרר מה‪ mRNA-‬ונשאר חופשי לחפש‬
‫עוד מטרות תואמות‪ .‬כך ‪ RISC‬יחיד יכול "לנטרל" מולקולה אחר מולקולה ולעצור ביעילות את‬
‫יצור החלבונים של המטרות שלו‪ .‬בנוסף‪ ,‬כל ‪ miRNA‬יכול לווסת את התרגום של מספר סוגי‬
‫‪) mRNA‬כלומר לא רק עותקים שונים של אותו ‪ ,mRNA‬אלא גם ‪ mRNAs‬שונים המקודדים‬
‫לאותו חלבון( )‪(Gregory et al.,2005‬‬

‫‪15‬‬
‫איור ‪ :10‬תיאור פעולתו של ‪RISC‬‬

‫לרוב‪ ,‬ה‪ miRNA-‬נקשר ל‪ mRNA-‬ב‪ UTR’3-‬שלו)‪ ,(Gu et al.,2009‬אבל קיימים אתרי קשירה‬
‫גם ברצף המקודד )‪ . (Reczko et al.,2012‬ה‪ miRNA-‬נקשר לרוב עם קצה ה‪ '5-‬שלו‪ ,‬אבל‬
‫קיימים גם קשרים נוספים בקצה ‪ .'3‬ניתן לחלק את אתרי הקשירה של ‪ miRNA‬לשתי קטגוריות‪:‬‬
‫אתרים קנוניים ואתרים לא קנוניים‪ .‬אתרים קנוניים הם האפקטיביים והשמורים ביותר‬
‫אבולוציונית‪ ,‬ומקיימים חיבור ווטסון‪-‬קריק מלא לאזור ה‪ '5-‬של ה‪miRNA-‬‬
‫בין נוקלאוטידים ‪ .2-7‬אזור זה נקרא ה‪" ,seed-‬זרע" ה‪ .miRNA-‬אתרים לא קנוניים אינם‬
‫מזווגים באופן מלא עם ה‪ ,seed-‬והם פחות אפקטיביים ושמורים‪ .‬באיור מספר ‪ 11‬ניתן לראות‬
‫דוגמאות למספר אתרים ידועים ‪ -‬קנוניים ולא קנוניים‪ .‬על אף שאתרי הקישור הקנוניים הנם‬
‫אפקטיביים יותר‪ ,‬ישנה כמות גדולה בהרבה של אתרים לא קנוניים בשווה בין קישור לאתרים‬
‫קנוניים לעומת לא קנוניים )‪.(Bartel, 2009‬‬

‫‪16‬‬
‫איור ‪ :11‬אתרי קשירה קנוניים‬

‫אתר הקישור עצמו הוא לא הדבר היחיד המשפיע על יעילות הדיכוי של ה‪ - miRNA-‬אותו רצף‬
‫של אתר קישור יכול להשפיע על דיכוי ב‪ UTRs-‬מסוימים אבל לא באחרים‪ .‬ישנם פקטורים‬
‫אחרים המשפיעים על יעילות הדיכוי‪ ,‬כדוגמת מיקום האתר ב‪ UTR-‬וכמות בסיסי ה‪ AU-‬בקרבת‬
‫האתר‪ :‬אתרים הנמצאים באחד מקצוות ה‪ ,UTR’3-‬או שיש בקרבתם כמות גבוהה של בסיסי‬
‫‪ ,AU‬יהיו לרוב אפקטיביים יותר )‪ .(Grimson et al.,2007‬כפי שהוזכר קודם‪ miRNA ,‬נקשרים‬
‫ל‪ mRNA-‬לא רק באזורים הלא מקודדים שלהם; אך הם עדיין פחות יעילים מאתרי קשירה‬
‫באזור הלא מקודד‪ .‬סיבה אפשרית לכך היא תנועת הריבוזומים על הקטע המקודד‪ ,‬תנועה‬

‫‪17‬‬
‫שיכולה לנתק את ה‪ miRNA-‬מהרצף ועוצרת את הפעולה שלו‪ .‬כלומר יתכן שמהירות התרגום‬
‫משפיעה על יעילות ה‪ ;miRNA-‬ומכיוון שכל קודון מתורגם במהירות שונה‪ ,‬רצף הקודונים‬
‫משפיע על פעולת ה‪ .miRNA-‬במחקר חישובי שנערך על הקשר בין מהירות הריבוזומים לבין‬
‫דיכוי ‪ miRNA‬נמצא כי ההשפעה חיובית‪ ,‬כלומר מהירות ריבוזומים גבוהה יותר דווקא מעלה את‬
‫רמת הדיכוי‪ .‬השערה שיכולה להסביר את הפעולה הזאת היא השערת מיחזור ‪ :miRNA‬כאשר‬
‫ריבוזום מנתק ‪ miRNA‬מאתר באזור המקודד‪ ,‬ה‪ miRNA-‬ממוחזר ונקשר לאתר ב‪.UTR '3-‬‬
‫מכיוון שאתרי קשירה ב‪ UTR '3-‬הם הרבה יותר יעילים מאתרי קשירה באזור המקודד‪ ,‬רמת‬
‫הדיכוי הכללית עולה‪(Bergman et al., 2020) .‬‬

‫איור ‪ :12‬השערת החיבור החוזר‬

‫שיטות החיזוי‬

‫רגרסיה לינארית היא שיטה המשמשת למידול הקשר בין משתנים‪ ,‬ומניחה שהקשר ביניהם‬
‫לינארי‪ .‬היא פועלת ע"י ניסיון להתאים קו ישר לסט הנתונים של המשתנים )המיוצג ע"י סט‬
‫נקודות ‪-n‬מימדיות(‪ ,‬כך שהמרחק של כלל הנקודות מהקו יהיה מינימלי‪ .‬אם כל הנקודות נמצאות‬
‫על הקו‪ ,‬אז הקשר הוא ישיר ‪ .1:1‬אם הוא לא‪ ,‬המרחק בין הנקודות לקו נלקח כמדד לרמת‬
‫הקשר בין המשתנים הבלתי‪-‬תלויים למשתנה התלוי‪ ,‬אותו אנו מנסים למדל‪ .‬המרחק הממוצע‬
‫מהקו מחושב‪ ,‬ומועלה בריבוע כדי לקבל את האחוז של המשתנה התלוי המוסבר ע"י המשתנים‬
‫הבלתי תלויים‪ .‬פרמטר זה קרוי ‪ ,R^2‬והוא שקול לחישוב קורלציית פירסון בין המשתנה התלוי‬
‫לבין המשתנה התלוי אשר מודל הרגרסיה הלינארית חוזה‪ ,‬והעלאת קורלציה זו בריבוע‪.‬‬
‫)‪(Weisberg, 2005‬‬

‫‪18‬‬
‫קורלציית פירסון היא מדד קשר לינארי בין שני משתנים‪ .‬המדד נע בין ‪ -1‬עד ל‪ ,1-‬כאשר ‪ 1‬הוא‬
‫קשר לינארי חייובי מלא‪ -1 ,‬הוא קשר לינארי שלילי מלא‪ ,‬ו‪ 0‬הוא שום קשר לינארי‪ .‬קורלצית‬
‫פירסון )המסומנת ב‪ (P-‬עבור המשתנים ‪ X,Y‬שווה ל ‪:‬‬

‫)𝑌 ‪𝑐𝑜𝑣(𝑋,‬‬
‫‪ρ‬‬ ‫‪,‬‬
‫=‬
‫𝜎 𝜎‬

‫כאשר ‪ cov‬שווה לשונות המשותפת‪ 𝜎 ,‬שווה לסטיית התקן של ‪ X‬ו 𝜎 שווה לסטיית התקן של‬
‫‪.(Benesty et al., 2009) Y‬‬

‫עץ החלטה היא שיטה לחיזוי משתנה על פי מספר משתנים אחרים המבוצעת ע"י חילוק תוצאות‬
‫עצי החלטה נוצרים עי חציית המידע לשני‬ ‫המשתנה הנחזה לפי גודל המשתנים האחרים‪.‬‬
‫תוצאות בצורה רקורסיבית‪ ,‬כך שהאי‪-‬טוהר של התוצאה תהיינה מינימלית‪ .‬טוהר התוצאה‬
‫מחושבת בדרך הבאה‪ -‬לכל שני גדלי משתנים סמוכים‪ ,‬מחושב הממוצע שלהם ומשומש כסף‬
‫החילוק‪ .‬על הגרף בין גדלי המשתנה לגדלי המשתנה הנחזה מופעלת רגרסיה לינארית ומותאם‬
‫ישר‪ .‬לפי הסף‪ ,‬מחושבת הקורלציה בין הגדלים מעל לסף לישר‪ .‬הקורלציה הכי גבוהה נבחרת‬
‫לסף לפיהו עץ ההחלטה יחולק‪ .‬בכל חצי הנותר מהחילוק מחושב הממוצע בין גדלי המשתנה‬
‫הנחזה בתוך הקבוצה‪ .‬הפעולה מופעלת על כל משטנה‪ ,‬ובניהם המשתנה עם הקורלציה הכי‬
‫גבוהה נבחר כסף החילוק‪ .‬הפעולה הרקורסיבית עוצרת כאשר מספר הגדלים של המשתנה‬
‫הנחזה בתוך קבוצה מחולקת לפי סף קטן ממספר מסוים‪ ,‬לרוב ‪ ,20‬כדי למנוע אוברפיט למידע‬
‫)‪.(Song & Ying, 2015‬‬

‫שיטת "‪ "Random Forest‬היא שיטת למידת מכונה המשמשת גם היא לחיזוי משתנה תלוי‬
‫בעזרת משתנים בלתי‪-‬תלויים‪ .‬השיטה פועלת ע"י יצירת מספר עצי החלטה אקראיים בזמן‬
‫האימון ומוציא כתוצאה את החיזוי הממוצע של כל העצים‪ .‬הפעולה נעצרת כאשר עומק ה"עלה"‬
‫מגיע לקריטריון מסוים‪ .‬השלב הראשון בשימוש השיטה הייתה יצירת ה"תיקים" )‪(bagging‬‬
‫מסט המידע‪ .‬מסט המידע נבחרו באקריות מספר משתים השווה לאורך סט המידע )משתנה יכול‬
‫להיבחר יותר מפעם אחת( ועל בסיס כל סט מידע כזה נבנה עץ החלטה המבוסס על רגרסיה‪ .‬כל‬
‫משתנה שלא נבחר נספר כ""‪ .out-of-bag error‬מכל העצים שנבנו מסט המידע האקראי‬
‫)‪ (bootstrapped data set‬נבנה עץ הממוצע לכל העצים הרנדומלים‪ .‬השיטה במחקר‬
‫משמשת למדידת חשיבות הפיצ'רים השונים במודל ע"י חישוב "‪."feature importance‬‬
‫חשיבות הפיצ'רים מחוש בת עי בדיקת רמת שיפור טוהר התוצאה כנגד מיקום הפיצר' בכל עץ‬
‫)‪.(Biau & Scornet, 2016‬‬

‫‪19‬‬
‫איור ‪ :13‬חישוב חשיבות משתנה‬

‫הניסוי‬
‫מטרת הניסוי שיבוצע במעבדה היא בדיקת רמת שיפור היכולת לחזות דיכוי ‪ mRNA‬ע"י‬
‫‪ miRNA‬בעקבות הוספת פיצ'רים )‪ (features‬חדשים למודל החיזוי הקשורים לתהליך התרגום‪.‬‬
‫למשל‪ ,‬רצף הקודונים באזור המתורגם‪ ,‬מהירות התרגום ע"י ריבוזום וכו'‪ .‬לשם כך נפעיל מודל‬
‫מתמטי הבנוי במאט לאב על קבוצות שונות של גנים עם פרמטרים שונים‪ ,‬ונבדוק עד כמה רמת‬
‫דיוק חיזוי הדיכוי משתפרת מתוך שימוש בפיצ'רים החדשים‪.‬‬

‫‪ 1.‬מציאת אתרי קישור קנוניים של ‪ miRNA‬ב‪-mRNA‬‬


‫‪ 2.‬הפעלת המודל על זוגות )‪ (mRNA, miRNA‬עם רמת דיכוי ידועה‪.‬‬
‫‪ 3.‬בדיקת השיפור )ע"י המודלים הסטטיסטיים ‪ R^2‬ו )‪-random forest‬ביכולת החיזוי של‬
‫המודל בקבוצות הגנים הבאות‪:‬‬
‫א‪ .‬גנים עם רמות ביטוי גבוהות‪/‬בינוניות‪/‬נמוכות‬
‫ב‪ .‬גנים בעלי להם ‪ UTR‬ארוך‪/‬בינוני‪/‬קצר‬
‫ג‪ .‬גנים המשתייכים לקבוצות פונקציונליות שונות‪ ,‬בהתאם ל‪-gene ontology‬‬

‫‪20‬‬
‫שיטות וחומרים‬

‫כלים וחומרים‬

‫‪ .1‬תוכנה‪ ,Matlab Version 2020a :‬יצרן‪MathWorks :‬‬


‫‪ .2‬סט הגנים‪ :‬סט הגנים בו השתמשנו הוא נרמול של ‪ 7‬ניסויים שפורסמו בעבר במאמר‬
‫‪ .Agarwal et al., 2015‬ניסויים אלו מודדים את השינוי ברמות ‪ ,mRNA‬בתאי‬
‫‪ ,HCT116‬כתוצאה מ‪ transfection-‬של ‪ .miRNA‬סיננו ‪ mRNAs‬שעבורם לא היו נתוני‬
‫‪ multiple sequence alignment‬מלאים במסד הנתונים ‪ ,UCSC hg38‬או שלא היו‬
‫עבורם נתוני ‪) RiboSeq‬ראו "הפעלת המודל"(‪ .‬הסט הסופי כלל נתוני דיכוי עבור ‪4549‬‬
‫‪ mRNAs‬ו‪.miRNAs 7-‬‬

‫‪ .3‬נתוני ה‪ GO-‬הורדו מהאתר הרשמי ‪http://geneontology.org‬‬

‫‪ .4‬רמות הביטוי של הגנים הורדו מ‪https://www.ebi.ac.uk/gxa/experiments-‬‬

‫שיטות‬

‫מציאת אתרי קשירה‬

‫השלב הראשון של המחקר הוא מציאת אתרי קשירה ל‪ 7 -‬סוגי ‪ miRNA‬בסט הגנים המורכב מ‬
‫‪ mRNA 4549‬שונים‪ .‬רק אתרים קנוניים נלקחו בחשבון‪ ,‬אתרי ‪ 8-mer, 7mer-m8‬ו‪.7mer-A1-‬‬
‫האתרים נמצאו ע"י פונקציה הרצה על כל רצפי ה‪ ,mRNA-‬ובודקת את חיבור הווטסון‪-‬קריק של‬
‫כל ‪ 7‬נוקלאוטידים לרצף ה‪ seed-‬ב‪ ,miRNA-‬ואת הנוקלאוטידים הנוספים המסמנים את סוג‬
‫האתר‪ .‬הפונקציה יצרה טבלה עם ‪ 18632‬אתרי קשירה קנונים שונים‪ ,‬סוגם‪ ,‬מיקומם בתוך‬
‫הגנום‪ ,‬ושני ה‪ RNA-‬שלהם הוא תואם‪ .‬על האתרים האלו הופעל המודל העיקרי‪ ,‬אשר נוצר ע"י‬
‫המנחה האישי שקד‪.‬‬

‫הפעלת המודל‬

‫המודל מופעל עם הפרמטרים הבאים‪ :‬רצפי ה‪ mRNA-‬וה‪ ,miRNA-‬מיקומי ה‪ ORF-‬וה‪,UTR-‬‬


‫מיקום אתר הקשירה על ה‪ mRNA-‬וסוג אתר הקשירה‪ - phastcons20 / 100 ,‬וקטור של ציוני‬
‫‪ PhastCons‬עבור כל קואורדינטות של ה‪ ,mRNA -‬המבוסס על ‪ alignment‬של ‪ hg38‬עם ‪99‬‬
‫בעלי חוליות ‪ 19 /‬יונקים‪ ,‬בהתאמה‪ ,‬וגם ‪ phylops20/100‬הדומים ל‪ ,phastcons-‬אבל‬
‫מבוססים על ציוני ‪ .PhyloP‬וגם עם ציוני ‪ RiboSeq‬ממוצעים לשליש הראשון‪ ,‬השני והאחרון של‬
‫ה‪ .ORF-‬המודל מופעל פעמיים‪ ,‬פעם אחת עם הפיצ'רים המבוססים על תרגום‪ ,‬ופעם אחת בלי‪,‬‬

‫‪21‬‬
‫כדי להשוואת את הקורלציה בין רמת הביטוי החזויה ע"י המודל ורמת הביטוי הנמדדת‪ ,‬בלי ה‪-‬‬
‫הפיצ'רים המבוססים על התרגום ועם‪.‬‬

‫במודל נלקחו בחשבון מספר פיצ'רים‪:‬‬

‫‪ .1‬תרמודינמיים )קיפול ה‪ ,RNA-‬עוצמת הקשר בין ה‪ miRNA-‬לאתר הקשירה‪ ,‬אנרגיה‬


‫הנדרשת להשארת ה‪ mRNA-‬במצב פתוח(‬
‫‪ .2‬שמירות אבולוציונית )רמת שמירות של אתרים בין גנומים שונים‪ ,‬מבוססת על ציוני‬
‫‪ PhastCons‬ו‪ , PhyloP-‬וגם הסיכוי לראות את האתר בתוך סט נוקלאוטידים רנדומלי‪(.‬‬
‫‪ .3‬רצפי ה‪ mRNA-‬וה‪ ) miRNA-‬רמת ה‪ AU-‬ב‪ UTR/ORF/3'UTR'5‬ובמרחק עד ‪nt30‬‬
‫מאתר המטרה‪ ,‬מרחק אתר המטרה להתחלה והסוף של אזורו‪ ,‬זהות הנוקלאוטיד‬
‫בפוזיציות ‪ 1/8‬ב‪ miRNA-‬ופוזיציה ‪ 9‬של אתר המטרה‪ ,‬אורך ה‪,UTR/ORF/3'UTR'5-‬‬
‫שכיחות של ארבעת הבסיסים באזור‪ ,‬אתר המטרה‪ ,miRNA ,‬ורצף הנוקלאוטידים הקודם‬
‫והעוקב מאתר הקשירה של ה‪ , miRNA-‬מספר אתרי המטרה הלא‪-‬קנוניים‪ ,‬שכיחות אתרי‬
‫מטרה בסט רפרנס של ‪ mRNA‬ומספר רצפי הזיהוי ל‪ RNA-binding proteins-‬בתוך ה‪-‬‬
‫‪(3'UTR‬‬
‫‪ .4‬מבוססים על שלב התרגום‪ ,‬המשמשים רק בהפעלה השנייה של המודל‪ ,‬ואותם הניסוי‬
‫בודק‪ .‬הפיצ'רים האלה חושבו בשני חלונות קודונים‪ :‬חלון מקומי הסובב את אתר המטרה‬
‫)רק עבור אתרי ‪ ,(ORF‬וחלון גלובלי‪ ,‬כלומר כל ה‪) ORF-‬שניהם עבור אתרי ‪ ORF‬ו‪-‬‬
‫‪ .(3'UTR‬כל קודון קיבל ציון בהתאם לפיצ'ר‪ ,‬והציון הסופי בכל חלון היה הממוצע של‬
‫הציונים האלה‪ .‬הפיצ'רים הם‪ ,CAI :‬מטען חומצות האמינו‪Typical Decoding Rate ,‬‬
‫)‪ (TDR‬ו‪.tAI-‬‬

‫בדיקת יעילות הפיצ'רים‬

‫לצורך הבדיקה האתרים חולקו ב‪ 4‬דרכים‪) :‬א( כל האתרים; )ב( לפי אורך ה‪) 3UTR-‬השליש‬
‫בעל ה‪ 3UTR-‬הארוך ביותר‪ ,‬השליש השני הכי ארוך והשליש הכי קצר(; )ג( לפי רמת הביטוי של‬
‫ה‪) mRNA-‬באופן דומה לחלוקה לפי אורך ה‪) ;(3UTR-‬ד( לפי קבוצות ‪ ,GO‬עבור כל קבוצה‬
‫בנפרד‪ .‬האתרים חולקו לפי שלוש הקטגוריות ל‪ 3-‬קבוצות מחולקות לפי אורך ‪ 3 ,UTR‬לפי רמת‬
‫הביטוי‪ ,‬ו‪ 21‬קבוצות ‪ .GO‬לצורך הבדיקה השתמשנו בשתי שיטות שונות‪ :‬שינוי בקורלציה ושיטת‬
‫‪ .random forest‬לכל קבוצה חישבנו את ה‪ 2^R-‬ע"י בדיקת הקורלציה בין הדיכוי המדוד לבין‬
‫הדיכוי החזוי ע"י המודל‪ .‬חישבנו גם את השינוי הממוצע בין קבוצות ה‪ ,GO-‬וחילקנו אותם לסט‬
‫בו הפיצ'רים החדשים הביאו לעלייה בקורלציה‪ ,‬וסט בו הם הביאו לירידה בה‪.‬‬

‫במחקר נבנו סטים של ‪ 1000‬עצים לכל קבוצה‪ ,‬ובהם חושב ציון החשיבות עבור כל הפיצ'רים‪.‬‬
‫השתמשנו בציונים אלו גם כדי לדרג את הפיצ'רים זה לעומת זה‪ ,‬מהציון הגבוה ביותר עד לציון‬

‫‪22‬‬
‫הנמוך ביותר‪ .‬נבדק גם כמה מן הפיצ'רים המבוססים על תרגום היו במיקום טוב מ‪) 30-‬מתוך‬
‫‪ 149‬פיצ'רים סה"כ(‪.‬‬

‫‪23‬‬
‫תוצאות‬
‫חיפוש אתרים‬
‫מודל הרגרסיה הלינארית לחישוב רמת הדיכוי של צמד ‪ miRNA‬ו‪ mRNA-‬הופעל פעמיים‪ ,‬פעם‬
‫ללא הפיצ'רים החדשים המבוססים על שלב התרגום וה‪ ,ORF-‬ופעם עם אותם הפיצ'רים‪ .‬לצורך‬
‫הפעלת מודל החיזוי חופשו רק אתרים קנוניים מסוגים ‪ 7mer-m8 ,8mer‬ו‪ .7mer-A1-‬החיפוש‬
‫נעשה ע"י חיפוש התאמת ווטסון‪-‬קריק בין כל הקודונים ב‪ mRNA-‬לאזור ה‪ seed-‬של ה‪-‬‬
‫‪ ,miRNA‬רצף של ‪ 5‬נוקלאוטידים הנמצאים בקצה ה‪ '5-‬של ה‪ ,miRNA-‬ועוד נוקלאוטידים‬
‫מותאמים אחרים הנובעים מסוג אתר הקשירה‪ .‬האתרים נלקחו מ‪ 7-‬סוגים של ‪ ,miRNA‬וחופשו‬
‫ב ‪ mRNA 4549‬שונים‪.‬‬

‫המודל מייצר טבלה בגודל ‪ 34730x158‬המחולקת לשתי הפעלות המודל‪ ,‬עם פיצ'רי ‪ORF‬‬
‫ובלעדיהם‪ .‬הטבלה כוללת את הקודון ההתחלתי של האתר‪ ,‬מיקום האתר בתוך ה‪ ,mRNA-‬סוג‬
‫האתר‪ ,‬שם ה‪ ,mRNA-‬שימוש בפיצ'רי ‪ ,ORF‬הדיכוי החזוי‪ ,‬הדיכוי המדוד ו‪ 149-‬פיצרים שונים‪,‬‬
‫מתוכם ‪ 19‬פיצ'רי ‪ .ORF‬המודל חוזה את רמת הדיכוי של ה‪ mRNA-‬ע"י חישוב השפעת‬
‫פיצ'רים שונים של הגן על רמת הדיכוי שלו ע"י ה‪ .miRNA-‬כל שורה בטבלה מייצגת אתר‬
‫קשירה של ‪ miRNA‬ל‪ mRNA-‬מסוים‪ .‬לכל ‪ mRNA‬יכול להיום יותר מאתר קשירה אחד‪ ,‬ולכן‬
‫רמות הדיכוי לכל ‪ mRNA‬בנויות מחיבור של כל רמות הדיכוי של האתרים השונים‪.‬‬
‫בנוסף‪ ,‬הדיכוי המדוד נתון כדיכוי של ‪ miRNA‬על ‪ ,mRNA‬ללא התייחסות להשפעת האתרים;‬
‫לכן יש להשוות דיכוי חזוי כולל לדיכוי מדוד כולל‪ .‬בין כל אחת מקבוצות החיזוי שיוצרו ע"י המודל‬
‫)עם‪/‬בלי פיצ'רי ‪ (ORF‬חושבה הקורלציה לסט דיכוי מדוד לכל האתרים‪.‬‬

‫השוואת הקורלציה‬
‫על מנת לבדוק את צורת שיפור חיזוי המודל‪ ,‬כלומר כדי לבדוק את שינוי השיפור בגנים עם‬
‫תכונות שונות‪ ,‬חושבה הקורלציה בין הדיכוי החזוי והדיכוי המדוד ב‪ 3‬חלוקות עפ"י תכונות‬
‫הגנים‪ :‬לפי אורך ה‪,3UTR-‬מחולק לשליש עליון‪ ,‬אמצעי ותחתון; לפי רמת הביטוי של ה‪,mRNA-‬‬
‫גם מחולקת לשלושה קבוצות; ובין שיוך הגנים לקבוצות ‪ .GO‬ה‪ 2^R-‬של הקבוצות חושב בעזרת‬
‫שיטת רגרסיה לינארית‪ .‬השיפור הממוצע בין קבוצות ה‪ GO-‬חושב גם‪ ,‬וחולק לקבוצה בה‬
‫הפיצ'רים החדשים שיפרו את הקורלציה‪ ,‬וקבוצה בה הם הקטינו אותה‪ .‬התוצאות שהתקבלו‬
‫מראות שהוספת פיצ'רי ‪ ORF‬יוצרת שיפור ניכר בדיוק המודל‪ ,‬אך קבוצות מסוימות של גנים‬
‫מושפעות הרבה יותר מאשר קבוצות אחרות‪.‬‬

‫‪24‬‬
‫‪0.2‬‬

‫‪0.18‬‬

‫‪0.16‬‬

‫‪0.14‬‬

‫‪0.12‬‬

‫‪0.1‬‬
‫‪R^2 with ORF‬‬
‫‪0.08‬‬
‫‪R^2 without ORF‬‬
‫‪0.06‬‬

‫‪0.04‬‬

‫‪0.02‬‬

‫‪0‬‬
‫‪R^2‬‬

‫גרף ‪ :1‬השוואה כללית של ה‪ R^2‬בין סט חיזוי הדיכוי‪ ,‬וסט הדיכוי הנמדד‪ ,‬בין שני הפעלות‬
‫המודל‬

‫בגרף ‪ 1‬מוצג שיפור קטן בין ה‪ 2^R-‬של הפעלת המודל ללא פיצ'רי ‪ ORF‬לסט הנמדד‪ ,‬לבין ה‪-‬‬
‫‪ 2^R‬של הפעלת המודל בעל הפיצ'רים החדשים‪ .‬קיימת עליה של כ‪ 2.97-‬אחוז‪ ,‬המשקפת‬
‫באופן ישיר שיפור בביצועי המודל עם פיצ'רים המבוססים על מקטע ה‪.ORF-‬‬

‫‪Sorted by Expression‬‬
‫‪0.25‬‬

‫‪0.2‬‬

‫‪0.15‬‬
‫‪R^2 without ORF‬‬
‫‪R^2 with ORF‬‬ ‫‪0.1‬‬

‫‪0.05‬‬

‫‪0‬‬
‫‪1st Highest‬‬ ‫‪2nd Highest‬‬ ‫‪3rd Highest‬‬

‫גרף ‪ :2‬השוואה בין ה‪ R^2‬של שני הפעלות המודל‪ ,‬מחולקות לפי רמת ביטוי ה‪.mRNA-‬‬

‫‪25‬‬
‫בגרף ‪ 2‬מוצג ה‪ 2^R-‬בין סט הדיכוי החזוי והסט הנמדד‪ ,‬המחולק לפי רמת הביטוי של הגן‪ .‬עבור‬
‫גנים בעלי רמת ביטוי גבוהה‪ ,‬הפיצ'רים החדשים מדרדרים את דיוק החיזוי בכ‪ 3.5-‬אחוז‪ ,‬אך‬
‫בשתי הקבוצות האחרות‪ ,‬ובמיוחד עבור גנים בעלי רמת ביטוי נמוכה‪ ,‬נראה שיפור של ‪2.4%‬‬
‫בשליש השני וכ‪ 7.1‬אחוז בשליש התחתון‪.‬‬

‫‪Sorted by UTR'3 Length‬‬


‫‪0.25‬‬

‫‪0.2‬‬

‫‪0.15‬‬
‫‪R^2 without ORF‬‬
‫‪R^2 with ORF‬‬
‫‪0.1‬‬

‫‪0.05‬‬

‫‪0‬‬
‫‪1st Highest‬‬ ‫‪2nd Highest‬‬ ‫‪3rd Highest‬‬

‫גרף ‪ :3‬השוואה בין ה‪ R^2‬של שני הפעלות המודל מחולקות לפי אורך קטע ה‪ 3UTR-‬של ה‪-‬‬
‫‪.mRNA‬‬

‫בגרף ‪ 3‬מוצג ה‪ 2^R-‬בין סט הדיכויים החזויים לבין הדיכוי הנמדד‪ ,‬המחולק לפי אורך ה‪.3UTR-‬‬
‫עבור גנים בעלי ‪ 3UTR‬ארוך‪ ,‬הפיצ'רים משפרים במעט את הביצוע‪ ,‬כ‪ 0.6‬אחוז יותר; אך בגנים‬
‫בעלי ‪ 3UTR‬קצר או ממוצע‪ ,‬השיפור זניח לגמרי‪ :‬כ‪ 0.02-‬ו ‪ 0.1‬אחוז בהתאמה‪.‬‬

‫‪26‬‬
‫‪Sorted by GO groups‬‬
‫‪0.23‬‬
‫‪0.22‬‬
‫‪0.21‬‬
‫‪0.2‬‬
‫‪0.19‬‬
‫‪0.18‬‬
‫‪0.17‬‬
‫‪0.16‬‬
‫‪0.15‬‬
‫‪0.14‬‬
‫‪0.13‬‬
‫‪0.12‬‬
‫‪0.11‬‬
‫‪R^2 with ORF‬‬ ‫‪0.1‬‬
‫‪R^2 without ORF‬‬ ‫‪0.09‬‬
‫‪0.08‬‬
‫‪0.07‬‬
‫‪0.06‬‬
‫‪0.05‬‬
‫‪0.04‬‬
‫‪0.03‬‬
‫‪0.02‬‬
‫‪0.01‬‬
‫‪0‬‬
‫‪Median‬‬
‫‪Mean‬‬
‫‪GO:0070062‬‬
‫‪GO:0046872‬‬
‫‪GO:0045944‬‬
‫‪GO:0016787‬‬
‫‪GO:0016740‬‬
‫‪GO:0016021‬‬
‫‪GO:0016020‬‬
‫‪GO:0005886‬‬
‫‪GO:0005829‬‬
‫‪GO:0005794‬‬
‫‪GO:0005783‬‬
‫‪GO:0005739‬‬
‫‪GO:0005737‬‬
‫‪GO:0005654‬‬
‫‪GO:0005634‬‬
‫‪GO:0005576‬‬
‫‪GO:0005524‬‬
‫‪GO:0005515‬‬
‫‪GO:0003723‬‬
‫‪GO:0003677‬‬
‫‪GO:0000166‬‬
‫גרף ‪:4‬השוואה בין ה‪ R^2-‬של שני הפעלות המודל‪ ,‬מחולקת לפי קבוצות ‪ ,GO‬כולל שיפור חציוני‬
‫ושיפור ממוצע‪.‬‬

‫בגרף ‪ 4‬ניתן לראות שה‪ 2^R-‬משתפר ב‪ 17-‬מקבוצות ה‪ ,GO-‬וקטן רק ב‪ 4-‬מהן‪ .‬בקבוצות עם‬
‫שיפור‪ ,‬השיפור הממוצע הוא כ‪ 0.55-‬אחוז‪ ,‬ובקבוצות בעלות הרעה‪ ,‬הוא כ‪ -0.07 -‬אחוז ‪.‬ה‪2^R-‬‬
‫הממוצע והחציוני משתפר גם‪ ,‬מה שמעיד על מגמה כללית של שיפור‪.‬‬
‫בדיקת חשיבות פיצ'רים בעזרת בנית ‪Random Forest‬‬
‫הפיצ'רים במודל מחולקים לארבעה קטגוריות שונות‪ :‬תרמודינמיים‪ ,‬המתייחסת לפיצ'רים‬
‫מבוססים על דרישות אנרגיה של תהליכים שונים; רצף‪ ,‬המבוססים על רצף הנוקלאוטידים ב‪-‬‬
‫‪ mRNA‬וב‪ ;miRNA-‬אבולוציוניים‪ ,‬המבוססים על רמת השימור הבין‪-‬מיני של גנים וסיכוי‬
‫להתפתחות אקראית; ופיצ'רי התרגום החדשים‪ ,‬המבוססים על חלקים שונים של שלב התרגום‬
‫היכולים להשפיע על פעילות ה‪ ,miRNA-‬כמו מהירות הריבוזום ושכיחות קודונים‪.‬‬

‫‪27‬‬
‫על מנת לבדוק לאילו פיצ'רים ההשפעה הגדולה ביותר על שיפור המודל על כל אחת מן‬
‫הקבוצות שהאתרים חולקו אליהן‪ ,‬הופעלה פונקציה של ‪ ,Random Forest‬עם ‪ 1000‬עצים‪.‬‬
‫‪ Random Forest‬היא שיטה סטטיסטית המבוססת על עצי החלטה‪ ,‬המשמשת כדי לחשב‬
‫קשר בין מספר משתנים ‪ -‬במקרה הזה פיצ'רים שונים ‪ -‬למשתנה אחד‪ ,‬שהוא רמת הדיכוי‪.‬‬
‫בשיטה זו ניתן לחשב את ההשפעה של כל משתנה על המשתנה המחושב‪ ,‬או "חשיבות‬
‫הפיצ'רים"‪ .‬פונקציית ‪ Random Forest‬הופעלה ב‪ MATLAB-‬על מנת למצוא את חשיבות‬
‫פיצ'רי ‪ ORF‬ולבדוק את חשיבותם בשיפור ביצועי המודל‪ .‬הממוצע של חשיבות פיצ'רי ‪ORF‬‬
‫הושווה לממוצע של שאר הפיצ'רים‪ .‬פיצ'רי ‪ ORF‬גם הושוו לפיצ'רים הידועים כטובים‪dg_open ,‬‬
‫)הנגישות התרמודינמית של אתר הקישור( ואורך ‪ .3'UTR‬לכל פיצ'ר גם ניתן מקום‪ ,‬לפי‬
‫החשיבות שלו‪ .‬חזרתי על בדיקה זו גם לפי החלוקות לפי תכונות הגן שהוזכרו לעיל )אורך הגן‪,‬‬
‫רמות ביטוי‪ ,‬קבוצות ‪.(GO‬‬

‫טבלה ‪ :1‬דירוגי פיצ'רי ‪ ,ORF‬מודגשים הדירוגים מעל ל‪.31-‬‬


‫‪cub_local_CAI_win‬‬
‫‪charge_score_win‬‬
‫‪TDR_score_win‬‬

‫‪slow_score_win‬‬

‫‪cub_global_win‬‬
‫‪TDR_score_orf‬‬

‫‪tAI_score_win‬‬

‫‪cub_local_win‬‬

‫‪Ranks of ORF features‬‬


‫‪23‬‬ ‫‪27‬‬ ‫‪39‬‬ ‫‪7‬‬ ‫‪70‬‬ ‫‪30‬‬ ‫‪42‬‬ ‫‪40‬‬ ‫‪from All‬‬
‫‪16‬‬ ‫‪26‬‬ ‫‪65‬‬ ‫‪49‬‬ ‫‪64‬‬ ‫‪56‬‬ ‫‪34‬‬ ‫‪68‬‬ ‫‪1st Highest UTR3 length‬‬
‫‪55‬‬ ‫‪7‬‬ ‫‪1‬‬ ‫‪6‬‬ ‫‪20‬‬ ‫‪4‬‬ ‫‪10‬‬ ‫‪19‬‬ ‫‪2nd Highest UTR3 length‬‬
‫‪15‬‬ ‫‪52‬‬ ‫‪45‬‬ ‫‪14‬‬ ‫‪33‬‬ ‫‪32‬‬ ‫‪38‬‬ ‫‪42‬‬ ‫‪3rd Highest UTR3 length‬‬
‫‪11‬‬ ‫‪28‬‬ ‫‪59‬‬ ‫‪55‬‬ ‫‪78‬‬ ‫‪44‬‬ ‫‪41‬‬ ‫‪72‬‬ ‫‪1st Highest Expression‬‬
‫‪62‬‬ ‫‪4‬‬ ‫‪1‬‬ ‫‪6‬‬ ‫‪25‬‬ ‫‪3‬‬ ‫‪10‬‬ ‫‪13‬‬ ‫‪2nd Highest Expression‬‬
‫‪19‬‬ ‫‪23‬‬ ‫‪34‬‬ ‫‪11‬‬ ‫‪42‬‬ ‫‪18‬‬ ‫‪28‬‬ ‫‪50‬‬ ‫‪3rd Highest Expression‬‬
‫‪5‬‬ ‫‪6‬‬ ‫‪2‬‬ ‫‪5‬‬ ‫‪2‬‬ ‫‪4‬‬ ‫‪3‬‬ ‫‪2‬‬ ‫‪Total above 30‬‬

‫בטבלה ‪ 1‬מוצגים ‪ 8‬מתוך ‪ 17‬פיצ'ריי ‪ ORF‬שהדירוג שלהם בלפחות אחת מהקבוצות היה גבוה‬
‫מ‪) 30-‬מתוך ‪ ,(148‬ומסומנים בירוק הציונים הגבוהים או שווים ל‪ .30-‬מתוכה אפשר לראות‬
‫שהפיצ'רים ‪ TDR_score_ORF, TDR_score_win,‬ו‪ charge_score_win-‬דורגו במקומות‬
‫גבוהים באופן עקבי‪ ,‬ב‪ 6-‬מתוך ‪ 7‬קבוצות )עבור פיצ'ר ה‪ (TDR-‬ו‪ -5‬מתוך ‪ 7‬קבוצות )עבור פיצ'ר‬
‫ה‪ .(charge-‬גם ניתן לראות שבקבוצות של אורך ה‪ 3UTR-‬השנייה‪ ,‬ורמת ביטוי השנייה‪7 ,‬‬

‫‪28‬‬
‫מתוך ‪ 8‬הפיצ'רים המוצגים דירגו מעל ‪ .30‬פיצ'רים המסתיימים ב‪ "ORF"-‬חושבו על כל ה‪-‬‬
‫‪ ,ORF‬כאשר פיצרים המסתיימים ב‪ "win"-‬חושבו על חלון סביב אתר הקשירה של ה‪.miRNA-‬‬
‫החשיבות הממוצעת של פיצ'רי ‪ ORF‬חושבה‪ ,‬ונמצא שהיא גבוהה בכ‪ 25%-‬מאשר החשיבות‬
‫הממוצעת של שאר הפיצ'רים‪ ,‬כלומר הם משפיעים הרבה יותר על יעילות המודל‪ ,‬דבר‬
‫המשתקף גם בטבלה ‪.1‬‬

‫‪0.7‬‬

‫‪0.6‬‬

‫‪0.5‬‬

‫‪0.4‬‬

‫‪ORF Features‬‬
‫‪0.3‬‬
‫‪dg_open‬‬
‫'‪'UTR3_len‬‬
‫‪0.2‬‬

‫‪0.1‬‬

‫‪0‬‬

‫גרף ‪ : 5‬השוואת חשיבות פיצ'רי ‪ ORF‬לחשיבות פיצרים מבוססים‪ :‬אורך ה‪ UTR3-‬והנגישות‬


‫התרמודינמית של אתר המטרה‪.‬‬

‫בגרף ‪ 5‬ניתן לראות שהפיצ'רים ‪ TDR_score_win,TDR_score_orf‬ו‪cub_local_CAI_win -‬‬


‫מתקרבים לחשיבות של ‪ ,dg_open‬אחד מהפיצ'רים הנחשבים לאפקטיביים ביותר‪ .‬אחד‬
‫מפיצ'רי ה‪ 'charge_score_win' ,ORF-‬אף עובר אותו בחשיבות וקרוב בחשיבותו לאורך ה‪-‬‬

‫‪29‬‬
‫‪ .UTR3‬זה מדגיש בבירור שפיצ'רי ‪ ORF‬משפעים ברמה גבוהה על הדיכוי‪ ,‬וגם את זאת שחלק‬
‫מהפיצ'רים המבוססים על ה‪ ORF-‬אפקטיביים בהשוואה לפיצ'רים שהודגמו ובוססו בעבר‪.‬‬
‫לסיכום‪ ,‬התוצאות מראות שהפיצ'רים החדשים שהוספו למודל אכן משפרים את הביצוע שלו‪ ,‬אך‬
‫ברמה קטנה יחסית‪ .‬השיפור הרבה יותר ניכר בחלוקות מסוימות של סט ה‪ ,mRNA-‬במיוחד‬
‫בדרגות הפיצ'רים בחילוק לשליש השני לפי אורך ‪ 3UTR‬וביטוי ‪ ,MRNA‬כפי שניתן לראות‬
‫בטבלה ‪ .1‬הפיצ'רים החדשים בעליי חשיבות‪ /‬השפעה גדולה על החיזוי עצמו יחסית לשאר‪ ,‬דבר‬
‫שחושב במתודת ‪.random forest‬‬

‫‪30‬‬
‫דיון‬
‫ההשערה הראשונית הייתה שדיוק החיזוי הכללי של המודל ישתפר בעקבות הוספת פיצ'רים‬
‫הקשורים לתרגום‪ ,‬והתוצאות אכן הצביעו על כך ‪ -‬אבל ברמה זניחה יותר משהיה מצופה‪ .‬כאשר‬
‫הגנים חולקו לקבוצות לפי פרמטרים פונקציונליים )כדוגמת רמת ביטוי ואורך ‪ ,(3’UTR‬השיפור‬
‫היה ניכר הרבה יותר בקבוצות מסוימות‪.‬‬
‫קיים שיפור גדול יותר ביעילות הפיצ'רים החדשים ככל שרמת הביטוי של הגן קטנה יותר‪.‬‬
‫הטענה המקובלת היא שריבוזומים העוברים על פני ה‪ ORF-‬גורמים לניתוק ‪ miRNA‬או מונעים‬
‫ממנו להיקשר מלכתחילה‪ .‬יתכן שעבור גנים בעלי רמות ביטוי גבוהות‪ ,‬שטף הריבוזומים על פני‬
‫ה‪ ORF‬גבוה ברמה כזאת שאתרי הקישור של ‪ miRNA‬ב‪ ORF-‬לא רלוונטיים כלל‪ ,‬ו‪miRNA-‬‬
‫נקשרים רק ל‪ .3’UTR-‬בגנים בעלי רמות ביטוי נמוכות יותר‪ ,‬ה‪ -ORF‬פנוי יותר לקשירת‬
‫‪miRNA‬ולכן לתרגום החלבונים יש השפעה גדולה יותר על דיכוי ה‪ ,miRNA-‬מכיוון שה‬
‫‪miRNA-‬יכול להיקשר כעת גם לאתרים ב‪ 3’UTR-‬וגם ב‪.ORF-‬‬
‫כאשר הגנים חולקו לפי אורך ‪ ,3’UTR‬המודל בעל פיצ'רי ה‪ ORF-‬עדיין היה מדויק יותר‪ ,‬אך‬
‫השיפור בו היה קטן עד כדי זניח‪ .‬בדומה לכך‪ ,‬כאשר הגנים חולקו לפי קבוצות ה‪ GO-‬שלהם‪,‬‬
‫ניכר שיפור קטן אך קיים ברוב הקבוצות‪ .‬הדבר מעיד על כך שהשפעת ה‪ ORF-‬בדיכוי גנים לא‬
‫משתנה באופן משמעותי בין פונקציות שונות שממלאים הגנים – כלומר השוני העיקרי בביצועי‬
‫המודל‪ ,‬בחלוקה לקבוצות‪ ,‬היה בחלוקה לפי רמות ביטוי‪ .‬המגמה בין הקבוצה בעלת רמות‬
‫הביטוי הגבוהות‪ ,‬לבין הקבוצה בעלת רמות ביטוי בינוניות ונמוכות‪ ,‬הייתה הפוכה‪ :‬הוספת פיצ'רי‬
‫‪ ORF‬גרעה מביצועי המודל עבור גנים בעלי רמות ביטוי גבוהות‪ ,‬ושיפרה אותם עבור הקבוצות‬
‫האחרות‪.‬‬
‫שיטת ה‪ Random forest-‬הופעלה על התוצאות כדי לחשב את חשיבות הפיצ'רים השונים‪ .‬הם‬
‫הושוו לחשיבות פיצ'רים הידועים כמשמעותיים‪ ,‬ודורגו לפי קבוצות‪ .‬בתוצאות ניתן לראות‬
‫שפיצ'רי ה‪ ORF-‬מדורגים במקומות גבוהים בחלוקות השונות‪ ,‬וחלק מהם אף מקבלים מקומות‬
‫ראשונים בחלוקות מסוימות של האתרים‪ .‬מפתיעה במיוחד היא העובדה שדירוגי הפיצ'רים‬
‫בקבוצות ה‪) 2nd highest-‬הן עבור רמות ביטוי והן עבור אורך ‪ (3’UTR‬גבוהים יותר מהדירוגים‬
‫בקבוצות ‪ ;3rd highest‬כלומר במקום לראות מגמה מונוטונית של הפיצ'רים‪ ,‬הם תורמים לדיוק‬
‫המודל דווקא עבור גנים אורך ‪ 3’UTR‬ורמת ביטוי ממוצעים‪ .‬יתכן כי עבור ‪ 3‘UTR‬קצר מדי‪ ,‬או‬
‫כמות קטנה מדי של ריבוזומים העוברת על פני ה‪) ORF-‬פרמטר המיוצג ע"י רמת ביטוי(‪,‬‬
‫השפעת התרגום על ה‪ 3‘UTR-‬הופכת למשנית ופחות משמעותית‪ .‬כלומר שני הפרמטרים‬
‫צריכים להיות גבוהים מספיק כדי לאפשר השפעה משמעותית של שלב התרגום על ה‪,3‘UTR-‬‬
‫אך כאשר אחד מהם גבוה מדי – אזור ה‪ 3’UTR-‬הופך שוב לדומיננטי והשפעת ה‪ ORF-‬עליו‬
‫זניחה‪ .‬זה הוא דבר שניתן לבדוק במחקרים עתידיים‪.‬‬

‫‪31‬‬
‫לסיכום‪ ,‬ניתן לראות שהתייחסות ל‪ ORF-‬אכן משפרת את ביצועי המודל‪ ,‬אבל ככל שהגן מבוטא‬
‫יותר‪ ,‬ונמצאים עליו יותר ריבוזומים הגורמים לניתוקים של ‪ miRNA‬מאתרי קשירה – ה‪ORF-‬‬
‫פחות רלוונטי למודל‪ ,‬ורמת הדיוק שלו יורדת‪ .‬מסקנה זאת מחזקת את ההשערה לפיה‬
‫ריבוזומים משפיעים על פעולת ה‪ miRNA-‬בכך שהם מנתקים אותם מה‪ ,mRNA-‬ומאד‬
‫שימושית לשיפור חישוב רמת דיכוי של גנים בעלי רמת ביטוי נמוכה ובינונית‪ ,‬וכן להבנה של‬
‫דקויות מנגנון זה‪.‬‬

‫‪32‬‬
‫ביבליוגרפיה‬

1. Bartel, D. P. (2018). Metazoan MicroRNAs. In Cell (Vol. 173, Issue 1, pp.


20–51). Cell Press. https://doi.org/10.1016/j.cell.2018.03.006
2. Bartel, D. P. (2009). MicroRNAs: Target Recognition and Regulatory
Functions. In Cell (Vol. 136, Issue 2, pp. 215–233).
https://doi.org/10.1016/j.cell.2009.01.002
3. Lewis, B. P., Burge, C. B., & Bartel, D. P. (2005). Conserved seed pairing,
often flanked by adenosines, indicates that thousands of human genes are
microRNA targets. In Cell (Vol. 120, Issue 1, pp. 15–20). Cell Press.
https://doi.org/10.1016/j.cell.2004.12.035
4. Vejnar, C. E., & Zdobnov, E. M. (2012). MiRmap: Comprehensive
prediction of microRNA target repression strength. Nucleic Acids
Research, 40(22), 11673–11683. https://doi.org/10.1093/nar/gks901
5. Agarwal, V., Bell, G. W., Nam, J. W., & Bartel, D. P. (2015). Predicting
effective microRNA target sites in mammalian mRNAs. ELife,
4(AUGUST2015). https://doi.org/10.7554/eLife.05005
6. Alberts, B., Johnson, A., Lewis, J., Raff, M., Roberts, K., & Walter, P.
(2002). Molecular biology of the cell. New York: Garland Science.

7. Sabi, R., & Tuller, T. (2015). A comparative genomics study on the effect
of individual amino acids on ribosome stalling. BMC Genomics, 16, 1–12.
https://doi.org/10.1186/1471-2164-16-S10-S5
8. Mitra, S., Ray, S. K., & Banerjee, R. (2016). Synonymous codons
influencing gene expression in organisms. Research and Reports in
Biochemistry, Volume 6, 57–65. https://doi.org/10.2147/RRBC.S83483
9. dos Reis, M., Savva, R., & Wernisch, L. (2004). Solving the riddle of
codon usage preferences: A test for translational selection. Nucleic Acids
Research, 32(17), 5036–5044. https://doi.org/10.1093/nar/gkh834
10. Bergman, S., & Tuller, T. (2020). Widespread non-modular overlapping
codes in the coding regions. In Physical Biology (Vol. 17, Issue 3, p.
031002). Institute of Physics Publishing. https://doi.org/10.1088/1478-
3975/ab7083

33
11. 0-Stadler, M., & Fire, A. (2011). Wobble base-pairing slows in vivo
translation elongation in metazoans. RNA, 17(12), 2063–2073.
https://doi.org/10.1261/rna.02890211
12. Vishnoi, A., & Rani, S. (2017). MiRNA biogenesis and regulation of
diseases: An overview. In Methods in Molecular Biology (Vol. 1509, pp. 1–
10). Humana Press Inc. https://doi.org/10.1007/978-1-4939-6524-3_1
13. Gregory, R. I., Chendrimada, T. P., Cooch, N., & Shiekhattar, R. (2005).
Human RISC couples microRNA biogenesis and posttranscriptional gene
silencing. Cell, 123(4), 631–640. https://doi.org/10.1016/j.cell.2005.10.022
14. Gu, S., Jin, L., Zhang, F., Sarnow, P., & Kay, M. A. (2009). Biological
basis for restriction of microRNA targets to the 3′ untranslated region in
mammalian mRNAs. Nature Structural and Molecular Biology, 16(2), 144–
150. https://doi.org/10.1038/nsmb.1552
15. Grimson, A., Farh, K. K. H., Johnston, W. K., Garrett-Engele, P., Lim, L.
P., & Bartel, D. P. (2007). MicroRNA Targeting Specificity in Mammals:
Determinants beyond Seed Pairing. Molecular Cell, 27(1), 91–105.
https://doi.org/10.1016/j.molcel.2007.06.017
16. Bergman, S., Diament, A., & Tuller, T. (2020). New computational model
for miRNA-mediated repression reveals novel regulatory roles of miRNA
bindings inside the coding region. Bioinformatics.
https://doi.org/10.1093/bioinformatics/btaa1021
17. Weisberg, S. (2005). Applied linear regression (Vol. 528). John Wiley &
Sons.
18. Benesty, J., Chen, J., Huang, Y., & Cohen, I. (2009). Pearson correlation
coefficient. In Noise reduction in speech processing (pp. 1-4). Springer,
Berlin, Heidelberg.
19. Song, Y. Y., & Ying, L. U. (2015). Decision tree methods: applications for
classification and prediction. Shanghai archives of psychiatry, 27(2), 130.
20. Biau, G., & Scornet, E. (2016). A random forest guided tour. Test, 25(2),
197-227.

34

You might also like