استخدام نماذج ماركوف المخفية في البحث
عن الجينات ضمن تسلسلت DNA
مقدمة
إقتراح موضوع إطروحة لنيل شهادة الماجستير من جامعة حلب كلية
الهندسة الكهربائية واللكترونية قسم الحاسبات للطالب خالد الشمعة
بالتعاون مع المركز الدولي للبحوث الزراعية في المناطق الجافة .ICARDA
عنوان الطروحة:
استخدام نماذج ماركوف المخفية في البحث عن الجينات ضمن تسلسلت DNA
Using Hidden Markov Models to finding gene in DNA sequences
الشراف للدكتور عامر بوشي من جامعة حلب كلية الهندسة الكهربائية
واللكترونية قسم الحاسبات ،والدكتور Murari Singhمن المركز الدولي
للبحوث الزراعية في المناطق الجافة .ICARDA
هدف البحث
يهدف هذا البحث إلى تطوير برمجية بلغة Perlقادرة على قراءة كتل بيانات
تسلسلت DNAالنصية الخام والمخزنة وفق التنسيقات المعيارية المخصصة
لهذا النوع من البيانات ،ومن ثم البحث ضمنها عن القطع التي تمثل الجينات
الوظيفية للكائن الحي وذلك من بين ركام المليين من الحرف الصماء،
باستخدام نماذج ماركوف المخفية.
سنتطرق في هذا العرض التقديمي إلى النقاط التالية:
توطئة بيولوجية (إحيائية).
شرح المسألة المراد حلها.
الطرائق والدوات التي سيتم استخدامها.
توطئة بيولوجية (إحيائية)
الحمض الريبي النووي المنقوص الكسجين DNA
يتألف الحمض الريبي النووي المنقوص الكسجين
الدنا DNAمن أربع قواعد كيميائية أو لبنات يرمز لها
بالختصارات ( ،)A, T, C, Gوهي أشبه ما تكون
بشيفرة رباعية تتضمن المجموعة الكاملة من
التعليمات اللزمة لبناء الكائن الحي.
يبنى شريط الدنا DNAمن شفعين مجدولين مؤلفين
من تلك اللبنات بحيث تتقابل فيه كل Aفقط مع T
وكل Cفقط مع ،Gحيث يتوزع هذا الشريط
المجدول على عدة بنى مستقلة تدعى الصبغيات
وتتوضع في نواة كل خلية (للنسان 23صبغي).
يختلف طول شريط الدنا DNAالجمالي من كائن
إلى آخر ،ويبلغ طوله في النسان 3.2بليون قاعدة.
الجينات Genes
يطلق اسم الجين على الجزء الوظيفي من
تسلسل الدنا DNAوالذي يتضمن تعليمات
تستخدم في بناء بروتين معين ذي وظيفة محددة
(عدد الجينات في النسان هو 25000جين
تقريبا).
ل تشكل المناطق التي تقوم بترميز الجينات ضمن
الصبغيات سوى نسبة ضئيلة من الطول الجمالي
لسلسلة الدنا DNA )3%في حالة البشر).
تتبعثر الجينات ضمن الصبغيات على امتداد جزيء
الدنا ،DNAفيما لم يتم التعرف على وظيفة ما
تبقى من شريط الدنا DNAبشكل علمي حتى
الن.
الحماض المينية Amino Acids
تستخدم الكائنات الحية 20حمضا أمينيا
مختلفا كأحجار بناء للف البروتينات
الموجودة في أجسادها.
تختلف هذه الحموض المينية بأشكالها
وأحجامها وصفاتها الكيميائية مثل محبتها
أو كراهيتها للماء.
تنشأ فيما بين قواعد الحموض المينية
رابطة تدعى بالرابطة الببتيدية وذلك حين
اقتراب قواعد تلك الحموض المينية من
بعضها البعض بشكل كاف ،مما يساعد
في بناء سلسل طويلة منها ذات هيكل
قوي ومرن في ذات الن.
الرحلة من الجين إلى البروتين ()1
لتحويل شيفرات الجينات الموجودة في جزيء الدنا DNA
ضمن الصبغيات إلى بروتينات فاعلة يتم استخدام وسيط
هو الرنا المرسال .mRNA
يقوم الرنا المرسال mRNAبنسخ شيفرة الجين المطلوب
وذلك من خلل إنشاء متمم لسلسلة الدنا .DNA
ضمن جزيء الرنا RNAيتم بشكل عام استبدال القاعدة
الكيميائية Tبالقاعدة الكيميائية Uالمكافئة من حيث
الوظيفة في تشافعها مع القاعدة الكيميائية .A
يتاح لجزيئات الرنا المرسال mRNAمغادرة نواة الخلية
إلى جسمها لتتم عملية تصنيع البروتينات هنالك.
الرحلة من الجين إلى البروتين ()2
للكائنات الحية نظام تشفير ترمز فيه كل ثلثة
قواعد متتالية إلى أحد الحموض المينية.
من المعلوم أننا نستطيع إنشاء 64تشكيل ممكن
لثلثيات مبنية من أربعة قواعد مختلفة ،في حين
أن لدينا 20حمضا أمينيا فقط بالضافة إلى رمزي
البدء والنهاية ،مما يعني أن لبعض الحماض
المينية أكثر من ترميز.
لقد أثبتت الدراسات العلمية اللحقة أن آلية
التشفير هذه بديعة من حيث قدرتها على تحمل
الخطاء والطفرات بحيث نحصل في النهاية على
بروتين سوي من حيث الوظيفة.
الرحلة من الجين إلى البروتين ()3
تتم عملية بناء البروتينات الفعلية ضمن
الريبوزوم ،وهو جسيم من مكونات الخلية
يرتبط مع سلسل رنا المرسال mRNA
الخارجة من نواة الخلية ،ليقوم بتفسير
شيفراتها إلى سلسل الحماض المينية.
تستعين هذه العملية بجزيء رنا الناقل
tRNAوالذي يمتلك من جهة مفتاحا ذي
ثلث قواعد ،ويرتبط من الجهة الخرى
بالحمض الميني الموافق لذلك المفتاح.
يسمح وجود الحماض المينية قرب بعضها
في الريبوزوم بتشكيل الرابطة الببتيدية
ومن ثم تحرر الرنا الناقل .tRNA
آلية ربط الحماض المينية في الريبوزوم Rebosome
ريبوزوم
أحماض أمينية تشكل
سلسلة ببتيدية
Met His Tyr Val Pro
’3
رنا الناقل
الرمز المتمم AUG CAU GGA
UAC GUA CCU
’5
شريط رنا المرسال
الرمز
تشكيل البروتينات Proteins
مع نمو سلسلة الحماض المينية تبدأ بنية
البروتين الثلثية البعاد بالتشكل ،وذلك تبعا
للخصائص الكيميائية والحيزية للحماض
المينية وتسلسلها.
إن بنية البروتين الثلثية البعاد هي التي
تحدد وظيفته ،وحين تحدث طفرة تغير أحد
تلك الحماض المينية فإن وظيفة البروتين
ذاته قد تتأثر.
يعتبر مرض فقر الدم المنجلي مثال على
ذلك ،حيث يؤدي تغير قاعدة وحيدة ضمن
رنا المرسال mRNAإلى تكوين بروتين
خضاب دم مشوه وعاجز عن حمل
الكسجين بكفاءة.
شرح المسألة المراد حلها
شكل وطبيعة بيانات الدخل
تقدم بيانات الدخل على
شكل ملفات نصية
تتضمن سيل طويل من
تسلسلت الحرف A,
T, C, Gالناتجة عن
سلسلة جزيء الدنا
DNAالمدروس ،وقد
تتضمن تلك الملفات
بعض الترويسات التي
تتضمن معلومات
إضافية ،كالرقم
المعرف ومصدر
المعلومات.
مسألة تحديد المقاطع التي تتضمن الجينات
تعتبر هذه المهمة تحديا ً صعبا ً بحد ذاته ،إذ تفشل معظم أساليب البحث
المعتادة والتي صممت لمعالجة النصوص في مثل تلك المهمة وذلك نظراً
لن تفسير تسلسلت أحرف DNAهو عملية أقل صرامة مقارنة باللغة
المكتوبة ،فليس من النادر أن يكون لدينا على سبيل المثال تسلسلين
متكافئين تماما ً من حيث الوظيفة لكنهما ل يتطابقان في أكثر من %30من
أحرفهما.
هذا عدى عن حقيقة عدم وجود نقطة علم تحدد المكان الذي تبدأ منه قراءة
الثلثيات التي ترمز إلى الحماض المينية ،مما يعطينا ثلثة قراءات محتملة
لذات السلسلة ،وإن تذكرنا أن هنالك سلسلة متممة يمكن لها أن تكون هي
بدورها تحمل ترميزا للجينات ،فنصل بالجمال إلى 6قراءات محتملة.
الطرائق والدوات التي سيتم استخدامها
نماذج ماركوف المخفية HMM
تنتمي نماذج ماركوف إلى مجموعة النماذج
الحصائية ،ففي نماذج ماركوف العتيادية تكون
الحالت مرئية بشكل مباشرة ،ولذا تكون احتمالت
النتقال من حالة إلى أخرى هي كل ما نحتاج إلى
معرفته لتحديد النموذج.
في نماذج ماركوف المخفية ل يمكننا الطلع على
الحالت بشكل مباشر ،لكن عوضا عن ذلك تكون
لدينا مجموعة من إشارات الخرج مع احتمال توليد
كل إشارة خرج من مختلف حالت النموذج.
عادة ما تتوفر لدينا احتمالت النتقال والخرج
بالضافة إلى سلسلة إشارات الخرج الملحظة،
فيما يكمن التحدي في تخمين سلسلة الحالت
التي أدت إلى ذلك السلوك.
مثال توضيحي
بفرض أن لديك صديقة تقطن في مكان بعيد وتتواصل معها من خلل الهاتف ،ولتكن هذه
الصديقة مهتمة بثلثة أنشطة فقط هي التنزه والتسوق والتنظيف ،بحيث أن اختيارها لما ستقوم
به من نشاط في يوم ما يتعلق بشكل حصري بحالة الطقس في ذلك اليوم.
بطبيعة الحال لن تكون لديك معرفة مباشرة بحالة الطقس حيث تقطن صديقتك ،لكن لديك
تلميحات يمكنك الستفادة منها ،وهي ما تخبرك به صديقتك عما تقوم به من نشاط حينما تتصل
بها ،ومن خلل هذه المعلومة ستحاول تخمين حالة الطقس لديها
0.4 الحالة البتدائية
0.6
0.4
0.6 0.7
مشمس ماطر
0.3
0.1 0.3 0.6 0.5 0.4 0.1
تسوق تنظيف تنزه تنزه
تسوق تنظيف
مجالت تطبيق نماذج ماركوف المخفية HMM
التعرف على الكلم المنطوق.
التعرف على حركات الجسد وإيماءاته.
التعرف الضوئي على النصوص.
الترجمة اللية.
المعلوماتية الحيوية Bioinformaticsمن قبيل التنبؤ بمناطق
ترميز البروتينات (بمعنى آخر الجينات )Genesضمن تسلسلت
الدنا .DNA
لغة Perl
أطلقت هذه اللغة لول مرة عام 1987من قبل
،Larry Wallوهي لغة برمجية عامة الغراض
صممت في الساس لمعالجة النصوص ،لكن
استخدامها انتشر لحقا ليشمل طيفا واسعا من
المهام منها إدارة النظمة ،وبرمجة تطبيقات
الويب.
تميل لغة Perlإلى كونها لغة عملية (بمعنى أنها
سهلة الستخدام وفعالة ومتكاملة) ،كما تتميز
بدعمها لكل نمطي البرمجة الجرائية والموجهة
بالكائنات.
تحظى لغة Perlبكم كبير من المكتبات المطورة
من قبل طرف ثالث في خدمة أهداف ومهام
خاصة.
مشروع BioPerl
لقد تم إطلق مشروع BioPerlمن أجل تطوير
مجموعة من المكتبات الغرضية التوجه
والمكتوبة باستخدام لغة Perlوذلك بهدف
تسهيل التعامل مع البيانات البيولوجية
(الحيائية) ومعالجتها.
تقدم مكتبات هذا المشروع بيئة عمل موسعة
ومنسقة لجراء عمليات الحوسبة البيولوجية
(الحيائية) ،حيث تتضمن العديد من الدوات
التي يمكن إعادة استخدامها من أجل تطوير
تطبيقات متنوعة في هذا الحقل من العلوم.
لغة الحوسبة الحصائية R
تعتبر لغة Rالمفتوحة المصدر عبارة عن لغة وبيئة
برمجية تخدم عمليات الحوسبة الرياضية الحصائية
وما يتعلق بها من المخططات البيانية ،وقد طورت
لول مرة في جامعة أوكلند Aucklandبنيوزيلندا.
تعتبر لغة Rلغة واسعة النتشار في تطوير
التطبيقات الحصائية وتحليل البيانات ،كما أصبحت
لغة معيارية يتم تدريسها في العديد من جامعات
العالم لهذه الغاية.
تتميز لغة Rبقوة إمكانياتها الرسومية التي
تستطيع من خللها توليد مخططات بيانية عالية
الدقة.
راجياً أن تحظى فكرة هذه
الطروحة على رضاكم ،وشكراً