You are on page 1of 5

Gene Identification with Artemis 1

ตรวจเอกลักษณ์ยีนโดยใช้โปรแกรมอาร์ทีมิส
Gene Identification with Artemis

สมชาย แสงอำานาจเดช
21 เมษายน 2553

แบบฝึกหัดที่ 1 การหาบริเวณในยีโนมทีอ
่ าจเป็ นยีน

1. เปิ ดโปรแกรมอาร์ทีมิส
2. เปิ ดไฟล์ TB.fasta ซึ่งเป็ นยีโนมของ Mycobacterium tuberculosis

3. โดยวิธีการหาบริเวณท่ีอ่านรหัสได้ตลอด (ORF) วิธน ี ้ีเป็ นวิธีท่ร


ี วดเร็ว
1. ท่เี มนู Create เลือก Mark Open Reading Frames ...
2. ในกล่อง ORF options พิมพ์ 100 สำาหรับค่าขนาดของ ORF
3. จะปรากฏรายการใหม่เรียกว่า ORF 100+ ให้เปิ ด
4. ไปท่ี Select และเลือก All
5. จากน้ันไปท่ี edit แล้วเลือก Trim Selected Features to Any ท่จ ี ะเหลือรายการท่ีมี ORF ท่ี
เริ่มด้วย start codon ของแบคทีเรีย

4. โดยการวิเคราะห์กราฟองค์ประกอบเบส
1. ไปท่เี มนู Graph แล้วเลือก GC frame plot จะได้กราฟ G+C ในแต่ละเฟรมการอ่านรหัส
2. ไปท่เี มนู Graph แล้วเลือก Choosing G+C จะได้กราฟปริมาณ G+C ตลอดยีโนม
3. ปรับขนาดหน้าต่างแสดงกราฟให้เหมาะสม โดยเล่ ือนท่ีแถบสไลด์ด้านข้างของหน้าต่าง
4. เปรียบเทียบกราฟข้อ 1 และ 2 เพ่ ือทำานายบริเวณท่เี ป็ นยีน
5. วิเคราะห์การใช้โคดอน (codon usage) สิง ่ มีชีวิตส่วนมากใช้ชอบใช้โคดอนสำาหรับเก็บ
รหัสโปรตีนท่แ ี ตกต่างกัน ความถ่แี ละจำานวนการใช้คอนดอนถูกรวบรวมในตาราง
(codon usage tables) สามารถนำามาทำานายส่วนของยีโนมท่ีเก็บรหัสได้โดยใช้ codon
usage plot
1. ไปท่เี มนู Graph แล้วเลือก Add usage plots
2. เลือกไฟล์ TB_cu ในโฟลเดอร์ท่ีกำาลังใช้งานอยู่
3. จะได้หน้าต่างกราฟสองหน้าต่าง คือ Forward codon usage plot และ Reverse codon
usage plot
4. ปรับแถบเล่ ือนด้านข้างหน้าต่างเพ่ ือปรับความเหมาะสมของกราฟ
5. ตรวจดูว่า CDSs ใดบ้างท่ีสอดคล้องกับการใช้โคดอนและให้ลบท่เี ห็นว่าไม่สอดคล้อง
อย่างชัดเจนออกไป
6. อาจลองใช้กราฟชนิดอ่ ืนเพ่ ือทำานาย (รายละเอียดสำาหรับกราฟชนิดอ่ ืนอยู่ในคู่มืออาร์ที
มิส)

5. โดยการใช้ข้อมูลโฮโมโลจี คือการใช้ผลการค้นจาก BLAST


ในท่น
ี ้ีได้ทำาการค้น BLAST โดยใช้ M. tuberculosis DNA sequence ในฐานข้อมูลโปรตีน
UniProt non-redundant protein database ไว้ก่อนแล้ว ได้ไฟล์ TB_v_swall.blastx
1. ไปท่เี มนู File เลือก Read an entry แล้วเลือก TB_v_swall.blastx
2. ให้ตรวจดูว่ามียีนใดบน รายการ ORFS_100+ ท่ีสร้างไว้ก่อนหน้าน้ีท่ีไม่น่าจะใช่ยีนและ
Gene Identification with Artemis 2

ควรลบทิ้ง
3. ให้ใช้โปรแกรมในการค้น FASTA สำาหรับ ORF sequences ท่ีหลงเหลืออยู่โดยใช้เมนู Run
แล้วใช้ผลเพ่ ือหาส่วนท่เี ป็ นยีนแท้จริง จากน้ันลบท่ีไม่ใช่ออก (หมายเหตุ CDSs ของ
แบคทีเรียน้อยมากท่ีจะล้ำกันมากกว่า 3-5 โคดอน)
4. ตรวจดูการทำานายท่ไี ด้กับรายการ TB.tab จาก Sanger annotations

6. โดยใช้โปรแกรมค้นหายีนอัตโนมัติ (Gene finding software) ช่ ือ Glimmer และ Orpheus แล้ว


อ่านผลด้วยโปรแกรมอาร์ทีมิส ในแบบฝึ กหัดน้ีได้ใช้โปรแกรมดังกล่าวและได้ไฟล์ช่ือ
TB_orpheus.tab และ TB_glimmer.tab
1. ไปท่เี มนู File แล้วเลือก Read an entry
2. เลือกอ่านไฟล์ TB_orpheus.tab และ TB_glimmer.tab
3. คลิกขวาบนเส้น frame lines เม่ ือรายการปรากฏให้เลือก One line per entry
4. ให้เปรียบเทียบการทำานายท่ีไม่ตรงกันร่วมกับการใช้ข้อมูลจากกราฟ แล้วลบยีนท่ีไม่ใช่
ยีนท่ีแท้จริงออกจากรายการ ORFS_100+ ท่สี ร้างไว้ก่อนหน้าน้ี โดยการคลิกซ้ายแล้วกด
delete

7. การทำานายยีนในเช้ ือวัณโรคข้างต้นค่อนข้างง่ายแต่ใช้เวลามาก หลังจากท่ท ี ำานายหลายๆ


CDSs แล้วให้ลองใช้วิธเี ดียวกันน้ีกับ M. leprae ซึ่งการทำานายยีนจะยากมากกว่า โดยใช้ไฟล์
LEPRAE.fasta, LEPRAE_glimmer.tab, LEPRAE_orpheus.tab และใช้ไฟล์ท่ีได้จากการค้น
BLASTX ของโปรตีนใน M. leprae ต่อฐานข้อมูลโปรตีนของ M. tuberculosis (เช้ ือ M. leprae
มีวิวัฒนาการท่เี กิด pseudogene และมีชิ้นของยีนท่แ ี ตกย่อยจากยีนขนาดใหญ่ของเช้ ือท่ีมี
พันธุกรรมใกล้เคียงคือ M. tuberculosis)

แบบฝึกหัดที่ 2 การทำานายยีนของยูคารีโอตส์

1. เปิ ดโปรแกรมอาร์ทีมิส แล้วอ่านไฟล์ malaria.dna และ malaria.tab ในโมดูล 2 จะได้ดังภาพท่ี


1 ซึ่งเป็ นบริเวณของยีโนมของ P. falciparum ความยาว 24 kb
2. ในไฟล์ข้อมูลของ CDSs มี 2 บริเวณท่ีมี exon หลาย exon ซึ่ง CDS อันหนึ่งยังมีข้อมูลไม่
สมบูรณ์และอาจมีเอ็กซอนไม่ครบ ให้ลองใช้แบบจำาลองยีนและกราฟ G+C ในการทำานาย
ยีนดังกล่าว ปริมาณ G+C เป็ นดัชนีบง ่ ช้ีท่ด
ี ีสำาหรับบริเวณเก็บรหัสในเช้ ือมาลาเรีย โดย
เฉล่ย ี บริเวณเก็บรหัสจะมีประมาณ 23% G+C และบริเวณไม่เก็บรหัสจะประมาณ 19% G+C
3. ให้คลิกซ้ายบนหน้าต่างกราฟ แล้วคลิกบนเอ็กซอนแล้วสังเกตว่าบริเวณเอ็กซอนดังกล่าว
กับปริมาณ G+C สัมพันธ์กันอย่างไร
4. ไปท่ีหน้าต่างเริ่มโปรแกรม (start-up window) ให้เปิ ด enable direct editing ใน options
5. ให้เปรียบเทียบ CDS กับลำาดับในฐานข้อมูลโดยการค้น fasta search ทำาโดยคลิกซ้ายท่ี CDS
แล้วเปิ ดรายการ Run จากน้ันคลิก fasta process completed
6. การดูผลจากการค้นให้ไปท่ีรายการ View เลือก Search Results แล้วเลือก fasta results จะได้
ผลแสดงในหน้าต่าง (หรืออาจดูผลโดยใช้บราว์เซอร์)
7. เม่ ือดูจากโปรตีนท่ีได้จากการค้นฐานข้อมูลและปริมาณ G+C แล้ว เป็ นไปได้หรือไม่ว่าน่าจะ
ยังขาดหายไปอีกหนึ่งเอ็กซอน ให้หาบริเวณคร่าวๆของเอ็กซอนน้ัน
8. วิธีการเพิม ่ เอ็กซอนลงในโครงสร้างยีนเดิม
1. สร้างเอ็กซอนใหม่
เลือกบริเวณท่คี ิดว่าจะสร้างเป็ นเอ็กซอนใหม่โดยกดป่ ุมซ้ายของเม้าส์พร้อมกับลาก
บริเวณดังกล่าว จากน้ันไปท่ีรายการ Create แล้วเลือก Create feature from base range จะ
ปรากฏลักษณะท่ีบอกว่าเป็ น CDS (สีฟ้า) ขึ้นบน
Gene Identification with Artemis 3

2. เพิ่มเอ็กซอนท่ส ี ร้างขึ้นบนโครงสร้างยีน
เลือกบริเวณแบบจำาลองยีนเดิมและส่วนของ CDS feature ใหม่ โดยการกดป่ ุม Shift บน
คีย์บอร์ดค้างไว้แล้วคลิกบน feature ท่ีต้องการ จากน้ันไปท่ร ี ายการ Edit แล้วไปท่ี
Selected Feature(s) แล้วจึงเลือก Merge จะปรากฏกล่องข้อความถามย้ำความม่ันใจให้
ตอบ yes แล้วจะมีอีกกล่องข้อความถามว่าจะให้ลบแบบเดิมหรือไม่ (delete old features)
ถ้าตอบใช่แบบจำาลองยีนเดิมและเอ็กซอนจะรวมกันและลบแบบเดิมออกไป ถ้าตอบไม่
แบบเดิมจะคงอยู่พร้อมกับแบบจำาลองยีนใหม่
3. ตกแต่งเพิ่มเติมตำาแหน่งเริ่มและสิ้นสุด feature ได้โดย ดับเบิ้ลคลิกท่เี อ็กซอนท่ีต้องการ
แก้ไขเพิ่มเติมด้วยตนเอง จะปรากฏแถบแดงบนอีกหน้าต่างหนึ่งให้กดป่ ุมซ้ายของเม้าส์
บนตำาแหน่งเริม ่ ของแถบค้างไว้แล้วลากไปตรงตำาแหน่งเริ่มใหม่ท่ีต้องการจึงปล่อย จะ
พบว่าเอ็กซอนน้ันได้เปล่ียนไปยังตำาแหน่งใหม่ตามต้องการ ในการแก้ไขควรตรวจดู
ข้อมูล splice donor sites และ acceptor sites ด้วย เม่ ือเสร็จแล้วทำาการค้นกับฐานข้อมูลอีก
เพ่ ือดูว่าจะมีเอ็กซอนเพิ่มเติมอีกหรือไม่ ถ้ามีให้ทำาต่อจนได้แบบจำาลองยีนท่ส ี มบูรณ์

ภาพท่ี 1 แสดง CDSs ในส่วนหนึ่งของยีโนม P. falciparum

แบบฝึกหัดที่ 3 การใช้ข้อมูลจากการค้น BLAST ช่วยในการค้นหายีน

แบบฝึ กหัดน้ีแสดงให้เห็นว่าในระหว่างการศึกษายีโนมของมาลาเรียมีการใช้โปรแกรม Phat


ช่วยค้นหายีน ซึ่งอัลกอริธึมดังกล่าวแม้ว่าช่วยทำาให้การค้นหายีนรวดเร็วมากยิ่งขึ้น แต่ผลท่ไี ด้
Gene Identification with Artemis 4

จำานวนไม่น้อยท่ย
ี ังไม่ถูกต้องและต้องนำามาแก้ไข การแก้ไขจะใช้ข้อมูลจากการค้นความคล้ายกัน
ของโปรตีนในฐานข้อมูล Uniprot Database

1. เปิ ดโปรแกรมอาร์ทีมิส
2. เปิ ดไฟล์ Pf.fasta ในโมดูล Module_2_Gene_Prediction
3. อ่านไฟล์การทำานายยีนช่ ือ Pf_Phat.tab
4. แสดงกราฟ G+C content
5. อ่านไฟล์ผลจากการค้น Blast ช่ ือ Pf_uniprot.blastx ซึ่งถ้าไม่พบให้เปล่ย ี นชนิดไฟล์จาก
Artemis files เป็ น All Files
6. ให้หาบริเวณท่ีน่าจะเป็ นเอ็กซอนท่ีขาดหายไปจากแบบจำาลองยีน อาจคัดลอกแบบจำาลองยีน
ลงใน tab file อันใหม่ก่อนแก้ไข (โดยใช้รายการ Create แล้วเลือก New Entry จากน้ันคัดลอก
pf_Phat.tab โดยเลือกให้มีเคร่ ืองหมายถูกในกล่องแล้วไปท่ีรายการ Edit เลือก Copy Selected
Features To แล้วเลือก entry ใหม่ท่ส
ี ร้างซึ่งไม่มีช่ือ จากน้ันจึงต้ง
ั ช่ ือ entry น้ีโดยไปท่ร
ี ายการ
Entries แล้วเลือก Set Name Of Entry)
7. เพ่ ือให้ดูง่ายในการเปรียบเทียบให้ไปท่ี Display แล้วเลือก Show One Line Per Entry View จะ
ได้ดังภาพท่ี 2
8. เม่ ือได้บริเวณเอ็กซอนท่ีต้องการรวมเข้าโครงสร้างยีนก็ทำาตามข้ันตอนท่แ ี สดงในแบบฝึ กหัด
ท่ี 2

ภาพท่ี 2 แสดงการ Entry ใหม่ ท่ีแสดงรายการ One Line Per Entry


Gene Identification with Artemis 5

แบบฝึกหัดที่ 4 การตรวจสอบความถูกต้องของยีน (Gene curation) โดยใช้ ESTs

ข้อมูลเก่ียวกับตำาแหน่ง splice site ท่ีถูกต้องสามารถดูจากลำาดับของ Expressed Sequence


Tags (ESTs) ซึ่งเป็ นลำาดับของ cDNA ท่ีได้จากทรานสคริพท์ท่ส ี มบูรณ์ของยีน อย่างไรก็ตามใน
ลำาดับน้ีจะมี UTRs ดังน้ันจะไม่มีประโยชน์ในการบอกตำาแหน่งของ start และ stop site

1. เปิ ดโปรแกรมอาร์ทีมิส
2. เปิ ดไฟล์ Pfal_subseq.embl
3. อ่านไฟล์ Pf_ESTs.tab
4. อ่านไฟล์ EST_blastn.tab ซึ่งเป็ นผลจากค้น BlastN ของลำาดับเบสของ Plasmodium ต่อฐาน
ข้อมูลดีเอ็นเอของ Plasmodium EST sequences ท้ังหมด
5. จากข้อมูลจาก ESTs ให้หาบริเวณเอ็กซอนท่ข ี าดหายไปจากแบบจำาลองยีน
6. เปรียบเทียบแบบจำาลองยีนใหม่ท่ีได้กับผลการศึกษาท่ท ี ำามาก่อนแล้ว (final Sanger
annotation) โดยอ่านไฟล์ Pf_annotation.tab

อ้างอิง
See References in my former documents on using Artemis.