Professional Documents
Culture Documents
Met Ensembl kun je ook een regio in detail bekijken en genetische elementen
onderzoeken. We gaan dat in deze opdracht doen.
1. Zoek het gen voor catalase in de Lamprey (lamprei, of prik, een soort vis,
het ENSPMAG nummer eindigt op 3374).
2. Klik het gen aan. Ga naar de location tab en klik deze aan.
3. Klik de Region in detail aan als deze nog niet aan staat.
4. Ga naar Configure this page. We gaan nu o.a. kijken naar regulatie.
5. Check of de Ensembl genes, de ruler, het % GC en de gene legend aanstaan.
We gaan nu naar de GC rijke gebieden kijken.
6. Wat valt in de grafische weergave meteen op als we kijken naar de
verspreiding GC % over het getoonde gebied? Het ligt dicht op elkaar en
allemaal voornamelijk in het begin
7. We gaan nu in detail kijken of er repeats aanwezig zijn. Zet daarvoor
onder Configure this page bij “repeat regions” (links) de opties “all repeats
(compact), low complexity dust en satellite repeats (compact)” aan. Sluit
het venster. Zijn er repeats? Ja
8. Zet andere typen repeats aan en kijk of deze aanwezig zijn.
9. We kijken nu bij Comparative genomics of dit gen ook in de zebravis
(danio rerio) te vinden.
10. Ga naar Comparative Genomics, Alignments (image), klik Select an
alignment en voer Lamprey als species in. Klik vervolgens op Pairwise en
op Other vertebrates en zet nu bij Fish “Zebrafish” aan. Klik op Apply.
Bekijk daarna de alignment tekst (klik hiervoor op Alignments (text)). Op
welk chromosoom bevindt het zich in de zebravis? Op chromosoom 25
11. In de tekst file kan je de complete alignment zien. Merk op dat het
grootste gedeelte van het gen homoloog is!
12. Als we willen weten of er orthologen voorkomen in andere organismen,
dan moeten we naar de Gene tab, Comparative genomics. Daaronder
kunnen we naar Orthologues. Doe dit en kijk eens hoeveel orthologen
bestaan. 200 species
13. Tot slot kijken we nog naar de genopbouw. Bekijk daarvoor de summary
onder de transcript tab (met de blokjes van de exonen erop!)
14. Hoeveel coderende exonen heeft catalase in de lamprei? 11?
1
Opdracht 6, Variants, NCBI en Ensembl
AXL (transcript variant 1) is een gen betrokken bij resistentie van kankercellen tegen
EGFR behandeling. Recentelijk is beschreven dat uitschakeling van dit gen zorgt voor
betere gevoeligheid van tumoren tegen bepaalde geneesmiddelen.
1. Zoek op NCBI de nucleotide sequentie van het humane gen AXL, transcript
variant 1.
2. Wat is de identifier/accession number in NCBI, het NM nummer?
NM_021913.5
3. Wat zijn de coördinaten van de coding sequence, het coderend gebied (CDS)?
171-2855
4. We zoeken dit gen op in Ensembl. Link door vanuit de NCBI pagina. (Ensembl
staat rechts onder LinkOut to external resources)
5. Op welk chromosoom ligt dit gen en hoeveel exonen zijn er? Dat laatste is
moeilijk te vinden onder de NCBI, maar is in Ensembl eenvoudig te vinden.
Chromosoom 19, 5 exonen
6. Als we op het Gene tabblad de
Sequence zichtbaar maken, dan kunnen
we gelijk ook de varianten in de
sequentie zien. Ga naar de sequentie en
probeer na te gaan wat de kleuren in de
tabel betekenen. Wat zijn bijvoorbeeld
de roze en paarse varianten?
7. Waarom wordt hier eigenlijk van
varianten gesproken en niet van SNPs? Omdat het geen SNP’s zijn
8. Als de deletie of insertie meer dan 1 nucleotide bevat, spreken we over
Structurele variant. Klik op Gene tabblad op Structural variants en bekijk wat
de kleuren betekenen voor de Structural Variants (SV). Door welke kleur
wordt een insertie aangegeven en door welke kleur een deletie? Blauw en
rood
9. Als je naar beneden scrollt, zie je een tabel met de structurele varianten. De
identifier/accession number van een SNP start altijd met rs. De
identifier/accession number van een structurele variant niet, waarmee wel?
NSV of het chromosoom locatie
10. In de tabel staat dat de meeste varianten behoren tot de klasse CNV. Waar
staat CNV voor? Wat houdt dat in? Copy number variation
11. Ook zie je vaak short tandem repeat variation staan, afgekort STR. Wat is een
STR en waarom zijn STR’s zo belangrijk in forensisch onderzoek? Het is een
vorm van repeat, die variaties aantoont om DNA te controleren
12. In Ensembl kunnen we SNPs/varianten en structurele varianten vinden, maar
niet tegelijk op 1 webpagina. Eens kijken of dat op de NCBI site wel kan. Klik
Variant table, daarna op een rs nummer en vervolgens op View in dbSNP. Je
zit nu in dbSNP. Net als Ensembl spreekt NCBI niet meer van SNP als variatie
type. Hoe noemen ze deze variant wel? Kijk bij Variation Type. Een SNV
13. Als je wat naar beneden scrollt, zie je het genomische gebied waar zich de
SNP bevindt en de omringende SNPs. Je ziet alleen rs nummers staan. Dus we
2
zien nog geen structurele varianten! Om deze ook te zien, klik je op See
rs1234567 in Variation Viewer.
1. SNPs: Zoek in Ensembl het gen voor de humane LDL receptor (“LDLR”) op (het
ENSG nummer eindigt op 130164). Zoek met het langste transcript uit (waar
CCDS gegevens van bekend zijn) of er varianten zijn die voor stops coderen
(Filter, Consequences: stop gained). Hoeveel exonen kent het transcript?
Hoeveel varianten kun je vinden of zijn er geen die voor een stop coderen?
Bevinden ze zich in 1 of in meerdere exonen? 5337
2. Exonen, intronen. Zoek het gen voor runder serum albumine op (“ALB”).
Hoeveel exonen kent het transcript coderend voor het grootste eiwit,
hoeveel zijn er coderend en wat zijn de coördinaten van exon 10? 15 exonen,
9 coderend en op chromosoom 4;73
3. Zoek in de zebravis database met Biomart op hoeveel genen er “protein
coding” zijn op het mitochrondriaal DNA (mtDNA). Welk transcript hoort bij
ENSDART00000093606? Deze is zeer belangrijk bij het in kaart brengen van
biodiversiteit.
4. Genomische regio’s. Zoek het plasminogen gen op in de gorilla (PLG). Kun je
het grote low-complexity gebied vinden in het gen? Hoe groot is het en wat is
het %GC in dat betreffende gebied?
5. Zoek in plant Ensembl (https://plants.ensembl.org/index.html) ATP
sulfurylase 1 in Arabidopsis thaliana, de zandraket, op. Wat zijn de
coördinaten van het gen op chromosoom 3? Hoe groot is chromosoom 3? Dit
kun je zien via “Chromosome summary” op de Location tab.
6. Zijn er gebieden met veel repeats? Waar bevinden zich de Protein Coding
Genes? Overlappen deze gebieden met elkaar? En waarom zit er wel/geen
overlap tussen? Hoe groot is het totale genoom?
7. Hoe groot is het genoom van Mais (Zea Mays)? Merk het verschil op met de
zandraket! Wat is het grootste bekende plantengenoom? Zoek op met
Google, het is niet in de Ensembl database te vinden omdat het genoom niet
geheel bekend is.
8. Zoek nu in Ensembl interleukin 18 binding protein van Macaque op (IL18BP).
Hoeveel coding exons zijn er in het grootste transcript? Zoek de RefSeq
identifier van mRNA, chromosomaal gen en protein onder de NCBI op door te
linken vanuit de gene tab (External references).
3
Opdracht 8, kennismaking met UCSC