You are on page 1of 97

Industrial Systems Biology

Marcelo Falsarella Carazzolle


Bioinformatics Researcher
Laboratory of Genomics and bioEnergy (LGE)/IB/Unicamp
mcarazzo@unicamp.br

30/03/2022
The evolution of DNA sequencing

Second generation
sequencers enter in
the market

https://en.wikipedia.org/wiki/Whole_genome_sequencing
DOI: 10.1161/CIR.0000000000000211
Facts about human genome project

- 4.8 billions of dollars => trillions of dollars per year in the medicine
The Genomic Era
Number of entries in Protein Database

To recover the biological information from


DNA sequencing is necessary to develope
high performance computational analysis

BIOINFORMATICS RESEARCH

http://www.ebi.ac.uk/uniprot/TrEMBLstats
Bioinformatics: interdisciplinary nature
The OMICs Era
Central dogma of molecular biology

Genomics

Transcriptomics

Proteomics
Omics integration – systems biology
Industrial Systems Biology
Synthetic Biology
CRISPR – CAS9: a new revolution
for targeted genome editing

JAMA. 2015;313(8):791-792. doi:10.1001/jama.2015.287


https://science.sciencemag.org/content/351/6280/aad6253
The Biorefinery Concept

http://dx.doi.org/10.5772/61005
Green Chemistry
Biomass is source of soluble sugars (2G sugars)
Fermentation Routes
Bio-based landscape: industrial scale

Industrialization of Biology: A Roadmap to Accelerate the Advanced Manufacturing of Chemicals (2015)


Opportunities for Brazil
Marginal Land

DRY
Genetically modified yeast for second
generation ethanol
Ethanol production in Brazil
First generation ethanol Second generation ethanol
(increase the production by 40%)

Industrial yeast Saccharomyces cerevisiae


Problem: yeast can not consume xylose
Genetically modified yeast for xylose consumption

Xylose reductase
gene from fungi
Xylose isomerase
gene from bacteria
Xylitol dehydrogenase
gene from fungi

Xylose Ethanol
35

30
Concentration (g/L)

25

20

15
Evolutionary engineering
(Keep the yeast for several weeks
10

0
0 20 40 60 80 100
using xylose as only carbon source)
Time (h)
Evolutionary engineering approach
Xylose Ethanol
Xylose Ethanol
35
35

Concentration (g/L)
30
30
Concentration (g/L)

25
25

20
20

15
15

After
10
10

several
5
5

weeks
0
0 0 10 20 30 40 50 60
0 10 20 30 40 50 60 70 80 90 100
Time (h)
Time (h)

Parental Evolved

What changed in the DNA and


mRNA during evolution time to
allow the xylose consumption?
Bioinformatics methodology
Parental A. Genome Assembly
DNA sequencing
from parental strain

Evolved

DNA sequencing
from evolved strain

B. Copy Number Variation (CNV) analysis C. SNP/Indel analysis

Deletion Duplication
Copy number variation analysis

Evolved1 Evolved1
Evolved2 Evolved2
Evolved1

Evolved5

Evolved2

Evolved4

Evolved3
Experimental validation

60

Xylose consumption
50
Concentração (g/L)

40

30 Parental
BCA10 (wt)
Evolved
BCA11 (Leu132Phe)

20 Parental
BCA13 +
mutation
10

0
0 5 10 15 20 25 30 35 40 45 50
Tempo (h)
Transcriptômica e metabolômica
- Co-fermentação contendo 50 g/l de glicose e 40 g/l de xilose

Parental Evoluída

- Retirada de amostras para transcriptômica (RNA-Seq) e metabolômica em três tempos de


fermentação: Lista de genes
- Inicial (Glu - somente glicose) diferencialmente expressos e
- Intermediário (Glu + xyl - glicose + xilose)
de metabólitos
estatisticamente significantes
- Final (Xyl - somente xilose)
Integração transcriptômica-metabolômica
- Redes de interação proteína-proteína e proteína-metabólito

Metabólito
Proteína
Transcriptomic analysis of industrial
yeast during industrial scale bioethanol
production
Experimental dataset
- Biological samples were collected from bioethanol fermentation tanks at the
Nova América distillery (Maracaí-SP, Brazil).
- Two different industrial fermentation conditions:

-The flocculation was induced by bacterial coaggregation.


- Three biological replicates for each fermentation time were collected at six
intervals during typical and flocculated fermentations (3x7x2=42 samples)
- The mRNA was extracted for each sample and sequenced using Illumina
methodology
- The identification and concentration of sugars, acids and alcohols for each
sample were performed by liquid chromatograph (HPLC)
Results: Fermentation Profile
Taxonomic identification of bacterial contaminants

Beginning of fermentation
Flocculation induced by L. fermentum

The mannose-specific adhesin found in L. fermentum has been


implicated in cell-cell interactions. Polymers of mannose are
FL – 4500x FL – 6000x
present in yeast cell walls.

Control – 4500x Control – 6000x


Meta-approaches
Microbial community
- Mitochondrial gene (COX1) for animals
- Ribulose 1,5-bisphosphate carboxylase gene (rbcL) for plants
- Internal transcribed spacer of the ribosomal DNA (ITS) for fungi
- 16S ribosomal RNA for bacteria
http://www.boldsystems.org/
Metagenomics applications

- New antibiotics
- New antifungals
- Enzymes for industrial applications:
- Biomass degradation
- Lipases
- Proteases
- ...
- New metabolic pathways
Genômica
Transcriptômica
Computational modelling and simulation
Estratégias de sequenciamento
- DNA
– Shotgun de genoma inteiro
– Shotgun em pedaços do genoma clonados em BACs

- mRNA
– mRNA oriundos de diferentes tecidos ou condições
Diferenças entre as metodologias

- Sequenciamento de DNA, feito de forma aleatória, fornece :


- Informações sobre regiões codantes (genes) e promotores.
- Mas gera sequências em regiões inter-gênicas (a princípio sem nenhuma função)
- Sequenciamento de mRNA fornece :
- Informação direta sobre os genes e também sobre a expressão gênica.
- Mas genes pouco expressos são mais raros de serem sequenciados por essa
técnica
- A situação ideal para um projeto genoma é sequenciar ambos DNA e mRNA
Shotgun do genoma inteiro
DNA genômico

Quebrar em pedaços aleatórios


~2000pb (shotgun)

clonar em vetor

sequenciamento
Reconstrução do DNA original a partir do fragmentos
(clusterização)
cobertura

reads

Sequência consensu
(DNA original)

A reconstrução é feita a partir de sobreposição dos fragmentos

contigs
Shotgun de pedaços do genoma (BACs)
DNA genômico Quebrar em pedaços
aleatoriamente desde 50Kpb até
300Kpb

Clonar em BAC’s e
sequenciar apenas as
pontas de cada fragmento

~800 bp ~800 bp
Quebrar em pedaços de 2000pb

clonar em vetor e sequenciar os


fragmentos
Primer Walking

Vector Clone to sequence

Primer Sequence

New Sequence
Primer

Repeat

Sempre desenhar o primer de forma que a sequência amplificada tenha sobreposição com a
anterior (tipicamente 100 pb de sobreposição)
Expressed sequence tags (ESTs)

Extrair RNA de
diferentes
tecidos/condições

Síntese de cDNA

5’ EST 3’ EST
clonar em vetor

sequenciamento
Tecnologias de sequenciamento

- Sanger sequencing
- PNAS 74 (1977), n. 12, 5463-5467
- Sequenciador MegaBACE (1Mpb/24 horas)
- Sequências em torno de 1000 bp
- Illumina sequencing
- 70 Gbp/24 horas (a corrida dura 8 dias)
- Sequências de 150 bp
Sanger sequencing
anelamento dos primers

denaturação
background

- A identificação dos picos é feita através de uma transformada de fourier do sinal


- A nota está ligada com a resolução entre os picos vizinhos e a altura do background
Analisando o cromatograma

Região de qualidade alta

• Picos bem definidos e grandes.


• Linha de base boa.
• Distância entre picos anterior e posterior constante.
Região de qualidade média – poucas ambiguidades

• Picos razoavelmente bem definidos e de tamanho médio.


• Linha de base boa a razoável.
• Distância entre picos anterior e posterior razoável.
Região de qualidade baixa – baixa confiabilidade

• Picos mal definidos e de tamanho pequeno.


• Linha de base confusa.
• Distância entre picos anterior e posterior inconstante.
- Sequenciamento produz sequências da ordem de 1000 pb

Onde q é a nota phred e P é a probabilidade encontrar uma base errada :


- Nota phred = 20 => 1 base errada a cada 100 (99%)
- Nota phred = 30 => 1 base errada a cada 1000 (99.9%)
Outubro 1998 Fevereiro 2001
Tecnologia de sequenciamento:Solexa/Illumina
Reads paired-end

reads
reads (150pb)

Sequenciamento
https://www.youtube.com/watch?v=77r5p8IBwJk
Illumina family
Projetos de ressequenciamento

http://www.scientificamerican.com/article.cfm?id=1000-genomes-project
Tecnologia de sequenciamento: PacBio
Tecnologia de sequenciamento: PacBio
Com essa tecnologia e usando o software do próprio equipamento é possível sequenciar
e já montar o genoma completo de uma bactéria
https://nanoporetech.com/how-it-works
High throughput sequencing
Thank you!
Thank you for your attention

• Body Level One


• Body Level Two
• Body Level Three
• Body Level Four
• Body Level Five
Discovery Development Commercialization

Prova de conceito Mais focada na empresa


- Licenciamento da tecnologia
Interação universidade-empresa
- 1. Patentes
- 2. Artigos
- 3. Teses
Differentially expressed genes
Reads mate-pairs (3Kb)

- 50% dos reads de 3 Kb são contaminações de 400 bp

You might also like