You are on page 1of 11

Início do HiFi

Descobertas científicas avançadas exigem dados de sequenciamento


precisos e completos. A tecnologia de sequenciamento PacBio evoluiu
para um tipo diferente de leitura longa, conhecida como leitura longa
altamente precisa ou leitura HiFi.

PacBio é a única tecnologia de sequenciamento a oferecer leituras HiFi que


fornecem precisão de 99,9%, a par de leituras curtas e sequenciamento
Sanger. Com leituras HiFi, você não precisa mais comprometer
comprimentos de leitura longos para sequenciamento de alta precisão
para abordar suas questões biológicas mais difíceis.

O que é sequenciamento HiFi?


Com leituras de dezenas de quilobases de comprimento, você pode
facilmente montar genomas completos e sequenciar transcrições
completas. O sequenciamento HiFi fornece comprimentos de leitura
excepcionais sem comprometer o rendimento ou a precisão.
O sequenciamento HiFi começa quando fragmentos circularizados de DNA
de amostra, suspensos em solução, são inundados pela superfície de um
chip nanofluídico chamado célula SMRT (Single Molecule, Real-Time). A
superfície desse chip é quadriculada com muitos milhões de reentrâncias
cilíndricas - ou poços - chamados guias de onda de modo zero (ZMWs),
cada um com apenas nanômetros de largura. À medida que uma amostra
flui sobre a célula SMRT, os pedaços circularizados de DNA são
imobilizados na parte inferior dos ZMWs. Uma vez que o DNA da amostra
está situado dentro de um ZMW, os nucleotídeos flutuantes são
adicionados e uma enzima DNA polimerase que foi anexada ao DNA da
amostra durante a preparação da biblioteca começa a copiar a molécula
da amostra. À medida que a polimerase incorpora novas bases de
nucleotídeos na cadeia recém-replicada, uma pequena quantidade de luz é
liberada e captada por um detector.

Muito parecido com um carro de corrida dando voltas repetidas em uma


pista circular, a DNA polimerase no sequenciamento HiFi percorre a
molécula de amostra circularizada várias vezes. Como a polimerase gera
várias cópias de cada pedaço de DNA contido nos ZMWs, os sistemas de
sequenciamento de leitura longa PacBio podem identificar a sequência
correta da amostra por referência cruzada de cada cópia da molécula para
maximizar a precisão no que é chamado de sequenciamento de consenso
circular (CCS). .

Depois que os dados de todos os ZMWs em uma célula SMRT foram


compilados, uma saída de dados primários é gerada – pronta para análise
a jusante por um pesquisador.

Tanto o sistema Sequel IIe quanto as novas plataformas de


sequenciamento de leitura longa PacBio medem a velocidade na qual cada
base é incorporada pela polimerase. Essa informação é então usada pelo
software PacBio SMRT Link para determinar se a base é metilada, o que é
crítico para estudos epigenéticos.

EPIGENÉTICA
Sem etapa de amplificação por PCR, as modificações de base são
detectadas diretamente durante o sequenciamento. A medição da variação
na cinética da polimerase de incorporação de base de DNA elimina a
necessidade de modificação química para detectar modificações de base.
Isso permite capturar sequências e informações epigenéticas em um único
experimento.
Para os cientistas que utilizam o sequenciamento de DNA em suas
pesquisas, mas não são especialistas na tecnologia subjacente, pode ser
difícil determinar a precisão dos resultados do sequenciamento – e ainda
mais difícil comparar a precisão entre as plataformas de sequenciamento.
Além disso, a precisão difere não apenas entre as tecnologias, mas
também entre as regiões genômicas, pois alguns trechos do genoma são
inerentemente mais difíceis de ler.

É extremamente importante entender a precisão no sequenciamento de


DNA para distinguir informações biológicas importantes de erros de
sequenciamento.

Quais são os tipos de precisão de sequenciamento?


As leituras HiFi são geradas pela combinação de várias observações consecutivas de uma
molécula de DNA (subleituras), aumentando a precisão das leituras HiFi individuais acima de
99%.
Existem dois tipos principais de precisão nas tecnologias de
sequenciamento de DNA: precisão de leitura e precisão de consenso . A
precisão de leitura é a taxa de erro inerente de medições individuais
(leituras) de uma tecnologia de sequenciamento de DNA. A precisão de
leitura típica varia de ~90% para leituras longas tradicionais a >99% para
leituras curtas e leituras HiFi .

A precisão do consenso, por outro lado, é determinada pela combinação de


informações de várias leituras em um conjunto de dados, o que elimina
quaisquer erros aleatórios em leituras individuais. Cobertura mais profunda
– significando mais leituras para construir um consenso – geralmente
aumenta a precisão dos resultados. No entanto, ainda há limitações para
chamar o consenso de várias leituras. O cálculo do consenso é um
processo complicado e computacionalmente caro, e não pode superar
erros sistemáticos. Se uma plataforma de sequenciamento cometer
consistentemente o mesmo erro, ele não será apagado gerando mais
cobertura de sequenciamento.
Para contornar esse problema, é comum “polir” leituras longas que
possuem erros sistemáticos com leituras curtas de alta precisão. No
entanto, devido ao seu tamanho de leitura, as leituras curtas nem sempre
podem ser mapeadas para as leituras longas de forma inequívoca,
limitando sua capacidade de melhorar a precisão. Em geral, o consenso é
aprimorado – e amplamente simplificado – começando com leituras
altamente precisas sem vieses sistemáticos.

As leituras HiFi fornecem a precisão necessária para chamar variantes de nucleotídeo único, ao
mesmo tempo em que melhoram a mapeabilidade e permitem o faseamento sem viés
sistemático. Alinhamentos de genes STRC de Genome in a Bottle (GIAB), HG002_NA24385_son .
( Configurações IGV )
Como a precisão afeta a utilidade dos dados de sequenciamento?
Uniformidade de cobertura
É comumente conhecido que certas regiões genômicas são mais difíceis
para os sequenciadores passarem do que outras. Centrômeros e
telômeros são notoriamente difíceis por causa da sequência altamente
repetitiva que eles contêm. As regiões ricas em AT ou ricas em GC são
igualmente difíceis porque respondem mal aos protocolos de amplificação
exigidos por algumas plataformas. Sequências palindrômicas ou
estruturas em grampo de cabelo são difíceis de desnaturar, tornando essas
regiões desafiadoras para ferramentas de sequenciamento que incluem
uma etapa de desnaturação.
As leituras HiFi são geradas pela combinação de várias observações consecutivas de uma
molécula de DNA (subleituras), aumentando a precisão das leituras HiFi individuais acima de
99%.
Muitos cientistas evitam esses problemas optando por um método de
sequenciamento de molécula única que não requer amplificação ou
desnaturação, como a tecnologia de sequenciamento SMRT da PacBio.
Como o sequenciamento SMRT pode processar até regiões difíceis, com
desempenho uniforme independentemente do contexto da sequência, ele
gera resultados precisos mesmo em regiões que confundiriam outras
plataformas. Selecionar uma plataforma sem viés sistemático, como o
sistema Sequel II, é importante para produzir os dados de sequência mais
precisos.

Mapeabilidade
A precisão de uma montagem de genoma vai além da precisão de cada
base individual. Mesmo leituras perfeitas podem contribuir para uma
precisão ruim se não forem ordenadas e orientadas corretamente na
montagem. Essa questão de onde colocar a leitura é chamada de
mapeabilidade.
As leituras que contêm apenas uma parte de um grande elemento
estrutural ou que consistem em sequências altamente repetitivas podem
ser muito difíceis de alinhar, mapeando ambiguamente para muitos locais
diferentes em uma referência. É aqui que as leituras curtas realmente
lutam; por causa de seu tamanho, há uma chance maior de que eles não
contenham dados de sequência únicos suficientes para ancorá-los
adequadamente em um genoma. Como as leituras HiFi se estendem por
muitas quilobases de DNA, elas quase sempre contêm sequências
flanqueadoras únicas que podem ser usadas para mapeá-las com precisão
em uma montagem.

As leituras HiFi abrangem repetições repetitivas, aumentando a capacidade de mapeamento.


Faseamento
Ao explorar genomas diplóides ou poliploides, o faseamento significa
separar as diferentes cópias de cada cromossomo (por exemplo, materno
e paterno para diploides), conhecidas como haplótipos. Com precisão
suficiente, a identidade dos nucleotídeos em cada posição no genoma
pode ser comparada com uma sequência de referência para identificar
SNVs, com um locus heterozigoto indicando uma diferença na sequência
entre um par de cromossomos homólogos. É aqui que a baixa precisão
inerente das leituras longas propensas a erros tradicionais se torna uma
limitação - com uma alta taxa de erros, torna impossível decidir se uma
discordância entre uma referência e um conjunto de dados é uma variante
ou um erro de sequência.

Faseamento envolve a separação de cópias herdadas materna e paternamente de cada


cromossomo.
Outra abordagem para obter informações de fase é também sequenciar os
pais do indivíduo cujo genoma você precisa fasear. No entanto, em muitas
espécies selvagens em que os pais não estão disponíveis, uma abordagem
de sequenciamento de leitura longa altamente precisa, como o
sequenciamento HiFi, seria mais simples. Existem também métodos
computacionais (aprenda sobre Nighthawk ) ou o uso de informações de
frequência de haplótipos populacionais para inferir o faseamento.

No geral, genomas em fases ou chamadas variantes são de qualidade


superior do que as versões colapsadas de haplótipos, pois fornecem
informações alélicas, que podem ser importantes para o estudo de
doenças humanas, melhoria de culturas, evolução e muito mais. As leituras
HiFi, com precisão alta o suficiente para detectar SNVs e comprimentos de
leitura para detectar esses SNVs em muitas quilobases, geram blocos de
haplótipos em fases maiores.

À medida que os cientistas analisam mais e mais dados genômicos, o


papel da precisão da sequência provavelmente se tornará mais importante.
As leituras HiFi oferecem os benefícios de alta precisão equivalente aos
dados de sequenciamento de leitura curta, mas com o comprimento
necessário para montagens complexas de genoma e faseamento de
variantes em grandes áreas do genoma.

inicio do SBB
Um dos principais contribuintes para as leituras altamente precisas do
sistema Onso é a química. O sequenciamento proprietário por química de
ligação (SBB) usa nucleotídeos nativos, incorporação sem cicatrizes e
condições otimizadas para ligação e extensão. Essas inovações resultam
em dados com erros reduzidos em relação às plataformas concorrentes e,
como resultado, permitem a detecção de variantes raras abaixo do limite
de detecção das plataformas existentes, além de fornecer acesso a
regiões do genoma anteriormente consideradas intratáveis ​para leitura
curta tecnologia.
(1) Cada ciclo inicia com um bloqueio reversível de 3'
nucleotídeo. (2) Os nucleotídeos marcados com fluorescência são então
fluiu sobre a célula de fluxo, permitindo a base apropriada
ligar. Os nucleotídeos não ligados são lavados para que o
a base pode ser interrogada com sinal de fundo reduzido.
(3) A extremidade 3' do nucleotídeo é ativada por meio da remoção de
o terminador reversível. (4) Nativo, não rotulado, reversível
nucleotídeos bloqueados fluem sobre a célula de fluxo e o
base cognata pode incorporar na cadeia crescente. O
o processo é então repetido para cada nova base sequenciada.
Ao separar as etapas de interrogação e incorporação,
e otimizando as químicas para cada etapa, a química SBB
permite que altos níveis de sinal-ruído sejam alcançados.
Além disso, a falta de cicatriz molecular pelo uso de
nucleotídeos nativos para incorporação impulsiona líderes da indústria
precisão.
Figura 2. O sequenciamento SBB oferece leituras quase perfeitas com
>90% de bases acima de Q40, baixas taxas de duplicação, mínimo salto de
índice e sequenciamento através de regiões difíceis e repetitivas.

Figura 3. O sistema de sequenciamento Onso produz leituras quase


perfeitas através da região poli-T variável dentro do gene TOMM40 . (a) O
sequenciamento SBS não foi capaz de resolver totalmente a região de
baixa complexidade, com muitas chamadas falso-positivas. (b) O
sequenciamento SBB foi capaz de sequenciar totalmente e resolver com
confiança esta região, resultando em uma chamada de T16 versus a
estimativa original de T35.

You might also like