You are on page 1of 7

IDENTIFICAÇÃO DE DÍGITOS ESCRITOS À MÃO COM REDES NEURAIS ARTIFICIAIS

USANDO O CONJUNTO DE DADOS MNIST

Aguinaldo Mendes de Oliveira Junior∗



Praça Roberto Mange, 30
Santa Rosália - CEP 18090-110
Sorocaba, São Paulo, Brasil

Email: aguinaldo.junior5@senaisp.edu.br

Abstract— In this article, we will delve into the exciting world of Artificial Neural Networks (ANNs) and explore
the creation of a neural network for handwritten digit classification using the MNIST dataset. ANNs are compu-
tational models that simulate the human neural system, employing synapses and neurons through mathematical
calculations. They have the ability to teach machines to solve complex problems, such as pattern recognition. To
understand the importance of ANNs, it is essential to go back in time and comprehend the emergence of the first
artificial neural networks. From their humble origins to the current scenario, where computational capacity has
enabled significant advances, ANNs have played a crucial role in various fields, particularly in supporting contin-
uous improvement in industrial processes. In this article, we will embark on a step-by-step journey, starting with
data preprocessing and culminating in the evaluation of our model’s performance. We will demonstrate how to
build a simple and effective neural network capable of accurately classifying handwritten digits. Along the way,
we will highlight fundamental concepts and best practices, making this reading valuable for both beginners and
those looking to deepen their knowledge of ANNs. So, get ready to explore the evolution of ANNs, understand
their functioning, and, ultimately, apply this knowledge in constructing a practical and efficient model for digit
classification.
Keywords— Artificial Neural Networks (ANNs), handwritten digit classification, Emergence of ANNs, Data
Preprocessing.

Resumo— Neste artigo, adentraremos no mundo das Redes Neurais Artificiais (RNAs) e exploraremos a cria-
ção de uma rede neural para a classificação de dı́gitos manuscritos usando o conjunto de dados MNIST. RNAs
são modelos computacionais que simulam o sistema neural humano, empregando sinapses e neurônios por meio
de cálculos matemáticos. Elas têm a capacidade de ensinar máquinas a resolver problemas complexos, como
o reconhecimento de padrões. Para compreender a importância das RNAs, é fundamental voltar no tempo e
compreender o surgimento das primeiras redes neurais artificiais. Desde suas origens modestas até o cenário
atual, onde a capacidade computacional permitiu avanços significativos, as RNAs desempenharam um papel
crucial em diversos campos, destacando-se no apoio à melhoria contı́nua dos processos industriais. Neste artigo,
embarcaremos em uma jornada passo a passo, começando pelo pré-processamento de dados e culminando na
avaliação do desempenho do modelo. Mostraremos como construir uma rede neural simples e eficaz que será
capaz de classificar dı́gitos manuscritos com precisão. Ao longo do caminho, destacaremos conceitos fundamen-
tais e melhores práticas, tornando esta leitura valiosa tanto para iniciantes quanto para aqueles que desejam
aprofundar seu conhecimento em RNAs. Portanto, prepare-se para explorar a evolução das RNAs, compreender
seu funcionamento e, finalmente, aplicar esse conhecimento na construção de um modelo prático e eficiente para
a classificação de dı́gitos manuscritos.

Palavras-chave— Redes Neurais Artificiais (RNAs), Classificação de Dı́gitos Manuscritos, Surgimento das RNAs,
Processamento de Dados

1 Introdução 1.1 Desafios no Reconhecimento de Dı́gitos e ca-


racteres

A área de reconhecimento de texto (OCR) en-


frenta desafios na proteção precisa de texto de
imagens e documentos digitalizados. Problemas
As redes neurais artificiais revolucionaram inúme- incluem variação na qualidade da imagem, dife-
ras áreas, desde visão computacional até processa- rentes idiomas e fontes. A precisão e a eficiência
mento de linguagem natural. Reconhecer dı́gitos são cruciais. Como observado por (Zanardo, 2016)
é uma tarefa fundamental em muitas aplicações, em seu artigo ”Desafios do historiador na Era Di-
desde sistemas de pagamento que leem números gital”(2016), os documentos digitalizados, como
em cheques até a automação de classificação de imagens, passam por alterações, como mudanças
correio. No entanto, os métodos tradicionais mui- de cor e tamanho, muitas vezes devido à inter-
tas vezes esbarram em limitações, especialmente rupção do processo ou à necessidade de economia
ao lidar com variações na caligrafia e na quali- de espaço no servidor. Além disso, a digitalização
dade da digitalização. É aqui que as redes neu- implica na perda de qualidades fı́sicas do docu-
rais entram em cena, oferecendo uma abordagem mento, como seu cheiro, textura e material. Za-
adaptável e poderosa para identificar dı́gitos em nardo destaca a importância de criar metadados
diferentes contextos. relacionados aos arquivos digitalizados para apro-
ximar os historiadores da experiência primordial especialmente adequadas para tarefas que envol-
que originou o documento.Um exemplo de pro- vem a análise de imagens, devido à sua capacidade
blema real enfrentado pela sociedade atualmente é de identificar caracterı́sticas relevantes em diferen-
o processo de transcrição manual desses documen- tes escalas e nı́veis de abstração. No contexto do
tos, que é moroso e propenso a erros, limitando o OCR, elas desempenham um papel crucial na de-
acesso às informações neles contidas. Nesse sen- tecção de caracteres, palavras e estruturas de do-
tido, acervos culturais e históricos são essenciais cumentos.
para preservar o patrimônio e permitir o acesso
• Detecção de Caracterı́sticas: As CNNs são
de gerações contemporâneas e futuras a itens de
conhecidas por sua capacidade de detecção de
grande importância para o paı́s. Conforme desta-
caracterı́sticas em imagens, como bordas, tex-
cado por (Roberto Fray da Silva, 2018) possuem
turas e formas. Ao aplicar camadas de con-
um papel fundamental na preservação do patrimô-
volução em um documento digitalizado, essas
nio cultural e histórico. Elas desempenham um
redes podem identificar áreas de interesse que
papel crucial em cinco áreas principais: auxı́lio
contêm texto.
à pesquisa cientı́fica; preservação e manutenção;
melhoria da educação relacionada ao patrimônio • Localização e Segmentação de Texto: Além
cultural; aumento da difusão dos acervos; e melho- da detecção de caracterı́sticas, as CNNs são
ria do acesso por parte do ’não-público’ de museus capazes de localizar e segmentar o texto em
e de usuários que não têm acesso às bibliotecas e um documento. Isso é fundamental para a
arquivos. extração precisa de palavras e caracteres, o
que é central para o OCR.
1.2 O Potencial das Redes Neurais no Aprendi- • Diferentes Escalas e Orientações: As CNNs
zado de Máquina podem capturar caracterı́sticas em diferentes
escalas e orientações, permitindo a detecção
O Aprendizado de Máquina (ML) oferece uma
de texto independentemente da sua orienta-
abordagem promissora para melhorar o OCR. Al-
ção e tamanho no documento.
goritmos, como Redes Neurais Artificiais (RNAs)
e Deep Learning, têm capacidade de aprender • Abordagens de Pré-Processamento: Além
padrões complexos, permitindo maior adaptabili- do reconhecimento de texto, as CNNs po-
dade aos dados. Este projeto foi concebido com o dem ser combinadas com técnicas de pré-
objetivo acadêmico de introduzir o conceito de re- processamento para melhorar ainda mais a
des neurais artificiais (RNAs) em uma abordagem qualidade do OCR. Por exemplo, elas podem
simplificada. Para demonstrar os princı́pios fun- ser usadas em conjunto com a binarização de
damentais, optou-se por utilizar o conjunto de da- imagens para melhorar a legibilidade de do-
dos MNIST, que se concentra na tarefa de classifi- cumentos digitalizados.
cação de dı́gitos manuscritos. A meta é capacitar
No contexto de redes de aprendizagem pro-
a máquina a reconhecer e classificar com precisão
funda, as redes convolucionais apresentam uma
esses dı́gitos escritos à mão, demonstrando o po-
grande capacidade de aprendizagem em imagens,
der das RNAs no contexto do reconhecimento de
não sendo necessário previamente realizar quais-
padrões. A classificação de dı́gitos manuscritos é
quer pré-processamentos de extração de caracte-
uma tarefa essencial no campo da visão computa-
rı́sticas antes da entrada na rede de aprendizado,
cional e aprendizado de máquina, com aplicações
sendo este realizado implicitamente nas camadas
que abrangem desde o reconhecimento de escrita
convolucionais. As redes aprendem e aplicam os
manual até o processamento de cheques e a clas-
filtros necessários para extração correta das carac-
sificação de códigos postais. Neste artigo, será ex-
terı́sticas que normalmente é feita manualmente e
plorada a aplicação de uma rede neural artificial
por tentativa de erro. Na literatura a utilização
para abordar esse desafio especı́fico e avaliar seu
desta técnica tem alcançado bons resultados em
desempenho.
relação a sua acurácia, e tem sido utilizada em di-
versos projetos de Visão Computacional aplicados
2 Revisão Bibliográfica em problemas da medicina”(dos Santos, 2018)

2.1 Redes Convolucionais para Extração de 2.2 Soluções de código aberto


Texto em Documentos
Na busca por soluções de reconhecimento de texto
As CNNs se destacaram como uma ferramenta (OCR), uma variedade de ferramentas tem sido
poderosa para a extração de caracterı́sticas e pa- explorada. Entre eles, destacam-se softwares co-
drões em imagens, tornando-as uma escolha signi- merciais, como o ABBYY FineReader, e solu-
ficativa para melhorar o reconhecimento óptico de ções de código aberto, como o Tesseract. Con-
caracteres (OCR) e a extração de texto de docu- forme descrito por (Azevedo, 2018) em seu ar-
mentos digitalizados. As redes convolucionais são tigo ”CASO DE USO DE FERRAMENTAS OCR
PARA AUTOMAÇÃO DE INSERÇÃO DE IN- car em padrões especı́ficos, aumentando sua
FORMAÇÕES EM BANCO DE DADOS”(2018), eficiência.
o Tesseract é um motor de OCR que foi inicial-
mente desenvolvido pela Hewlett Packard em 1985 • Redução de Custos a Longo Prazo: A efi-
e publicado como código aberto em 2005. Desde ciência das redes neurais leva a uma redu-
2006, a ferramenta tem sido patrocinada pelo Go- ção de custos, especialmente economizando
ogle. Embora o Tesseract não possua uma in- tempo na análise de dados e otimizando o uso
terface gráfica do usuário (GUI), existem vários de infraestrutura.
projetos que oferecem interfaces para o programa. • Melhoria nos Processos de Tomada de Deci-
Uma caracterı́stica notável do Tesseract é sua ca- são: Elas melhoram a análise de informações,
pacidade de aceitar diversos formatos de imagens auxiliando na tomada de decisões estratégicas
para reconhecimento, além de oferecer suporte ao com base em dados de alta qualidade.
reconhecimento de layouts de documentos. A fer-
ramenta é compatı́vel com os certificados UTF-8, • Aplicações em Diversas Áreas: Redes neurais
o que permite o reconhecimento de mais de 100 são aplicadas em diversas áreas, incluindo fi-
idiomas. Os arquivos de saı́da gerados podem es- nanças, saúde, pesquisa, lazer, militar e ou-
tar em formatos como texto, hocr (HTML), PDF, tras, devido à sua capacidade de processar
TSV e PDF invisı́vel de texto somente. dados de forma eficaz.
• Redes Neurais nas Finanças: Um grande po-
2.3 RNAs e visão computacional tencial na análise financeira, podendo ser usa-
A aprendizagem profunda e, mais especificamente, das em previsão de crédito, avaliação de risco,
as redes neurais profundas, têm desempenhado previsões econômicas e muito mais.
um papel transformador em campos como visão • Trabalhos Complexos Substituı́dos: Os tra-
computacional e reconhecimento de padrões. Em balhos excessivamente complexos para a
sua pesquisa, (Giulian, 2018) destacou a impor- mente humana, que nescessita de precisão e
tância de utilizar um conjunto estrategicamente eficácia em tarefas desafiadoras podem fazer
selecionado de imagens para verificar efetivamente uso dessa tecnologia.
a eficácia do processo, minimizando o processa-
mento necessário. Ele argumentou que essa abor- • Ampliação da Utilização da Tecnologia: A ca-
dagem é crucial para otimizar o uso de recursos pacidade de usar redes neurais como aliadas
computacionais e melhorar a eficiência do processo na tomada de decisões e processamento de da-
de geração de imagens utilizando GPU e redes dos é relevante em diversas áreas.
neurais artificiais. Essas redes têm a capacidade
singular de aprender representações complexas de 2.4 Biblioteca MINIST
dados e têm sido amplamente aplicadas em tarefas
de classificação de imagens. De nada adiantaria O conjunto de dados MNIST é um dos conjun-
a ambição de criar um sistema tão complexo, se tos de dados mais conhecidos para classificação
não pudéssemos responder a pergunta: Qual se- de dı́gitos manuscritos, criado pela National Insti-
ria a utilidade de uma rede neural artificial para o tute of Standards and Technology e amplamente
homem ou sociedade? (Arthur Lima Siqueira da utilizado em cursos introdutórios à Machine Le-
Silva, 2016).Com isso em mente veja alguns be- arning. Consiste em 60.000 imagens de treina-
nefı́cios e a importância das redes neurais artifici- mento e 10.000 imagens de teste, cada uma repre-
ais, destacando sua aplicação na visão computa- sentando um dı́gito manuscrito de 0 a 9 em uma
cional e seu papel nas tarefas de aprendizado de escala de cinza de 28x28 pixels. Este conjunto de
máquina. dados tem sido fundamental em projetos de re-
conhecimento de dı́gitos manuscritos, incluindo o
• Utilidade das Redes Neurais Artificiais: Re- nosso próprio.
des neurais artificiais têm a capacidade de Fonte: Apostila de Machine Learning por
aprender e generalizar, tornando-se valiosas William Ludovico Homem, PET Engenharia Me-
em várias aplicações. cânica, Universidade Federal do Espı́rito Santo,
2020.
• Aumento da Velocidade na Análise de Dados:
Essas redes aceleram a análise de informa- 2.5 Principais bibliotecas utilizadas
ções e se beneficiam da escalabilidade, espe-
cialmente quando integradas com tecnologias O TensorFlow e o scikit-learn são duas das princi-
como cloud computing. pais bibliotecas utilizadas no desenvolvimento de
redes neurais e em tarefas de aprendizado de má-
• Maior Capacidade de Aprender e Identificar quina em Python. Conforme destacado (Jonathan
Padrões: Redes neurais são ensinadas por Romeiro de Sousa, 2020), o Python é uma lin-
exemplos e podem ser personalizadas para fo- guagem multiplataforma e de código aberto que
permite aos desenvolvedores realizar modificações tando um dı́gito manuscrito de 0 a 9. Primeiro,
para suportar novas linguagens, tornando-o uma normalizamos as imagens para o intervalo entre 0
escolha popular para trabalhar com inteligência e 1. Isso é feito dividindo todos os valores de pixel
artificial, data mining e machine learning. A natu- por 255.0. A normalização é uma etapa impor-
reza livre da linguagem, juntamente com sua ver- tante porque coloca todos os valores de pixel na
satilidade, contribui para sua preferência nessas mesma escala, o que facilita o treinamento da rede
áreas. O TensorFlow, desenvolvido pela Google, é neural.
uma plataforma de código aberto que oferece uma
estrutura flexı́vel para criar e treinar redes neu-
rais profundas, De acordo com (FALCÃO, 2019),
o TensorFlow é considerado um dos principais fra-
meworks do mercado para o desenvolvimento de
redes neurais deep learning. Este framework ofe-
rece a capacidade de agilizar e simplificar o pro-
cesso de aquisição de dados, treinamento de mo-
delos, realização de previsões e refinamento de re-
sultados futuros. O scikit-learn, por outro lado, é
uma biblioteca que fornece uma ampla variedade
de algoritmos de aprendizado de máquina para ta- Figura 1: Importando e fazendo tratamento
refas como classificação, regressão e clusterização.

3.2 One-Hot Encoding dos Rótulos


3 Metodologia
Os rótulos que acompanham as imagens represen-
O processo de reconhecimento de dı́gitos manus- tam o dı́gito correto associado a cada imagem. No
critos com redes neurais artificiais usando o con- entanto, para treinar nossa rede neural de forma
junto de dados MNIST envolve várias etapas cru- eficaz, convertemos esses rótulos em um formato
ciais. A metodologia utilizada é projetada para conhecido como ”one-hot encoding”. One-hot en-
transformar os dados brutos em um modelo de coding é uma técnica em que cada rótulo é re-
rede neural treinado capaz de realizar classifica- presentado como um vetor binário com um único
ções precisas. Iniciaremos explicando a prepara- ”1”em uma posição correspondente ao dı́gito e ”0”s
ção dos dados, incluindo a normalização das ima- em todas as outras posições. Isso é feito usando a
gens e a conversão dos rótulos em formato ”one- função categorical da biblioteca Keras. No caso,
hot encoding”. Em seguida, abordaremos a di- estamos trabalhando com 10 dı́gitos (de 0 a 9),
visão do conjunto de dados em subconjuntos de então cada rótulo é representado como um vetor
treinamento, validação e teste, essencial para ava- de 10 elementos. Essa transformação permite que
liar o desempenho do modelo. A arquitetura da a rede neural compreenda melhor os rótulos e re-
rede neural é um dos principais componentes deste alize a classificação de forma mais precisa durante
projeto, e detalharemos o número de neurônios em o treinamento. Ela também é uma prática comum
cada camada e a escolha das funções de perda e em problemas de classificação com várias classes.
otimizador. Além disso, destacaremos a utiliza-
ção de uma camada de dropout como uma técnica 3.3 Divisão do Conjunto de Dados
de regularização. Medições de desempenho, como
precisão, recall, F1-score e a matriz de confusão, A divisão do conjunto de dados MNIST é rea-
serão apresentadas para avaliar a capacidade do lizada em três partes: treinamento, validação e
modelo em reconhecer dı́gitos em várias classes. teste. Esta divisão é importante para avaliar o
Por fim, discutiremos o processo de avaliação do desempenho do modelo de maneira justa. Eis a
desempenho da rede neural usando o conjunto de explicação dos números envolvidos:
teste, que não foi usado durante o treinamento. • Conjunto de Treinamento: Composto por
Essa avaliação fornecerá informações crı́ticas so- 51.000 imagens (cerca de oitenta e cinco por
bre a capacidade do modelo de generalizar para cento do conjunto original), este conjunto é
novos dados. usado para treinar a rede neural. A escolha
desse tamanho permite que o modelo aprenda
3.1 Treinando um modelo de Rede Neural com uma quantidade significativa de dados.
Iniciando o treinamento, importamos o conjunto • Conjunto de Validação: Composto por 9.000
de dados MNIST. O conjunto de dados MNIST imagens (cerca de quinze por cento do con-
é amplamente utilizado para tarefas de reconhe- junto original), este conjunto é usado durante
cimento de dı́gitos manuscritos. Ele consiste em o treinamento para ajustar hiperparâmetros
um conjunto de imagens de treinamento e um con- e avaliar o desempenho da rede em dados não
junto de imagens de teste, cada uma represen- vistos.
• Conjunto de Teste: Composto por 10.000
imagens, este conjunto é usado para avaliar
o desempenho final do modelo. É importante
ressaltar que esses conjuntos são exclusivos e
não compartilham dados para evitar viés nos
resultados.
Figura 4: função de perda e o otimizador

rede para minimizar a função de perda. Os re-


sultados do treinamento mostram o progresso da
rede ao longo das épocas. Eis o que os resultados
significam:

• Época: Cada época representa uma passagem


completa pelos dados de treinamento. A rede
é atualizada a cada época.
Figura 2: dividindo o conjunto • Loss (Perda): A perda é uma medida da dis-
crepância entre as previsões da rede e os ró-
tulos reais. Durante o treinamento, a perda
3.4 Arquitetura da Rede Neural deve diminuir gradualmente.

Uma camada de entrada com 784 neurônios (para • Accuracy (Precisão): A precisão indica a pro-
representar as imagens MNIST de 28x28 pi- porção de previsões corretas feitas pela rede
xels).Pelo menos uma camada oculta com uma em relação aos rótulos reais. A precisão deve
quantidade de neurônios de nossa escolha. Uma aumentar à medida que o modelo aprende..
camada de saı́da com 10 neurônios, um para cada
classe de dı́gito de 0 a 9. Função de Perda e Oti- • Validation Loss (Perda de Validação) e Vali-
mizador: Escolhemos a função de perda de en- dation Accuracy (Precisão de Validação): Es-
tropia cruzada categórica e o otimizador Gradi- sas métricas são calculadas usando o conjunto
ente Descendente Estocástico (SGD) para treinar de validação e fornecem uma avaliação im-
nosso modelo. parcial do desempenho da rede em dados não
vistos durante o treinamento. O objetivo é
evitar o superajuste e criar um modelo que
generalize bem para novos dados.

Figura 3: Rede neural

3.5 Função de Perda e Otimizador


Função de Perda: Utilizamos a função de perda
”entropia cruzada categórica”(categorical cross- Figura 5: Treinamento da rede
entropy), que é adequada para problemas de clas-
sificação multiclasse como o reconhecimento de dı́-
gitos. Esta função mede a discrepância entre as 3.7 Avaliação do Desempenho
previsões do modelo e os rótulos reais. Otimiza-
dor: Utilizamos o otimizador Gradiente Descen- Após o treinamento, é avaliado o desempenho fi-
dente Estocástico (SGD) para ajustar os pesos da nal da rede neural usando o conjunto de teste,
rede durante o treinamento. O SGD é um algo- que não foi usado durante o treinamento. resul-
ritmo de otimização amplamente utilizado para tados significam: Test Loss (Perda de Teste): A
minimizar a função de perda, tornando a rede perda de teste mede a discrepância entre as pre-
mais precisa ao longo do tempo. visões da rede e os rótulos reais no conjunto de
teste. Uma perda baixa indica que o modelo está
fazendo previsões precisas. Test Accuracy (Preci-
3.6 Treinamento da Rede Neural
são de Teste): A precisão de teste é a proporção
Treinamos a rede neural em várias épocas (10, de previsões corretas feitas pela rede no conjunto
neste caso) usando o conjunto de treinamento. de teste. Ela é uma métrica importante que indica
Durante o treinamento, ajustamos os pesos da o desempenho geral do modelo em novos dados.
Figura 6: Avaliação

3.8 Métricas Adicionais e Matriz de Confusão

Além da precisão, outras métricas são importan-


tes, como precisão ponderada, recall ponderado e
F1-score, para avaliar o desempenho do modelo
em cada classe de dı́gito. A matriz de confusão
mostra como as previsões do modelo se comparam
aos rótulos reais para cada classe. Essas métricas
fornecem insights mais detalhados sobre o desem-
penho da rede em diferentes categorias.
Figura 9: Classificação

3.11 Avaliação do Desempenho


Após o treinamento, é avaliado o desempenho fi-
nal da rede neural usando o conjunto de teste,
que não foi usado durante o treinamento. resul-
tados significam: Test Loss (Perda de Teste): A
perda de teste mede a discrepância entre as pre-
visões da rede e os rótulos reais no conjunto de
teste. Uma perda baixa indica que o modelo está
Figura 7: Métricas Adicionais fazendo previsões precisas. Test Accuracy (Preci-
são de Teste): A precisão de teste é a proporção
de previsões corretas feitas pela rede no conjunto
de teste. Ela é uma métrica importante que indica
3.9 Arquitetura com Dropout o desempenho geral do modelo em novos dados.
Nesta versão da rede neural, é possı́vel adicionar
uma camada de Dropout com taxa de 0,5. O Dro-
pout é uma técnica de regularização que ajuda a
reduzir o overfitting durante o treinamento. Ele
desativa aleatoriamente uma fração das unidades
de neurônios durante cada época, forçando a rede
a aprender representações mais robustas.

Figura 8: Dropout
Figura 10: Desempenho final

3.10 Relatório de Classificação 4 Considerações Finais

O relatório de classificação fornece métricas deta- Esta pesquisa demonstra a eficácia das redes neu-
lhadas para cada classe de dı́gito, incluindo pre- rais artificiais no reconhecimento de dı́gitos ma-
cisão, recall e F1-score. Essas métricas são úteis nuscritos e destaca o papel fundamental das bi-
para entender como o modelo se comporta em di- bliotecas TensorFlow e scikit-learn. Os resultados
ferentes categorias. A precisão ponderada e o F1- obtidos reforçam a importância do uso de RNAs
score ponderado são métricas agregadas que levam em uma variedade de aplicações, desde reconheci-
em consideração o desempenho em todas as clas- mento de caracteres até automação industrial. À
ses. medida que avançamos na era da IA, o reconheci-
mento de padrões, como o reconhecimento de dı́- Giulian, H. (2018). Uma abordagem para gera-
gitos, continuará a desempenhar um papel crucial ção de imagem baseada no uso de gpu e re-
em nossa sociedade. des neurais artificiais, Universidade Federal
As redes neurais artificiais, como demons- da Paráiba (1): 14–15.
trado neste projeto, desempenham um papel cru-
cial em várias aplicações de aprendizado de má- Jonathan Romeiro de Sousa, Juliana Fonseca An-
quina, incluindo o reconhecimento de dı́gitos. A tunes, A. d. O. J. C. R. L. T. M. d. S. M.
pesquisa destaca como as RNAs são capazes de S. T. G. S. d. S. (2020). Python e predição
aprender representações complexas e realizar tare- de dados usando redes neurais multicamadas,
fas de classificação com alta precisão. Além disso, Brazilian Journal of Development Braz p. 3.
a análise das métricas e da matriz de confusão Roberto Fray da Silva, Francis Melvin Lee, E.
mostra o desempenho da RNA em cada classe de S. G. (2018). A implementação de reposi-
dı́gito, o que pode ser útil em cenários práticos, tórios digitais e os requisitos dos usuários: o
como sistemas de reconhecimento de caracteres e caso do instituto hercule florence, Revista do
processamento de documentos. arquivo 2(6): 87–101.
Ademais durante o desenvolvimento dessa
pesquisa, atingimos diversos marcos importantes. Zanardo, J. (2016). Desafios do historiador na era
Primeiramente, um pré-processamento eficiente digital, Universidade de São Paulo pp. 3–4.
dos dados do conjunto MNIST, incluindo a norma-
lização das imagens e a codificação ”one-hot”dos
rótulos. Em seguida, a dividisão do conjunto de
dados em conjuntos de treinamento, validação e
teste para avaliar imparcialmente o desempenho
dos modelos. Projetado arquiteturas de redes neu-
rais com camadas ocultas variadas e a realização
de treinamento desse modelo utilizando o otimi-
zador Gradiente Descendente Estocástico (SGD)
e a função de perda de entropia cruzada categó-
rica, otimizando os hiperparâmetros para maximi-
zar o desempenho. Avaliação do desempenho dos
modelos utilizando métricas cruciais, como preci-
são, recall, F1-score e a matriz de confusão, pro-
porcionando uma análise detalhada do reconhe-
cimento de dı́gitos em todas as classes. explora-
ção da técnica de regularização conhecida como
Dropout para aprimorar o desempenho e evitar o
overfitting. Esses passos demonstram a robustez
da abordagem utilizada ao longo do projeto.

Referências

Arthur Lima Siqueira da Silva, V. B. d. S. J.


(2016). Aplicações e benefı́cios obtidos atra-
vés das redes neurais artificias (rna), Revista
Facima Digital Gestão (2): 36–38.

Azevedo, Ana Lúcia Mendes da Cunha Carvalho,


A. L. P. R. (2018). Caso de uso de ferra-
mentas ocr para automaÇÃo de inserÇÃo de
informaÇÕes em banco de dados, Universi-
dade Federal Fluminense pp. 24–25.

dos Santos, W. P. (2018). Utilização de redes


convolucionais para classificação e diagnós-
tico da doença de alzheimer, Master’s thesis.

FALCÃO, João V. R., M. V. d. A. S. F. A. O.


R. C. d. A. (2019). Redes neurais deep le-
arning com tensorflow, Universidade José do
Rosário Vellano (1): 3.

You might also like