Artigo AguinaldoMendes

IDENTIFICAÇÃO DE DÍGITOS ESCRITOS À MÃO COM REDES NEURAIS ARTIFICIAIS
USANDO O CONJUNTO DE DADOS MNIST
Aguinaldo Mendes de Oliveira Junior∗

∗
Praça Roberto Mange, 30
Santa Rosália - CEP 18090-110
Sorocaba, São Paulo, Brasil
Email: aguinaldo.junior5@senaisp.edu.br
Abstract— In this article, we will delve into the exciting world of Artificial Neural Networks (ANNs) and explore
the creation of a neural network for handwritten digit classification using the MNIST dataset. ANNs are compu-
tational models that simulate the human neural system, employing synapses and neurons through mathematical
calculations. They have the ability to teach machines to solve complex problems, such as pattern recognition. To
understand the importance of ANNs, it is essential to go back in time and comprehend the emergence of the first
artificial neural networks. From their humble origins to the current scenario, where computational capacity has
enabled significant advances, ANNs have played a crucial role in various fields, particularly in supporting contin-
uous improvement in industrial processes. In this article, we will embark on a step-by-step journey, starting with
data preprocessing and culminating in the evaluation of our model’s performance. We will demonstrate how to
build a simple and effective neural network capable of accurately classifying handwritten digits. Along the way,
we will highlight fundamental concepts and best practices, making this reading valuable for both beginners and
those looking to deepen their knowledge of ANNs. So, get ready to explore the evolution of ANNs, understand
their functioning, and, ultimately, apply this knowledge in constructing a practical and efficient model for digit
classification.
Keywords— Artificial Neural Networks (ANNs), handwritten digit classification, Emergence of ANNs, Data
Preprocessing.
Resumo— Neste artigo, adentraremos no mundo das Redes Neurais Artificiais (RNAs) e exploraremos a cria-
ção de uma rede neural para a classificação de dı́gitos manuscritos usando o conjunto de dados MNIST. RNAs
são modelos computacionais que simulam o sistema neural humano, empregando sinapses e neurônios por meio
de cálculos matemáticos. Elas têm a capacidade de ensinar máquinas a resolver problemas complexos, como
o reconhecimento de padrões. Para compreender a importância das RNAs, é fundamental voltar no tempo e
compreender o surgimento das primeiras redes neurais artificiais. Desde suas origens modestas até o cenário
atual, onde a capacidade computacional permitiu avanços significativos, as RNAs desempenharam um papel
crucial em diversos campos, destacando-se no apoio à melhoria contı́nua dos processos industriais. Neste artigo,
embarcaremos em uma jornada passo a passo, começando pelo pré-processamento de dados e culminando na
avaliação do desempenho do modelo. Mostraremos como construir uma rede neural simples e eficaz que será
capaz de classificar dı́gitos manuscritos com precisão. Ao longo do caminho, destacaremos conceitos fundamen-
tais e melhores práticas, tornando esta leitura valiosa tanto para iniciantes quanto para aqueles que desejam
aprofundar seu conhecimento em RNAs. Portanto, prepare-se para explorar a evolução das RNAs, compreender
seu funcionamento e, finalmente, aplicar esse conhecimento na construção de um modelo prático e eficiente para
a classificação de dı́gitos manuscritos.
Palavras-chave— Redes Neurais Artificiais (RNAs), Classificação de Dı́gitos Manuscritos, Surgimento das RNAs,
Processamento de Dados
1 Introdução 1.1 Desafios no Reconhecimento de Dı́gitos e ca-

racteres
A área de reconhecimento de texto (OCR) en-

frenta desafios na proteção precisa de texto de
imagens e documentos digitalizados. Problemas
As redes neurais artificiais revolucionaram inúme- incluem variação na qualidade da imagem, dife-
ras áreas, desde visão computacional até processa- rentes idiomas e fontes. A precisão e a eficiência
mento de linguagem natural. Reconhecer dı́gitos são cruciais. Como observado por (Zanardo, 2016)
é uma tarefa fundamental em muitas aplicações, em seu artigo ”Desafios do historiador na Era Di-
desde sistemas de pagamento que leem números gital”(2016), os documentos digitalizados, como
em cheques até a automação de classificação de imagens, passam por alterações, como mudanças
correio. No entanto, os métodos tradicionais mui- de cor e tamanho, muitas vezes devido à inter-
tas vezes esbarram em limitações, especialmente rupção do processo ou à necessidade de economia
ao lidar com variações na caligrafia e na quali- de espaço no servidor. Além disso, a digitalização
dade da digitalização. É aqui que as redes neu- implica na perda de qualidades fı́sicas do docu-
rais entram em cena, oferecendo uma abordagem mento, como seu cheiro, textura e material. Za-
adaptável e poderosa para identificar dı́gitos em nardo destaca a importância de criar metadados
diferentes contextos. relacionados aos arquivos digitalizados para apro-
ximar os historiadores da experiência primordial especialmente adequadas para tarefas que envol-
que originou o documento.Um exemplo de pro- vem a análise de imagens, devido à sua capacidade
blema real enfrentado pela sociedade atualmente é de identificar caracterı́sticas relevantes em diferen-
o processo de transcrição manual desses documen- tes escalas e nı́veis de abstração. No contexto do
tos, que é moroso e propenso a erros, limitando o OCR, elas desempenham um papel crucial na de-
acesso às informações neles contidas. Nesse sen- tecção de caracteres, palavras e estruturas de do-
tido, acervos culturais e históricos são essenciais cumentos.
para preservar o patrimônio e permitir o acesso
• Detecção de Caracterı́sticas: As CNNs são
de gerações contemporâneas e futuras a itens de
conhecidas por sua capacidade de detecção de
grande importância para o paı́s. Conforme desta-
caracterı́sticas em imagens, como bordas, tex-
cado por (Roberto Fray da Silva, 2018) possuem
turas e formas. Ao aplicar camadas de con-
um papel fundamental na preservação do patrimô-
volução em um documento digitalizado, essas
nio cultural e histórico. Elas desempenham um
redes podem identificar áreas de interesse que
papel crucial em cinco áreas principais: auxı́lio
contêm texto.
à pesquisa cientı́fica; preservação e manutenção;
melhoria da educação relacionada ao patrimônio • Localização e Segmentação de Texto: Além
cultural; aumento da difusão dos acervos; e melho- da detecção de caracterı́sticas, as CNNs são
ria do acesso por parte do ’não-público’ de museus capazes de localizar e segmentar o texto em
e de usuários que não têm acesso às bibliotecas e um documento. Isso é fundamental para a
arquivos. extração precisa de palavras e caracteres, o
que é central para o OCR.
1.2 O Potencial das Redes Neurais no Aprendi- • Diferentes Escalas e Orientações: As CNNs
zado de Máquina podem capturar caracterı́sticas em diferentes
escalas e orientações, permitindo a detecção
O Aprendizado de Máquina (ML) oferece uma
de texto independentemente da sua orienta-
abordagem promissora para melhorar o OCR. Al-
ção e tamanho no documento.
goritmos, como Redes Neurais Artificiais (RNAs)
e Deep Learning, têm capacidade de aprender • Abordagens de Pré-Processamento: Além
padrões complexos, permitindo maior adaptabili- do reconhecimento de texto, as CNNs po-
dade aos dados. Este projeto foi concebido com o dem ser combinadas com técnicas de pré-
objetivo acadêmico de introduzir o conceito de re- processamento para melhorar ainda mais a
des neurais artificiais (RNAs) em uma abordagem qualidade do OCR. Por exemplo, elas podem
simplificada. Para demonstrar os princı́pios fun- ser usadas em conjunto com a binarização de
damentais, optou-se por utilizar o conjunto de da- imagens para melhorar a legibilidade de do-
dos MNIST, que se concentra na tarefa de classifi- cumentos digitalizados.
cação de dı́gitos manuscritos. A meta é capacitar
No contexto de redes de aprendizagem pro-
a máquina a reconhecer e classificar com precisão
funda, as redes convolucionais apresentam uma
esses dı́gitos escritos à mão, demonstrando o po-
grande capacidade de aprendizagem em imagens,
der das RNAs no contexto do reconhecimento de
não sendo necessário previamente realizar quais-
padrões. A classificação de dı́gitos manuscritos é
quer pré-processamentos de extração de caracte-
uma tarefa essencial no campo da visão computa-
rı́sticas antes da entrada na rede de aprendizado,
cional e aprendizado de máquina, com aplicações
sendo este realizado implicitamente nas camadas
que abrangem desde o reconhecimento de escrita
convolucionais. As redes aprendem e aplicam os
manual até o processamento de cheques e a clas-
filtros necessários para extração correta das carac-
sificação de códigos postais. Neste artigo, será ex-
terı́sticas que normalmente é feita manualmente e
plorada a aplicação de uma rede neural artificial
por tentativa de erro. Na literatura a utilização
para abordar esse desafio especı́fico e avaliar seu
desta técnica tem alcançado bons resultados em
desempenho.
relação a sua acurácia, e tem sido utilizada em di-
versos projetos de Visão Computacional aplicados
2 Revisão Bibliográfica em problemas da medicina”(dos Santos, 2018)
2.1 Redes Convolucionais para Extração de 2.2 Soluções de código aberto

Texto em Documentos
Na busca por soluções de reconhecimento de texto
As CNNs se destacaram como uma ferramenta (OCR), uma variedade de ferramentas tem sido
poderosa para a extração de caracterı́sticas e pa- explorada. Entre eles, destacam-se softwares co-
drões em imagens, tornando-as uma escolha signi- merciais, como o ABBYY FineReader, e solu-
ficativa para melhorar o reconhecimento óptico de ções de código aberto, como o Tesseract. Con-
caracteres (OCR) e a extração de texto de docu- forme descrito por (Azevedo, 2018) em seu ar-
mentos digitalizados. As redes convolucionais são tigo ”CASO DE USO DE FERRAMENTAS OCR
PARA AUTOMAÇÃO DE INSERÇÃO DE IN- car em padrões especı́ficos, aumentando sua
FORMAÇÕES EM BANCO DE DADOS”(2018), eficiência.
o Tesseract é um motor de OCR que foi inicial-
mente desenvolvido pela Hewlett Packard em 1985 • Redução de Custos a Longo Prazo: A efi-
e publicado como código aberto em 2005. Desde ciência das redes neurais leva a uma redu-
2006, a ferramenta tem sido patrocinada pelo Go- ção de custos, especialmente economizando
ogle. Embora o Tesseract não possua uma in- tempo na análise de dados e otimizando o uso
terface gráfica do usuário (GUI), existem vários de infraestrutura.
projetos que oferecem interfaces para o programa. • Melhoria nos Processos de Tomada de Deci-
Uma caracterı́stica notável do Tesseract é sua ca- são: Elas melhoram a análise de informações,
pacidade de aceitar diversos formatos de imagens auxiliando na tomada de decisões estratégicas
para reconhecimento, além de oferecer suporte ao com base em dados de alta qualidade.
reconhecimento de layouts de documentos. A fer-
ramenta é compatı́vel com os certificados UTF-8, • Aplicações em Diversas Áreas: Redes neurais
o que permite o reconhecimento de mais de 100 são aplicadas em diversas áreas, incluindo fi-
idiomas. Os arquivos de saı́da gerados podem es- nanças, saúde, pesquisa, lazer, militar e ou-
tar em formatos como texto, hocr (HTML), PDF, tras, devido à sua capacidade de processar
TSV e PDF invisı́vel de texto somente. dados de forma eficaz.
• Redes Neurais nas Finanças: Um grande po-
2.3 RNAs e visão computacional tencial na análise financeira, podendo ser usa-
A aprendizagem profunda e, mais especificamente, das em previsão de crédito, avaliação de risco,
as redes neurais profundas, têm desempenhado previsões econômicas e muito mais.
um papel transformador em campos como visão • Trabalhos Complexos Substituı́dos: Os tra-
computacional e reconhecimento de padrões. Em balhos excessivamente complexos para a
sua pesquisa, (Giulian, 2018) destacou a impor- mente humana, que nescessita de precisão e
tância de utilizar um conjunto estrategicamente eficácia em tarefas desafiadoras podem fazer
selecionado de imagens para verificar efetivamente uso dessa tecnologia.
a eficácia do processo, minimizando o processa-
mento necessário. Ele argumentou que essa abor- • Ampliação da Utilização da Tecnologia: A ca-
dagem é crucial para otimizar o uso de recursos pacidade de usar redes neurais como aliadas
computacionais e melhorar a eficiência do processo na tomada de decisões e processamento de da-
de geração de imagens utilizando GPU e redes dos é relevante em diversas áreas.
neurais artificiais. Essas redes têm a capacidade
singular de aprender representações complexas de 2.4 Biblioteca MINIST
dados e têm sido amplamente aplicadas em tarefas
de classificação de imagens. De nada adiantaria O conjunto de dados MNIST é um dos conjun-
a ambição de criar um sistema tão complexo, se tos de dados mais conhecidos para classificação
não pudéssemos responder a pergunta: Qual se- de dı́gitos manuscritos, criado pela National Insti-
ria a utilidade de uma rede neural artificial para o tute of Standards and Technology e amplamente
homem ou sociedade? (Arthur Lima Siqueira da utilizado em cursos introdutórios à Machine Le-
Silva, 2016).Com isso em mente veja alguns be- arning. Consiste em 60.000 imagens de treina-
nefı́cios e a importância das redes neurais artifici- mento e 10.000 imagens de teste, cada uma repre-
ais, destacando sua aplicação na visão computa- sentando um dı́gito manuscrito de 0 a 9 em uma
cional e seu papel nas tarefas de aprendizado de escala de cinza de 28x28 pixels. Este conjunto de
máquina. dados tem sido fundamental em projetos de re-
conhecimento de dı́gitos manuscritos, incluindo o
• Utilidade das Redes Neurais Artificiais: Re- nosso próprio.
des neurais artificiais têm a capacidade de Fonte: Apostila de Machine Learning por
aprender e generalizar, tornando-se valiosas William Ludovico Homem, PET Engenharia Me-
em várias aplicações. cânica, Universidade Federal do Espı́rito Santo,
2020.
• Aumento da Velocidade na Análise de Dados:
Essas redes aceleram a análise de informa- 2.5 Principais bibliotecas utilizadas
ções e se beneficiam da escalabilidade, espe-
cialmente quando integradas com tecnologias O TensorFlow e o scikit-learn são duas das princi-
como cloud computing. pais bibliotecas utilizadas no desenvolvimento de
redes neurais e em tarefas de aprendizado de má-
• Maior Capacidade de Aprender e Identificar quina em Python. Conforme destacado (Jonathan
Padrões: Redes neurais são ensinadas por Romeiro de Sousa, 2020), o Python é uma lin-
exemplos e podem ser personalizadas para fo- guagem multiplataforma e de código aberto que
permite aos desenvolvedores realizar modificações tando um dı́gito manuscrito de 0 a 9. Primeiro,
para suportar novas linguagens, tornando-o uma normalizamos as imagens para o intervalo entre 0
escolha popular para trabalhar com inteligência e 1. Isso é feito dividindo todos os valores de pixel
artificial, data mining e machine learning. A natu- por 255.0. A normalização é uma etapa impor-
reza livre da linguagem, juntamente com sua ver- tante porque coloca todos os valores de pixel na
satilidade, contribui para sua preferência nessas mesma escala, o que facilita o treinamento da rede
áreas. O TensorFlow, desenvolvido pela Google, é neural.
uma plataforma de código aberto que oferece uma
estrutura flexı́vel para criar e treinar redes neu-
rais profundas, De acordo com (FALCÃO, 2019),
o TensorFlow é considerado um dos principais fra-
meworks do mercado para o desenvolvimento de
redes neurais deep learning. Este framework ofe-
rece a capacidade de agilizar e simplificar o pro-
cesso de aquisição de dados, treinamento de mo-
delos, realização de previsões e refinamento de re-
sultados futuros. O scikit-learn, por outro lado, é
uma biblioteca que fornece uma ampla variedade
de algoritmos de aprendizado de máquina para ta- Figura 1: Importando e fazendo tratamento
refas como classificação, regressão e clusterização.
3.2 One-Hot Encoding dos Rótulos

3 Metodologia
Os rótulos que acompanham as imagens represen-
O processo de reconhecimento de dı́gitos manus- tam o dı́gito correto associado a cada imagem. No
critos com redes neurais artificiais usando o con- entanto, para treinar nossa rede neural de forma
junto de dados MNIST envolve várias etapas cru- eficaz, convertemos esses rótulos em um formato
ciais. A metodologia utilizada é projetada para conhecido como ”one-hot encoding”. One-hot en-
transformar os dados brutos em um modelo de coding é uma técnica em que cada rótulo é re-
rede neural treinado capaz de realizar classifica- presentado como um vetor binário com um único
ções precisas. Iniciaremos explicando a prepara- ”1”em uma posição correspondente ao dı́gito e ”0”s
ção dos dados, incluindo a normalização das ima- em todas as outras posições. Isso é feito usando a
gens e a conversão dos rótulos em formato ”one- função categorical da biblioteca Keras. No caso,
hot encoding”. Em seguida, abordaremos a di- estamos trabalhando com 10 dı́gitos (de 0 a 9),
visão do conjunto de dados em subconjuntos de então cada rótulo é representado como um vetor
treinamento, validação e teste, essencial para ava- de 10 elementos. Essa transformação permite que
liar o desempenho do modelo. A arquitetura da a rede neural compreenda melhor os rótulos e re-
rede neural é um dos principais componentes deste alize a classificação de forma mais precisa durante
projeto, e detalharemos o número de neurônios em o treinamento. Ela também é uma prática comum
cada camada e a escolha das funções de perda e em problemas de classificação com várias classes.
otimizador. Além disso, destacaremos a utiliza-
ção de uma camada de dropout como uma técnica 3.3 Divisão do Conjunto de Dados
de regularização. Medições de desempenho, como
precisão, recall, F1-score e a matriz de confusão, A divisão do conjunto de dados MNIST é rea-
serão apresentadas para avaliar a capacidade do lizada em três partes: treinamento, validação e
modelo em reconhecer dı́gitos em várias classes. teste. Esta divisão é importante para avaliar o
Por fim, discutiremos o processo de avaliação do desempenho do modelo de maneira justa. Eis a
desempenho da rede neural usando o conjunto de explicação dos números envolvidos:
teste, que não foi usado durante o treinamento. • Conjunto de Treinamento: Composto por
Essa avaliação fornecerá informações crı́ticas so- 51.000 imagens (cerca de oitenta e cinco por
bre a capacidade do modelo de generalizar para cento do conjunto original), este conjunto é
novos dados. usado para treinar a rede neural. A escolha
desse tamanho permite que o modelo aprenda
3.1 Treinando um modelo de Rede Neural com uma quantidade significativa de dados.
Iniciando o treinamento, importamos o conjunto • Conjunto de Validação: Composto por 9.000
de dados MNIST. O conjunto de dados MNIST imagens (cerca de quinze por cento do con-
é amplamente utilizado para tarefas de reconhe- junto original), este conjunto é usado durante
cimento de dı́gitos manuscritos. Ele consiste em o treinamento para ajustar hiperparâmetros
um conjunto de imagens de treinamento e um con- e avaliar o desempenho da rede em dados não
junto de imagens de teste, cada uma represen- vistos.
• Conjunto de Teste: Composto por 10.000
imagens, este conjunto é usado para avaliar
o desempenho final do modelo. É importante
ressaltar que esses conjuntos são exclusivos e
não compartilham dados para evitar viés nos
resultados.
Figura 4: função de perda e o otimizador
rede para minimizar a função de perda. Os re-

sultados do treinamento mostram o progresso da
rede ao longo das épocas. Eis o que os resultados
significam:
• Época: Cada época representa uma passagem

completa pelos dados de treinamento. A rede
é atualizada a cada época.
Figura 2: dividindo o conjunto • Loss (Perda): A perda é uma medida da dis-
crepância entre as previsões da rede e os ró-
tulos reais. Durante o treinamento, a perda
3.4 Arquitetura da Rede Neural deve diminuir gradualmente.
Uma camada de entrada com 784 neurônios (para • Accuracy (Precisão): A precisão indica a pro-
representar as imagens MNIST de 28x28 pi- porção de previsões corretas feitas pela rede
xels).Pelo menos uma camada oculta com uma em relação aos rótulos reais. A precisão deve
quantidade de neurônios de nossa escolha. Uma aumentar à medida que o modelo aprende..
camada de saı́da com 10 neurônios, um para cada
classe de dı́gito de 0 a 9. Função de Perda e Oti- • Validation Loss (Perda de Validação) e Vali-
mizador: Escolhemos a função de perda de en- dation Accuracy (Precisão de Validação): Es-
tropia cruzada categórica e o otimizador Gradi- sas métricas são calculadas usando o conjunto
ente Descendente Estocástico (SGD) para treinar de validação e fornecem uma avaliação im-
nosso modelo. parcial do desempenho da rede em dados não
vistos durante o treinamento. O objetivo é
evitar o superajuste e criar um modelo que
generalize bem para novos dados.
Figura 3: Rede neural
3.5 Função de Perda e Otimizador

Função de Perda: Utilizamos a função de perda
”entropia cruzada categórica”(categorical cross- Figura 5: Treinamento da rede
entropy), que é adequada para problemas de clas-
sificação multiclasse como o reconhecimento de dı́-
gitos. Esta função mede a discrepância entre as 3.7 Avaliação do Desempenho
previsões do modelo e os rótulos reais. Otimiza-
dor: Utilizamos o otimizador Gradiente Descen- Após o treinamento, é avaliado o desempenho fi-
dente Estocástico (SGD) para ajustar os pesos da nal da rede neural usando o conjunto de teste,
rede durante o treinamento. O SGD é um algo- que não foi usado durante o treinamento. resul-
ritmo de otimização amplamente utilizado para tados significam: Test Loss (Perda de Teste): A
minimizar a função de perda, tornando a rede perda de teste mede a discrepância entre as pre-
mais precisa ao longo do tempo. visões da rede e os rótulos reais no conjunto de
teste. Uma perda baixa indica que o modelo está
fazendo previsões precisas. Test Accuracy (Preci-
3.6 Treinamento da Rede Neural
são de Teste): A precisão de teste é a proporção
Treinamos a rede neural em várias épocas (10, de previsões corretas feitas pela rede no conjunto
neste caso) usando o conjunto de treinamento. de teste. Ela é uma métrica importante que indica
Durante o treinamento, ajustamos os pesos da o desempenho geral do modelo em novos dados.
Figura 6: Avaliação
3.8 Métricas Adicionais e Matriz de Confusão
Além da precisão, outras métricas são importan-

tes, como precisão ponderada, recall ponderado e
F1-score, para avaliar o desempenho do modelo
em cada classe de dı́gito. A matriz de confusão
mostra como as previsões do modelo se comparam
aos rótulos reais para cada classe. Essas métricas
fornecem insights mais detalhados sobre o desem-
penho da rede em diferentes categorias.
Figura 9: Classificação
3.11 Avaliação do Desempenho

Após o treinamento, é avaliado o desempenho fi-
nal da rede neural usando o conjunto de teste,
que não foi usado durante o treinamento. resul-
tados significam: Test Loss (Perda de Teste): A
perda de teste mede a discrepância entre as pre-
visões da rede e os rótulos reais no conjunto de
teste. Uma perda baixa indica que o modelo está
Figura 7: Métricas Adicionais fazendo previsões precisas. Test Accuracy (Preci-
são de Teste): A precisão de teste é a proporção
de previsões corretas feitas pela rede no conjunto
de teste. Ela é uma métrica importante que indica
3.9 Arquitetura com Dropout o desempenho geral do modelo em novos dados.
Nesta versão da rede neural, é possı́vel adicionar
uma camada de Dropout com taxa de 0,5. O Dro-
pout é uma técnica de regularização que ajuda a
reduzir o overfitting durante o treinamento. Ele
desativa aleatoriamente uma fração das unidades
de neurônios durante cada época, forçando a rede
a aprender representações mais robustas.
Figura 8: Dropout
Figura 10: Desempenho final
3.10 Relatório de Classificação 4 Considerações Finais
O relatório de classificação fornece métricas deta- Esta pesquisa demonstra a eficácia das redes neu-
lhadas para cada classe de dı́gito, incluindo pre- rais artificiais no reconhecimento de dı́gitos ma-
cisão, recall e F1-score. Essas métricas são úteis nuscritos e destaca o papel fundamental das bi-
para entender como o modelo se comporta em di- bliotecas TensorFlow e scikit-learn. Os resultados
ferentes categorias. A precisão ponderada e o F1- obtidos reforçam a importância do uso de RNAs
score ponderado são métricas agregadas que levam em uma variedade de aplicações, desde reconheci-
em consideração o desempenho em todas as clas- mento de caracteres até automação industrial. À
ses. medida que avançamos na era da IA, o reconheci-
mento de padrões, como o reconhecimento de dı́- Giulian, H. (2018). Uma abordagem para gera-
gitos, continuará a desempenhar um papel crucial ção de imagem baseada no uso de gpu e re-
em nossa sociedade. des neurais artificiais, Universidade Federal
As redes neurais artificiais, como demons- da Paráiba (1): 14–15.
trado neste projeto, desempenham um papel cru-
cial em várias aplicações de aprendizado de má- Jonathan Romeiro de Sousa, Juliana Fonseca An-
quina, incluindo o reconhecimento de dı́gitos. A tunes, A. d. O. J. C. R. L. T. M. d. S. M.
pesquisa destaca como as RNAs são capazes de S. T. G. S. d. S. (2020). Python e predição
aprender representações complexas e realizar tare- de dados usando redes neurais multicamadas,
fas de classificação com alta precisão. Além disso, Brazilian Journal of Development Braz p. 3.
a análise das métricas e da matriz de confusão Roberto Fray da Silva, Francis Melvin Lee, E.
mostra o desempenho da RNA em cada classe de S. G. (2018). A implementação de reposi-
dı́gito, o que pode ser útil em cenários práticos, tórios digitais e os requisitos dos usuários: o
como sistemas de reconhecimento de caracteres e caso do instituto hercule florence, Revista do
processamento de documentos. arquivo 2(6): 87–101.
Ademais durante o desenvolvimento dessa
pesquisa, atingimos diversos marcos importantes. Zanardo, J. (2016). Desafios do historiador na era
Primeiramente, um pré-processamento eficiente digital, Universidade de São Paulo pp. 3–4.
dos dados do conjunto MNIST, incluindo a norma-
lização das imagens e a codificação ”one-hot”dos
rótulos. Em seguida, a dividisão do conjunto de
dados em conjuntos de treinamento, validação e
teste para avaliar imparcialmente o desempenho
dos modelos. Projetado arquiteturas de redes neu-
rais com camadas ocultas variadas e a realização
de treinamento desse modelo utilizando o otimi-
zador Gradiente Descendente Estocástico (SGD)
e a função de perda de entropia cruzada categó-
rica, otimizando os hiperparâmetros para maximi-
zar o desempenho. Avaliação do desempenho dos
modelos utilizando métricas cruciais, como preci-
são, recall, F1-score e a matriz de confusão, pro-
porcionando uma análise detalhada do reconhe-
cimento de dı́gitos em todas as classes. explora-
ção da técnica de regularização conhecida como
Dropout para aprimorar o desempenho e evitar o
overfitting. Esses passos demonstram a robustez
da abordagem utilizada ao longo do projeto.
Referências
Arthur Lima Siqueira da Silva, V. B. d. S. J.

(2016). Aplicações e benefı́cios obtidos atra-
vés das redes neurais artificias (rna), Revista
Facima Digital Gestão (2): 36–38.
Azevedo, Ana Lúcia Mendes da Cunha Carvalho,

A. L. P. R. (2018). Caso de uso de ferra-
mentas ocr para automaÇÃo de inserÇÃo de
informaÇÕes em banco de dados, Universi-
dade Federal Fluminense pp. 24–25.
dos Santos, W. P. (2018). Utilização de redes

convolucionais para classificação e diagnós-
tico da doença de alzheimer, Master’s thesis.
FALCÃO, João V. R., M. V. d. A. S. F. A. O.

R. C. d. A. (2019). Redes neurais deep le-
arning com tensorflow, Universidade José do
Rosário Vellano (1): 3.

Artigo AguinaldoMendes

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Artigo AguinaldoMendes

Uploaded by

Copyright:

Available Formats

IDENTIFICAÇÃO DE DÍGITOS ESCRITOS À MÃO COM REDES NEURAIS ARTIFICIAIS

USANDO O CONJUNTO DE DADOS MNIST

Aguinaldo Mendes de Oliveira Junior∗

1 Introdução 1.1 Desafios no Reconhecimento de Dı́gitos e ca-

A área de reconhecimento de texto (OCR) en-

2.1 Redes Convolucionais para Extração de 2.2 Soluções de código aberto

3.2 One-Hot Encoding dos Rótulos

rede para minimizar a função de perda. Os re-

• Época: Cada época representa uma passagem

Figura 3: Rede neural

3.5 Função de Perda e Otimizador

3.8 Métricas Adicionais e Matriz de Confusão

Além da precisão, outras métricas são importan-

3.11 Avaliação do Desempenho

3.10 Relatório de Classificação 4 Considerações Finais

Arthur Lima Siqueira da Silva, V. B. d. S. J.

Azevedo, Ana Lúcia Mendes da Cunha Carvalho,

dos Santos, W. P. (2018). Utilização de redes

FALCÃO, João V. R., M. V. d. A. S. F. A. O.

You might also like