Professional Documents
Culture Documents
daniel.vio@academico.ufpb.br, academicsouzaelvis33@gmail.com
1. Introdução
A constituição da Ciência da Computação como campo cientı́fico no Brasil é um
fenômeno recente. A presença de profissionais na área começou a ocorrer com a
chegada das primeiras máquinas, mas foi na década de 1960 que esse campo começou
a se expandir. Inicialmente, o conhecimento nesse domı́nio era incipiente, mesmo em
instituições renomadas como a PUC do Rio de Janeiro, o ITA e a USP, que adquiri-
ram seus primeiros computadores para propósitos educacionais entre 1960 e 1962.
[Jonathan 2013].
Na segunda metade da década de 1970, várias instituições de ensino superior
perceberam o aumento significativo na demanda por cursos de graduação em computação
e informática. No âmbito da pós-graduação, programas consolidados, como o da
PUC do Rio de janeiro, estabelecido em 1968, o Programa de Engenharia de Sis-
temas e Computação, da UFRJ, surgido em 1970, e o Programa de Pós-Graduação em
Computação do Instituto de Informática da UFRGS, criado em 1973, contribuı́ram de
maneira crucial para fortalecer a base acadêmica e cientı́fica no campo da computação no
Brasil. [Jonathan 2013].
A Ciência da Computação, apesar de ser uma área relativamente recente, desen-
volveu uma cultura cientı́fica única, marcada por processos, métodos e abordagens es-
pecı́ficas em sua prática cientı́fica. Essa singularidade é decorrente do extenso uso de
tecnologia, caracterizado por mudanças rápidas e contı́nuas na área. Em contraste com
outras disciplinas, a Ciência da Computação adota um modelo distintivo também em suas
práticas de comunicação cientı́fica. Nesse cenário, destaca-se a valorização significativa
dos trabalhos apresentados em conferências cientı́ficas, enquanto o processo de revisão
assemelha-se ao adotado para artigos em revistas, com a participação de múltiplos revi-
sores para cada trabalho, mantendo o anonimato na revisão.[J. P. Mena-Chalco 2012].
O propósito do presente artigo é contribuir para a compreensão da produção
acadêmica no campo da Ciência da Computação. A pesquisa busca identificar as variáveis
que mais impactam na produtividade de um grupo especı́fico de pesquisadores, no caso
os professores de programas nota sete da Coordenação de Aperfeiçoamento de Pessoal de
Nı́vel Superior (CAPES), da área de Ciência da Computação. Para alcançar esse objetivo,
a pesquisa empregará a técnica de árvore de decisão, visando aprofundar a compreensão
das variáveis mais relevantes que influenciam a produtividade acadêmica nesse contexto
especı́fico.
A próxima seção tratará especificamente da apresentação da pesquisa, destacando
seus objetivos. A terceira seção abordará os métodos empregados para atingir esses ob-
jetivos. Na quarta seção, serão apresentados os resultados obtidos após o treinamento
do conjunto de dados. A última seção fornecerá breves conclusões, apontando algumas
direções para a continuidade da pesquisa.
3. Materiais e Métodos
Em essencia a aprendizagem supervisionada procura encontrar uma hipótese que se ajuste
aos dados de treinamento e seja capaz de prever corretamente novos exemplos.
Dessa forma, a tarefa consiste em encontrar uma função h que se assemelhe à
função f, utilizando um conjunto de treinamento composto por pares de exemplos de
1
A definição da métrica para rotular a saı́da e a apresentação das variáves de entrada será realizada na
próxima seção
entrada e saı́da. Cada saı́da y é gerada pela função desconhecida f(x). O objetivo prin-
cipal é descobrir uma hipótese que possa generalizar eficazmente, apresentando bom de-
sempenho não apenas nos dados de treinamento, mas também em novos exemplos. A
avaliação da precisão da hipótese ocorre por meio de um conjunto de testes independente,
e, dependendo da natureza da saı́da (conjunto finito de valores ou número), a partir disso
o problema é categorizado como de classificação ou regressão. [Russell 2013]
A árvore de decisão utiliza a estratégia ”divisão e conquista”, em que um problema
complexo é fragmentado em subunidades de problemas mais simples. Recursivamente,
essa mesma estratégia é aplicada a cada subunidade de problema. Portanto, a capacidade
discriminativa de uma árvore de decisão emerge da sua subdivisão do espaço definido
pelas variáveis de entrada em subespaços, associando a cada um deles uma classe es-
pecı́fica.
A figura acima ilustra uma árvore de decisão, nela cada nó possui um teste de
variável. Além disso, cada ramo que desce corresponde a um possı́vel valor de tal variável.
A cada folha está associada uma classe e cada percurso na árvore corresponde a uma regra
de classificação.
3.2. Pré-Processamento
O pré-processamento dos dados consistiu, em primeiro momento, na realização de uma
série de checagens nos dados obtidos. Após tal etapa restava o desafio de criar uma
métrica para classificar os professores de acordo com sua produtividade. O primeiro
caminho poderia ter sido o de classificar os pesquisadores de acordo com a quantidade
de artigos publicados em periódicos, tal escolha, no entanto, levaria a que pesquisadores
com maior idade provavelmente seriam considerados os mais produtivos.
Assim, a partir do uso das variáveis ”Ano de obtenção do doutorado” e ”Quanti-
dade publicações em perı́odicos” foi criado um ı́ndice de produtividade (IP) que pode ser
retratado pela fórmula:
Índice de Produtividade = Número de artigos publicados / (2024 - Ano do
doutorado)
Após a criação do ı́ndice foram criadas estabelecidas categorias de classificação.
O terço de pesquisadores com maior ı́ndice e o com menor ı́ndice foram classificados,
respectivamente, como altamente produtivos e de baixa produtividade. Os pesquisadores
intermediários foram classificados como de média produtividade.
mitigar qualquer viés intrı́nseco aos dados, possibilitando, assim, que o algoritmo identi-
ficasse padrões e informações relevantes de maneira imparcial.
Posteriormente, os dados foram usados em um conjunto de treinamento, denomi-
nado ”datatrain”. Este conjunto tem como propósito permitir o treinamento do algoritmo
com a totalidade dos dados.
Analisando o treinamento, foi possı́vel determinar suas dimensões por meio do
comando ”dim(datatrain)”, revelando o número de linhas e colunas em cada conjunto.
Além disso, foi realizada uma avaliação da proporção de valores distintos na variável de
saı́da por meio do uso da função ”prop.table()”.
Na linha 40, o algoritmo foi treinado utilizando a função ”rpart” para gerar um
modelo de árvore de decisão. A expressão ”SAIDA .” denota a dependência da variável
de saı́da em relação a todas as outras variáveis presentes no conjunto de dados. Utilizou-
se o conjunto ”datatrain” como dado de treinamento e o método ’class’ para resolver um
problema de classificação.
Finalmente, na linha 41, empregou-se a biblioteca ”rpart” para invocar a função
”rpart.plot”, gerando um gráfico representativo da árvore de decisão resultante do treina-
mento do algoritmo com os conjuntos de dados previamente delineados. Este procedi-
mento culminou na exibição visual da estrutura da árvore para análise e interpretação.
4. Resultados e Análise
Após realizar a execução do script no RStudio, foi obtido a seguinte árvore:
References
J. P. Mena-Chalco, L. A. D. e. L. B. O. (2012). 215em questão, porto alegre, v. 18, edição
especial, p. 215-229, dez. 2012.perfil de produção acadêmica dos programas brasileiros
de pós-graduação em ciência da computação nos triênios 2004-2006 e 2007-2009. Em
Questão, 18:215–229.
Jonathan, M. (2013). Um breve histórico da formação em computação no brasil. 6º.
Congresso de História das Ciências e das Técnicas e Epistemologia.
Russell, S. J. (2013). Inteligência artificial. Campus.