You are on page 1of 7

Árvore de Decisão para Compreensão da Produtividade

Acadêmica em Ciência da Computação


Daniel Vio1 , Elvis S. Souza1
1
Centro de Informática – Universidade Federal da Paraı́ba (UFPB)

daniel.vio@academico.ufpb.br, academicsouzaelvis33@gmail.com

Resumo. O artigo busca contribuir para compreensão da produção acadêmica,


na área de Ciência da Computação, utilizando a técnica de árvore de decisão
para identificar variáveis impactantes na produtividade de professores de pro-
gramas conceituados como sete pela CAPES. A pesquisa emprega raspagem de
dados para classificar os pesquisadores em categorias de alta, média e baixa
produtividade e procura compreender quais variáveis são mais importantes
para explicar a maior produtividade. A conclusão aponta que a realização
de supervisão de estudos de pos-doutorado, o programa do qual o docente faz
parte e a quantidade de orientações de doutorado concluı́das são as variáveis
que mais pesam para aferir a produtividade dos pesquisadores da área. .

1. Introdução
A constituição da Ciência da Computação como campo cientı́fico no Brasil é um
fenômeno recente. A presença de profissionais na área começou a ocorrer com a
chegada das primeiras máquinas, mas foi na década de 1960 que esse campo começou
a se expandir. Inicialmente, o conhecimento nesse domı́nio era incipiente, mesmo em
instituições renomadas como a PUC do Rio de Janeiro, o ITA e a USP, que adquiri-
ram seus primeiros computadores para propósitos educacionais entre 1960 e 1962.
[Jonathan 2013].
Na segunda metade da década de 1970, várias instituições de ensino superior
perceberam o aumento significativo na demanda por cursos de graduação em computação
e informática. No âmbito da pós-graduação, programas consolidados, como o da
PUC do Rio de janeiro, estabelecido em 1968, o Programa de Engenharia de Sis-
temas e Computação, da UFRJ, surgido em 1970, e o Programa de Pós-Graduação em
Computação do Instituto de Informática da UFRGS, criado em 1973, contribuı́ram de
maneira crucial para fortalecer a base acadêmica e cientı́fica no campo da computação no
Brasil. [Jonathan 2013].
A Ciência da Computação, apesar de ser uma área relativamente recente, desen-
volveu uma cultura cientı́fica única, marcada por processos, métodos e abordagens es-
pecı́ficas em sua prática cientı́fica. Essa singularidade é decorrente do extenso uso de
tecnologia, caracterizado por mudanças rápidas e contı́nuas na área. Em contraste com
outras disciplinas, a Ciência da Computação adota um modelo distintivo também em suas
práticas de comunicação cientı́fica. Nesse cenário, destaca-se a valorização significativa
dos trabalhos apresentados em conferências cientı́ficas, enquanto o processo de revisão
assemelha-se ao adotado para artigos em revistas, com a participação de múltiplos revi-
sores para cada trabalho, mantendo o anonimato na revisão.[J. P. Mena-Chalco 2012].
O propósito do presente artigo é contribuir para a compreensão da produção
acadêmica no campo da Ciência da Computação. A pesquisa busca identificar as variáveis
que mais impactam na produtividade de um grupo especı́fico de pesquisadores, no caso
os professores de programas nota sete da Coordenação de Aperfeiçoamento de Pessoal de
Nı́vel Superior (CAPES), da área de Ciência da Computação. Para alcançar esse objetivo,
a pesquisa empregará a técnica de árvore de decisão, visando aprofundar a compreensão
das variáveis mais relevantes que influenciam a produtividade acadêmica nesse contexto
especı́fico.
A próxima seção tratará especificamente da apresentação da pesquisa, destacando
seus objetivos. A terceira seção abordará os métodos empregados para atingir esses ob-
jetivos. Na quarta seção, serão apresentados os resultados obtidos após o treinamento
do conjunto de dados. A última seção fornecerá breves conclusões, apontando algumas
direções para a continuidade da pesquisa.

2. Apresentação e Delimitação da Pesquisa


A pesquisa tem como objeto os professores dos oito programas de de pós-graduação con-
ceituados na CAPES com nota sete:
• PUC/RS
• PUC/RJ
• UFMG
• UFPE
• UFRGS
• UFRJ
• UNICAMP
• USP (São Carlos)
Os programas acima mencionados possuem atualmente 373 professores credenci-
ados. O objetivo da presente pesquisa é o de compreender em tal universo quais variáveis
são mais relevantes para explicar a produtividade de tais pesquisadores. Para tanto, o
primeiro passo foi raspar o curriculo lattes de cada um deles, os dados permitiram classi-
ficar cada um dos professores em três categorias de produtividade acadêmica: alta, média
e baixa.1
Além disso, a obtenção de dados sobre os pesquisadores possibilitou que as
variáveis obtidas fossem utilizadas para realizar o treinamento de um modelo de árvore de
decisão e nos pemitiu compreender quais são as instancias com maior peso para explicar
o desempenho dos professores mais produtivos dos programas nota sete da CAPES.

3. Materiais e Métodos
Em essencia a aprendizagem supervisionada procura encontrar uma hipótese que se ajuste
aos dados de treinamento e seja capaz de prever corretamente novos exemplos.
Dessa forma, a tarefa consiste em encontrar uma função h que se assemelhe à
função f, utilizando um conjunto de treinamento composto por pares de exemplos de
1
A definição da métrica para rotular a saı́da e a apresentação das variáves de entrada será realizada na
próxima seção
entrada e saı́da. Cada saı́da y é gerada pela função desconhecida f(x). O objetivo prin-
cipal é descobrir uma hipótese que possa generalizar eficazmente, apresentando bom de-
sempenho não apenas nos dados de treinamento, mas também em novos exemplos. A
avaliação da precisão da hipótese ocorre por meio de um conjunto de testes independente,
e, dependendo da natureza da saı́da (conjunto finito de valores ou número), a partir disso
o problema é categorizado como de classificação ou regressão. [Russell 2013]
A árvore de decisão utiliza a estratégia ”divisão e conquista”, em que um problema
complexo é fragmentado em subunidades de problemas mais simples. Recursivamente,
essa mesma estratégia é aplicada a cada subunidade de problema. Portanto, a capacidade
discriminativa de uma árvore de decisão emerge da sua subdivisão do espaço definido
pelas variáveis de entrada em subespaços, associando a cada um deles uma classe es-
pecı́fica.

Figure 1. Árvore de Decisão

A figura acima ilustra uma árvore de decisão, nela cada nó possui um teste de
variável. Além disso, cada ramo que desce corresponde a um possı́vel valor de tal variável.
A cada folha está associada uma classe e cada percurso na árvore corresponde a uma regra
de classificação.

3.1. Obtenção dos Dados


A ferramenta utilizada para efetuar a raspagem dos dados dos 373 pesquisadores foi o Oc-
toparse. Trata-se de uma ferrramenta de extração que permite a retirada das informações
de sites. A maior dificuldade para extração dos dados residiu em ultrapassar o teste de
distinção entre humanos e robôs. O uso da aplicação permitiu a realização da extração da
variáveis de interesse de forma automática e possibilitou a resolução do Captcha manual-
mente no modo de navegação local.
Ao final do processo de raspagem as variáveis, listadas na sequência, foram recol-
hidas para cada um dos pesquisadores dos programas com nota máxima na CAPES.
• Universidade de origem do pesquisador
• Estado de origem do pesquisador
• Região de origem do pesquisador
• Sexo do pesquisador
• Concluiu o Pós-Doutorado
• Quantos Trabalhos Publicados em Anais de Evento
• Quantos Resumos Publicados em Anais de Eventos
• Quantos Livros Publicados
• Quantos Capı́tulos de Livros Publicados
• Quantos outros tipos de publicação o pesquisador possui
• Quantidade de Orientações de Mestrado concluı́das
• Quantidade de Orientações de Mestrado concluı́das
• Quantidade Supervisão de Pós-Doutorado concluı́das
• Outras Orientações Concluı́das
• Ano de obtenção do doutorado
• Quantidade de publicações em periódicos
Enquanto as quinze primeiras variáveis foram utilizadas como instâncias
de entrada, as duas últimas forma utilizadas conjuntamente para classificação dos
pesquisadores, como se verá a seguir.

3.2. Pré-Processamento
O pré-processamento dos dados consistiu, em primeiro momento, na realização de uma
série de checagens nos dados obtidos. Após tal etapa restava o desafio de criar uma
métrica para classificar os professores de acordo com sua produtividade. O primeiro
caminho poderia ter sido o de classificar os pesquisadores de acordo com a quantidade
de artigos publicados em periódicos, tal escolha, no entanto, levaria a que pesquisadores
com maior idade provavelmente seriam considerados os mais produtivos.
Assim, a partir do uso das variáveis ”Ano de obtenção do doutorado” e ”Quanti-
dade publicações em perı́odicos” foi criado um ı́ndice de produtividade (IP) que pode ser
retratado pela fórmula:
Índice de Produtividade = Número de artigos publicados / (2024 - Ano do
doutorado)
Após a criação do ı́ndice foram criadas estabelecidas categorias de classificação.
O terço de pesquisadores com maior ı́ndice e o com menor ı́ndice foram classificados,
respectivamente, como altamente produtivos e de baixa produtividade. Os pesquisadores
intermediários foram classificados como de média produtividade.

3.3. Implementação do Código no RStudio


Para realizar a implementação da árvore de decisão, foi utilizada a liguagem R junto da
IDE RStudio. A imagem a seguir apresenta o código utilizado, o intervalo entre a linha
1 e 12 foi omitido por estar relacionado com importações de bibliotecas e declarações
dos dados, não sendo tais elementos relevantes para a explicação do funcionamento do
código.
O processo teve inı́cio com a etapa de embaralhamento dos dados contidos no
arquivo do banco de dados empregado. Esta operação foi conduzida com o intuito de
Figure 2. Script utilizado para realizar o plot da arvore. Fonte: Autores.

mitigar qualquer viés intrı́nseco aos dados, possibilitando, assim, que o algoritmo identi-
ficasse padrões e informações relevantes de maneira imparcial.
Posteriormente, os dados foram usados em um conjunto de treinamento, denomi-
nado ”datatrain”. Este conjunto tem como propósito permitir o treinamento do algoritmo
com a totalidade dos dados.
Analisando o treinamento, foi possı́vel determinar suas dimensões por meio do
comando ”dim(datatrain)”, revelando o número de linhas e colunas em cada conjunto.
Além disso, foi realizada uma avaliação da proporção de valores distintos na variável de
saı́da por meio do uso da função ”prop.table()”.
Na linha 40, o algoritmo foi treinado utilizando a função ”rpart” para gerar um
modelo de árvore de decisão. A expressão ”SAIDA .” denota a dependência da variável
de saı́da em relação a todas as outras variáveis presentes no conjunto de dados. Utilizou-
se o conjunto ”datatrain” como dado de treinamento e o método ’class’ para resolver um
problema de classificação.
Finalmente, na linha 41, empregou-se a biblioteca ”rpart” para invocar a função
”rpart.plot”, gerando um gráfico representativo da árvore de decisão resultante do treina-
mento do algoritmo com os conjuntos de dados previamente delineados. Este procedi-
mento culminou na exibição visual da estrutura da árvore para análise e interpretação.

4. Resultados e Análise
Após realizar a execução do script no RStudio, foi obtido a seguinte árvore:

Figure 3. Árvore de decisão gerada pelo script. Fonte: Autores.

O estudo em questão identificou as variáveis determinantes para avaliar a produ-


tividade de um professor. A primeira variável considerada na análise foi o número de
supervisões de pós-doutorado, assim indivı́duos que tenham realizado mais de duas su-
pervisões prévias são classificados com um nı́vel de produção médio ou alto.
Caso não atinjam esse número mı́nimo de supervisões, a análise se desdobra em
uma verificação importante: a afiliação universitária do indivı́duo, sendo elas UFMG e
UFRGS. Se o pesquisador estiver vinculado a uma dessas universidades, seu nı́vel de
produção é considerado alto. Contudo, após essa verificação, outras variáveis são consid-
eradas, como a quantidade de orientações de outros tipos e de trabalhos publicados em
anais de evento, para definir o nı́vel de produtividade do pesquisador.
Caso o pesquisador não pertença a essas instituições, a análise direciona-se para
o número de publicações em anais de eventos. Se o pesquisador tiver menos de onze
publicações, sua produtividade é considerada baixa. Por outro lado, se possuir número
superior, a avaliação se concentra na quantidade de doutorados orientados. Se o número
for inferior a 5, considera-se que o pesquisador tem uma produção baixa.
Resumindo as informações apresentadas, as verificações principais para a
avaliação da produtividade são: supervisão de pós-doutorado, afiliação universitária e
quantidade de orientações de doutorado. Tais elementos revelam as instancias como maior
peso na determinação da produtividade dos pesquisadores em questão. Além disso, caso
a instituição onde o pesquisador esteja inserido não possua um programa de doutorado ou
pós-doutorado, isso pode indicar um nı́vel de produção inferior, devido à falta de acesso
a tais programas. Assim, a análise mostra que a região de atuação do pesquisador pode
influenciar seu nı́vel de produtividade, independentemente do número de publicações.

5. Conclusão e próximos passos


O trabalho procurou apresentar um panorâma dobre a produção no Campo da Ciência da
Computação, buscando entender quais aspectos podem ser considerados mais relevantes
para explicar a maior ou menor produtividade dos pesquisadores. Como próximo passo
é possı́vel que o conteúdo do presente trabalho seja convertido em artigo. Mostra-se
necessário, no entanto, que outros programas passem a fazer parte do universo de análise.

References
J. P. Mena-Chalco, L. A. D. e. L. B. O. (2012). 215em questão, porto alegre, v. 18, edição
especial, p. 215-229, dez. 2012.perfil de produção acadêmica dos programas brasileiros
de pós-graduação em ciência da computação nos triênios 2004-2006 e 2007-2009. Em
Questão, 18:215–229.
Jonathan, M. (2013). Um breve histórico da formação em computação no brasil. 6º.
Congresso de História das Ciências e das Técnicas e Epistemologia.
Russell, S. J. (2013). Inteligência artificial. Campus.

You might also like