Modelo de Artigo SBC Inteligencia Artificial

Árvore de Decisão para Compreensão da Produtividade
Acadêmica em Ciência da Computação

Daniel Vio1 , Elvis S. Souza1
1
Centro de Informática – Universidade Federal da Paraı́ba (UFPB)
daniel.vio@academico.ufpb.br, academicsouzaelvis33@gmail.com
Resumo. O artigo busca contribuir para compreensão da produção acadêmica,

na área de Ciência da Computação, utilizando a técnica de árvore de decisão
para identificar variáveis impactantes na produtividade de professores de pro-
gramas conceituados como sete pela CAPES. A pesquisa emprega raspagem de
dados para classificar os pesquisadores em categorias de alta, média e baixa
produtividade e procura compreender quais variáveis são mais importantes
para explicar a maior produtividade. A conclusão aponta que a realização
de supervisão de estudos de pos-doutorado, o programa do qual o docente faz
parte e a quantidade de orientações de doutorado concluı́das são as variáveis
que mais pesam para aferir a produtividade dos pesquisadores da área. .
1. Introdução
A constituição da Ciência da Computação como campo cientı́fico no Brasil é um
fenômeno recente. A presença de profissionais na área começou a ocorrer com a
chegada das primeiras máquinas, mas foi na década de 1960 que esse campo começou
a se expandir. Inicialmente, o conhecimento nesse domı́nio era incipiente, mesmo em
instituições renomadas como a PUC do Rio de Janeiro, o ITA e a USP, que adquiri-
ram seus primeiros computadores para propósitos educacionais entre 1960 e 1962.
[Jonathan 2013].
Na segunda metade da década de 1970, várias instituições de ensino superior
perceberam o aumento significativo na demanda por cursos de graduação em computação
e informática. No âmbito da pós-graduação, programas consolidados, como o da
PUC do Rio de janeiro, estabelecido em 1968, o Programa de Engenharia de Sis-
temas e Computação, da UFRJ, surgido em 1970, e o Programa de Pós-Graduação em
Computação do Instituto de Informática da UFRGS, criado em 1973, contribuı́ram de
maneira crucial para fortalecer a base acadêmica e cientı́fica no campo da computação no
Brasil. [Jonathan 2013].
A Ciência da Computação, apesar de ser uma área relativamente recente, desen-
volveu uma cultura cientı́fica única, marcada por processos, métodos e abordagens es-
pecı́ficas em sua prática cientı́fica. Essa singularidade é decorrente do extenso uso de
tecnologia, caracterizado por mudanças rápidas e contı́nuas na área. Em contraste com
outras disciplinas, a Ciência da Computação adota um modelo distintivo também em suas
práticas de comunicação cientı́fica. Nesse cenário, destaca-se a valorização significativa
dos trabalhos apresentados em conferências cientı́ficas, enquanto o processo de revisão
assemelha-se ao adotado para artigos em revistas, com a participação de múltiplos revi-
sores para cada trabalho, mantendo o anonimato na revisão.[J. P. Mena-Chalco 2012].
O propósito do presente artigo é contribuir para a compreensão da produção
acadêmica no campo da Ciência da Computação. A pesquisa busca identificar as variáveis
que mais impactam na produtividade de um grupo especı́fico de pesquisadores, no caso
os professores de programas nota sete da Coordenação de Aperfeiçoamento de Pessoal de
Nı́vel Superior (CAPES), da área de Ciência da Computação. Para alcançar esse objetivo,
a pesquisa empregará a técnica de árvore de decisão, visando aprofundar a compreensão
das variáveis mais relevantes que influenciam a produtividade acadêmica nesse contexto
especı́fico.
A próxima seção tratará especificamente da apresentação da pesquisa, destacando
seus objetivos. A terceira seção abordará os métodos empregados para atingir esses ob-
jetivos. Na quarta seção, serão apresentados os resultados obtidos após o treinamento
do conjunto de dados. A última seção fornecerá breves conclusões, apontando algumas
direções para a continuidade da pesquisa.
2. Apresentação e Delimitação da Pesquisa

A pesquisa tem como objeto os professores dos oito programas de de pós-graduação con-
ceituados na CAPES com nota sete:
• PUC/RS
• PUC/RJ
• UFMG
• UFPE
• UFRGS
• UFRJ
• UNICAMP
• USP (São Carlos)
Os programas acima mencionados possuem atualmente 373 professores credenci-
ados. O objetivo da presente pesquisa é o de compreender em tal universo quais variáveis
são mais relevantes para explicar a produtividade de tais pesquisadores. Para tanto, o
primeiro passo foi raspar o curriculo lattes de cada um deles, os dados permitiram classi-
ficar cada um dos professores em três categorias de produtividade acadêmica: alta, média
e baixa.1
Além disso, a obtenção de dados sobre os pesquisadores possibilitou que as
variáveis obtidas fossem utilizadas para realizar o treinamento de um modelo de árvore de
decisão e nos pemitiu compreender quais são as instancias com maior peso para explicar
o desempenho dos professores mais produtivos dos programas nota sete da CAPES.
3. Materiais e Métodos
Em essencia a aprendizagem supervisionada procura encontrar uma hipótese que se ajuste
aos dados de treinamento e seja capaz de prever corretamente novos exemplos.
Dessa forma, a tarefa consiste em encontrar uma função h que se assemelhe à
função f, utilizando um conjunto de treinamento composto por pares de exemplos de
1
A definição da métrica para rotular a saı́da e a apresentação das variáves de entrada será realizada na
próxima seção
entrada e saı́da. Cada saı́da y é gerada pela função desconhecida f(x). O objetivo prin-
cipal é descobrir uma hipótese que possa generalizar eficazmente, apresentando bom de-
sempenho não apenas nos dados de treinamento, mas também em novos exemplos. A
avaliação da precisão da hipótese ocorre por meio de um conjunto de testes independente,
e, dependendo da natureza da saı́da (conjunto finito de valores ou número), a partir disso
o problema é categorizado como de classificação ou regressão. [Russell 2013]
A árvore de decisão utiliza a estratégia ”divisão e conquista”, em que um problema
complexo é fragmentado em subunidades de problemas mais simples. Recursivamente,
essa mesma estratégia é aplicada a cada subunidade de problema. Portanto, a capacidade
discriminativa de uma árvore de decisão emerge da sua subdivisão do espaço definido
pelas variáveis de entrada em subespaços, associando a cada um deles uma classe es-
pecı́fica.
Figure 1. Árvore de Decisão
A figura acima ilustra uma árvore de decisão, nela cada nó possui um teste de
variável. Além disso, cada ramo que desce corresponde a um possı́vel valor de tal variável.
A cada folha está associada uma classe e cada percurso na árvore corresponde a uma regra
de classificação.
3.1. Obtenção dos Dados

A ferramenta utilizada para efetuar a raspagem dos dados dos 373 pesquisadores foi o Oc-
toparse. Trata-se de uma ferrramenta de extração que permite a retirada das informações
de sites. A maior dificuldade para extração dos dados residiu em ultrapassar o teste de
distinção entre humanos e robôs. O uso da aplicação permitiu a realização da extração da
variáveis de interesse de forma automática e possibilitou a resolução do Captcha manual-
mente no modo de navegação local.
Ao final do processo de raspagem as variáveis, listadas na sequência, foram recol-
hidas para cada um dos pesquisadores dos programas com nota máxima na CAPES.
• Universidade de origem do pesquisador
• Estado de origem do pesquisador
• Região de origem do pesquisador
• Sexo do pesquisador
• Concluiu o Pós-Doutorado
• Quantos Trabalhos Publicados em Anais de Evento
• Quantos Resumos Publicados em Anais de Eventos
• Quantos Livros Publicados
• Quantos Capı́tulos de Livros Publicados
• Quantos outros tipos de publicação o pesquisador possui
• Quantidade de Orientações de Mestrado concluı́das
• Quantidade de Orientações de Mestrado concluı́das
• Quantidade Supervisão de Pós-Doutorado concluı́das
• Outras Orientações Concluı́das
• Ano de obtenção do doutorado
• Quantidade de publicações em periódicos
Enquanto as quinze primeiras variáveis foram utilizadas como instâncias
de entrada, as duas últimas forma utilizadas conjuntamente para classificação dos
pesquisadores, como se verá a seguir.
3.2. Pré-Processamento
O pré-processamento dos dados consistiu, em primeiro momento, na realização de uma
série de checagens nos dados obtidos. Após tal etapa restava o desafio de criar uma
métrica para classificar os professores de acordo com sua produtividade. O primeiro
caminho poderia ter sido o de classificar os pesquisadores de acordo com a quantidade
de artigos publicados em periódicos, tal escolha, no entanto, levaria a que pesquisadores
com maior idade provavelmente seriam considerados os mais produtivos.
Assim, a partir do uso das variáveis ”Ano de obtenção do doutorado” e ”Quanti-
dade publicações em perı́odicos” foi criado um ı́ndice de produtividade (IP) que pode ser
retratado pela fórmula:
Índice de Produtividade = Número de artigos publicados / (2024 - Ano do
doutorado)
Após a criação do ı́ndice foram criadas estabelecidas categorias de classificação.
O terço de pesquisadores com maior ı́ndice e o com menor ı́ndice foram classificados,
respectivamente, como altamente produtivos e de baixa produtividade. Os pesquisadores
intermediários foram classificados como de média produtividade.
3.3. Implementação do Código no RStudio

Para realizar a implementação da árvore de decisão, foi utilizada a liguagem R junto da
IDE RStudio. A imagem a seguir apresenta o código utilizado, o intervalo entre a linha
1 e 12 foi omitido por estar relacionado com importações de bibliotecas e declarações
dos dados, não sendo tais elementos relevantes para a explicação do funcionamento do
código.
O processo teve inı́cio com a etapa de embaralhamento dos dados contidos no
arquivo do banco de dados empregado. Esta operação foi conduzida com o intuito de
Figure 2. Script utilizado para realizar o plot da arvore. Fonte: Autores.
mitigar qualquer viés intrı́nseco aos dados, possibilitando, assim, que o algoritmo identi-
ficasse padrões e informações relevantes de maneira imparcial.
Posteriormente, os dados foram usados em um conjunto de treinamento, denomi-
nado ”datatrain”. Este conjunto tem como propósito permitir o treinamento do algoritmo
com a totalidade dos dados.
Analisando o treinamento, foi possı́vel determinar suas dimensões por meio do
comando ”dim(datatrain)”, revelando o número de linhas e colunas em cada conjunto.
Além disso, foi realizada uma avaliação da proporção de valores distintos na variável de
saı́da por meio do uso da função ”prop.table()”.
Na linha 40, o algoritmo foi treinado utilizando a função ”rpart” para gerar um
modelo de árvore de decisão. A expressão ”SAIDA .” denota a dependência da variável
de saı́da em relação a todas as outras variáveis presentes no conjunto de dados. Utilizou-
se o conjunto ”datatrain” como dado de treinamento e o método ’class’ para resolver um
problema de classificação.
Finalmente, na linha 41, empregou-se a biblioteca ”rpart” para invocar a função
”rpart.plot”, gerando um gráfico representativo da árvore de decisão resultante do treina-
mento do algoritmo com os conjuntos de dados previamente delineados. Este procedi-
mento culminou na exibição visual da estrutura da árvore para análise e interpretação.
4. Resultados e Análise
Após realizar a execução do script no RStudio, foi obtido a seguinte árvore:
Figure 3. Árvore de decisão gerada pelo script. Fonte: Autores.
O estudo em questão identificou as variáveis determinantes para avaliar a produ-

tividade de um professor. A primeira variável considerada na análise foi o número de
supervisões de pós-doutorado, assim indivı́duos que tenham realizado mais de duas su-
pervisões prévias são classificados com um nı́vel de produção médio ou alto.
Caso não atinjam esse número mı́nimo de supervisões, a análise se desdobra em
uma verificação importante: a afiliação universitária do indivı́duo, sendo elas UFMG e
UFRGS. Se o pesquisador estiver vinculado a uma dessas universidades, seu nı́vel de
produção é considerado alto. Contudo, após essa verificação, outras variáveis são consid-
eradas, como a quantidade de orientações de outros tipos e de trabalhos publicados em
anais de evento, para definir o nı́vel de produtividade do pesquisador.
Caso o pesquisador não pertença a essas instituições, a análise direciona-se para
o número de publicações em anais de eventos. Se o pesquisador tiver menos de onze
publicações, sua produtividade é considerada baixa. Por outro lado, se possuir número
superior, a avaliação se concentra na quantidade de doutorados orientados. Se o número
for inferior a 5, considera-se que o pesquisador tem uma produção baixa.
Resumindo as informações apresentadas, as verificações principais para a
avaliação da produtividade são: supervisão de pós-doutorado, afiliação universitária e
quantidade de orientações de doutorado. Tais elementos revelam as instancias como maior
peso na determinação da produtividade dos pesquisadores em questão. Além disso, caso
a instituição onde o pesquisador esteja inserido não possua um programa de doutorado ou
pós-doutorado, isso pode indicar um nı́vel de produção inferior, devido à falta de acesso
a tais programas. Assim, a análise mostra que a região de atuação do pesquisador pode
influenciar seu nı́vel de produtividade, independentemente do número de publicações.
5. Conclusão e próximos passos

O trabalho procurou apresentar um panorâma dobre a produção no Campo da Ciência da
Computação, buscando entender quais aspectos podem ser considerados mais relevantes
para explicar a maior ou menor produtividade dos pesquisadores. Como próximo passo
é possı́vel que o conteúdo do presente trabalho seja convertido em artigo. Mostra-se
necessário, no entanto, que outros programas passem a fazer parte do universo de análise.
References
J. P. Mena-Chalco, L. A. D. e. L. B. O. (2012). 215em questão, porto alegre, v. 18, edição
especial, p. 215-229, dez. 2012.perfil de produção acadêmica dos programas brasileiros
de pós-graduação em ciência da computação nos triênios 2004-2006 e 2007-2009. Em
Questão, 18:215–229.
Jonathan, M. (2013). Um breve histórico da formação em computação no brasil. 6º.
Congresso de História das Ciências e das Técnicas e Epistemologia.
Russell, S. J. (2013). Inteligência artificial. Campus.

Modelo de Artigo SBC Inteligencia Artificial

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Modelo de Artigo SBC Inteligencia Artificial

Uploaded by

Copyright:

Available Formats

Árvore de Decisão para Compreensão da Produtividade

Acadêmica em Ciência da Computação

Resumo. O artigo busca contribuir para compreensão da produção acadêmica,

2. Apresentação e Delimitação da Pesquisa

Figure 1. Árvore de Decisão

3.1. Obtenção dos Dados

3.3. Implementação do Código no RStudio

Figure 3. Árvore de decisão gerada pelo script. Fonte: Autores.

O estudo em questão identificou as variáveis determinantes para avaliar a produ-

5. Conclusão e próximos passos

You might also like