PROPOSTA DE UMA BASE DE CITAÇÕES DA LITERATURA CIENTÍFICA POR MEIO DA EXTRAÇÃO AUTOMÁTICA DE DADOS DO SCIELO

  • Max Cirino de Mattos LATACI Research Institute
Palavras-chave: SciELO, Base de citações, Indicadores científicos nacionais

Resumo

Diversos autores ressaltam a importância da criação de uma base de citações - nos moldes do Science Citation Index (SCI) - para a visibilidade da produção cientí­fica local de paí­ses em desenvolvimento, inclusive para a produção de políticas científicas nacionais. Nesse sentido, a obtenção automática dos metadados dos artigos e referências citadas disponí­veis no formato eXtensible Markup Language (XML) para a criação de uma base de citações - considerando como fonte primária a Scientific Electronic Library On-line (SciELO) - representa um passo inicial importante para a criação de um í­ndice de citações para a América Latina e Caribe. A metodologia proposta trata da geração automática dessa base de citações, e o presente trabalho analisa os resultados encontrados nas 4 etapas inicias dessa metodologia - a identificação dos periódicos; a obtenção dos dados estatísticos anuais (dados fonte) de cada periódico; a vinculação da(s) área(s) de conhecimento a cada periódico; e a criação do Módulo "Dados Cadastrais" do banco de dados - e nas três etapas finais: a identificação e armazenamento dos arquivos XML disponíveis no SciELO; a interpretação desses arquivos para extração dos metadados e informações sobre cada referência citada; e o armazenamento de todas as informações extraí­das de cada arquivo XML no banco de dados (no Módulo "Base de Citações"). O teste inicial do protótipo criado foi realizado com o periódico Perspectivas em Ciência da Informação (PCI), apresentando a análise de 24 fascí­culos, 300 artigos, 7.714 citações, 579 resumos, 587 tí­tulos, 2.358 palavras-chave, 686 autores de artigos e 10.394 autores identificados nas citações. A validação do protótipo foi realizada com a Coleção Saúde Pública, resultando em 14 periódicos, 14 editores, 1.335 fascículos, 23.780 artigos, 491.739 citações, 37.124 resumos, 44.696 títulos, 149.874 palavras-chave, 73.859 autores de artigos e 1.240.734 autores identificados nas citações. Nenhum procedimento de desambiguação de nomes de fontes ou autores foi realizado. As diferenças encontradas entre os números disponibilizados pelo SciELO nos dados fonte de cada periódico e os numeros levantados a partir da interpretação dos arquivos XML são explicadas, e algumas soluções propostas. O elevado í­ndice de acerto na identificação das citações a partir dos arquivos XML comprovou a eficácia do processo desenvolvido. Entre os problemas identificados, destaca-se a diferença entre os dados fonte de um mesmo ISSN em coleções diferentes. Mais detalhes sobre a forma como o SciELO calcula os dados sobre número de fascículos, artigos e citações precisam ser investigados para a análise das diferenças encontradas. Pretende-se disponibilizar a base de citações gerada para a PCI em seu site. Nova pesquisa está em andamento, buscando a obtenção de todos os arquivos XML das coleções citadas para a construção de uma base de citações para cobertura da América Latina, Caribe e outras coleções do SciELO.

Publicado
2013-12-31
Seção
Teses e Dissertações

##plugins.generic.recommendByAuthor.heading##

1 2 > >>