Rastro-DM: Mineração de Dados com Rastro METODOLOGIA PARA DOCUMENTAÇÃO DE PROJETOS DE MINERAÇÃO DE DADOS E SUA APLICAÇÃO NA CONSTRUÇÃO DE UM CLASSIFICADOR TEXTUAL DE DOCUMENTOS ASSOCIADOS A DANOS AO ERÁRIO PÚBLICO

  • Marcus Vinícius Borela de Castro
  • Remis Balaniuk

Resumo

Este trabalho propõe uma metodologia de documentação de projetos de mineração de dados (DM), Rastro-DM, com foco não no modelo gerado, mas no processo por trás de sua construção, de forma a deixar um rastro das ações planejadas, dos treinamentos realizados, dos resultados obtidos e dos aprendizados concebidos. As práticas propostas são complementares às metodologias estruturantes de DM, como o CRISP-DM, que trazem todo o arcabouço metodológico e paradigmático para o processo de DM. Ilustra-se o seu uso e seus benefícios em um projeto de classivcação textual de documentos em PDF associados a danos ao Erário Público Federal Brasileiro denominado Cladop. A produção do Rastro-DM de um projeto é um pequeno passo que pode levar a um salto organizacional, a ser obtido com a partilha e o uso dos rastros de forma corporativa.1 Trata-se de uma versão sintetizada do trabalho de conclusão de curso de pós-graduação lato sensu em Análise de

Biografia do Autor

Marcus Vinícius Borela de Castro
Auditor do TCU desde 1996. Bacharel em Informática pela Universidade Federal de Viçosa (1990) e especialista em Governança de TI pela Universidade de Brasília (2012) e em Análise de Dados pela Escola Superior do TCU (2019).
Remis Balaniuk
Auditor do TCU desde 1989. Graduado em Ciência da Computação pela Unb(1986), mestre em Ciência da Computação pela UFRGS (1989), doutor em Informática pelo Institut National Polytechnique de Grenoble (1996) e pós-doutor em Computação pela Stanford University (2002), pelo Institut National pour la Recherche en Informatique et Automatique (2000) e pesquisador visitante da University of Oxford (2020)
Publicado
2021-03-19
Seção
Artigos