Rastro-DM: data mining with a trail - A methodology for documenting data mining projects and its application in the construction of a text classifier of documents associated with damages to the public treasury
Resumo
This paper proposes a methodology for documenting data mining (DM) projects, Rastro-DM (Trail Data Mining), with a focus not on the model that is generated, but on the processes behind its construction, in order to leave a trail (Rastro in Portuguese) of planned actions, training completed, results obtained, and lessons learned. The proposed practices are complementary to structuring methodologies of DM, such as CRISP-DM, which establish a methodological and paradigmatic framework for the DM process. The application of best practices and their benefits is illustrated in a project called “Cladop” that was created for the classification of PDF documents associated with the investigative process of damages to the Brazilian Federal Public Treasury. Building the Rastro-DM kit in the context of a project is a small step that can lead to an institutional leap to be achieved by sharing and using the trail across the enterprise.
Publicado
2021-10-20
Seção
Artigos
Os textos aprovados são publicados sem alteração de conteúdo. Os conceitos e opiniões emitidas em trabalhos doutrinários assinados são de inteira responsabilidade de seus autores. Os artigos publicados poderão ser divulgados em outros canais, desde que citada a Revista do TCU, ano, número e data de publicação como primeiro veiculador do trabalho.
Direitos de uso
Desde outubro de 2021, o conteúdo da RTCU está licenciado com a Licença Creative Commons BY-NC-SA.
Isso quer dizer que é permitido compartilhar, copiar e redistribuir o material em qualquer suporte ou formato, desde que citados o autor do artigo e a fonte (Revista do TCU, número da edição e página).
O licenciante não pode revogar estes direitos desde que você respeite os termos da licença.
Isso quer dizer que é permitido compartilhar, copiar e redistribuir o material em qualquer suporte ou formato, desde que citados o autor do artigo e a fonte (Revista do TCU, número da edição e página).
O licenciante não pode revogar estes direitos desde que você respeite os termos da licença.
<https://creativecommons.org/licenses/by-nc-sa/4.0/deed.pt_BR >. Para mais informações, acesse o site indicado.