Use este identificador para citar ou linkar para este item: http://www.repositorio.ufop.br/jspui/handle/123456789/1681
Título: Geração de impressão digital para recuperação de documentos similares na web
Autor(es): Pereira Junior, Álvaro Rodrigues
Ziviani, Nivio
Data do documento: 2004
Referência: PEREIRA JUNIOR, A. R.; ZIVIANI, N. Geração de impressão digital para recuperação de documentos similares na web. In. II Workshop de Tecnologia da Informação e Linguística, II. 2004. Salvador. Anais. Salvador: Workshop de Tecnologia da Informação e Linguística, 2004. Disponível em: <http://homepages.dcc.ufmg.br/~nivio/papers/til04.pdf>. Acesso em: 18/10/2012.
Resumo: This paper presents a mechanism for the generation of the “finger-print” of a Web document. This mechanism is part of a system for detecting and retrieving documents from the Web with a similarity relation to a suspicious do-cument. The process is composed of three stages: a) generation of a fingerprint of the suspicious document, b) gathering candidate documents from the Web and c) comparison of each candidate document and the suspicious document. In the first stage, the fingerprint of the suspicious document is used as its identifica-tion. The fingerprint is composed of representative sentences of the document. In the second stage, the sentences composing the fingerprint are used as queries submitted to a search engine. The documents identified by the URLs returned from the search engine are collected to form a set of similarity candidate do-cuments. In the third stage, the candidate documents are “in-place” compared to the suspicious document. The focus of this work is on the generation of the fingerprint of the suspicious document. Experiments were performed using a collection of plagiarized documents constructed specially for this work. For the best fingerprint evaluated, on average87.06%of the source documents used in the composition of the plagiarized document were retrieved from the Web.
Resumo em outra língua: Este artigo apresenta um mecanismo para geração da “impressão di-gital” de um documento da Web. Esse mecanismo é parte de um sistema para detectar e recuperar documentos que tenham sido plagiados da Web, sendo si-milares a um dado documento suspeito. O processo é composto de três etapas: a) geração de uma impressão digital do documento suspeito, b) coleta de do-cumentos candidatos da Web e c) comparação entre cada documento candidato e o documento suspeito. Na primeira etapa, a impressão digital do documento suspeito é usada para identificá-lo. A impressão digital é constituída por um conjunto de frases mais representativas do documento. Na segunda etapa, as frases que constituem a impressão digital são usadas como consultas e subme-tidas para uma máquina de busca. Os documentos identificados pelas URLs da resposta da pesquisa são coletados e formam um conjunto de documentos candidatos à similaridade. Na terceira etapa, os documentos candidatos são localmente comparados com o documento suspeito. O foco deste trabalho está na geração da impressão digital do documento plagiado. Experimentos foram realizados sobre uma coleção de documentos plagiados construída especial-mente para este trabalho. Para a impressão digital de melhor resultado, em média87,06%dos documentos usados na composição do documento plagiado foram recuperados da Web.
URI: http://www.repositorio.ufop.br/handle/123456789/1681
Aparece nas coleções:DECOM - Trabalhos apresentados em eventos

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
EVENTO_GeraçãoImpressãoDigital.pdf118,51 kBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.