Use este identificador para citar ou linkar para este item: http://www.repositorio.ufop.br/handle/123456789/2175
Título: Identificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais.
Autor(es): Oliveira, Samuel Evangelista Lima de
Orientador(es): Merschmann, Luiz Henrique de Campos
Palavras-chave: Mineração de dados
Classificação
Bioinformática
Data mining
Classification
Data do documento: 2012
Editora / Evento / Instituição: Programa de Pós-Graduação em Ciência da Computação. Departamento de Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.
Referência: OLIVEIRA, S. E. L. de. Identificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais. 2012. 70 f. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Ouro Preto, Ouro Preto, 2012.
Resumo: O vírus da Imunode ciência Humana é um retrovirus que ataca principalmente o sistema imunológico humano, reduzindo progressivamente a sua e cácia. Combinações de drogas antirretrovirais são utilizadas no tratamento da infecção por HIV, contudo, as altas taxas de mutação nesse vírus podem desencadear fenótipos virais resistentes a alguns antirretrovirais e, consequentemente, causar falhas no tratamento. Alguns trabalhos propostos na literatura utilizam técnicas de mineração de dados para predizer a resposta de um paciente à terapia antirretroviral que está sendo utilizada. Contudo ainda há poucos estudos que avaliem a in uência que diferentes tipos de atributos na tarefa de predição da resposta de pacientes às drogas antirretrovirais. Neste trabalho é apresentado um estudo comparativo sobre a utilização de diferentes atributos na predição da resposta de pacientes recém infectados pelo HIV-1 ao tratamento com antirretrovirais. Foram utilizados diferentes conjuntos de atributos para o treinamento de quatro modelos de classi cação. A partir desses conjuntos de atributos foram realizadas três etapas de testes que envolveram a avaliação do impacto do desbalanceamento das bases no resultado dos modelos de classi cação, a análise da importância de cada grupo de atributos e, por m, uma etapa de seleção de atributos. A partir da avaliação do impacto do desbalanceamento nas bases de dados pode-se observar que uma etapa de balanceamento ajudou na obtenção de resultados mais equilibrados entre as duas classes do problema de classi cação em questão. Por sua vez a análise da importância dos diferentes grupos de atributos demonstrou que os melhores resultados de predição foram obtidos para os atributos que representam os níveis de resistência dos pacientes às drogas antirretrovirais. Por m, as bases de dados obtidas após uma fase de seleção de atributos apresentaram melhores resultados de predição quando compostas por um conjunto variado de atributos. Nesta etapa dos testes foi possível observar novamente a importância dos atributos de nível de resistência, bem como a importância de um atributo que representa o tamanho de uma determinada proteína do HIV. ____________________________________________________________________________________________________
ABSTRACT: The Human Immunodeficiency Virus (HIV) is a retrovirus that attacks the human immune system, progressively reducing its effectiveness. Combinations of antiretroviral drugs are used to treat the infection by HIV. However, the high mutation rate in the HIV virus makes it resistant to some antiretroviral drugs and leads to treatment failure. Nowadays, there are bioinformatic studies based on data mining techniques, to predict the patient's response to antirretroviral therapies. However, there are few studies evaluating the contribution of different types of features extracted from the HIV genotype in the prediction of patient's response to antirretroviral therapies. This work presents a study comparing the influence of different types of attributes in the prediction of patient's out come to therapy. The attributes were grouped in different datasets according to its biological meaning. Experiments were conduced trough four classification methods, using the datasets previously generated. Using these datasets it was possible to perform three experiments sets wich envolved, the evaluation about the impact of dataset's unbalance in the classification results, the significance of each attribute group and, finally, an attribute selection step. The results shown that, a previous balancing step helped to obtain good results to booth classes of the prediction problem addressed in this work. The results also shown that, between the attrbutes used in this work, the best attribute group for this prediction task are the attributes that indicate the petient's resistance levels to the antirretroviral drugs. Complementarly, the datasets obtained after an attribute selection step obtained better prediction results when they are composed of diverse of attributes. In these final experimentes was possible to notice again the signicance of the attributes that indicate the patient's resistance levels, as well, the significance of an attribute wich is the size of an specific HIV protein.
URI: http://www.repositorio.ufop.br/handle/123456789/2175
Aparece nas coleções:PPGCC - Mestrado (Dissertações)

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
DISSERTAÇÃO_IdentificaçãoAtributosRelevantes.pdf2,69 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.