Estudio de modelos de aprendizaje automático para Tuberculosis en el proceso de Drug Discovery
Trabajo de grado - Pregrado
2022
En este documento se presenta un proyecto de investigación planteado desde el área de la
bioinformática, en el que se busca dar una solución a la actual problemática de la drogorresistencia
en tres proteínas presentes en cepas resistentes la especie bacteriana Mycobaterium
tuberculosis. Se busca plantear y comparar modelos de predicción de valores de pIC50 (escala
logarítmica del IC50), que hace referencia a la concentración necesaria del fármaco para disminuir
la actividad de la proteína en un 50 %. Esta predicción servirá para nuevos fármacos,
tomando como punto de partida la estructura molecular de compuestos químicos ya conocidos.
Para ello se caracterizan con los datos provenientes de la base ChEMBL[3] y que tengan como
proteína objetivo las proteínas N-Acetiltransferasa codificada por el gen eis, la ATP sintentasa
subunidad c codificada por el gen atpE y por la Subunidad beta de ARN polimerasa dirigida
por ADN codificada por el gen rpoB. Se esocogen estas proteínas dado que en ellas se presenta
la resistencia a ciertos fármacos bactericidas de segunda y tercera línea. A cada compuesto se
le calculan descriptores relacionados con la ley de lipinski: el peso molecular (MW), número
de donadores de enlaces por puentes de hidrógeno (NumHDonnors), número de aceptores de
enlaces por puentes de hidrógeno (NumHAcceptors) y el coeficinente de reparto octanol/agua
(LogP); de igual manera se calcula una huella que cuenta con 881 descriptores que junto con
los cuatro ya mencionados, se toman como la entrada de los modelos de regresión a plantear y
los valores de pIC50 conocidos se toman como salida. Lo anterior corresponde al conjunto de
entrenamiento con el que se generan diferentes modelos de regresión para esta predicción del
pIC50. Para finalizar se comparan las características de funcionamiento de los modelos para
así establecer los más adecuados para la problemática. This document presents a research project proposed from the area of bioinformatics, which seeks to provide a solution to the current problem of drug resistance in three proteins present in resistant strains of the bacterial species Mycobacterium tuberculosis. The aim is to propose and compare prediction models for pIC50 values (logarithmic scale of IC50), which refers to the concentration of the drug necessary to reduce protein activity by 50%. This prediction will serve for new drugs, taking as a starting point the molecular structure of already known chemical compounds. To do this, they are characterized with the data from the ChEMBL[3] database and that have as their target protein the N-Acetyltransferase proteins encoded by the eis gene, the ATP synthetase subunit c encoded by the atpE gene and by the RNA polymerase beta subunit directed by DNA encoded by the rpoB gene. These proteins are chosen because they show resistance to certain second- and third-line bactericidal drugs. Descriptors related to Lipinski's law are calculated for each compound: molecular weight (MW), number of hydrogen bond donors (NumHDonnors), number of hydrogen bond acceptors (NumHAcceptors) and the coefficient of octanol/water partition (LogP); In the same way, a fingerprint is calculated that has 881 descriptors that, together with the four already mentioned, are taken as the input of the regression models to be proposed and the known pIC50 values are taken as output. The above corresponds to the training set with which different regression models are generated for this pIC50 prediction. Finally, the operating characteristics of the models are compared in order to establish the most appropriate for the problem.
Descripción:
Final.pdf
Título: Final.pdf
Tamaño: 493.2Kb
PDFLEER EN FLIP
Descripción: Autorización de publicación tesis.pdf
Título: Autorización de publicación tesis.pdf
Tamaño: 453.6Kb
PDFLEER EN FLIP
Título: Final.pdf
Tamaño: 493.2Kb
PDFLEER EN FLIP
Descripción: Autorización de publicación tesis.pdf
Título: Autorización de publicación tesis.pdf
Tamaño: 453.6Kb
PDFLEER EN FLIP