Comparación empírica del desempeño de los criterios de parsimonia y máxima verosimilitud en análisis filogenómicos

Torres Galvis, Ambrosio

Comparación empírica del desempeño de los criterios de parsimonia y máxima verosimilitud en análisis filogenómicos

dc.contributor.author	Torres Galvis, Ambrosio
dc.contributor.director	Catalano, Santiago A.
dc.contributor.director	Goloboff, Pablo A.
dc.date.accessioned	2025-01-08T22:30:53Z
dc.date.issued	2022
dc.description.abstract	La evaluación del efecto de las decisiones metodológicas sobre las hipótesis resultantes es un punto crítico en la sistemática filogenética. Los estudios recientes se han enfocado principalmente en analizar cómo la selección de modelos de sustitución, la definición de ortología y otros factores que pueden producir sesgos, afectan los resultados de la inferencia filogenómica. En primera instancia, en la presente tesis doctoral, se compararon los resultados de tres métodos filogenéticos (máxima verosimilitud [Maximum Likelihood] (ML); inferencia bayesiana [Bayesian Inference] (BI); parsimonia o máxima parsimonia [Maximum Parsimony or Parsimony] (MP)) al analizar 157 conjuntos de datos genómicos concatenados empíricos. Las topologías resultantes de los distintos métodos fueron muy similares, presentando un 96.7 % de nodos compartidos entre BI y ML (90.6 % entre ML–MP y 89.1 % entre BI–MP). Los nodos incongruentes entre los métodos fueron predominantemente aquellos que presentaron bajos valores de apoyo. Asimismo, las topologías resultantes de los tres métodos evaluados apoyaron las conclusiones principales de la mayoría de los estudios incluidos; mientras que, en los pocos casos en donde se presentaron diferencias, estas involucraron a aquellos nodos considerados usualmente en la sistemática filogenética como “problemáticos” o “recalcitrantes”. Las diferencias entre los métodos fueron proporcionalmente mayores en conjuntos de datos que analizaron relaciones filogenéticas a niveles taxonómicos superiores (particularmente a nivel de phyla y reinos), independientemente del número de caracteres incluidos en los con juntos de datos. Por otra parte, se analizaron de manera sistemática cuatro de los principales factores que podrían producir las diferencias reportadas entre los métodos para el caso de los conjuntos de datos filogenómicos. En particular, se analizó la posible asociación entre los nodos incongruentes y i) el contenido total de guanina y citosina (GC); ii) el porcentaje de entradas faltantes; iii) la longitud de las ramas; y iv) la incongruencia entre los árboles de genes. Los resultados indicaron que los taxones con altos niveles de entradas faltantes y/o ramas largas estuvieron involucrados generalmente en los casos identificados de incongruencia entre métodos. De igual modo, la incongruencia entre los árboles de genes presentó un grado de asociación significativo con la incongruencia entre los métodos. Por el contrario, el GC no estuvo relacionado con los nodos incongruentes entre MP y ML. De manera tal que este estudio sugiere que el porcentaje de entradas faltantes, las longitudes de las ramas y la incongruencia entre los árboles de genes, son tres de las principales causas de las diferencias entre los árboles obtenidos por parsimonia y máxima verosimilitud. Adicionalmente, se evaluó el desempeño de enfoques no tradicionales de MP, tales como el pesaje implícito de caracteres, pesaje extendido, y esquemas de costos de transformación no uniformes. En este sentido, los análisis mostraron que diferentes esquemas de pesaje, en especial aquellos que utilizan constantes de concavidad intermedias que no pesan la homoplasia de una manera extrema (ej. k = 9–12), obtienen resultados aún más congruentes con los árboles de ML, que los obtenidos utilizando parsimonia de pesos iguales. Mientras que el uso de costos de transformación no uniformes presentó resultados menos congruentes respecto a ML, que los presentados con pesos iguales. Finalmente, ya que los resultados de esta tesis doctoral muestran que no existe justificación empírica para preferir de manera general los métodos basados en modelos –sobre el método de parsimonia– en análisis filogenómicos, y que la mayor velocidad y eficiencia computacional de parsimonia permite analizar los conjuntos de datos a mayor profundidad en cortos periodos de tiempo, se describen y proveen una serie de scripts especialmente desarrollados (durante esta tesis) para analizar conjuntos de datos genómicos de manera apropiada en el programa Tree analysis using New Technology [Goloboff y Catalano, 2016] (TNT), el software basado en parsimonia más eficiente y versátil de la actualidad. Estos incluyen scripts para: la concatenación de archivos de datos de genes en diferentes formatos; la generación de gráficos y conjuntos de datos con diferentes niveles de ocupación gen/taxón (gene/taxon occupancy); el cálculo de diferentes medidas de apoyo; y la reconstrucción filogenética con base en matrices concatenadas o de genes individuales. Las funciones y comandos principales de TNT que permiten hacer uso de los scripts aquí presentados se muestran en el principio de dicho capítulo. Asimismo, en este enlace se incluyen vídeos en los que se muestran ejemplos específicos acerca del uso de estos scripts.
dc.identifier.uri	https://ridunt.unt.edu.ar/handle/123456789/1217
dc.language.iso	es
dc.publisher	Facultad de Ciencias Naturales e I.M.L.
dc.title	Comparación empírica del desempeño de los criterios de parsimonia y máxima verosimilitud en análisis filogenómicos
dc.type	Tesis
dc.type.subtype	/tesis/tesisDeDoctorado

Archivos

Bloque original

Mostrando 1 - 2 de 2

Nombre:: Tesis AmbrosioTorres Comparación empírica del desempeño de los.pdf
Tamaño:: 19.38 MB
Formato:: Adobe Portable Document Format

Descargar

Nombre:: inv-09883.docx
Tamaño:: 8.51 KB
Formato:: Microsoft Word XML

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 1.71 KB
Formato:: Item-specific license agreed to upon submission
Descripción:

Descargar

Colecciones

POSGRADO