Distribución de especies

¿Es mi modelo apropiado para su objetivo?

Por Gurutzeta Guillera-Arroita y José Lahoz-Monfort (University of
Melbourne, Australia)

Conocer dónde una especie está presente, o dónde pudiera estarlo, es importante en muchas aplicaciones de ecología, biogeografía y conservación. Sin embargo, muy pocas veces contamos con información completa sobre la distribución de especies. Normalmente tenemos que inferirla a través de técnicas de modelado. Con los modelos de distribución de especies (MDE) intentamos reconstruir la distribución de especies a partir de una muestra de datos. El modelado de distribución de especies se está convirtiendo en una herramienta fundamental en nuestra disciplina. Por ejemplo, los MDEs se utilizan para identificar áreas adecuadas para la reintroducción de especies amenazadas, lugares con riesgo de invasiones biológicas así como para dirigir la búsqueda de nuevas poblaciones de especies. Por razones prácticas, la mayoría de los MDEs son modelos correlativos que relacionan el patrón de presencia/ausencia de una especie con variables explicativas (existen otros métodos mas mecanísticos, pero no los tratamos aquí).

Hay muchos aspectos a considerar a la hora de construir modelos correlativos de distribución de especies. Para que un MDE tenga una buena capacidad de predicción hay que identificar los predictores medioambientales que sean críticos. Por ejemplo, ¿pueden la temperatura media, precipitación media y pH del suelo capturar bien por qué esta especie de planta está presente aquí pero no allí? Definir la extensión adecuada para el modelo es también fundamental. ¿Estamos interesados en describir las preferencias de hábitat de una especie dada de mamífero a escala continental, o queremos entender sus preferencias a una escala local? Se ha escrito mucho sobre estos y otros aspectos importantes para la construcción de MDEs. Sin embargo, hay un tema que no ha recibido mucha atención a pesar de ser fundamental: el tipo de datos disponibles para cada especie en cuestión determina la interpretación y fiabilidad de las estimaciones del modelo. Los usuarios a menudo subestiman la importante relación entre tipo de datos, producto (salida) del modelo (predicciones) y adecuación para su uso final.

La interacción entre tipos de datos y sesgos en MDEs

A menudo, los únicos datos disponibles sobre la distribución de especies son registros de presencia almacenados en bases de datos a las cuales contribuyen diferentes personas, o derivados de colecciones de museos o herbarios. A veces, además de información de presencia, también se dispone de datos sobre ausencias de la especie. Los conjuntos de datos de presencia/ausencia son normalmente producidos por seguimientos planificados (ej. como parte de proyectos científicos), pero pueden también obtenerse de otras fuentes como las listas de avistamientos de voluntarios (listas de especies). Los datos de presencia/ausencia pueden complementarse para incluir información sobre el proceso de detección (ej. cuánto tiempo se tardó en detectar a la especie). El tipo y fiabilidad de la información que podemos extraer de un MDE depende fuertemente de cuales de estos tipos de datos están disponibles, y de cómo los utilizamos:

Métodos de sólo presencia (SP): Existen métodos para estudiar la distribución de especies que utilizan sólo registros de presencia de la especie junto con información sobre las condiciones medioambientales en las localizaciones de esos mismos registros (ej. BIOCLIM). Estos métodos pueden proporcionar algunos datos interesantes sobre las condiciones medioambientales en las que la especie puede existir, pero tienen limitaciones importantes porque no pueden distinguir las verdaderas preferencias de condiciones ambientales de la especie de la disponibilidad de dichas condiciones en el paisaje. Si muchos registros de presencia de la especie vienen de áreas con características similares, esto podría ser porque ese hábitat representa una preferencia real para la especie, pero también podría simplemente ser que sea un tipo de hábitat muy común en el paisaje.

Métodos de presencia-trasfondo (PT): Una forma más potente de utilizar los registros de presencia de una especie es analizarlos junto con información sobre las características del medioambiente en el conjunto del paisaje. Estos métodos proporcionan una imagen más exacta sobre las preferencias de hábitat de la especie, ya que permiten comparar las condiciones medioambientales donde se detectó con cómo de comunes son esas condiciones en el paisaje. Ejemplos de este tipo de técnicas incluyen el muy popular Maxent, y los métodos basados en procesos puntuales. Sin embargo, el modelado de distribución de especies a partir de datos de PT conlleva importantes dificultades. Como los datos de PT no aportan información sobre el esfuerzo de muestreo, estos métodos son muy susceptibles a sesgos en la estimación inducidos por un sesgo muestral. Además, los métodos de PT no pueden proporcionar una cuantificación robusta de prevalencia, o las probabilidades de ocurrencia de la especie; a partir de estos datos no se puede concluir si pocos registros corresponden a que la especie sea muy rara o si se deben a que hubo poco esfuerzo de muestreo. Por tanto, los métodos PT como mucho proporcionan información relativa sobre las preferencias de hábitat de la especie. Estos modelos NO estiman probabilidades de presencia de la especie.

Métodos de presencia-ausencia (PA): Los sets de datos que también incluyen registros sobre ausencias son informativos sobre el esfuerzo de muestreo, y por tanto mucho más robustos que los métodos de PT al efecto del sesgo de muestreo. Además pueden proporcionar estimaciones sobre probabilidades de presencia de la especie. Sin embargo, los datos de PA pueden verse afectados por la detección imperfecta de la especie. Hay dos tipos de errores posibles: falsos negativos y falsos positivos. El primero es el error más prevalente en los muestreos ecológicos y se da cuando la especie no se detecta en sitios en los que está presente. Si no se tiene en cuenta, la detección imperfecta puede inducir sesgo en la inferencia sobre distribución de especies.

Métodos de ocurrencia-detección (OD): Complementar los datos de presencia-ausencia con información sobre la detectabilidad de la especie permite tener en cuenta en el análisis de datos la posibilidad de que la detección de la especie haya sido imperfecta, y así obtener estimaciones más robustas sobre probabilidades de presencia. La información sobre detectabilidad se puede obtener, por ejemplo, realizando visitas repetidas a los sitios de muestreo, o también con solo una visita, recogiendo información con varios observadores independientes, o bien anotando los tiempos de detección.

Figura 1. Síntesis de cómo el tipo de datos interactúa con el sesgo muestral y la detección imperfecta para determinar lo que un modelo correlativo de distribución de especies puede estimar. Las flechas oscuras indican el nivel de información que se alcanza por defecto con cada uno de los tipos de datos (PA, PT, OD). Las flechas claras indican las condiciones bajo las cuales se obtienen niveles superiores de información. ψ indica la probabilidad de presencia de la especie y p* la probabilidad de detectarla dónde está presente (dado todo el esfuerzo de muestreo aplicado a ese sitio). Lo que representamos por conveniencia como cantidades diferenciadas (columnas) corresponde en la práctica a una gradación (ej. un sesgo puede ser despreciable). La figura no incluye SP porque estos datos no pueden distinguir preferencias de disponibilidad en el paisaje

Figura 1. Síntesis de cómo el tipo de datos interactúa con el sesgo muestral y la detección imperfecta para determinar lo que un modelo correlativo de distribución de especies puede estimar. Las flechas oscuras indican el nivel de información que se alcanza por defecto con cada uno de los tipos de datos (PA, PT, OD). Las flechas claras indican las condiciones bajo las cuales se obtienen niveles superiores de información. ψ indica la probabilidad de presencia de la especie y p* la probabilidad de detectarla dónde está presente (dado todo el esfuerzo de muestreo aplicado a ese sitio). Lo que representamos por conveniencia como cantidades diferenciadas (columnas) corresponde en la práctica a una gradación (ej. un sesgo puede ser despreciable). La figura no incluye SP porque estos datos no pueden distinguir preferencias de disponibilidad en el paisaje.

En resumen, existe una jerarquía con respecto a la fiabilidad de los métodos SP/PT/PA/OD y de las cantidades que estos estiman, como ilustra la Figura 1. Es esencial que los usuarios consideren cuidadosamente si los productos (salidas) de sus MDEs son adecuadas para la aplicación que va a usar estas estimaciones. El construir modelos con datos que no son apropiados puede malgastar recursos valiosos y proporcionar productos (salidas) que no resuelven el problema que se está tratando. Además, es importante considerar las implicaciones de reducir las predicciones de MDEs a categorizaciones binarias a través de la aplicación de umbrales, un paso ejecutado a menudo pero raramente justificado de forma clara . El Cuadro 1 proporciona una ilustración de estas consideraciones tan importantes. Nuestro artículo en Global Ecology and Biogeography (ver referencia abajo) proporciona más ejemplos, junto con una tabla exhaustiva que evalúa las implicaciones de los distintos tipos de datos para un amplio rango de aplicaciones en Ecología, Conservación y Biogeografía.


CUADRO 1

Ejemplo: priorización de especies invasoras

La distribución potencial de especies exóticas es un indicador clave sobre su capacidad de causar efectos no deseables en el futuro. El examinar las distribuciones potenciales de un conjunto de especies candidatas es una herramienta valiosa en la priorización de acciones de gestión para prevenir invasiones. Aquí mostramos cómo las estimaciones sobre las probabilidades relativas de presencia no son adecuadas para priorizar especies según su área potencial de ocurrencia (AOO).

umbral 1: sensibilidad = especificidad; umbral 2: máxima (sensibilidad + especificidad)

umbral 1: sensibilidad = especificidad; umbral 2: máxima (sensibilidad + especificidad)

Consideramos un conjunto de 25 especies virtuales. Muestreamos sus distribuciones de forma aleatoria y construimos MDEs a partir de datos tanto de PA como de PT. Asumimos que la detección es perfecta y que trabajamos con tamaños de muestra grandes. En términos estadísticos, la suma de las probabilidades de presencia estimadas en la región nos da el valor esperado del AOO de la especie. Esta cantidad puede ser calculada correctamente a partir de datos de PA. Sin embargo, cuando los resultados del MDE sólo informan sobre preferencias relativas (ej. cuando usamos datos PT) no se puede estimar el AOO. Las cantidades obtenidas no son comparables entre especies; por tanto las especies no pueden priorizarse en base a estos datos. La aplicación de una conversión binaria (la especie se considera “presente” en los sitios con estimaciones que superan un umbral dado, y “ausente” en el resto) no soluciona el problema: no arregla el hecho de que la prevalencia no puede estimarse sin datos de ausencias. Aun más, la conversión binaria es perjudicial comparada con usar las probabilidades estimadas cuando estas están disponibles. Esto sucede porque la categorización binaria representa una interpretación tosca de las probabilidades de presencia, reduciendo el contenido de información disponible en el modelo original que cuenta con el rango continuo de valores.


Más información: Gurutzeta Guillera-Arroita, gurutzeta.guillera@unimelb.edu.au

Referencia: Guillera-Arroita G, Lahoz-Monfort JJ, Elith J, Gordon A, Kujala H, Lentini PE, McCarthy MA, Tingley R y Wintle BA. 2015. Is my species distribution model fit for purpose? Matching data and models to applications. Global Ecology and Biogeography 24: 276-292.

1 comment on “Distribución de especies”

Leave a Reply