Fork me on GitHub




Estimación de parámetros

físicos en estrellas de baja masa


bajo el marco de la misión espacial GAIA


A. Berihuete, L. M. Sarro, A. Suárez, D. Barrado, C. Carrión, M. Sánchez

Universidad de Cádiz
Universidad Nacional de Educación a Distancia
Centro de Astrobiología

Esquema de la presentación

  1. Contexto: ¿qué es la misión espacial GAIA?
  2. Los datos: ¿qué son las estrellas de baja masa?
  3. Estimación parámetrica. Principales resultados.
  4. Trabajo actual y futuro.

La misión espacial GAIA

Fuente Wikipedia
Hiparco de Nicea
Fuente ESA. Satelite Hipparcos
(The High Precision Parallax Collecting Satellite)

La misión espacial GAIA

Reto tecnológico

106 CCDs con 8 millones de pixels cada uno.

Transmitirá, durante 5 años, 50 Gb diarios. Al final de la misión el archivo de datos excederá el Petabyte.

Reto científico

Se registrarán un total de 70 mil millones de observaciones, cada una de ellas compuesta a su vez de varios conjuntos de medidas.

La astrometría será la mejor conseguida hasta ahora.

La misión espacial GAIA


El reto: un censo de mil millones de estrellas


Fuente ESA



La Astroestadística se ha convertido en eslabón fundamental para el análisis y contraste de modelos en las grandes bases de la Astronomía actual.

La misión espacial GAIA


Consorcio para el procesado de datos (DPAC)


Fuente ESA
Fuente ESA

La misión espacial GAIA

CU8 está encargada de la determinación de parámetros astrofísicos. Dichos parámetros se determinan a partir de varios módulos en un pipeline llamado Apsis


El módulo Apsis incluye una clasificación inicial de los objetos en grandes categorías, e integra módulos para estimar parámetros astrofísicos dentro de cada una de esas categorías.

El módulo UCD

estrellas enanas ultra frías


Fuente Wikipedia

Contexto: GAIA contendrá un vasto número de objetos, incluyendo estrellas enanas ultrafrías (temperatura por debajo de 2500 K)

Objetivo: Abordar la precisión de las estimaciones de la temperatura y gravedad obtenidas a partir de modelos y observaciones actuales.

El módulo UCD

estrellas enanas ultra frías


Fuente Wikipedia
Tracks evolutivos
Fuente Sarro et al.

Datos para el módulo UCD

¿qué vemos realmente?

Espectros normalizados a partir de la biblioteca de modelos BT-Settl
Fuente Sarro et al.


Bibliotecas de modelos estelares y los espectros sintéticos asociados ofrecen un conjunto homogéneo que cubren uniformemente el espacio de parámetros.

Datos para el módulo UCD

¿qué vemos realmente?

Espectros normalizados a partir de la biblioteca de modelos BT-Settl
Fuente Sarro et al.


Estas bibliotecas parametrizan los modelos con magnitudes físicas (temperatura efectiva, gravedades, y metalicidades)

Son imperfectas, ya que no pueden reproducir exactamente todas las características de un espectro real UCD.

Datos para el módulo UCD

¿qué vemos realmente?

Espectros normalizados a partir de la biblioteca de modelos BT-Settl
Fuente Sarro et al.

Los tipos espectrales pueden inferirse sin el uso de modelos sintéticos, pero el camino de espectro a los parámetros físicos necesitan de éstas para su correcta interpretación.

Dado el espectro de baja resolución de GAIA, la mayoría de las características utilizadas para decidir el tipo espectral permanecen no resueltas o innobservadas, i.e., cuidado con las interpretaciones.

Datos para el módulo UCD

¿qué vemos realmente?

Espectros normalizados a partir de la biblioteca de modelos BT-Settl
Fuente Sarro et al.


Los modelos sintéticos definen la relación entre los espcetros observados por GAIA y los parámetros que queremos estimar $T_{eff}$ y $\log (g)$, temperatura y gravedad. Esta relación es capturada por un modelo de regresión mediante una red neuronal artificial (perceptron multicapa).

Datos para el módulo UCD

¿qué vemos realmente?

Espectros normalizados a partir de la biblioteca de modelos BT-Settl
Fuente Sarro et al.


El conjunto de entrenamiento se construye utilizando las bibliotecas sintéticas ($T_{eff} < 4000K$) y transformando el espectro sintético mediante el Gaia Object Generator (GOG).

Estimación paramétrica

  • Bibliotecas sintéticas de espectros vistas por GAIA: modelos.
  • Espectros obtenidos en tierra (copilaciones Leggett, Keck, NIRSPEC, IRTF) vistos por GAIA: observaciones.


Comparación de espectros vistos por GAIA
Fuente Sarro et al.

Estimación paramétrica

Recordemos objetivo : Abordar la precisión de las estimaciones de la temperatura y gravedad obtenidas a partir de modelos y observaciones actuales.


plot of chunk unnamed-chunk-1

Estimación paramétrica

KNN

Resultados utilizando KNN
Fuente Sarro et al.

Estimación paramétrica

Procesos Gausianos

Resultados utilizando PG
Fuente Sarro et al.

Estimación paramétrica

Bayes

Resultados para Nested Sampling con $\theta \sim \mathcal{U} (400, 4000) \times (3.5, 5.5)$
Fuente Sarro et al.

Inferencia Bayesiana

  • Ventajas : No solo da una estimación de los parámetros, sino una distribución de probabilidad para los mismos.
  • Desventajas: Complejidad del modelo, consumo computacional elevado.

$$p (\theta | s) = \frac{p(s|\theta) p(\theta)}{\int p(s|\theta) p(\theta) \, d \theta} \propto p(s|\theta) p(\theta), $$

donde $\theta = (T_{eff}, \log (g))$. En realidad la verosimilitud es

$$s|\theta = s|(s{model}, \Sigma) \sim \mathcal{N} (s{model},\Sigma),$$

con $s_{model}$ el espectro obtenido mediante la RNA para $\theta$.

Inferencia Bayesiana

Para caracterizar a $p(\theta|s)$ utilizamos el algoritmo Nested Sampling : exploramos la relación entre $p(s|\theta)$ y el volumen de distribución previa definido por $X (\lambda) = \int_{p(s|\theta) > \lambda} p(\theta) \, d \theta$, el volumen de distribución previa contenido en la región paramétrica contenida dentro del iso-contorno $p(s|\theta) > \lambda$

Además $p_i = \frac{p(s | \theta_i) \cdot w_i}{\widehat{m(s)}}$,

con ( wi = 0.5 ( X{i-1} - X_i ) ). Además

$$ \widehat{T}{eff} = \sum{i = 1}n T_{eff, i} \cdot p_i $$

Inferencia Bayesiana

$\log p(s| \theta)$ para modelo BT-Settl 1500K
Fuente Sarro et al.
$\log p(s| \theta)$ para spectro con ruido SDSS0107 (G=20)
Fuente Sarro et al.

Inferencia Bayesiana

Resultados para Nested Sampling con $\theta \sim \mathcal{U} (400, 4000) \times (3.5, 5.5)$
Fuente Sarro et al.

Inferencia Bayesiana



Modelos BT-Settl entre 1200 y 2000K. Claramente tienden a concentrar entre 1600-1800K.
Fuente Sarro et al.

Distribución previa mediante cópula

Ampliar las distribuciones previas a copulas, simulando la relación entre la temperatura y gravedad. Primera aproximación en TFG de Marta Sánchez, obteniendo mejores resultados (densidades unimodales).

Relación temperatura gravedad
Fuente TFG Marta Sánchez
mixtura de distribuciones uniformes y cópula normal
Fuente TFG Marta Sánchez

Distribución previa mediante cópula

Ampliar las distribuciones previas a copulas, simulando la relación entre la temperatura y gravedad. Primera aproximación en TFG de Marta Sánchez, obteniendo mejores resultados (menor error de estimación).

Relación temperatura gravedad
Fuente TFG Marta Sánchez
log posterior con previa cópula
Fuente TFG Marta Sánchez

Distribución posterior

temperatura y gravedad

Fuente TFG Marta Sánchez

Trabajo en curso

  • Jerarquizar el modelo.
  • Paralelización del algoritmo, High Perfomance Computing para emcee, y/o HMC (programación en Python y R)
  • Paralelización de la verosimilitud $$ \log p(s | \theta) = \sum_{i=1}^n \log p(s_i | \theta), \quad n>> $$ Hemos utilizado colas Condor, Slrum, y estamos con las primeras pruebas en arquitectura Spark. ¿Es la arquitectura correcta?

Gracias

¡No olviden descargarse al app!