tacosdedatos

loading...
Cover image for Exploración de datos + Google Earth Engine como mi tesis de licenciatura.

Exploración de datos + Google Earth Engine como mi tesis de licenciatura.

Isaac Arroyo
Después de 4.5 años aprendiendo Física, me di cuenta que me gustan más los datos y Machine Learning. Documento y comparto mi aprendizaje en mis redes sociales (@unisaacarroyov, en Instagram y Twitter)
・7 min read

¿De que va este post?

"¿Cómo va la tesis? ¿De qué trata tu tesis?"

Estas fueron las preguntas más comunes que escuché durante el mes de octubre, noviembre y parte de diciembre. Honestamente no me molestaba escucharlas ni tampoco responderlas. Para la primera siempre decía: "Ahí va, avanzando poco a poco" pero la realidad es que estaba casi muriendo, tenía el tiempo medido y la fecha límite me estaba respirando en la nuca 😰. Para la segunda pregunta no sabía cómo resumir las 80 páginas que tenía hechas (incluyendo las visualizaciones de datos y mapas) en una respuesta para una conversación casual, así que me limitaba a decir "extraigo información de imágenes satelitales para poder entender los incendios forestales en el estado (de Yucatán)" 🤓.

Así que en este no tan pequeño blog/post quiero ampliar la respuesta de la segunda pregunta.

Primero lo primero: ¿Cuál fue el título?

El título de la tesis es: Herramientas estadísticas y computacionales en imágenes satelitales de Earth Engine para la exploración de incendios forestales.

Segundo: ¿Por qué incendios forestales? ¿En qué lugar? 🔥

Así como no se puede hablar de la naturaleza mexicana sin decir "México es un país mega-diverso..." yo empiezo con: los incendios forestales son fenómenos complejos... 😅. Bajo esa premisa empezamos a desarrollar el trabajo (empezamos porque estuve bajo la supervisión de mi asesor de tesis).

Cuando mi asesor me presenta el tema, lo tomo emocionado y con dudas, sin saber qué iba a encontrar en el desarrollo. Lo que me mantuvo atrapado al tema fue darme cuenta que conocer sobre este fenómeno va más allá del "hay mucho calor", incluye conocer el comportamiento de ecosistemas, variables culturales, sociales, temporales, climatológicas, ambientales índices de vegetación ¡y más!; como dije al inicio los incendios forestales son fenómenos complejos.

El lugar donde se enfocan los esfuerzos es en el estado donde vivo: Yucatán, México 🇲🇽

Tercero: ¿Imágenes satelitales? ¿Qué es Google Earth Engine? ¿Cómo se usa?

Google Earth Engine (GEE o EE) es una plataforma que facilita la obtención, manipulación y procesamiento de datos ráster o (de manera más general y amable para todxs) imágenes satelitales 🛰️ 🌎

Google Earth Engine Logo

Para acceder a toda la información que nos proporciona GEE es necesario registrarse a la plataforma, lo cual es GRATIS (siempre y cuando sean fines académicos 📝), un pequeño tutorial es el siguiente:

y si no se ve bien, dar click aquí

Una vez registrado a la plataforma, usé el API de GEE. Este API viene principalmente en dos sabores diferentes: JavaScript (para usarse en el Editor de Código de GEE) y Python (donde puede usarse en Jupyter Notebooks sea local o con Google Colab)

No quiero entrar a mucho detalle con la plataforma, porque hice un blog en Medium hace unos meses sobre ese tema (enfocado en el JavaScript API y el Editor de Código de GEE):

Quinto: ¿Qué herramientas se usaron?

Desarrollé el trabajo principalmente en Python, ¿por qué?

  1. Manejo este lenguaje de programación mejor que cualquier otro.
  2. Una ventaja de usar el Python API de GEE es como se puede integrar en un flujo de trabajo de Análisis/Ciencia de Datos con ayuda de las librerías usadas en este campo como NumPy, Pandas, Matplotlib, Scikit-Learn, GeoPandas, entre otros; así como un desarrollo y documentación de procesos en Jupyter Notebooks.
  3. Existen librerías que facilitan la manipulación de algunos objetos de GEE. Las que usé fueron: eemont y geemap. Ambas me permitieron operaciones varias operaciones, desde manipulación sobre los objetos de GEE hasta la transformación de objetos GEE a objetos como pandas.DataFrame o GeoPandas.GeoDataFrame. Fueron muy útiles para obtener series de tiempo de algunas variables.

También hubo una participación especial de R para la creación de las Rigdeline plots. En la siguiente imagen se tiene de manera general las herramientas que usé en el proyecto.

herramientas_tesis

Sexto: ¿Qué datos se usaron?

y los datos meme

Usé conjuntos de datos de tres diferentes fuentes:

  1. Registros de incendios forestales del año 2017: proporcionados por la CONAFOR.
  2. Registros de puntos de calor (2001-2020): proporcionados por FIRMS (Fire Information for Resource Management System)
  3. Colección de imágenes satelitales: proporcionados por GEE (ver siguiente figura)

google earth engine data

Séptimo: ¿Qué encontraste?

Dicen que una imagen vale más que mil palabras, así que resumo el capítulo 6 de la tesis (llamado Análisis Exploratorio de Datos) en las siguientes visualizaciones:

  • Registro de puntos de calor: Entre los años 2001 al 2020, se registraron altas concentraciones de puntos de calor (de una confianza arriba del 84%) en el centro y oriente del estado. (Datos proporcionados por FIRMS)
    kde plot

  • Municipios afectados: A pesar de que Tekax tiene el mayor número de registros durante el 2017 no fue el que tuvo la mayor superficie afectada, ese municipio fue Tizimín. (Datos proporcionados por la CONAFOR)
    Municipios afectados - frecuencia

Municipios afectados - area

  • "Trimestre del fuego": Con los conjuntos de datos de la CONAFOR y FIRMS se encontraron los meses con mayor número de registros de incendios forestales y de puntos de calor, respectivamente.
    Serie de tiempo heat points
    trimestre de registros conafor

  • Serie de tiempo de variables ambientales: Solamente conocer las distribuciones de las variables no es suficiente, también es importante conocer la historia del comportamiento de ellas y así encontrar patrones o periodos de tiempo relevantes. Como se ve en la imagen, los meses más calurosos son Marzo, Abril y Mayo (Datos proporcionados por Google Earth Engine, procesados por eemont y geemap)
    serie de tiempo de variables ambientales: temperatura, humedad y sequia

  • Mapas estáticos e interactivos: Gracias a folium y geemap se pueden visualizar los datos en formato de mapa interactivo. La siguiente imagen es un mapa estático, resultado de una captura de pantalla de un mapa interactivo realizado con folium. Aquí se muestran las áreas afectadas por incendios forestales entre el 2001 y 2019, y la temperatura de la superficie del estado en el mismo periodo.
    Mapa de Temperatura estático

Lo último: Palabras finales

La plataforma Google Earth Engine es una herramienta rica en información y con un ambiente de desarrollo (el Editor de Código de Google Earth Engine) amigable para usuarios sin un alto dominio de programación, así como para usuarios con experiencia en el área de Análisis y Ciencia de Datos, a través de su API para Python. Las oportunidades que ofrece esta plataforma van más allá de los incendios forestales, ya que se pueden cubrir diferentes problemáticas ambientales tales como la sequía, disponibilidad del agua, monitoreo de gases de efecto invernadero hasta problemáticas sociales como los asentamientos humanos y como afectan el ecosistema en el que se desarrollan.

Este trabajo, además del objetivo serio, que es el que esta escrito en el trabajo final, tiene un objetivo que le digo objetivo personal: Mostrar a mis compañerxs de la universidad, especialmente de la carrera de Ingeniería Física, que las herramientas que aprendemos a los largo del tiempo (matemáticas, programación, pensamiento crítico, etc) pueden contribuir más allá de únicamente la (valga la redundancia) física. Veamos esta y todas las tecnologías que hemos aprendido como las herramientas para la solución a muchos más problemas.

Extra: Planes a futuro

Este trabajo puede ser un primer paso para poder usar algoritmos de Machine Learning clásicos o algoritmos más complejos de Deep Learning para la clasificación o segmentación de las áreas afectadas por incendios forestales.

¿Donde puedo encontrar más información?: Repositorio del trabajo y documento

Todos los procesos de la metodología y la exploración de los datos están documentados y registrados en Jupyter Notebooks. Estas notebooks se encuentran en un repositorio de GitHub:

GitHub logo isaacarroyov / thesis_undergrad

Documentation: Methodology and Exploratory Data Analysis

Tesis de Licencitura: Herramientas estadísticas y computacionales en imágenes satelitales de Earth Engine para la exploración de incendios forestales

Presentado por: Miguel Isaac Arroyo Velázquez (LinkedIn, Otras redes sociales)

Para obtener el título de: Ingeniero Físico

Asesor: Dr. Enrique Camacho Pérez (ResearchGate, LinkedIn)

The english version of this REAMDE.md file is found here

Resumen

Los incendios forestales son fenómenos complejos donde se encuentran involucradas diferentes variables, desde naturales hasta sociales o poblacionales Diferentes perspectivas son necesarias para una mejor comprensión de la problemática, y el uso de la tecnología no debe de ser una barrera. En este trabajo se exploran imágenes satelitales provenientes de la plataforma Google Earth Engine. Se realiza un análisis exploratorio en variables ambientales (temperatura de la superficie, humedad del suelo y sequía) e índices de vegetación (NDVI y EVI) tomando en cuenta las regiones de afectadas por incendios forestales Adicionalmente…

Por el momento, aún no es público el documento pdf de la tesis, cuando esté disponible lo adjuntaré al repositorio. Ahí se encuentra todo este blog/post mucho más detallado.

Fun fact

Con este trabajo tuve una participación en el 9th International Fire Ecology and Management Congress con un póster titulado Google Earth Engine: Data and Information from the Cloud to your House, cuyo repositorio se encuentra aquí

poster congreso

Muchas gracias por leer hasta aquí, cualquier duda pueden ponerla en los comentarios, y si quieren chismear también me pueden enviar un mensaje en cualquiera de mis redes sociales:

chimecito

Discussion (0)