Lo que los periodistas de datos entendieron primero sobre agentes de código

Los coding agents son herramientas de investigación que producen código como efecto secundario. La lección de NICAR 2026.

abr 28, 2026

La escena

En marzo de 2026, Simon Willison dio un taller de tres horas en NICAR — la conferencia más grande de periodismo de datos en Estados Unidos. Le enseñó a periodistas a usar agentes de código no para construir software, sino para explorar, limpiar y visualizar datos. Los asistentes gastaron veintitrés dólares en tokens de API entre todos. En ese puñado de horas recorrieron un arco que va desde subir un CSV y hacer una pregunta, hasta hacer ingeniería inversa del JSON de una aplicación web para extraer datos que no tienen API. Veintitrés dólares. Entre todos, todo el taller.

La pregunta que deja ese taller es más interesante que cualquiera de sus ejercicios: ¿por qué los periodistas de datos entendieron esto antes que la mayoría de los equipos de software?

Qué es un agente de código

Un agente de código (en inglés, coding agent) es una IA que escribe código, lo ejecuta, revisa si funcionó, corrige errores y repite — en un loop — hasta terminar una tarea. Simon lo define así en su blog y nosotros usamos la misma definición. No es un chatbot que explica una receta. Es un cocinero. Prueba el plato, ajusta la sal, y vuelve a probar — sin pedirte permiso para cada cucharada.

La herramienta de referencia en el taller — y la que usamos nosotros — es Claude Code, que corre en la terminal, no en una pestaña del navegador. OpenAI tiene su equivalente en Codex. Las dos ofrecen el mismo patrón: el modelo trabaja con archivos en tu disco, ejecuta comandos, lee resultados o errores, y ajusta el siguiente paso con esa información.

Ese último detalle es el que importa. Cada paso del loop depende de una señal clara que le diga al agente si lo hizo bien o no, y el código se la da fácilmente — corre o no corre, pasa los tests o falla con un mensaje específico. Es lo que le permite iterar sin que un humano esté corrigiéndolo en cada paso.

El loop escribir → ejecutar → corregir

El loop básico tiene tres tiempos. El agente escribe código, lo corre, y revisa el resultado. Si funcionó, sigue. Si no, lee el error, entiende qué falló, reescribe, y vuelve a probar. Puede repetirlo cinco veces en un minuto sin despeinarse.

Un ejemplo concreto: le pides al agente que cargue un CSV a una base SQLite. Corre sqlite-utils insert, el comando falla porque una columna tiene comas en vez de puntos decimales. El agente lee el error, cambia el separador, vuelve a correr, falla otra vez porque una fecha está en formato ambiguo. Ajusta el parser, corre otra vez. Entra. No necesitas escribir ninguno de esos intentos. Tú sí necesitas estar viendo qué ajustes hace, porque “entró” no quiere decir “entró bien”.

La transformación para quien no programa es más profunda de lo que parece. No necesitas saber escribir Python. Necesitas saber qué preguntar y cómo leer si la respuesta tiene sentido. El agente se encarga del resto. Por eso el taller de Simon funcionó con periodistas que llevaban años haciendo análisis en Excel: el cuello de botella siempre había sido escribir el código, y el agente lo quita.

El arco del taller muestra tres niveles que cualquiera puede recorrer:

CSV a ChatGPT. El nivel más bajo. Pegas datos en una conversación, haces una pregunta, obtienes un análisis.
Claude Code + SQLite. El agente tiene acceso a tu sistema de archivos, ejecuta consultas SQL, itera sobre los resultados, devuelve algo más serio que una respuesta textual.
Datasette + Leaflet. Datasette sirve tu base de datos como API y sitio web. El agente arma un mapa de calor interactivo encima, iterando hasta que queda bien.

Hay un cuarto nivel — hacer ingeniería inversa de una aplicación web para extraer datos que no tienen endpoint público — que es donde termina el taller y donde empezamos a salirnos del scope de esta pieza. Lo dejo apuntado nada más para que sepan hasta dónde llega. Lo que importa está en los tres primeros.

Por qué los periodistas lo entendieron primero

Los agentes de código funcionan porque el código les da una señal binaria poco común. Corre o no corre. Pasa la prueba o falla con un mensaje específico. Ese error no es ambiguo — dice exactamente en qué línea, qué tipo de error, qué función esperaba qué entrada. Con esa retroalimentación, el agente puede iterar con dirección: prueba algo, falla, lee el error, ajusta, vuelve a probar. Diez intentos en el tiempo que un humano tarda en leer el primero.

Casi todo el trabajo humano no tiene esa señal. Si te pido que escribas un párrafo sobre nuestra reunión de ayer, ¿cómo sabe un agente si el párrafo quedó bien? No hay test que corra. No hay error que leer. La única forma de saber si funcionó es que un humano lo lea y diga “sí” o “no, cámbiale esto”. Por eso la IA no escala igual en todos los dominios: donde no hay señal verificable, el loop se rompe y la iteración pierde dirección.

El trabajo con datos es un híbrido raro. Tiene parte creativa — ¿qué ángulo cuento?, ¿qué tan interesante es este hallazgo?, ¿importa para la historia que estamos armando? — y parte verificable — ¿los números suman?, ¿la query devuelve lo que debería?, ¿la fuente oficial confirma o desmiente? La parte verificable le da al agente la señal binaria que necesita para iterar. La parte creativa deja al humano donde tiene que estar: en las decisiones que exigen criterio.

Por eso los coding agents no son, en realidad, herramientas de desarrollo. Son herramientas de investigación que producen código como efecto secundario. Funcionan mejor donde hay algo que verificar, y el análisis de datos es donde más hay que verificar.

Los periodistas de datos viven ahí. Trabajan con portales abiertos llenos de columnas sin documentar, con códigos internos que nadie explica, con reportes gubernamentales publicados en PDFs escaneados. Casi todo lo que hacen es verificable: la query corrió, el conteo coincide con el reporte oficial, el municipio existe en el padrón. La parte no verificable — ¿vale la pena contar esto?, ¿es injusto?, ¿a quién daña? — es justo la que siempre fue irreemplazable.

No es casualidad que hayan entendido primero de qué se trata.

El stack mínimo

Simon no solo usó Claude Code en el taller. Usó un ecosistema pequeño que en inglés tiene nombres propios y en español casi nadie menciona. Tres herramientas son las que hacen posible el workflow. El resto son adornos.

claude code — el agente. Vive en la terminal, no en una pestaña del navegador. Lee y escribe archivos en tu máquina, corre comandos, ve el output.
sqlite-utils — una CLI que convierte CSVs, JSONs, Excels y HTMLs en bases SQLite con un solo comando. sqlite-utils insert datos.db tabla archivo.csv y ya tienes una base consultable.
datasette — una interfaz web instantánea sobre cualquier SQLite. Le apuntas a tu base, arranca un servidor local, y te da navegación, consultas SQL en el navegador, y una API JSON automática — sin escribir una línea de código.

No son herramientas de IA. Son herramientas de datos que hacen útiles a los agentes. Las tres son open source, se instalan con uvx o uv, no requieren cuenta en ningún servicio, corren en cualquier laptop. En el taller aparecen otras — dclient, showboat, rodney — de pasada, cuando el ejemplo lo pide. Pero el stack mínimo para replicar el workflow en tu máquina son estas tres.

Qué pueden hacer hoy con datos reales

Los ejemplos del taller son concretos y vale la pena escribirlos uno por uno.

Exploración — FEC campaign finance. Millones de registros de contribuciones a campañas federales en Estados Unidos. La instrucción al agente fue literal: “encuentra algo interesante”. El agente escaneó columnas, corrió resúmenes estadísticos, detectó outliers, probó hipótesis, marcó patrones que merecían una segunda mirada. En minutos. No es mágico — es lo que haría un analista con varias horas y mucha paciencia.

Limpieza — árboles de San Francisco. El dataset tenía códigos numéricos en vez de nombres de vecindario. El agente investigó la API de Socrata que aloja los datos, encontró las tablas de lookup auxiliares, resolvió el mapping código → nombre y devolvió un dataset limpio. Lo que antes costaba una tarde de pelearse con el portal ahora cabe en el loop.

Visualización — Datasette + Leaflet. Datasette sirviendo la carpeta con los datos. El agente construyendo un mapa de calor interactivo encima. Iteraciones sobre el color, la escala, los filtros, hasta que el mapa mostraba lo que queríamos. No es un script. Es un diálogo entre quien sabe qué pregunta hacer y quien sabe cómo implementarla.

En cada caso el agente no respondió una pregunta y se fue. Investigó, iteró, se equivocó, corrigió, y llegó a un resultado que se podía verificar — que es exactamente lo que debería hacer cualquier analista.

Qué sigue dependiendo del criterio humano

La señal binaria dice que el código corre. No dice que el análisis sea correcto. Entre un extremo y el otro está toda la otra mitad del híbrido.

Simon cierra su taller con cinco preguntas. Son las herramientas de juicio que sumó al loop después de años usando estos agentes, y vale la pena citarlas completas — son suyas:

¿La consulta es correcta? Corre la query tú mismo. Verifica que hace lo que crees que hace. (Esto es verificable. Es la parte binaria.)
¿La interpretación es correcta? El agente puede malinterpretar qué significa una columna. (Requiere contexto que el agente no tiene.)
¿Es realmente sorprendente? Algunos “hallazgos” son hechos obvios reformulados con números. (Juicio editorial puro.)
¿Podría ser un artefacto de los datos? Un pico en donaciones podría reflejar una fecha límite de reporte, no un patrón real. (Requiere conocimiento del dominio.)
¿Llevaría a una historia, decisión o acción? Los mejores hallazgos generan preguntas de seguimiento. (Juicio estratégico.)

Las cinco se mueven de lo verificable a lo que solo tú puedes decidir. Esa gradación es el mapa de dónde el agente ayuda y dónde no. La primera pregunta la contesta una query — es la parte que el loop automatiza. La quinta la contesta un humano con contexto. Si te saltas de la primera a la última sin preguntar las de en medio, produces análisis con confianza artificial: un dashboard que anuncia “aumento del 40% en denuncias” sin aclarar que el universo de comparación cambió a mitad de año, un reporte que destaca un municipio como outlier porque cargó sus datos dos días tarde, un gráfico que muestra tendencia donde solo hay ruido. Cosas que se ven convincentes y no aguantan la primera pregunta real. Peor que no tener análisis.

El agente no te libera del criterio. Te libera de la mecánica, para que puedas gastar tu atención en las preguntas que solo tú sabes hacer.

Por qué esto importa especialmente en LATAM

La parte más subestimada de este workflow es que es mecánico. Un CSV es un CSV en Ciudad de México, en Helsinki o en Nairobi. Un GeoJSON es un GeoJSON. El HTML de un portal de gobierno se lee igual desde Buenos Aires que desde San Francisco. Los agentes de código no tienen acento. La mecánica de bajar datos, conectarlos, limpiarlos y transformarlos es la misma en cualquier idioma y en cualquier país. Eso es lo nuevo: lo cutting-edge ya no requiere que vivas en el Bay Area.

Lo que cambia es quién está mejor preparado para usarlo. Los periodistas pasaron toda su carrera dudando de las fuentes — corroborando, contrastando, exigiéndole pruebas a quien afirma. Esa duda profesional es exactamente la que pide un LLM como interlocutor. El agente es una fuente más, y los periodistas ya saben qué hacer con una fuente: pedirle que muestre el trabajo, verificar el conteo contra el reporte oficial, no creerle hasta que la query devuelva lo que dice que devuelve. La mecánica se delega; la duda no.

Y la herramienta entiende español. Claude Code y Codex toman instrucciones en español sin nada extra — no hay scripts especiales que aprender, no hay tooling distinto que instalar, no hay traducción de por medio.

Las claves CVEGEO del INEGI, las secciones electorales del INE, las claves CLUES de la Secretaría de Salud — todas requieren lo mismo que el ejemplo de los árboles de San Francisco: investigar la fuente, encontrar las tablas de lookup, resolver el mapping. El agente hace la investigación iterativa. Tú verificas que el resultado diga lo que crees que dice. Si trabajas con datos en español, probablemente ya tienes sobre tu disco el dataset que necesita exactamente este workflow.

Cierre

El handout del taller está publicado — Simon lo deja abierto, como siempre. Ahí están los ejercicios, el código, las capturas: simonw.github.io/nicar-2026-coding-agents. Veintitrés dólares y tres horas. Todo el arco replicable desde tu laptop.

Si quieres ver este mismo workflow corrido sobre datos abiertos de México, ya hicimos dos lives largos sobre eso. En Datos abiertos MX: de cero a dashboard construimos un dashboard de calidad del aire que se actualiza solo, con datos de SINAICA. En Datos abiertos MX, parte 2: inversión extranjera, Sankey y mapas lo llevamos a mapas y filtros interactivos sobre IED. Cada uno es un par de horas de pantalla compartida con datasets reales del gobierno mexicano, agentes corriendo en vivo, y los errores tal cual los va sacando el loop. Es tutorial sin que tengamos que escribir uno nuevo.

Discusión sobre este post

Por supuesto, sigue adelante.