10 millones de solicitudes de datos: cómo nuestro equipo de Covid rastreó la pandemia

10 millones de solicitudes de datos: cómo nuestro equipo de Covid rastreó la pandemia

The Times Insider explica quiénes somos y qué hacemos, y ofrece una mirada entre bastidores sobre cómo funciona nuestro periodismo.

Hasta esta mañana, los programas escritos por los desarrolladores del New York Times han realizado más de 10 millones de solicitudes de datos de Covid-19 en sitios web de todo el mundo. Los datos que recopilamos son instantáneas diarias del flujo y reflujo del virus, incluso para cada estado de EE. UU. Y miles de condados, ciudades y códigos postales de EE. UU.

Es posible que haya visto fragmentos de estos datos en los cuadros y gráficos diarios que publicamos en The Times. Estas páginas combinadas, que involucraron a más de 100 periodistas e ingenieros de toda la organización, son la colección más vista en la historia de nytimes.com y un componente clave del paquete de informes de Covid que ganó el Premio Pulitzer de The Times 2021 por el servicio público.

El proyecto de detección de coronavirus del Times fue uno de varios esfuerzos que ayudaron a llenar el vacío en la comprensión pública de la pandemia que dejó la falta de una respuesta gubernamental coordinada. El Centro de recursos sobre el coronavirus de la Universidad Johns Hopkins recopiló datos de casos nacionales e internacionales. Y el Covid Tracking Project en The Atlantic reunió a un ejército de voluntarios para recopilar datos estatales de EE. UU., Así como pruebas, datos demográficos y de instalaciones de salud.

En The Times, nuestro trabajo comenzó con una sola hoja de cálculo.

A fines de enero de 2020, la editora de National Desk, Monica Davey, le pidió al corresponsal de Chicago Mitch Smith que comenzara a recopilar información sobre cada caso individual de Covid-19 en los Estados Unidos. Una línea por caso, meticulosamente informado en base a anuncios públicos e ingresado manualmente, con detalles como edad, ubicación, sexo y condición.

A mediados de marzo, el crecimiento explosivo del virus fue demasiado para nuestro flujo de trabajo. La hoja de cálculo creció tanto que dejó de responder y los periodistas no tuvieron tiempo suficiente para informar e ingresar manualmente datos de la creciente lista de estados y condados de EE. UU. Que necesitábamos rastrear.

En ese momento, muchos departamentos de salud nacionales comenzaron a implementar informes de Covid-19 y esfuerzos en el sitio web para informar a sus electores sobre la propagación local. El gobierno federal enfrentó desafíos iniciales para proporcionar un conjunto de datos federal único y confiable.

Los datos locales disponibles estaban en todo el mapa, literal y figurativamente. El formato y la metodología varían mucho de un lugar a otro.

En The Times, a un grupo de desarrolladores de software de la sala de redacción se le asignó rápidamente la tarea de crear herramientas para maximizar el trabajo de adquisición de datos tanto como fuera posible. Los dos, Tiff es un desarrollador de escritura y Josh es un editor de gráficos, terminaríamos formando este equipo en crecimiento.

El 16 de marzo, la aplicación principal funcionó ampliamente, pero necesitábamos ayuda para extraer muchas más fuentes. Para manejar este colosal proyecto, reclutamos desarrolladores de toda la empresa, muchos de ellos sin experiencia en escritura, para que contribuyan temporalmente a la redacción de scrapers.

Actualizado

24 de junio de 2021, 1:00 p.m. ET

A finales de abril, estábamos recopilando datos de forma programática de los 50 estados y casi 200 condados. Pero la pandemia y nuestra base de datos parecían expandirse exponencialmente.

Además, algunos sitios notables cambiaron varias veces en solo unas pocas semanas, lo que significa que tuvimos que reescribir nuestro código una y otra vez. Nuestros ingenieros de redacción se adaptaron optimizando nuestras herramientas personalizadas, mientras estaban en uso diario.

Hasta 50 personas además del equipo de scraping participaron activamente en la gestión diaria y verificación de los datos que recopilamos. Algunos datos todavía se ingresan manualmente, y todos los reporteros e investigadores los revisan manualmente, una operación los siete días de la semana. El rigor de los informes y la fluidez en el tema fueron partes esenciales de todos nuestros roles, desde reporteros hasta revisores de datos e ingenieros.

Además de publicar datos en el sitio web de The Times, pusimos nuestro conjunto de datos a disposición del público en GitHub a fines de marzo de 2020 para que todos lo usen.

A medida que las vacunas reducen el número de víctimas del virus en todo el país (en general, se han informado 33,5 millones de casos), varios departamentos de salud y otras fuentes actualizan sus datos con menos frecuencia. Por otro lado, los Centros Federales para el Control y la Prevención de Enfermedades ampliaron sus informes para incluir números completos que solo estaban disponibles parcialmente en 2020.

Todo esto significa que parte de nuestra recopilación de datos personalizados puede terminar. Desde abril de 2021, nuestra cantidad de fuentes programáticas se ha reducido en casi un 44%.

Nuestro objetivo es llegar a alrededor de 100 raspadores activos a fines del verano o principios del otoño, principalmente para rastrear posibles puntos calientes.

El sueño, por supuesto, es completar nuestros esfuerzos cuando la amenaza del virus haya disminuido sustancialmente.

Una versión de este artículo apareció originalmente en el NYT Open, el blog del New York Times sobre el diseño y la creación de productos de noticias.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)