Una guía para archivar en Internet

Aquí en Snopes, archivar enlaces web es clave para nuestra práctica de verificación de hechos. Y gracias a numerosos recursos de archivo en Internet, esa práctica se ha vuelto más fácil que nunca. Mantener registros en Internet es esencial para comprender no solo la historia de la web, sino también para ayudarnos a rastrear si alguna vez se eliminó un tweet o si alguien modificó una declaración en una página web.

Pero esto no es exclusivo de nuestros roles como verificadores de hechos. Los gobiernos también mantienen archivos de los sitios web de cada administración, en aras de la transparencia y el acceso público. El sitio web de la Casa Blanca del expresidente estadounidense Donald Trump es trumpwhitehouse.archives.govmientras que el sitio web de la Casa Blanca de Barack Obama se puede encontrar en obamawhitehouse.archives.gov. Y la administración Clinton estableció la primer sitio web de la Casa Blanca en 1994. Estos sitios están etiquetados como “material histórico, “congelado en el tiempo”. Algunos sitios federales son “cosechados” y guardados por el Archivo web del programa federal de bibliotecas depositarias cuyo objetivo es “proporcionar acceso público permanente al contenido web de la Agencia Federal”.

Estimaciones sobre la vida media de una página web variar tiempo extraordinario. En 1997 Científico americano estimó que eran 44 días, y el Neoyorquino en 2015 sugirió que podría ser de 100 días. Pero algunas páginas web se pueden eliminar en cuestión de horas, especialmente si son de naturaleza políticamente delicada.

En 2014cuando el vuelo 17 de Malaysia Airlines fue derribado sobre el espacio aéreo ucraniano, el líder separatista ucraniano Igor Girkin, también conocido como Strelkov según se informa escribió: “Acabamos de derribar un avión, un AN-26”. Si bien un AN-26 es un avión de carga militar de fabricación soviética, las fotografías en la publicación parecían ser de un Boeing 777. The Wayback Machine salvado la publicación, que fue eliminada de la página de Strelkov solo un par de horas después. Cuando un periodista tuiteó una imagen de la página web guardada que decía: “Toma de la afirmación del militante Strelkov de Donetsk de derribar lo que parece haber sido MH17”, la página de Strelkov había sido editada y la afirmación eliminada. La única prueba de esa publicación fue la captura de pantalla guardada en archive.org. Si bien la publicación podría haber sido engañosoel incidente reveló el papel de Internet Archive en la recopilación de recibos que se volvieron útiles para las investigaciones periodísticas.

El archivo de Internet (archivo.org) se considera uno de los archivos de este tipo más grandes de Internet, con alrededor de 625 mil millones de páginas web guardadas desde su fundación en 1996. Su Máquina de regreso permite a los usuarios recorrer 25 años de historia web, y la organización se asocia con el Programa Federal de Bibliotecas Depositarias y otras organizaciones a través de Archive-It.

Internet Archive no es la única base de datos en línea. Otros incluyen archivo.hoy, perma.ccla Archivo web del Reino Unido (específico para sitios del Reino Unido y una colaboración con las bibliotecas de depósito legal del Reino Unido), y Viaje en el tiempo. Wikipedia también tiene una larga lista de esfuerzos de archivo internacionales.

Cómo archivar una página web

Sin embargo, el sitio más sencillo para comenzar es archive.org. Aquí, simplemente ingrese un enlace en Wayback Machine para ver si ya existe, haciendo clic en “Examinar historial”. Debajo de eso, otra opción le permite “Guardar página ahora” y crear un nuevo enlace.

Si desea navegar por el historial de una página web, se le dirigirá a todas las instancias anteriores en las que se ha archivado, organizadas como un calendario, hasta el mes, el día y la hora en que se guardó. Puede hacer clic en una fecha (indicada por una burbuja azul) para acceder a una página web. Cuanto más grande sea la burbuja, más veces se archivará una página ese día. Debemos tener en cuenta que un enlace verde indica que se redirigió una página web y es posible que no funcione, por lo que los usuarios deben hacer clic en los enlaces azules.

La parte superior de la página de resultados de búsqueda también informa a los usuarios cuántas veces se archivó una página web y el intervalo de fechas. La barra superior muestra los años en que se guardaron las páginas, mientras que el calendario debajo nos permite hacer clic en el mes, el día y la hora.

archivo.org también tiene una gran colección de libros que tenemos con frecuencia Confiado en en nuestra investigación.

En archivo.hoy también puede buscar si un enlace se ha archivado anteriormente y también archivarlo usted mismo.

¿Cómo sabemos que las páginas archivadas no se manipulan?

Si bien la gente ha hecho capturas de pantalla de páginas web y tweets en el pasado, es más fácil manipular imágenes simples que editar una página web ya archivada. De acuerdo con la Consejo de Investigación de Ciencias Sociales (SSRC):

Además, las capturas de pantalla son estáticas. No puede haber interacción con la página, sin desplazamiento, sin desplazamiento, sin hacer clic en los enlaces o incluso revelando a qué páginas web se refieren los enlaces en la página.

Los archivos web, por otro lado, registran todo el contenido de una página web, incluido su fuente HTML e imágenes incrustadas, hojas de estilo o fuente JavaScript. Tras la reproducción, el usuario puede interactuar con la página archivada, incluido hacer clic en enlaces para explorar a qué se conectó la página web. Además, los archivos web públicos son creados y almacenados por organizaciones de archivo independientes, como Internet Archive. Confiamos en que el contenido de estos archivos web públicos no haya sido alterado o manipulado maliciosamente.

Sin embargo, los enlaces archivados no son perfectos y vienen con una variedad de posibles fallas, según SSRC:

Aunque los archivos web brindan un servicio valioso, no son perfectos y archivar una página web es muy diferente de archivar un objeto físico o incluso un archivo estático como un PDF. Las páginas web se han vuelto cada vez más complejas a lo largo de los años, y muchas cargan cientos o incluso miles de imágenes, hojas de estilo y recursos de JavaScript, que pueden incluir anuncios y rastreadores. Estos recursos de JavaScript son ejecutados por navegadores web y muchas de sus interacciones no pueden ser capturadas por todos los archivos web. La naturaleza incrustada y vinculada de HTML dificulta la reproducción directa de las páginas web archivadas, por lo que los archivos web deben realizar algunas transformaciones limitadas a la página web original. Esto incluye reescribir enlaces y ubicaciones de recursos incrustados para que se carguen desde el archivo en lugar de la web en vivo. Esto evita que alguien vea una página web capturada en 2012, por ejemplo, y vea un anuncio de 2018 incrustado en esa página web de 2012.

Con todas las imperfecciones en los recursos de archivo en línea, aquí en Snopes aún confiamos en ellos para numerosas verificaciones de hechos, incluidos los sobre el Historial de Twitter de figuras públicas como Raphael Warnock, viejo cotizaciones de revistas y mucho más.

Fuentes:

“Sitios web presidenciales de la Casa Blanca archivados”. Archivos Nacionales, 9 de enero de 2017, https://www.archives.gov/presidential-libraries/archived-websites. Consultado el 10 de noviembre de 2022.

“Archivo.Ph.” https://archive.ph/. Consultado el 10 de noviembre de 2022.

Emery, David. “¿Es real este manual militar de ‘Seguridad con mayonesa’?” Snopes, 8 de agosto de 2022, https://www.snopes.com/fact-check/mayonnaise-safety-military-handbook/. Consultado el 10 de noviembre de 2022.

Evon, Dan. “¿Escribió Trump ‘Nunca admitir la derrota’ en ‘El arte del trato’?” Snopes, 10 de noviembre de 2020, https://www.snopes.com/fact-check/trump-art-of-the-deal/. Consultado el 10 de noviembre de 2022.

“Archivo web del programa de la biblioteca federal de depósito”. Archive-it. https://archive-it.org/home/FDLPwebarchive?fc=meta_Creator%3AU.S.+Department+of+Health+and+Human+Services. Consultado el 10 de noviembre de 2022.

“Cómo los archivistas web y otros detectives digitales están desentrañando el misterio del MH17”. El Correo de Washington. www.washingtonpost.com, https://www.washingtonpost.com/news/the-intersect/wp/2014/07/21/how-web-archivists-and-other-digital-sleuths-are-unraveling-the- misterio-de-mh17/. Consultado el 10 de noviembre de 2022.

“Archivo de Internet: Acerca de IA”. https://archive.org/about/. Consultado el 10 de noviembre de 2022.

“Archivo de Internet: Wayback Machine”. https://archive.org/web/. Consultado el 10 de noviembre de 2022.

Lepore, Jill. “Lo que dijo la web ayer”. The New Yorker, 19 de enero de 2015. www.newyorker.com, https://www.newyorker.com/magazine/2015/01/26/cobweb. Consultado el 10 de noviembre de 2022.

Liles, Jordan. “¿Raphael Warnock tuiteó sobre ‘el significado de la Pascua’?” Snopes, 18 de abril de 2022, https://www.snopes.com/fact-check/warnock-easter-tweet/. Consultado el 10 de noviembre de 2022.

Liles, Jordan. “Tuit de ‘Handmaid’s Tale’ eliminado de la cuenta de Twitter del presentador de CNN, Brian Stelter”. Snopes, 2 de septiembre de 2021, https://www.snopes.com/fact-check/brian-stelter-handmaids-tale-cnn/. Consultado el 10 de noviembre de 2022.

“Lista de iniciativas de archivo web”. Wikipedia, 7 de noviembre de 2022. https://en.wikipedia.org/w/index.php?title=List_of_Web_archiving_initiatives&oldid=1120507741. Consultado el 10 de noviembre de 2022.

MacGuill, Dan. “¿La revista Wired publicó predicciones ‘aterradoras y precisas’ sobre el siglo XXI en 1997?” Snopes, 27 de noviembre de 2021, https://www.snopes.com/fact-check/wired-1997-predictions/. Consultado el 10 de noviembre de 2022.

“Sobre la importancia del archivo web”. Artículos, https://items.ssrc.org/parameters/on-the-importance-of-web-archiving/. Consultado el 10 de noviembre de 2022.

“Preservar Internet”. Scientific American: Artículo—Informe especial, 1997, https://web.archive.org/web/19970504212157/https://www.sciam.com/0397issue/0397kahle.html. Consultado el 10 de noviembre de 2022.

“La casa Blanca.” Whitehouse.Gov, 12 de marzo de 2015, https://obamawhitehouse.archives.gov/homepage. Consultado el 10 de noviembre de 2022.

“La casa Blanca.” Whitehouse.Gov, https://trumpwhitehouse.archives.gov/. Consultado el 10 de noviembre de 2022.

“Viaje en el tiempo.” https://timetravel.mementoweb.org/. Consultado el 10 de noviembre de 2022.

“Inicio UKWA”. https://www.webarchive.org.uk/ukwa/. Consultado el 10 de noviembre de 2022.

“La evidencia web apunta a los rebeldes prorrusos en el derribo del MH17”. Christian Science Monitor, 17 de julio de 2014. Christian Science Monitor, https://www.csmonitor.com/World/Europe/2014/0717/Web-evidence-points-to-pro-Russia-rebels-in-downing-of- MH17. Consultado el 10 de noviembre de 2022.

“Los sitios web cambian. Los enlaces permanentes no”. Perma, https://perma.cc. Consultado el 10 de noviembre de 2022.