fbpx
2 de septiembre 2014    /   ENTRETENIMIENTO
por
 

Millones de fotos rescatadas del pasado en Flickr

2 de septiembre 2014    /   ENTRETENIMIENTO     por          
Compártelo twitter facebook whatsapp
thumb image

La ley de la oscuridad funciona igual para lo escondido, lo olvidado o lo perdido. Pero en internet las tinieblas caen sobre algo más: lo que no tiene etiquetas de búsqueda.
Millones de imágenes de la historia del mundo corrían el peligro de desaparecer para siempre. Estaban archivadas en libros digitalizados pero no tenían tags. No había forma de rescatarlas. Y eso y el olvido es lo mismo.
El experto en big data Kalev Leetaru comenzó a recuperar el pasado mes de diciembre millones de fotografías y dibujos de más de 600 millones de páginas de libros escaneados por la organización Internet Archive. Hoy son ya más de 2,6 millones de imágenes disponibles, de forma gratuita y sin copyright, en una nueva página de Flickr llamada Internet Archive Book Images.
Hasta ahora las palabras se habían impuesto sobre las imágenes. Este organismo solo había etiquetado los textos de los libros digitalizados y no había forma de acceder a estas fotos y dibujos fechados desde 1500 a 1922 mediante una búsqueda online.
El investigador de Yahoo! en la Universidad de Georgetown (Washington, EEUU) vio que las bibliotecas, al digitalizar sus archivos, habían convertido los libros en formato PDF (esto impide extraer las imágenes) y que todos los criterios de búsqueda solo hacían referencia a los textos. Leetaru pensaba que esas imágenes contienen mucha información de los últimos cinco siglos que jamás se verán en museos y galerías, y por eso había que recuperarlas.
«El propósito de este proyecto es reimaginar el libro. Quería buscar imágenes en función de una serie de criterios y encontrar imaginería de objetos a lo largo del tiempo, no solo de la actualidad», explica el experto en tecnología de la comunicación en una entrevista por correo electrónico.
«Por ejemplo, al ver imágenes de teléfonos en distintas épocas, te das cuenta de que ha pasado de ser un aparato que utilizaban los hombres en las oficinas a un aparato familiar indispensable en el hogar. Me di cuenta de que había muchos libros digitalizados que hablaban del teléfono pero no había ningún modo de ver un collage de todas las imágenes de esas obras. Mi intención era poder buscar por imágenes en vez de por palabras. Así nació el proyecto».
Y así lo llevó a cabo. «Internet Archive ya había digitalizado los libros mediante OCR. Este proceso reconoce los textos de las páginas escaneadas y así se pueden hacer búsquedas por palabras. El software OCR identifica dónde están todas las imágenes de las páginas, las ignora y va solo al texto. Lo que yo hice fue crear una herramienta que vuelve a los resultados OCR, rastrea las imágenes, las extrae, las tagea automáticamente y las guarda como archivos independientes».
Estas imágenes han escapado de la oscuridad. Incluso del pasado. Y ahora están en una pista de salida. En el punto de partida de lo que Kalev Leetaru llama «un viaje en el tiempo a través de imágenes».
14782048731_790d14c152_z
The Saturday evening post (1839)
f7
Hardware merchandising August-October 1912′
f1
Canadian Grocer, July-December 1895
f2
‘Our greater country; being a standard history of the United States from the discovery of the American continent to the present time…’ (1901)
f3
Oconeean (1903)
f5
St. Nicholas [serial] (1873)
f8
Oconeean (1903)
f9
Canadian machinery and metalworking (January-June 1913)

La ley de la oscuridad funciona igual para lo escondido, lo olvidado o lo perdido. Pero en internet las tinieblas caen sobre algo más: lo que no tiene etiquetas de búsqueda.
Millones de imágenes de la historia del mundo corrían el peligro de desaparecer para siempre. Estaban archivadas en libros digitalizados pero no tenían tags. No había forma de rescatarlas. Y eso y el olvido es lo mismo.
El experto en big data Kalev Leetaru comenzó a recuperar el pasado mes de diciembre millones de fotografías y dibujos de más de 600 millones de páginas de libros escaneados por la organización Internet Archive. Hoy son ya más de 2,6 millones de imágenes disponibles, de forma gratuita y sin copyright, en una nueva página de Flickr llamada Internet Archive Book Images.
Hasta ahora las palabras se habían impuesto sobre las imágenes. Este organismo solo había etiquetado los textos de los libros digitalizados y no había forma de acceder a estas fotos y dibujos fechados desde 1500 a 1922 mediante una búsqueda online.
El investigador de Yahoo! en la Universidad de Georgetown (Washington, EEUU) vio que las bibliotecas, al digitalizar sus archivos, habían convertido los libros en formato PDF (esto impide extraer las imágenes) y que todos los criterios de búsqueda solo hacían referencia a los textos. Leetaru pensaba que esas imágenes contienen mucha información de los últimos cinco siglos que jamás se verán en museos y galerías, y por eso había que recuperarlas.
«El propósito de este proyecto es reimaginar el libro. Quería buscar imágenes en función de una serie de criterios y encontrar imaginería de objetos a lo largo del tiempo, no solo de la actualidad», explica el experto en tecnología de la comunicación en una entrevista por correo electrónico.
«Por ejemplo, al ver imágenes de teléfonos en distintas épocas, te das cuenta de que ha pasado de ser un aparato que utilizaban los hombres en las oficinas a un aparato familiar indispensable en el hogar. Me di cuenta de que había muchos libros digitalizados que hablaban del teléfono pero no había ningún modo de ver un collage de todas las imágenes de esas obras. Mi intención era poder buscar por imágenes en vez de por palabras. Así nació el proyecto».
Y así lo llevó a cabo. «Internet Archive ya había digitalizado los libros mediante OCR. Este proceso reconoce los textos de las páginas escaneadas y así se pueden hacer búsquedas por palabras. El software OCR identifica dónde están todas las imágenes de las páginas, las ignora y va solo al texto. Lo que yo hice fue crear una herramienta que vuelve a los resultados OCR, rastrea las imágenes, las extrae, las tagea automáticamente y las guarda como archivos independientes».
Estas imágenes han escapado de la oscuridad. Incluso del pasado. Y ahora están en una pista de salida. En el punto de partida de lo que Kalev Leetaru llama «un viaje en el tiempo a través de imágenes».
14782048731_790d14c152_z
The Saturday evening post (1839)
f7
Hardware merchandising August-October 1912′
f1
Canadian Grocer, July-December 1895
f2
‘Our greater country; being a standard history of the United States from the discovery of the American continent to the present time…’ (1901)
f3
Oconeean (1903)
f5
St. Nicholas [serial] (1873)
f8
Oconeean (1903)
f9
Canadian machinery and metalworking (January-June 1913)

Compártelo twitter facebook whatsapp
Absolut Manifesto: Cómo la música electrónica puede cambiar el mundo
De la luna de los antidisturbios a la polémica Ley mordaza
En busca del primer poema escrito en código (mucho antes de que existieran los PC…)
Joana Biarnés, la increíble historia de nuestra primera fotoperiodista
 
Especiales
 
facebook twitter whatsapp
Opiniones 4
  • Deja un comentario

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *