La ley de la oscuridad funciona igual para lo escondido, lo olvidado o lo perdido. Pero en internet las tinieblas caen sobre algo más: lo que no tiene etiquetas de búsqueda.
Millones de imágenes de la historia del mundo corrÃan el peligro de desaparecer para siempre. Estaban archivadas en libros digitalizados pero no tenÃan tags. No habÃa forma de rescatarlas. Y eso y el olvido es lo mismo.
El experto en big data Kalev Leetaru comenzó a recuperar el pasado mes de diciembre millones de fotografÃas y dibujos de más de 600 millones de páginas de libros escaneados por la organización Internet Archive. Hoy son ya más de 2,6 millones de imágenes disponibles, de forma gratuita y sin copyright, en una nueva página de Flickr llamada Internet Archive Book Images.
Hasta ahora las palabras se habÃan impuesto sobre las imágenes. Este organismo solo habÃa etiquetado los textos de los libros digitalizados y no habÃa forma de acceder a estas fotos y dibujos fechados desde 1500 a 1922 mediante una búsqueda online.
El investigador de Yahoo! en la Universidad de Georgetown (Washington, EEUU) vio que las bibliotecas, al digitalizar sus archivos, habÃan convertido los libros en formato PDF (esto impide extraer las imágenes) y que todos los criterios de búsqueda solo hacÃan referencia a los textos. Leetaru pensaba que esas imágenes contienen mucha información de los últimos cinco siglos que jamás se verán en museos y galerÃas, y por eso habÃa que recuperarlas.
«El propósito de este proyecto es reimaginar el libro. QuerÃa buscar imágenes en función de una serie de criterios y encontrar imaginerÃa de objetos a lo largo del tiempo, no solo de la actualidad», explica el experto en tecnologÃa de la comunicación en una entrevista por correo electrónico.
«Por ejemplo, al ver imágenes de teléfonos en distintas épocas, te das cuenta de que ha pasado de ser un aparato que utilizaban los hombres en las oficinas a un aparato familiar indispensable en el hogar. Me di cuenta de que habÃa muchos libros digitalizados que hablaban del teléfono pero no habÃa ningún modo de ver un collage de todas las imágenes de esas obras. Mi intención era poder buscar por imágenes en vez de por palabras. Asà nació el proyecto».
Y asà lo llevó a cabo. «Internet Archive ya habÃa digitalizado los libros mediante OCR. Este proceso reconoce los textos de las páginas escaneadas y asà se pueden hacer búsquedas por palabras. El software OCR identifica dónde están todas las imágenes de las páginas, las ignora y va solo al texto. Lo que yo hice fue crear una herramienta que vuelve a los resultados OCR, rastrea las imágenes, las extrae, las tagea automáticamente y las guarda como archivos independientes».
Estas imágenes han escapado de la oscuridad. Incluso del pasado. Y ahora están en una pista de salida. En el punto de partida de lo que Kalev Leetaru llama «un viaje en el tiempo a través de imágenes».

The Saturday evening post (1839)

Hardware merchandising August-October 1912′

Canadian Grocer, July-December 1895

‘Our greater country; being a standard history of the United States from the discovery of the American continent to the present time…’ (1901)

Oconeean (1903)

St. Nicholas [serial] (1873)

Oconeean (1903)

Canadian machinery and metalworking (January-June 1913)
La ley de la oscuridad funciona igual para lo escondido, lo olvidado o lo perdido. Pero en internet las tinieblas caen sobre algo más: lo que no tiene etiquetas de búsqueda.
Millones de imágenes de la historia del mundo corrÃan el peligro de desaparecer para siempre. Estaban archivadas en libros digitalizados pero no tenÃan tags. No habÃa forma de rescatarlas. Y eso y el olvido es lo mismo.
El experto en big data Kalev Leetaru comenzó a recuperar el pasado mes de diciembre millones de fotografÃas y dibujos de más de 600 millones de páginas de libros escaneados por la organización Internet Archive. Hoy son ya más de 2,6 millones de imágenes disponibles, de forma gratuita y sin copyright, en una nueva página de Flickr llamada Internet Archive Book Images.
Hasta ahora las palabras se habÃan impuesto sobre las imágenes. Este organismo solo habÃa etiquetado los textos de los libros digitalizados y no habÃa forma de acceder a estas fotos y dibujos fechados desde 1500 a 1922 mediante una búsqueda online.
El investigador de Yahoo! en la Universidad de Georgetown (Washington, EEUU) vio que las bibliotecas, al digitalizar sus archivos, habÃan convertido los libros en formato PDF (esto impide extraer las imágenes) y que todos los criterios de búsqueda solo hacÃan referencia a los textos. Leetaru pensaba que esas imágenes contienen mucha información de los últimos cinco siglos que jamás se verán en museos y galerÃas, y por eso habÃa que recuperarlas.
«El propósito de este proyecto es reimaginar el libro. QuerÃa buscar imágenes en función de una serie de criterios y encontrar imaginerÃa de objetos a lo largo del tiempo, no solo de la actualidad», explica el experto en tecnologÃa de la comunicación en una entrevista por correo electrónico.
«Por ejemplo, al ver imágenes de teléfonos en distintas épocas, te das cuenta de que ha pasado de ser un aparato que utilizaban los hombres en las oficinas a un aparato familiar indispensable en el hogar. Me di cuenta de que habÃa muchos libros digitalizados que hablaban del teléfono pero no habÃa ningún modo de ver un collage de todas las imágenes de esas obras. Mi intención era poder buscar por imágenes en vez de por palabras. Asà nació el proyecto».
Y asà lo llevó a cabo. «Internet Archive ya habÃa digitalizado los libros mediante OCR. Este proceso reconoce los textos de las páginas escaneadas y asà se pueden hacer búsquedas por palabras. El software OCR identifica dónde están todas las imágenes de las páginas, las ignora y va solo al texto. Lo que yo hice fue crear una herramienta que vuelve a los resultados OCR, rastrea las imágenes, las extrae, las tagea automáticamente y las guarda como archivos independientes».
Estas imágenes han escapado de la oscuridad. Incluso del pasado. Y ahora están en una pista de salida. En el punto de partida de lo que Kalev Leetaru llama «un viaje en el tiempo a través de imágenes».

The Saturday evening post (1839)

Hardware merchandising August-October 1912′

Canadian Grocer, July-December 1895

‘Our greater country; being a standard history of the United States from the discovery of the American continent to the present time…’ (1901)

Oconeean (1903)

St. Nicholas [serial] (1873)

Oconeean (1903)

Canadian machinery and metalworking (January-June 1913)
¡Menudo tesoro! Gracias 🙂
Me fascinan!
Gracias muyayos
Comentarios cerrados.