Google indexa archivos escaneados
Google nos anuncia, que gracias al sistema de Reconocimiento de Carácter Óptico (OCR), podrá empezar a indexar el contenido de aquellos documentos escaneados que hasta ahora se le escapaban!!
Hasta ahora, cualquier documento escaneado, Google tan sólo lo podía interpretar como una imagen, puesto que no era capazde interpretar el contenido que se hayaba en el interior.
Pero desde hoy todo ha cambiado porque Google empieza a usar el OCR!!! Con el Reconocimiento de Carácter Óptico puede convertir una imagen en mil palabras!! Se trata de palabras que pueden ser buscadas e indexadas, de modo que los PDF sean mucho más fáciles de encontrar.
El anuncio de Google incluye un ejemplo donde puedes ver los resultados del OCR que explora en la acción. -Sobre una búsqueda para reparar el alambrado de aluminio, el primer resultado es una Seguridad de Producto de consumo en PDF que claramente fue explorado como una imagen.- Pues bien, ahora puedes conseguir el texto de aquella imagen gracias a la exploración del OCR de Google “. Probablemente los resultados no siempre sean del todo perfectos pero los ejemplos que Google ha proporcionado sí que lo parecen.
Ahora todo está siendo nuevamente explorado por Google y si has estado cargando PDFS a base de imágenes creyendo que no podrían ser reconocidas…..tendrás que ir cambiando de estrategia porque ahora Google SÍ que lo sabe todo!!!!
Puedes ver el resto de ejmplos que Google proporciona aquí.

@yoloa 