Un día, el verano pasado, el motor de búsqueda Google pasó, sin bombos ni platillos, un hito. Añadió la billonésima dirección a la lista de páginas en la red de las que tiene conocimiento. Sin embargo, con todo y lo imposiblemente grande que podría parecer ese número, representa sólo una fracción de toda la red.

Más allá de ese billón de páginas se encuentra una red aún más vasta de datos ocultos: información financiera, catálogos de compra, horarios de vuelo, investigación médica y todo tipo de material adicional almacenado en bases de datos que permanecen, en gran parte, invisibles a los motores de búsqueda.
Los desafíos que enfrentan los principales motores de búsqueda para penetrar la así llamada “red invisible” ayudan mucho a explicar porque aún no pueden brindar respuestas satisfactorias a preguntas como: “¿cuál es la mejor tarifa para volar de Nueva York a Londres el próximo jueves?”. Las respuestas están fácilmente disponibles, si sólo los motores de búsqueda supieran cómo encontrarlas.
Ahora están en proceso de tomar forma un nuevo tipo de tecnologías que ampliarán el alcance de los motores de búsqueda a los rincones ocultos de la red. Cuando eso ocurra, no sólo mejorará la calidad de los resultados de búsqueda; podría, a final de cuentas replantear la forma en la que muchas compañías hacen negocios en línea.
Lo motores de búsqueda dependen de programas conocidos como “crawlers”, o rastreadores, que reúnen información al seguir el rastro de las híperligas que unen a la red. Aunque ese enfoque funciona bien para las páginas que componen la red visible, es más difícil para estos programas penetrar bases de datos configuradas para responder interrogantes escritos.
Con millones de base de datos conectadas a la red, e innumerables combinaciones posibles para los términos de búsqueda, simplemente no hay forma de que algún motor de búsqueda, independientemente de que tan potente sea, examine de improvisto todas las combinaciones posibles de datos.
Para extraer información significativa de la red invisible, los motores de búsqueda tienen que analizar los términos de busca de los usuarios y descubrir cómo dirigirlas a base de datos específicas.
La profesora Juliana Freire de la Universidad de Utah, trabaja en un ambicioso proyecto llamado DeepPeep, que se propone, con el tiempo, rastrear y crear un índice de toda la base de datos de la red pública. Extraer los contenidos de tantos conjuntos remotos de datos requiere un tipo sofisticado de adivinanza computacional.
“La forma ingenua sería hacer una búsqueda de todas las palabras del diccionario”, dijo Freire. En su lugar, DeepPeep comienza por plantear un pequeño número de preguntas muestra, “para que podamos usar eso para aumentar nuestra comprensión de las bases de datos y así elegir qué palabras buscar”.
Más allá del ámbito de las búsquedas de consumo, las tecnologías para la red invisible podrían, con el tiempo, permite que los negocios usen datos en formas nuevas. Por ejemplo, un sitio sobre salud podría cotejar datos de compañías farmacéuticas con los hallazgos más recientes de investigadores médicos, un sitio de noticias locales podría extender su cobertura al permitir que los usuarios tengan acceso a registros públicos almacenados en bases de datos del gobierno.
Alex Wright
The New York Times

En esta entrada no hay comentarios.