Una araña web al alcance de todos

|

A medida que la cantidad de información en internet sigue creciendo, también toma más importancia la forma en que esa información se procesa y se convierte en algo útil.

Una startup llamada 80legs, con sede en Houston, Texas, espera que la distribución de un servicio de análisis web de bajo coste ayude a las startups a rastrear la web en busca de información sin tener que construir las enormes granjas de servidores que utilizan los principales motores de búsqueda.

La compañía comenzó sus operaciones esta semana en DEMO, una conferencia en San Diego dedicada a la presentación de nuevas compañías.


Los rastreadores web, o arañas, son un tipo de software que visita páginas de forma automática en internet y se utiliza para indexarlas y recopilar información de distintas páginas.

Por ejemplo, los rastreadores son utilizados por los motores de búsqueda para analizar la localización de la información en la web. No obstante el tamaño de la red hace que los rastreos detallados consuman mucha potencia de proceso, lo que normalmente se traduce en la construcción de enormes centros de datos para dar la potencia necesaria al software.

80legs espera hacer que esta tecnología sea más accesible a las pequeñas compañías e individuos mediante el acceso al servicio y la posibilidad de que los clientes sólo paguen por la información que rastreen.

La tecnología de rastreo web es también crucial para los sitios semánticos y los servicios diseñados para procesar peticiones con lenguaje natural. Aunque 80legs espera contar con usuarios interesados en aplicaciones semánticas y de búsqueda, Sino Deysarkar, director de la compañía, afirma que entre los consumidores que están poniendo a prueba el servicio se encuentran clientes con intereses menos técnicos. Algunos investigadores de mercado, por ejemplo, utilizan 80legs para encontrar menciones específicas sobre compañías o temas a lo largo de la web.

Los usuarios pueden iniciar un rastreo web a través del interfaz basada en la web de 80legs. El formulario en la web de la compañía les permite configurar los parámetros del proyecto y subir el código a medida necesario para controlar la forma en que el rastreador lleva a cabo su trabajo. Por ejemplo, puede que el usuario desee que el rastreador busque imágenes y las contraste con una base de datos de imágenes con copyright. Deysarkar afirma que los rastreadores de su compañía son capaces de procesar hasta dos billones de páginas diarias. La compañía cobra 2 dólares por cada millón de páginas rastreadas, más una cuota de tres centavos por cada hora de proceso utilizada.

Muchas startups tienen problemas a la hora de encontrar la financiación necesaria para construir grandes centros de datos, aunque ese no es el camino que siguió 80legs para construir su infraestructura de rastreo web. En vez de eso, la compañía ejecutó su software en una red distribuida de ordenadores personales, muy parecidos a los que se utilizaron para el proyecto SETI@home.
La red de computación distribuida se unifica mediante Plura Processing, que la alquila a 80legs. Plura busca a usuarios de ordenadores para que provean potencia de procesado no utilizada a cambio del acceso a juegos, donaciones a entidades caritativas y otros premios.

Fuente: Technology Review


0 comentarios:

ARTICULOS ANTERIORES:

 

©2010 Genera tu Ingreso | Diseño de Luis Santos *Cel.: (809) 517-1725 * Para:Genera tu Ingreso *San Fco. de Macorís, Rep. Dom.