El web scraping es una técnica que nos permite sacar gran cantidad de información de la red de forma automatizada. Se pueden escrapear bases de datos, textos concretos de web sites, imágenes… Un ejemplo es Facemash, una aplicación web creada por Mark Zuckerberg en sus días de estudiante universitario poco antes de crear Facebook.
Para quien no lo sepa, Facemash se trataba de una web donde aparecían dos fotos, de dos chicas, y tenias que votar la que te pareciese más atractiva. Para esta web, Mark tuvo que hacer uso del Scraping. Desarrolló diferentes scripts para descargarse de la base de datos de varias universidades las fotos de las estudiantes. Por ello recibió diversas críticas y tuvo algún que otro problema, además de no ser precisamente legal. Todo esto lo podeis ver en la película sobre su la historia de Facebook, “La red social” (según el propio Mark la película no es muy fiel a la realidad).
Por supuesto, la idea es utilizar esta técnica de forma completamente legal, cada uno según las necesidades que tenga. Creo que el concepto está claro, bajar se gran cantidad de información de forma automática para luego analizarla o utilizarla de algún modo. Esta información puede ser valioso para sacar conclusiones de tu público, hacer estudios de mercado, etc. Pero también como materia prima, tal y cómo hizo Mark.
Para el que no sepa programar, existen multitud de aplicaciones que te ayudan con el scraping. Personalmente utilizo Import.io, con cuya versión gratuita tengo de sobra para todo lo que utilizo. Pero mientras más conocimientos de programación tengas para hacer tus propias herramientas, mejor (no es mi caso, ojalá… aunque tengo la suerte de contar con ayuda).
Web Scraping & Raspberry Pi 3 como técnica de Growth Hacking Clic para tuitearCuando comienzas con un ‘scrapeo’, puede tardar horas en que este termine su trabajo, lo cual te obligue a mantener tu ordenador encendido y conectado para tal tarea, y en ocasiones con imposibilidad de utilizarlo para otra cosa. Es en este caso donde nos puede ser de gran ayuda tener a mano una Raspberry Pi3 (o alguna versión anterior, eso no es problema). Una Raspberry es un ordenador completo de muy reducido tamaño, coste y potencia. Pero más que de sobra para nuestra tarea. Es un miniordenador que podremos tenerlo conectado 24 horas con nuestro Crawler funcionando (programa que rastree páginas web sacando información, es decir, un pequeño bot que nos rastree y scrapee la web). Apenas consume electricidad, y al no necesitar ventilador no emite ningún tipo de ruido, lo puedes tener conectado en casa todo el año y olvidarte de él. También puedes conectarlo a una pantalla por HDMI y a un teclado y ratón por USB, pero no es necesario ya que puedes conectarte a él a través de la Terminal y ejecutar lo que necesitas desde tu ordenador personal desde cualquier lugar del planeta.
Cómo veis, el Scraping como técnica junto una Raspberry cómo herramienta, puede ser un recurso de gran poder para el Growth Hacking. Si no podeis tener vuestro propio Crawler, hay muchos en la red, pero no puedo recomendar ninguno porque no he usado ninguno. Más adelante escribiré un post sobre cómo utilizar Import.io para sacar información de páginas web, mientras tanto, como siempre, si tenéis alguna duda siempre podeis comentar más abajo.