Si aun no lo conocen, les presento uno de mis proyectos que mas me apasiona desarrollar: databomberos.com En donde mediante el web scraping recolecto datos de la central de emergencias del Cuerpo de Bomberos del Perú para poder sacar estadísticas y gráficos de ello.
Ahora, si alguno desea saber como realizar un web scraping, les digo que no es nada del otro mundo, solo necesitamos manejar php de forma básica – intermedia y listo.
Para realizarlo es necesario la libreria PHP Simple HTML DOM Parser la cual puedes descargar en este enlace de descarga.
Luego de llamar al simple_html_dom.php en nuestro archivo podemos hacer lo que nos indica en su página:
// Create DOM from URL or file
$html = file_get_html('http://www.google.com/');
// Find all images
foreach($html->find('img') as $element)
echo $element->src . '<br>';
// Find all links
foreach($html->find('a') as $element)
echo $element->href . '<br>';
Con eso estaremos llamando las url de las imágenes de google.com o los enlaces. Puedes ver más ejemplos de como usarlo desde la página de la librería.
Si quieres saber como hice web scraping a la página de emergencias de los Bomberos del Perú puedes ver mi repositorio en github, ahí también encontraras una carpeta con todas las emergencias desde junio del 2015 en formato .csv que voy subiendo cada cierto tiempo.