Técnicas para dominar cURL

Spanish (Español) translation by Valeria Angulo (you can also view the original English article)

cURL es una herramienta para transferir archivos y datos con sintaxis de URL, soportando muchos protocolos incluyendo HTTP, FTP, TELNET y más. Inicialmente, cURL fue diseñado para ser una herramienta de línea de comandos. Por suerte para nosotros, la biblioteca cURL también está soportada por PHP. En este artículo, veremos algunas de las características avanzadas de cURL, y cómo podemos usarlas en nuestros scripts de PHP.

¿Por qué cURL?

Es cierto que hay otras formas de obtener el contenido de una página web. Muchas veces, sobre todo por pereza, me he limitado a utilizar simples funciones de PHP en lugar de cURL:

$content = file_get_contents("http://www.nettuts.com");

// or

$lines = file("http://www.nettuts.com");

// or

readfile("http://www.nettuts.com");

Sin embargo, no tienen prácticamente ninguna flexibilidad y carecen de una gestión suficiente de errores. Además, hay ciertas tareas que simplemente no puedes hacer, como tratar con cookies, autenticación, envíos de formularios, subidas de archivos, etc.

cURL es una potente librería que soporta muchos protocolos y opciones diferentes, y proporciona información detallada sobre las peticiones de URL.

Estructura básica

Antes de pasar a ejemplos más complicados, revisemos la estructura básica de una petición cURL en PHP. Hay cuatro pasos principales:

Inicializar
Establecer opciones
Ejecutar y obtener el resultado
Liberar el manejador de cURL

// 1. initialize
$ch = curl_init();

// 2. set the options, including the url
curl_setopt($ch, CURLOPT_URL, "http://www.nettuts.com");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_HEADER, 0);

// 3. execute and fetch the resulting HTML output
$output = curl_exec($ch);

// 4. free up the curl handle
curl_close($ch);

El paso #2 (es decir, las llamadas a curl_setopt()) va a ser una gran parte de este artículo, porque es donde ocurre toda la magia. Hay una larga lista de opciones de cURL que se pueden establecer, que pueden configurar la solicitud de la URL en detalle. Puede ser difícil revisar toda la lista y digerirla de una vez. Así que hoy, solo vamos a utilizar algunas de las opciones más comunes y útiles en varios ejemplos de código.

Comprobación de errores

Opcionalmente, puedes añadir la comprobación de errores:

// ...

$output = curl_exec($ch);

if ($output === FALSE) {

	echo "cURL Error: " . curl_error($ch);

}

// ...

Ten en cuenta que tenemos que utilizar "=== FALSE" para la comparación en lugar de "== FALSE". Porque necesitamos distinguir entre una salida vacía y el valor booleano FALSE, que indica un error.

Obtención de información

Otro paso opcional es obtener información sobre la petición cURL, después de que se haya ejecutado.

// ...

curl_exec($ch);

$info = curl_getinfo($ch);

echo 'Took ' . $info['total_time'] . ' seconds for url ' . $info['url'];

// ...

La siguiente información se incluye en la matriz devuelta:

"url"
"content_type"
"http_code"
"header_size"
"request_size"
"filetime"
"ssl_verify_result"
"redirect_count"
"total_time"
"namelookup_time"
"connect_time"
"pretransfer_time"
"size_upload"
"size_download"
"speed_download"
"speed_upload"
"download_content_length"
"upload_content_length"
"starttransfer_time"
"redirect_time"

Detectar la redirección en función del navegador

En este primer ejemplo, escribiremos un script que pueda detectar las redirecciones de URL en función de la configuración del navegador. Por ejemplo, algunos sitios web redirigen a los navegadores de teléfonos móviles, o incluso a los navegantes de diferentes países.

Vamos a utilizar la opción CURLOPT_HTTPHEADER para establecer nuestras cabeceras HTTP salientes, incluyendo la cadena del agente de usuario y los idiomas aceptados. Finalmente comprobaremos si estos sitios web están intentando redirigirnos a diferentes URL.

// test URLs
$urls = array(
	"http://www.cnn.com",
	"http://www.mozilla.com",
	"http://www.facebook.com"
);
// test browsers
$browsers = array(

	"standard" => array (
		"user_agent" => "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6 (.NET CLR 3.5.30729)",
		"language" => "en-us,en;q=0.5"
		),

	"iphone" => array (
		"user_agent" => "Mozilla/5.0 (iPhone; U; CPU like Mac OS X; en) AppleWebKit/420+ (KHTML, like Gecko) Version/3.0 Mobile/1A537a Safari/419.3",
		"language" => "en"
		),

	"french" => array (
		"user_agent" => "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB6; .NET CLR 2.0.50727)",
		"language" => "fr,fr-FR;q=0.5"
		)

);

foreach ($urls as $url) {

	echo "URL: $url\n";

	foreach ($browsers as $test_name => $browser) {

		$ch = curl_init();

		// set url
		curl_setopt($ch, CURLOPT_URL, $url);

		// set browser specific headers
		curl_setopt($ch, CURLOPT_HTTPHEADER, array(
				"User-Agent: {$browser['user_agent']}",
				"Accept-Language: {$browser['language']}"
			));

		// we don't want the page contents
		curl_setopt($ch, CURLOPT_NOBODY, 1);

		// we need the HTTP Header returned
		curl_setopt($ch, CURLOPT_HEADER, 1);

		// return the results instead of outputting it
		curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

		$output = curl_exec($ch);

		curl_close($ch);

		// was there a redirection HTTP header?
		if (preg_match("!Location: (.*)!", $output, $matches)) {

			echo "$test_name: redirects to $matches[1]\n";

		} else {

			echo "$test_name: no redirection\n";

		}

	}
	echo "\n\n";
}

Primero tenemos un conjunto de URL para probar, seguido de un conjunto de configuraciones del navegador para probar cada una de estas URL. A continuación, hacemos un bucle a través de estos casos de prueba y hacemos una solicitud cURL para cada uno.

Debido a la configuración de las opciones de cURL, la salida devuelta solo contendrá las cabeceras HTTP (guardadas en $output). Con una simple regex, podemos ver si había una cabecera "Location:" incluida.

Cuando ejecutes este script, deberías obtener una salida como esta:

POSTeando a una URL

En una solicitud GET, los datos pueden ser enviados a una URL a través de la "cadena de consulta". Por ejemplo, cuando se realiza una búsqueda en Google, el término de búsqueda se encuentra en la parte de la cadena de consulta de la URL:

1	http://www.google.com/search?q=nettuts

Puede que no necesites cURL para simular esto en un script web. Puedes simplemente ser perezoso y usar esa url con "file_get_contents()" para recibir los resultados.

Pero algunos formularios HTML están configurados con el método POST. Cuando estos formularios se envían a través del navegador, los datos se envían a través del cuerpo de la solicitud HTTP, en lugar de la cadena de consulta. Por ejemplo, si haces una búsqueda en los foros de CodeIgniter, estarás POSTeando tu consulta de búsqueda a:

1	http://codeigniter.com/forums/do_search/

Podemos escribir un script PHP para simular este tipo de solicitud de URL. Primero vamos a crear un archivo simple para aceptar y mostrar los datos POST. Llamémoslo post_output.php:

1	print_r($_POST);

A continuación creamos un script PHP para realizar una petición cURL:

$url = "http://localhost/post_output.php";

$post_data = array (
	"foo" => "bar",
	"query" => "Nettuts",
	"action" => "Submit"
);

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, $url);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
// we are doing a POST request
curl_setopt($ch, CURLOPT_POST, 1);
// adding the post variables to the request
curl_setopt($ch, CURLOPT_POSTFIELDS, $post_data);

$output = curl_exec($ch);

curl_close($ch);

echo $output;

Cuando ejecutes este script, deberías obtener una salida como esta:

Este envió un POST al script post_output.php, que volcó la variable $_POST, y capturamos esa salida vía cURL.

Carga de archivos

La subida de archivos funciona de forma muy similar al ejemplo anterior de POST, ya que todos los formularios de subida de archivos tienen el método POST.

Primero vamos a crear un archivo para recibir la petición y llamarlo upload_output.php:

1	print_r($_FILES);

Y aquí está el script real que realiza la subida de archivos:

$url = "http://localhost/upload_output.php";

$post_data = array (
	"foo" => "bar",
	// file to be uploaded
	"upload" => "@C:/wamp/www/test.zip"
);

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, $url);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($ch, CURLOPT_POST, 1);

curl_setopt($ch, CURLOPT_POSTFIELDS, $post_data);

$output = curl_exec($ch);

curl_close($ch);

echo $output;

Cuando quieras subir un archivo, todo lo que tienes que hacer es pasar tu ruta de archivo como una variable post, y poner el símbolo @ delante de esta. Ahora cuando ejecutes este script deberías obtener una salida como esta:

Multi cURL

Una de las características más avanzadas de cURL es la capacidad de crear un "multi" manejador de cURL. Esto te permite abrir conexiones a múltiples URL simultáneamente y de forma asíncrona.

En una petición cURL normal, la ejecución del script se detiene y espera a que termine la petición de la URL para poder continuar. Si se pretende acceder a múltiples URL, esto puede llevar mucho tiempo, ya que solo se puede solicitar una URL a la vez. Podemos superar esta limitación utilizando el multimanejador.

Veamos este código de ejemplo de php.net:

// create both cURL resources
$ch1 = curl_init();
$ch2 = curl_init();

// set URL and other appropriate options
curl_setopt($ch1, CURLOPT_URL, "http://lxr.php.net/");
curl_setopt($ch1, CURLOPT_HEADER, 0);
curl_setopt($ch2, CURLOPT_URL, "http://www.php.net/");
curl_setopt($ch2, CURLOPT_HEADER, 0);

//create the multiple cURL handle
$mh = curl_multi_init();

//add the two handles
curl_multi_add_handle($mh,$ch1);
curl_multi_add_handle($mh,$ch2);

$active = null;
//execute the handles
do {
    $mrc = curl_multi_exec($mh, $active);
} while ($mrc == CURLM_CALL_MULTI_PERFORM);

while ($active && $mrc == CURLM_OK) {
    if (curl_multi_select($mh) != -1) {
        do {
            $mrc = curl_multi_exec($mh, $active);
        } while ($mrc == CURLM_CALL_MULTI_PERFORM);
    }
}

//close the handles
curl_multi_remove_handle($mh, $ch1);
curl_multi_remove_handle($mh, $ch2);
curl_multi_close($mh);

La idea es que puedas abrir múltiples manejadores cURL y asignarlos a un único multimanejador. Entonces puedes esperar a que terminen de ejecutarse mientras estás en un bucle.

Hay dos bucles principales en este ejemplo. El primer bucle do-while llama repetidamente a curl_multi_exec(). Esta función es non-blocking. Se ejecuta lo menos posible y devuelve un valor de estado. Mientras el valor devuelto sea la constante 'CURLM_CALL_MULTI_PERFORM', significa que todavía hay trabajo más inmediato que hacer (por ejemplo, enviar cabeceras http a las URL.) Por eso seguimos llamándola hasta que el valor de retorno sea otro.

En el siguiente bucle while, continuamos mientras la variable $active sea 'true'. Esta fue pasada como el segundo argumento a la llamada de curl_multi_exec(). Se pone a 'true' mientras haya conexiones activas dentro del multimanejador. Lo siguiente que hacemos es llamar a curl_multi_select(). Esta función está 'bloqueando' hasta que haya alguna actividad de conexión, como recibir una respuesta. Cuando esto ocurre, entramos en otro bucle do-while para continuar la ejecución.

Veamos si podemos crear un ejemplo que funcione, que tenga un propósito práctico.

Verificador de enlaces en Wordpress

Imagina un blog con muchas entradas que contienen enlaces a sitios web externos. Algunos de estos enlaces pueden terminar muertos después de un tiempo por varias razones. Tal vez la página ya no existe, o el sitio web completo ha desaparecido.

Vamos a construir un script que analice todos los enlaces y encuentre los sitios web que no cargan y las páginas 404 y nos devuelva un informe.

Ten en cuenta que esto no va a ser un plugin de Wordpress real. Es solo un script de utilidad independiente, y es solo para fines de demostración.

Así que vamos a empezar. Primero necesitamos obtener los enlaces de la base de datos:

// CONFIG
$db_host = 'localhost';
$db_user = 'root';
$db_pass = '';
$db_name = 'wordpress';
$excluded_domains = array(
	'localhost', 'www.mydomain.com');
$max_connections = 10;
// initialize some variables
$url_list = array();
$working_urls = array();
$dead_urls = array();
$not_found_urls = array();
$active = null;

// connect to MySQL
if (!mysql_connect($db_host, $db_user, $db_pass)) {
	die('Could not connect: ' . mysql_error());
}
if (!mysql_select_db($db_name)) {
	die('Could not select db: ' . mysql_error());
}


// get all published posts that have links
$q = "SELECT post_content FROM wp_posts
	WHERE post_content LIKE '%href=%'
	AND post_status = 'publish'
	AND post_type = 'post'";
$r = mysql_query($q) or die(mysql_error());
while ($d = mysql_fetch_assoc($r)) {

	// get all links via regex
	if (preg_match_all("!href=\"(.*?)\"!", $d['post_content'], $matches)) {

		foreach ($matches[1] as $url) {

			// exclude some domains
			$tmp = parse_url($url);
			if (in_array($tmp['host'], $excluded_domains)) {
				continue;
			}

			// store the url
			$url_list []= $url;
		}
	}
}

// remove duplicates
$url_list = array_values(array_unique($url_list));

if (!$url_list) {
	die('No URL to check');
}

Primero tenemos alguna configuración de la base de datos, seguida de una matriz de nombres de dominio que ignoraremos ($dominios_excluidos). También establecemos un número para el máximo de conexiones simultáneas que usaremos más tarde ($max_connections). Luego nos conectamos a la base de datos, obtenemos las publicaciones que contienen enlaces, y las recogemos en una matriz ($url_list).

El siguiente código puede ser un poco complejo, así que intentaré explicarlo en pequeños pasos.

// 1. multi handle
$mh = curl_multi_init();

// 2. add multiple URLs to the multi handle
for ($i = 0; $i < $max_connections; $i++) {
	add_url_to_multi_handle($mh, $url_list);
}

// 3. initial execution
do {
	$mrc = curl_multi_exec($mh, $active);
} while ($mrc == CURLM_CALL_MULTI_PERFORM);

// 4. main loop
while ($active && $mrc == CURLM_OK) {

	// 5. there is activity
	if (curl_multi_select($mh) != -1) {

		// 6. do work
		do {
			$mrc = curl_multi_exec($mh, $active);
		} while ($mrc == CURLM_CALL_MULTI_PERFORM);

		// 7. is there info?
		if ($mhinfo = curl_multi_info_read($mh)) {
			// this means one of the requests were finished

			// 8. get the info on the curl handle
			$chinfo = curl_getinfo($mhinfo['handle']);

			// 9. dead link?
			if (!$chinfo['http_code']) {
				$dead_urls []= $chinfo['url'];

			// 10. 404?
			} else if ($chinfo['http_code'] == 404) {
				$not_found_urls []= $chinfo['url'];

			// 11. working
			} else {
				$working_urls []= $chinfo['url'];
			}

			// 12. remove the handle
			curl_multi_remove_handle($mh, $mhinfo['handle']);
			curl_close($mhinfo['handle']);

			// 13. add a new url and do work
			if (add_url_to_multi_handle($mh, $url_list)) {

				do {
					$mrc = curl_multi_exec($mh, $active);
				} while ($mrc == CURLM_CALL_MULTI_PERFORM);
			}
		}
	}
}

// 14. finished
curl_multi_close($mh);

echo "==Dead URLs==\n";
echo implode("\n",$dead_urls) . "\n\n";

echo "==404 URLs==\n";
echo implode("\n",$not_found_urls) . "\n\n";

echo "==Working URLs==\n";
echo implode("\n",$working_urls);

// 15. adds a url to the multi handle
function add_url_to_multi_handle($mh, $url_list) {
	static $index = 0;

	// if we have another url to get
	if ($url_list[$index]) {

		// new curl handle
		$ch = curl_init();

		// set the url
		curl_setopt($ch, CURLOPT_URL, $url_list[$index]);
		// to prevent the response from being outputted
		curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
		// follow redirections
		curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
		// do not need the body. this saves bandwidth and time
		curl_setopt($ch, CURLOPT_NOBODY, 1);

		// add it to the multi handle
		curl_multi_add_handle($mh, $ch);


		// increment so next url is used next time
		$index++;

		return true;
	} else {

		// we are done adding new URLs
		return false;
	}
}

Y aquí está la explicación del código anterior. Los números en la lista corresponden a los números en los comentarios del código.

Creamos un multimanejador.
Más adelante crearemos la función add_url_to_multi_handle(). Cada vez que se llame, se añadirá una url al multimanejador. Inicialmente, agregamos 10 (basado en $max_connections) URL al multimanejador.
Debemos ejecutar curl_multi_exec() para el trabajo inicial. Mientras devuelva CURLM_CALL_MULTI_PERFORM, hay trabajo que hacer. Esto es principalmente para crear las conexiones. No espera la respuesta completa de la URL.
Este bucle principal se ejecuta mientras haya alguna actividad en el multimanejador.
curl_multi_select() espera el script hasta que ocurra una actividad con cualquiera de las búsquedas de la URL.
De nuevo debemos dejar que cURL haga algo de trabajo, principalmente para obtener los datos de la respuesta.
Comprobamos la información. Hay una matriz devuelta si una petición de URL fue terminada.
Hay un manejador de cURL en la matriz devuelta. Lo usamos para obtener información sobre la solicitud cURL individual.
Si el enlace estaba muerto o se agotó el tiempo, no habrá código http.
Si el enlace era una página 404, el código http será 404.
En caso contrario, asumimos que el enlace funciona. (Puedes añadir comprobaciones adicionales para códigos de error 500, etc...)
Quitamos el manejador cURL del multimanejador ya que no es necesario, y lo cerramos.
Ahora podemos añadir otra url al multimanejador, y de nuevo hacer el trabajo inicial antes de seguir adelante.
Todo está terminado. Podemos cerrar el multimanejador e imprimir un informe.
Esta es la función que añade una nueva url al multimanejador. La variable estática $index se incrementa cada vez que se llama a esta función, de modo que podemos llevar la cuenta de dónde lo dejamos.

He ejecutado el script en mi blog (con algunos enlaces rotos añadidos a propósito, para probar), y así es como se veía:

Solo tardó menos de 2 segundos en recorrer unas 40 URL. Las ganancias de rendimiento son significativas cuando se trata de conjuntos de URL aún más grandes. Si abres diez conexiones al mismo tiempo, puede funcionar hasta diez veces más rápido. También puedes utilizar la naturaleza no bloqueante del multimanejador de curl para hacer solicitudes de URL sin detener tu script web.

Otras opciones útiles de cURL

Autenticación HTTP

Si hay autenticación basada en HTTP en una URL, puedes usar esto:

$url = "http://www.somesite.com/members/";

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

// send the username and password
curl_setopt($ch, CURLOPT_USERPWD, "myusername:mypassword");

// if you allow redirections
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
// this lets cURL keep sending the username and password
// after being redirected
curl_setopt($ch, CURLOPT_UNRESTRICTED_AUTH, 1);

$output = curl_exec($ch);

curl_close($ch);

Carga FTP

PHP tiene una biblioteca FTP, pero también puedes usar cURL:

// open a file pointer
$file = fopen("/path/to/file", "r");

// the url contains most of the info needed
$url = "ftp://username:password@mydomain.com:21/path/to/new/file";

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

// upload related options
curl_setopt($ch, CURLOPT_UPLOAD, 1);
curl_setopt($ch, CURLOPT_INFILE, $fp);
curl_setopt($ch, CURLOPT_INFILESIZE, filesize("/path/to/file"));

// set for ASCII mode (e.g. text files)
curl_setopt($ch, CURLOPT_FTPASCII, 1);

$output = curl_exec($ch);
curl_close($ch);

Uso de un proxy

Puedes realizar tu petición de URL a través de un proxy:

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL,'http://www.example.com');

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

// set the proxy address to use
curl_setopt($ch, CURLOPT_PROXY, '11.11.11.11:8080');

// if the proxy requires a username and password
curl_setopt($ch, CURLOPT_PROXYUSERPWD,'user:pass');

$output = curl_exec($ch);

curl_close ($ch);

Funciones de devolución de llamada

Es posible hacer que cURL llame a determinadas funciones de retrollamada durante la petición de la URL, antes de que esta termine. Por ejemplo, mientras se descarga el contenido de la respuesta, se puede empezar a utilizar los datos, sin esperar a que se complete toda la descarga.

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL,'http://net.tutsplus.com');

curl_setopt($ch, CURLOPT_WRITEFUNCTION,"progress_function");

curl_exec($ch);

curl_close ($ch);


function progress_function($ch,$str) {

	echo $str;
	return strlen($str);

}

La función de devolución de llamada DEBE devolver la longitud de la cadena, que es un requisito para que esto funcione correctamente.

Mientras se obtiene la respuesta de la URL, cada vez que se recibe un paquete de datos, se llama a la función de devolución de llamada.

Conclusión

Hoy hemos explorado el poder y la flexibilidad de la biblioteca cURL. Espero que hayas disfrutado y aprendido de este artículo. La próxima vez que necesites hacer una petición de URL en tu aplicación web, considera usar cURL.

¡Gracias y que tengas un buen día!

Escribe un Tutorial Plus

¿Sabías que puedes ganar hasta 600 dólares por escribir un tutorial PLUS y/o un screencast para nosotros? Estamos buscando tutoriales profundos y bien escritos sobre HTML, CSS, PHP y JavaScript. Si eres capaz de hacerlo, ponte en contacto con Jeffrey en nettuts@tutsplus.com.

Por favor, ten en cuenta que la compensación real dependerá de la calidad del tutorial final y del screencast.

Síguenos en Twitter, o suscríbete al feed RSS de Nettuts+ para obtener los mejores tutoriales de desarrollo web en la web.