Utilizando el API de New York Times para extraer metadatos

Spanish (Español) translation by Elías Nicolás (you can also view the original English article)

Introducción

La semana pasada, escribí una introducción recopilar páginas web para extraer metadatos, mencionando que no es posible en el sitio de New York Times. El bloqueo pagado de Times bloquea tus intentos de recopilar metadatos básicos. Pero hay una manera alrededor de esto usando el New York Times API.

Recientemente comencé a construir un sitio de la comunidad encima de la plataforma de Yii, que escribí en programación con Yii2: Construyendo la comunidad con los comentarios, la distribución y la votación (Envato Tuts +). Quería facilitar la adición de enlaces relacionados con el contenido del sitio. Si bien es fácil para las personas pegar direcciones URL en formularios, toma mucho tiempo proporcionar también título e información de origen.

Así que en el tutorial de hoy, voy a expandir el código de recopilar metadatos que escribí recientemente para aprovechar la API de New York Times para cuando titulares se agregan.

Recuerde, yo participo en los hilos de comentarios a continuación, así que dime lo que piensas! También puedes contactarme en Twitter @lookahead_io.

Para empezar

Inscríbase para una clave API

New York Times API - API Gallery Home Page

En primer lugar, vamos a inscribirnos y solicitar una clave API:

Después de enviar el formulario, recibirá su clave en un correo electrónico:

Explorando la API de New York Times

El Times ofrece APIs en las siguientes categorías:

Archivo
Búsqueda de artículo
Libros
Comunidad
Geográfica
Más populares
Comentarios de la película
Semántica
Times Newswire
TimesTags
Historias principales

Es mucho. Y, desde la página de la galería, puedes hacer clic en cualquier tema para ver la documentación individual de categoría API:

New York Times API - Documentation of articlesearch json

El Times usa LucyBot para su documentacion de la API, y hay un FAQ de ayuda:

Incluso te muestran cómo obtener rápidamente los usos de la API (usted necesitará su clave):

 curl --head 
   https://api.nytimes.com/svc/books/v3/lists/overview.json?api-key=<your-api-key>
    2>/dev/null | grep -i "X-RateLimit"
    X-RateLimit-Limit-day: 1000
    X-RateLimit-Limit-second: 5
    X-RateLimit-Remaining-day: 180
    X-RateLimit-Remaining-second: 5

Inicialmente tuve problemas para dar sentido a la documentación: es una especificación basada en parámetros, no una guía de programación. Sin embargo, publiqué algunas preguntas y problemas a la página GitHub de la API de New York Times, y fueron respondidas rápida y útilmente.

Trabajando con búsqueda

Para el episodio de hoy, voy a centrar en la búsqueda de artículo de NY Times. Básicamente, a ampliar la forma de crear el enlace del tutorial pasado:

New York Times API - Create Link Form with NYT Story URL about Polar Bears

Cuando el usuario hace clic en búsqueda, vamos a hacer una petición ajax a través de Link::grab($url). Aquí es el jQuery:

$(document).on("click", '[id=lookup]', function(event) {
  $.ajax({
     url: $('#url_prefix').val()+'/link/grab',
     data: {url:   $('#url').val()},
     success: function(data) {
       $('#title').val(data);
       return true;
     }
  });
});

Este es el método de controlador y modelo:

// Controller call via AJAX Lookup request
public static function actionGrab($url) {
  Yii::$app->response->format = Response::FORMAT_JSON;
  return Link::grab($url);
}
...
// Link::grab() method
public static function grab($url) {
  //clean up url for hostname
  $source_url = parse_url($url);
  $source_url = $source_url['host'];  
  $source_url=str_ireplace('www.','',$source_url);
  $source_url = trim($source_url,' \\');
  // use the NYT API when hostname == nytimes.com 
  if ($source_url=='nytimes.com') {
   ...

A continuación, vamos a usar nuestra clave API para realizar una solicitud de búsqueda de artículo:

    $nytKey=Yii::$app->params['nytapi'];    
    $curl_dest = 'http://api.nytimes.com
        /svc/search/v2/articlesearch.json?fl=headline&fq=web_url:%22'.
        $url.'%22&api-key='.$nytKey;
    $curl = curl_init();
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($curl, CURLOPT_URL,$curl_dest);
    $result = json_decode(curl_exec($curl));
    $title = $result->response->docs[0]->headline->main;
  } else {
    // not NYT, use the standard metatag scraper from last episode
         ...
    }
  }
  return $title;
}

Y trabaja bastante fácilmente, aquí está el título resultante (por cierto, el cambio climático está matando a los osos polares y deberíamos preocuparnos):

New York Times API - Create Link Form with NYT Story URL and Headline from Article Search API

Si usted quiere más detalles de su petición de API, sólo tiene que añadir argumentos adicionales para el ?fl=headline como keywords y lead_paragraph:

Yii::$app->response->format = Response::FORMAT_JSON;
$nytKey=Yii::$app->params['nytapi'];
$curl_dest = 'http://api.nytimes.com/svc/search/v2/articlesearch.json?'.
  'fl=headline,keywords,lead_paragraph&fq=web_url:%22'.$url.'%22&api-key='.$nytKey;
$curl = curl_init();
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_URL,$curl_dest);
$result = json_decode(curl_exec($curl));
var_dump($result);

Aquí está el resultado:

Tal vez voy a escribir una librería PHP para analizar mejor el API de NYT en próximos episodios, pero este código quiebra las palabras clave y el párrafo guia:

Yii::$app->response->format = Response::FORMAT_JSON;
$nytKey=Yii::$app->params['nytapi'];
$curl_dest = 'http://api.nytimes.com/svc/search/v2/articlesearch.json?'.
  'fl=headline,keywords,lead_paragraph&fq=web_url:%22'.$url.'%22&api-key='.$nytKey;
$curl = curl_init();
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_URL,$curl_dest);
$result = json_decode(curl_exec($curl));
echo $result->response->docs[0]->headline->main.'<br />'.'<br />';
echo $result->response->docs[0]->lead_paragraph.'<br />'.'<br />';
foreach ($result->response->docs[0]->keywords as $k) {
  echo $k->value.'<br/>';
}

Aquí está lo que muestra para este artículo:

Polar Bears’ Path to Decline Runs Through Alaskan Village

The bears that come here are climate refugees, on land because
the sea ice they rely on for hunting seals is receding.

Polar Bears
Greenhouse Gas Emissions
Alaska
Global Warming
Endangered and Extinct Species
International Union for Conservation of Nature
National Snow and Ice Data Center
Polar Bears International
United States Geological Survey

Ojala comience a expandir su imaginación de cómo utilizar estas API. Es muy emocionante lo que puede lograr.

En conclusion:

La API del New York Times es muy útil, y me alegra verlos ofreciendo a la comunidad de desarrolladores. También fue refrescante para obtener ese apoyo rápido de API a través de GitHub, simplemente no esperaba esto. Tenga en cuenta que está pensado para proyectos no comerciales. Si tienes alguna idea de hacer dinero, envie una nota a ver si trabajaran con usted. Los editores son deseosos de nuevas fuentes de ingresos.

Espero que encuentre estos episodios de extraccion de metadatos útiles y los utilice en sus proyectos. Si desea ver el episodio de hoy en acción, puede probar algunos de la web extraccion en mi sitio, Active Together.

Por favor comparta sus pensamientos y comentarios en los comentarios. También puede contactarme siempre en Twitter @lookahead_io directamente. Y asegúrese de revisar mi página de instructor y otras series, Construyendo su startup con PHP y la programación con Yii2.