Como Extrair Metadados de Páginas Web

Portuguese (Português) translation by Erick Patrick (you can also view the original English article)

Final product image — What You'll Be Creating

O Que Criaremos

Recentemente, começamos a criar uma comunidade na plataforma Yii de Programando com Yii2: Criando Comunidade com Comentários, Comartilhamento e Votação (Entato Tuts+). Queríamos facilitar o compartilhamento de links relacionados ao conteúdo, no site. Embora seja fácil para pessoas colarem links em formulários, é complicado prover título e fonte da informação.

No tutorial de hoje, mostraremos como usar PHP para extrair metadados comuns de páginas web e facilitar a participação dos usuários, além de criar serviços mais interessantes.

Lembrem-se, sempre participamos dos tópicos nos comentários abaixo, então digam o que acham! Ou entre em contato via Twitter, @lookahead_io.

Começando

Primeiro, construímos um formulário para adicionar links. Também criamos um botão Lookup que usa Ajax para requisitar a extração dos metadados da página.

Web Scraping - Create Link form with Lookup button

Apertando Lookup chama Link::grab() via ajax:

$(document).on("click", '[id=lookup]', function(event) {
  $.ajax({
     url: $('#url_prefix').val()+'/link/grab',
     data: {url:   $('#url').val()},
     success: function(data) {
       $('#title').val(data);
       return true;
     }
  });
});

Extraindo a Página

Link::grab() invoca fetch_og() que imita um rastreador para capturar a página e obter os metadados via DOMXPath:

public static function fetch_og($url)
    {
        $options  = array('http' => array('user_agent' => 'facebookexternalhit/1.1'));
        $context  = stream_context_create($options);
        $data = file_get_contents($url,false,$context);
        $dom = new \DomDocument;
        @$dom->loadHTML($data);
        $xpath = new \DOMXPath($dom);
        # query metatags with og prefix
        $metas = $xpath->query('//*/meta[starts-with(@property, \'og:\')]');
        $og = array();
        foreach($metas as $meta){
            # get property name without og: prefix
            $property = str_replace('og:', '', $meta->getAttribute('property'));
            $content = $meta->getAttribute('content');
            $og[$property] = $content;
        }
        return $og;
    }

Em nosso caso, substituímos as tags og: acima, mas o código abaixo busca vários outros tipos de tags:

$tags = Link::fetch_og($url);
      if (isset($tags['title'])) {
        $title = $tags['title'];
      } else if (isset($tags['metaProperties']['og:title']['value'])) {
        $title=$tags['metaProperties']['og:title']['value'];
      } else {
        $title = 'n/a';
      }
      return $title;
    }

Também podemos pegar outras tags como palavras-chave, descrição, etc. jQuery, então, adiciona o resultado ao formulário para o usuário enviar:

Web Scraping - Create Link with Resulting Title Filled In

Indo Além

Temos uma tabela sources que falaremos mais depois. Mas, basicamente, sempre que uma nova URL é adicionada, a analisamos e colocamos seu domínio numa tabela Source:

$model->source_id = Source::add($model->url);
...
public static function add($url='',$name='') {
      $source_url = parse_url($url);
      $url = $source_url['host'];
      $url = trim($url,' \\');
      $s = Source::find()
        ->where(['url'=>$url])
        ->one();
      if (is_null($s)) {
        $s=new Source;
        $s->url = $url;
        $s->name = $name;
        $s->status = Source::STATUS_ACTIVE;
        $s->save();
      } else {
        if ($s->name=='') {
          $s->name = $name;
          $s->update();
        }
      }
      return $s->id;
    }

Por hora, atualizamos os nomes das fontes para parecem mais limpos para o usuário, como ABC News, BoingBoing e Vice:

Web Scraping - Item page with completed links and clean sources

Em um próximo episódio, esperamos usar APIs disponíveis gratuitamente para obter o nome de um site. É estranho não ter uma metatag para isso. Ah se a Internet fosse perfeita...

Sites Pagos

Alguns sites, como o The New York Times, não nos deixam extrair os metadados por cobrarem a leitura. Mas eles tem uma API. Não é fácil aprender pela documentação confusa, mas os desenvolvedores ajudam rapidamente no GitHub. Também queremos escrever sobre a busca de metadados para oter títulos do New Yotk Times em episódios futuros.

Finalizando

Esperamos que esse guia de extração tenha sido útil e que possamos usar em algum projeto. Se quisermos vê-lo em ação, podemos testá-lo no site Active Together.

Deixe suas ideias e feedback nos comentários. Também é possível contatar via @lookahead_io no Twitter. E visite a página de instrutor onde há outras séries, Construindo Sua Startup com PHP e Programando Com Yii2.