Como capturar páginas HTML com o OS X Automator


O OS X trás com ele desde a versão 10 a ferramenta Automator que nos permite automatizar muitas tarefas. Coisas que eu tipicamente fazia com o scripts que demoram tempo e necessitam de aprendizagem prolongada para serem executadas com eficácia e eficiência, são possíveis fazer com alguns cliques.

O meu objetivo era capturar para recolher a informação das páginas sobre as iniciativas privadas do Parlamento português para aquele outro site que tenho ali ao lado. Pretendia fazer um teste técnico que me garantisse que conseguia recolher e analisar os dados sobre as iniciativas parlamentares com um custo de tempo mínimo e a possibilidade de repetir a geração de gráficos e quadros com o clique de um botão.

O que o filme acima mostra serve para recolher os ficheirinhos de música para o seu autor, mas para eu recolher os ficheiros HTML contendo a descrição das iniciativas parlamentares era exatamente a mesma lógica. Resumidamente, para executar esta tarefa simples deve:

  1. Abrir o Automator;
  2. Criar um novo Workflow;
  3. Utilizar a ação “Get current Webpage from Safari”;
  4. Ligar à tarefa “Get Link URL from Webpages”;
  5. Usar o “Filter URL” no resultado; e
  6. Fazer “Download URL” das páginas resultantes para uma pasta.

O que andei dias a tentar fazer com um Phyton, Bash, Curl e outros já estava feito e era só usar. Se não tivesse conhecimentos de scripting não teria tentado fazer o script eu próprio.

Tags: ,

{ Comments are closed! }