Internet » Poupar Melhor

Capturar informação da Internet para o Excel

13 de Março de 2015 Práticas • @alvaromferro

Comentários fechados

iMacros add on

Já aqui vos tinha contado o que ando a tentar capturar páginas da Internet com o Automator, mas não vos tinha dito que o estava a capturar as páginas para analisar os dados que lá têm. Por causa das questões que trato ali naquele outro site, quero capturar informação da Internet que me serve para outras análises.

Estou a recolher informação no site do Parlamento português, mas porque o site do Parlamento é mesmo muito mauzinho em termos de eficiência, cada recolha demora bastante tempo para obter qualquer coisa apreciável. Tive de abandonar a tentativa de recolher primeiro todas as páginas, e executar a extração dos dados depois. O código html e javascript nas páginas do Parlamento é mesmo muito mau, contendo colocação de objetos por tabelas, algo equivalente a paginar um romance com Excel. O site tem também links que só funcionam com Javascript, mais ou menos o equivalente a ligar o motor do carro para irem a pé.

Estou a usar o add on iMacros para Firefox, Chrome e Internet Explorer para resolver todas estas dificuldades. Embora este add on tenha uma linguagem de scripting crua, foi com recurso à utilização deste add on e com o script em Javascript que foi possível iniciar a tarefa com alguma possibilidades mínimas de sucesso.

As tentativas de recolha de todo o site que iniciei com o Httrack e continuei com o Automator, mas os links do site do Parlamento, contrariamente às normas de acessibilidade, normas das tecnologias utilizadas e melhores práticas propostas pelo World Wide Web Consortium para a world wide web, são em Javascript e sem possibilidade de navegar até aos links sem um rato. Este facto impede a sua utilização sem realmente se clicar com um rato, não respeita a obrigatoriedade dos organismos do Estado de fazer sites acessíveis a pessoas com necessidades especiais, dificultando a vida a indexadores web como o Google e outros motores de busca.

Por agora só vou recolher todos os links de todas as iniciativas de todas as legislaturas que é possível obter através do site da Assembleia da república para depois processar cada link de forma mais rápida. O script adapta-se às fraquezas do site através, mas não separa logo a informação ao mesmo tempo que a recolhe, guardando apenas os dados da tabela de resultados de pesquisa. O script é um composto de instruções de iMacros executadas em pilha pelo Javascript. O resultado é repetível e, com algumas modificações, também pode ser repetido noutras secções do mesmo site ou mesmo de outros sites.

Cada pedido de dados ao site do Parlamento teve de ser afinado com esperas de cerca de 20 segundos entre cada pedido para evitar os problemas criados pela lentidão do servidor. 8 horas de execução decorridas e vou em 282 de 832 tabelas de resumo prevista recolher. Cada tabela contem cerca de 20 iniciativas. O script tal como está preparado permitirá a recolha apenas da última legislatura para atualização dos dados no final desta legislatura.

window.open(‘http://www.parlamento.pt/ActividadeParlamentar/Paginas/IniciativasLegislativas.aspx’);

var Capturas = 0;
var LEGISLATURAX = [ “II”, “III”, “IV”, “V”, “VI”, “VII”, “VIII”, “IX”, “X”, “XI”, “XII” ]
var PAGINASN = [ 41, 48, 37, 77, 66, 74, 51, 62, 105, 73, 134 ]
var RETICENCIAS = [11, 21, 31, 41, 51, 61, 71, 81, 91, 101, 111, 121, 131, 141]
var LEGISN = LEGISLATURAX.length;
var RETICENCIASN = RETICENCIAS.length;
var POSICAO = 1;

// Selecionar Legislatura
for (LEGISLATURAS = 0; LEGISLATURAS < = LEGISN; LEGISLATURAS++)
{
var EXTRACT1 =”CODE:”;
// Usar o form de pesquisa para navergar para a legislatura
EXTRACT1 +=”VERSION BUILD=8890130 RECORDER=FX” + “\n”;
EXTRACT1 +=”TAB T=1″ + “\n”;
EXTRACT1 +=”URL GOTO=http://www.parlamento.pt/ActividadeParlamentar/Paginas/IniciativasLegislativas.aspx?back=5ccfbfca-beea-4a13-82ab-8a8260de645539045″ + “\n”;
EXTRACT1 +=”WAIT SECONDS=20″ + “\n”;
EXTRACT1 +=”TAG POS=1 TYPE=SELECT FORM=ID:aspnetForm ATTR=ID:ctl00_ctl43_g_889e27d8_462c_47cc_afea_c4a07765d8c7_ctl00_ddlLeg CONTENT=%” + LEGISLATURAX[LEGISLATURAS] + ” ” + “\n”;
EXTRACT1 +=”WAIT SECONDS=20″ + “\n”;
EXTRACT1 +=”TAG POS=1 TYPE=INPUT:SUBMIT FORM=ID:aspnetForm ATTR=ID:ctl00_ctl43_g_889e27d8_462c_47cc_afea_c4a07765d8c7_ctl00_btnPesquisar” + “\n”;
EXTRACT1 +=”WAIT SECONDS=20″ + “\n”;
iimPlay(EXTRACT1);
EXTRACT1 = “”;
// Navegar pelas páginas da legislatura para capturar tabelas
// alert(“legislatura ” + LEGISLATURAX[LEGISLATURAS] + ” Paginas ” + PAGINASN[LEGISLATURAS]);
for (PAGINAS = 1; PAGINAS <= PAGINASN[LEGISLATURAS]; PAGINAS++) { CARREGAR = PAGINAS + 1 // Copiar tabela com resultados da página PAGINAS // alert(“Copiar tabela ” + LEGISLATURAX[LEGISLATURAS] + ” página ” + PAGINAS ); var EXTRACT2 =”CODE:”; EXTRACT2 +=”VERSION BUILD=8890130 RECORDER=FX”+”\n”; EXTRACT2 +=”SET !EXTRACT_TEST_POPUP NO”+”\n”; EXTRACT2 +=”TAB T=1″+”\n”; EXTRACT2 +=”WAIT SECONDS=20″ + “\n”; EXTRACT2 +=”TAG POS=52 TYPE=TABLE ATTR=TXT:* EXTRACT=HTM”+”\n”; EXTRACT2 +=”SAVEAS TYPE=EXTRACT FOLDER=* FILE=resumo_” + LEGISLATURAX[LEGISLATURAS] + “_” + PAGINAS + “.html”+”\n”; Capturas = Capturas + 1 // Antes de carregar no link, // verficar se a página do link corresponde a um link com reticencias no texto ou a um número if ( RETICENCIAS.indexOf(CARREGAR) > -1 )
{
if (CARREGAR == 11)
{
CARREGAR=’…’;
POSICAO = 1; }
else
{
CARREGAR=’…’;
POSICAO = 2;
}
}
// alert(“Legislatura: ” + LEGISLATURAX[LEGISLATURAS] + ” Total Páginas: ” + PAGINASN[LEGISLATURAS] + “\n” + “Página: ” + PAGINAS + ” Carregar: ” + CARREGAR + ” POS: ” + POSICAO );
EXTRACT2 +=”REFRESH” + “\n”;
EXTRACT2 +=”WAIT SECONDS=20″ + “\n”;
EXTRACT2 +=”TAG POS=” + POSICAO + ” TYPE=A ATTR=TXT:” + CARREGAR + “\n”;
EXTRACT2 +=”WAIT SECONDS=20″ + “\n”;
iimPlay(EXTRACT2);
EXTRACT2 = “”;
POSICAO = 1;
}
}
alert(“Tabelas de resumo capturadas ” + Capturas);

O que aconteceu ao diretório de links do Sapo

7 de Março de 2015 Dúvidas • @alvaromferro

Comentários fechados

Sapo a 8 de outubro de 1997

O Sapo era o Servidor de Apontadores Português. Servia de porta de entrada na Internet para grande parte dos portugueses que em 1997, data da imagem que fui buscar ao Web Archive. Tinha um motor de pesquisa, que não era o que é hoje o Google, e um diretório de links cuidado e para o qual tínhamos de cumprir requisitos mínimos para entrar.

Hoje já não há o diretório do Sapo, como não outros tantos recursos que tínhamos portugalizados. Passamos a ter apenas aquilo que nos é oferecido do estrangeiro. Isto parece-me um bom princípio quando se trata de Internet, desde que não impeçam o registo dos links referentes ao que se vai fazendo neste retângulo à beira mar plantado.

Se ficámos a perder, não sei. Só perdemos aquilo que sentimos falta, e não consegui encontrar um registo de queixume que fosse sobre este desaparecimento. A realidade é que hoje em dia nos habituámos a perguntar tudo aos motores de busca. Se um dia estes serviços passarem a ser pagos ou desaparecerem, vamos procurar a informação a onde?

Como capturar páginas HTML com o OS X Automator

4 de Março de 2015 Práticas • @alvaromferro

Comentários fechados

O OS X trás com ele desde a versão 10 a ferramenta Automator que nos permite automatizar muitas tarefas. Coisas que eu tipicamente fazia com o scripts que demoram tempo e necessitam de aprendizagem prolongada para serem executadas com eficácia e eficiência, são possíveis fazer com alguns cliques.

O meu objetivo era capturar para recolher a informação das páginas sobre as iniciativas privadas do Parlamento português para aquele outro site que tenho ali ao lado. Pretendia fazer um teste técnico que me garantisse que conseguia recolher e analisar os dados sobre as iniciativas parlamentares com um custo de tempo mínimo e a possibilidade de repetir a geração de gráficos e quadros com o clique de um botão.

O que o filme acima mostra serve para recolher os ficheirinhos de música para o seu autor, mas para eu recolher os ficheiros HTML contendo a descrição das iniciativas parlamentares era exatamente a mesma lógica. Resumidamente, para executar esta tarefa simples deve:

Abrir o Automator;
Criar um novo Workflow;
Utilizar a ação “Get current Webpage from Safari”;
Ligar à tarefa “Get Link URL from Webpages”;
Usar o “Filter URL” no resultado; e
Fazer “Download URL” das páginas resultantes para uma pasta.

O que andei dias a tentar fazer com um Phyton, Bash, Curl e outros já estava feito e era só usar. Se não tivesse conhecimentos de scripting não teria tentado fazer o script eu próprio.

Sinal Wifi em Android

1 de Março de 2015 Práticas • A.Sousa

Comentários fechados

Quando queremos que uma rede wifi seja mais rápida, o primeiro passo a assegurar é que as suas condições de funcionamento sejam as melhores. Desde investirmos em melhores antenas, até fazemos uma prospecção das outras redes para verificar nomeadamente os canais que estão a ser utilizados.

Nesta última vertente, tenho utilizado cada vez mais o telemóvel. A app Wifi Analyzer para Android permite averiguar que canais estão a ser utilizados, bem como os níveis de sinal em cada momento. Como se pode ver na imagem a seguir, retirada da página do Google Play, os vários APs já utilizam vários dos canais. A utilização dos canais 4 ou 9 poderia neste caso ser, porventura, a opção mais interessante.

Visão por canais

Embora seja possível configurar os sistemas wifi para fazerem uma gestão dinâmica da utilização dos canais, tenho tido vários problemas com vários equipamentos, pelo que desisti dessa funcionalidade. Em vez disso, recorro também à análise dos níveis de sinal ao longo do tempo. Neste caso, faço uma pequena excursão pelos locais onde utilizo o wireless, e depois comparo o gráfico seguinte com o anterior, para depois decidir a melhor configuração dos sistemas wifi que utilizo.

Níveis de sinal ao lono do tempo

Diretórios de links

28 de Fevereiro de 2015 Práticas • @alvaromferro

Comentários fechados

How Google Search Works

Antes dos motores de busca e dos links serem classificados por algoritmos que se baseiam na importância dada por humanos aos links, era para os diretórios categorizados de links que nos virávamos para procurar informação.

Hoje ainda podem ser uma fonte útil para encontrarmos o que queremos. Por isso, junto a minha tradução e adaptação livre para um conjunto de diretórios de links que encontrei nesta página sobre os motores de busca da internet:

Mahalo (Diretório Web que usa editores humanos e apresenta os seus resultados lado a lado com o Google Seach)
Open Directory (“O maior e mais completo diretório de links editado por humanos. Construido e mantido por uma vasta comunidade global de editores voluntários.”[ii] The Open Directory project também é conhecido por DMOZ, ou Directory Mozilla.)
Yahoo!Search Directory (“The Yahoo Directory é uma biblioteca de websites criada e mantida por humanos organizada em categorias e sub-categorias. Os editores Yahoo revêem estes sites para potenciais inclusões no diretório, e para avaliarem a melhor categoria para colocação.”[iii])

Jogos de computador que podem ser jogados de graça

31 de Janeiro de 2015 Notícias • @alvaromferro

2 comments

MSDOS – Prince of Persia, 1990

Alguns dos jogos da nossa juventude estão agora disponíveis para jogar gratuitamente no Internet Archive. Estes eram o jogos que jogava quando ainda ninguém jogava computador e me deixaram curioso sobre o poder da programação. Neste momento não há forma de guardar o jogo ou salvar o progresso, mas sempre é melhor do que nada.

Podem jogar os jogos online no emulador JSMESS (Javascript MESS) (compatível com quase todos os browsers internet). Porque se trata de um emulador no browser não esperem o melhor motor de jogo do mundo.

Vou juntar esta entrada do Poupar Melhor à lista de coisas que podemos fazer com as crianças este inverno. Pode ser que consiga explicar aos meus filhos como nem tudo nos jogos é competição com os outros e sim um desafio para nós mesmos.

Capturar informação da Internet para o Excel

O que aconteceu ao diretório de links do Sapo

Como capturar páginas HTML com o OS X Automator

Sinal Wifi em Android

Diretórios de links

Jogos de computador que podem ser jogados de graça

Páginas

Comentários recentes

Publicidade

Categorias

Capturar informação da Internet para o Excel

O que aconteceu ao diretório de links do Sapo

Como capturar páginas HTML com o OS X Automator

Sinal Wifi em Android

Diretórios de links

Jogos de computador que podem ser jogados de graça

Páginas

Comentários recentes

Principais palavras em destaque

Publicidade

Categorias