Use o Excel como uma ferramenta para copiar dados da Web

Web scraping é o ato de extrair dados, informações ou imagens de um site usando um método automatizado. Pense(Think) nisso como copiar e colar(copy and paste) no automático.

Nós escrevemos ou usamos um aplicativo para acessar os sites que queremos e fazer uma cópia das coisas específicas que queremos desses sites. É muito mais preciso do que baixar um site inteiro.

Como qualquer ferramenta, a raspagem da web pode ser usada para o bem ou para o mal. Algumas das melhores razões para raspar sites seriam classificá-lo em um mecanismo de pesquisa com(search engine) base em seu conteúdo, fazer compras(price comparison shopping) de comparação de preços ou monitorar informações do mercado de ações(stock market information) . Você pode até usá-lo como uma espécie de ferramenta de pesquisa .(research tool)

Como posso raspar sites com o Excel ?

Acredite ou não, o Excel tem a capacidade de extrair dados de sites há muito tempo, pelo menos desde o Excel 2003 . É só que a raspagem da web é algo em que a maioria das pessoas não pensa(t think) , muito menos pensa em usar um programa de planilha(spreadsheet program) para fazer o trabalho. Mas é surpreendentemente fácil e poderoso. Vamos aprender como fazer isso criando uma coleção de atalhos de teclado do Microsoft Office(Microsoft Office keyboard) .

Encontre os sites que você deseja raspar

A primeira coisa que vamos fazer é encontrar as páginas da Web específicas das quais queremos obter informações. Vamos para a fonte e pesquisar(source and search) em https://support.office.com/ . Vamos usar o termo de busca(search term) “atalhos usados ​​com frequência”. Podemos torná-lo mais específico usando o nome do aplicativo específico, como Outlook , Excel , Word e assim por diante. Pode ser uma boa ideia marcar a página de resultados para que possamos voltar lá facilmente.

Clique(Click) no resultado da pesquisa(search result) , “Atalhos de teclado no Excel para Windows”. Uma vez nessa página, encontre a lista de versões do Excel e clique em Versões mais recentes(Newer Versions) . Agora estamos trabalhando com o que há de mais recente e melhor.

Poderíamos voltar à nossa página de resultados de pesquisa e abrir os resultados de todos os outros aplicativos do Office(Office apps) em suas próprias guias e marcá-los. É uma boa ideia, mesmo para este exercício. É aqui que a maioria das pessoas pararia de coletar atalhos do Office , mas não nós. (Office)Vamos colocá-los no Excel para que possamos fazer o que quisermos com eles, quando quisermos.

Abra o Excel e Raspe

Abra o Excel e inicie uma nova pasta de trabalho. Salve a pasta de trabalho como Atalhos do Office(Office Shortcuts) . Se você tiver o OneDrive, salve-o lá para que o recurso AutoSave funcione.

Depois que a pasta de trabalho for salva, clique na guia Dados .(Data)

Na faixa de opções da guia Dados(Data tab) , clique em Da Web(From Web) .

A janela do assistente da Web será aberta. (From Web )É aqui que colocamos o endereço da web ou URL(web address or URL) do site do qual queremos extrair os dados. Alterne para o navegador da Web e copie(copy) o URL.

Cole o URL no campo URL do assistente (URL)da Web(From Web wizard) . Poderíamos optar por usar isso no modo Básico(Basic) ou Avançado(Advanced) . O modo Avançado(Advanced mode) nos dá muito mais opções sobre como acessar os dados do site. Para este exercício, precisamos apenas do modo Básico. Clique (Click) em OK(OK) .

O Excel(Excel) agora tentará se conectar ao site. Isso pode demorar alguns segundos. Veremos uma janela de progresso(progress window) , se isso acontecer.

A janela do Navegador(Navigator) será aberta e veremos uma lista de tabelas do site à esquerda. Quando selecionamos um, veremos uma visualização da tabela à direita. Vamos selecionar a tabela de atalhos usados ​​com frequência .(Frequently used shortcuts )

Podemos clicar na guia Web View para ver o site real, se precisarmos procurar a tabela que queremos. Quando o encontrarmos, podemos clicar nele e ele será selecionado para importação.

Agora, clicamos no botão Carregar(Load) na parte inferior desta janela. Existem outras opções que poderíamos escolher, que são mais complexas e além do escopo de fazer nosso primeiro raspado. Apenas esteja ciente de que eles estão lá. Os recursos de raspagem da Web do Excel são muito poderosos.

A tabela da web(web table) será carregada no Excel após alguns segundos. Veremos os dados à esquerda, onde o número 1 está na imagem abaixo. O número 2 destaca a Consulta(Query) usada para obter os dados do site. Quando temos várias consultas em uma pasta de trabalho, é aqui que selecionamos a que precisamos usar.

Observe(Notice) que os dados entram na planilha como uma tabela do Excel. Já está configurado para que possamos filtrar ou classificar os dados.

Podemos repetir esse processo para todas as outras páginas da Web que tenham os atalhos do Office que desejamos para Outlook , Word , Access , PowerPoint e qualquer outro aplicativo do Office(Office app) .

Mantendo os dados raspados atualizados(Scraped Data Current) no Excel

Como um bônus para você, vamos aprender como manter nossos dados extraídos atualizados no Excel . Esta é uma ótima maneira de ilustrar o quão poderoso o Excel é para raspagem de dados. Mesmo com isso, estamos fazendo apenas a raspagem mais básica que o Excel pode fazer.

Para este exemplo, vamos usar uma página da Web de informações de ações como (stock information)https://www.cnbc.com/stocks/ .

Reveja o que fizemos antes e copie e cole(copy and paste) o novo URL da barra de endereço(address bar) .

Você chegará à janela do Navegador(Navigator window) e verá as tabelas disponíveis. Vamos selecionar os principais índices de ações dos EUA(Major U.S. Stock Indices) .

Uma vez que os dados são raspados, veremos a seguinte planilha.

À direita, vemos a consulta dos principais índices de ações dos EUA(Major U.S. Stock Indexes) . Selecione(Select) isso para que fique realçado. Verifique(Make) se estamos na guia Ferramentas de Tabela e na área (Table Tools)Design . Em seguida, clique na seta para baixo em Atualizar(Refresh) . Em seguida, clique em Propriedades da conexão(Connection Properties) .

Na janela Propriedades da consulta , na guia (Query Properties )Uso(Usage) , podemos controlar como essas informações são atualizadas. Podemos definir um período de tempo específico para atualizar ou atualizar quando abrirmos a pasta de trabalho na próxima vez, ou atualizar em segundo plano ou qualquer combinação desses. Depois de escolher o que precisamos, clique em OK para fechar a janela e continuar.

É isso! Agora você pode acompanhar os preços das ações, resultados esportivos ou quaisquer outros dados que mudem com frequência em uma planilha do Excel(Excel spreadsheet) . Se você é bom com equações e funções do Excel , pode fazer quase tudo o que quiser com os dados.

Talvez tente identificar tendências de ações, administrar uma piscina de esportes de fantasia no trabalho ou talvez apenas acompanhar o clima. Quem sabe? Sua imaginação e os dados disponíveis na Internet são os únicos limites.



About the author

Josh tem mais de 10 anos de experiência na indústria de software e wireless, especificamente nas áreas de programação e análises do Android. Atualmente, ele é engenheiro de software sênior da Microsoft, trabalhando em vários produtos do MS Office. Josh tem um forte interesse em ajudar outras pessoas a aprender novas ferramentas de software e está sempre disposto a compartilhar suas dicas e truques com aqueles que perguntam.



Related posts