-
-
Notifications
You must be signed in to change notification settings - Fork 415
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Manutenção] Novo raspador para Coruripe-AL #1317
base: main
Are you sure you want to change the base?
Conversation
Uma coleta-teste por intervalo arbitrário |
Uma coleta-teste da última edição |
Rodei a consulta completa e houve alguns erros, mas não consegui entender exatamente o que são. Precisaria de uma ajuda para saber se posso resolve-los. |
Boa, Lucas
Conferiu essa seção da documentação? https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#explorando-o-log |
Olá, após verificar a documetação e fiz mais alguns testes e modificações, mas não consigo fazer o download dessas duas edições 2024-11-03 22:35:46 [scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying <GET https://diario.coruripe.al.gov.br/diarios/128/download> (failed 3 times): 500 Internal Server Error mesmo tentando fazer o download na mão eu não estou conseguindo. Vocês conseguiriam testar os links para mim? |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Boa @LucasAlvws,
Um erro 500 ao não conseguir baixar arquivos do site não necessariamente impede a integração do raspador.
Precisamos saber se a causa dos erros é o raspador ou o site que simplesmente falha para alguns diários.
Caso o problema seja no site, o raspador pode ser integrado caso todo o resto esteja OK.
Darei uma olhada nos erros 500 que encontrou para tentar entender. Enquanto isso, por favor considere os comentários que fiz.
|
||
class AlCoruripeSpider(BaseGazetteSpider): | ||
name = "al_coruripe" | ||
TERRITORY_ID = "" |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
O TERRITORY_ID
é obrigatório. Note que o campo vazio aqui resulta numa coluna vazia correspondente no csv.
Veja na documentação tudo o que precisa fazer para garantir que o raspador seja integrado.
|
||
def start_requests(self): | ||
url = f"{self.BASE_URL}/busca?term=&onde=tudo&data=qualquer&jornal=extra" | ||
yield Request(url=url, method="GET", callback=self.parse) |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Nota pro futuro: Os valores que definiu para method
e callback
são os padrões, então não precisava ter passado eles explicitamente :)
@LucasAlvws Sobre os links dos diários com erro, consegui baixá-los uma vez mas todas as outras tentativas falharam pelo link e navegando pelo site. Para prosseguirmos, por favor veja os comentários que deixei. |
Outra coisa, |
AO ABRIR uma Pull Request de um novo raspador (spider), marque com um
X
cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
Código da(s) spider(s)
custom_settings
em meu raspador.Testes
.log
deste teste está anexado na PR..log
e.csv
deste teste estão anexados na PR..log
e.csv
deste teste estão anexados na PR.Verificações
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas..log
gerados pela minha coleta conforme a documentação não encontrando problemas.Descrição
Closes #1238