Script en python para obtención de urls de grupos

123 views
Skip to first unread message

Javier de la Cueva

unread,
Feb 27, 2011, 11:33:58 AM2/27/11
to nolesvote...@googlegroups.com
Os pego un script sucio que tiene una lista obtenida de Google groups y simplemente una función que genera un listado de urls de la página de about de los grupos de #nolesvotes.

En la página de about de cada grupo hay metadatos que pueden extraerse para empezar a jugar con #nolesvotes.


------8<--------------------8<--------------

# -*- coding: utf-8 -*-
#!/usr/bin/env python

"""
   Archivo para automatizar consultas de los grupos de No les votes
   Bajo licencia Affero GPL V3
   Autor: Javier de la Cueva
"""



grupos_1 = [
    "albacete",
    "albaceteciudad", 
    "alcala-de-henares", 
    "alicante", 
    "almunecar", 
    "andalucia", 
    "aranjuez", 
    "asturias", 
    "avila",
    "badajoz",              
    "baleares",       
    "barcelona", 
    "bilbao",             
    "bizkaia", 
    "bormujos", 
    "cadiz2", 
    "camargo", 
    "canarias",
    "cantabria", 
    "castellon", 
    "castilla-lamancha",             
    "catalunya",
    "cerdanyola-del-valles", 
    "chipiona", 
    "chiva", 
    "comunidad-valenciana", 
    "cordoba", 
    "coslada",         
    "diseno-grafico", 
    "doshermanas", 
    "estatal", 
    "euskadi", 
    "extremadura", 
    "galicia", 
    "gipuzkoa", 
    "granada", 
    "guadalajara", 
    "guadalajara", 
    "hellin", 
    "ibiza", 
    "infantes", 
    "jaen", 
    "jerez", 
    "la_rioja", 
    "larinconada", 
    "las-palmas", 
    "latorredestebanhambran",            
    "legal", 
    "leon", 
    "loeches", 
    "logrono", 
    "madrid",
    "malaga", 
    "marbella", 
    "menorca", 
    "merchandising", 
    "murcia", 
    "navalagamella", 
    "navarra", 
    "orihuela", 
    "ourense", 
    "palma", 
    "salamanca", 
    "salvaterra", 
    "--san-miguel-de-abona-tenerife",
    "santa-coloma-de-gramenet", 
    "santander", 
    "santiago-de-compostela", 
    "sanvicente", 
    "sanxenxo", 
    "sctenerife", 
    "sevilla", 
    "tarragona", 
    "tecnica", 
    "tenerife",
    "toledo", 
    "torrent", 
    "tudela", 
    "utrera", 
    "valencia",
    "vigo", 
    "zaragoza", ]


grupos_2 = ["lanzarote", "castilla-y-leon", "segovia"]


grupos_3 = ["sclalaguna"]

postfijo = "/about"

def lista_de_grupos():
    listado = []
    lista_1 = []
    lista_2 = []
    lista_3 = []
    for item in grupos_1:
        elemento = prefijo_1 + item + postfijo
        lista_1.append(elemento)
    for item in grupos_2:
        elemento = prefijo_2 + item + postfijo
        lista_2.append(elemento)
    for item in grupos_3:
        elemento = prefijo_3 + item + postfijo
        lista_3.append(elemento)
    listado = lista_1 + lista_2 + lista_3
    return listado

emijrp

unread,
Feb 27, 2011, 1:25:07 PM2/27/11
to nolesvote...@googlegroups.com
El otro día intenté abrir los /about desde python, con urllib y otras, pero me cargaba una página de error. Intenté cambiando el user-agent y tampoco iba. Si alguien da con la tecla, que lo comente.

Karlos García

unread,
Feb 27, 2011, 1:27:08 PM2/27/11
to nolesvote...@googlegroups.com
te deja durante unos cuantos, obviamente, al recibir muchas peticiones desde el mismo sitio, termina dando 403.
Yo tb he probado, convirtiendo el script a php, pero aunque lo conseguí en varias ocasiones, al final ya no me deja mas.
Puedes probar a acceder a alguno de los grupos, verás como te pide un captcha. 

Antonio Melé

unread,
Feb 27, 2011, 3:10:25 PM2/27/11
to nolesvote...@googlegroups.com
Prueba haciendo un time.sleep() aleatorio entre cada petición, puede ayudar a evitar que devuelva 403.

Karlos García

unread,
Feb 27, 2011, 3:19:19 PM2/27/11
to nolesvote...@googlegroups.com
El problema es ke, una vez se activa el 403, o pasas por el captcha... o nada. :)


El 27 de febrero de 2011 21:10, Antonio Melé <antoni...@gmail.com> escribió:
Prueba haciendo un time.sleep() aleatorio entre cada petición, puede ayudar a evitar que devuelva 403.



Reply all
Reply to author
Forward
0 new messages