¡Advertencia!
Este tema no ha tenido respuestas en
más de un mes. Recuerda que si deseas añadir una nueva debes cumplir con las
normas de la web.
Usuario
Miembro plata
Mensajes: 8.648
Hola,
A ver si alguien con más conocimientos en scraping me ayuda.
Me gustaría descargar 1 millón de página (por decir un número alto). Actualmente he estado intentándolo con Python y la librería urlib. Pero descargar 100 páginas me lleva 100 segundos. Es decir, tarea imposible, puesto que 1 millon de página seria 12 días sin parar.
Supongo que lanzando varios threads en paralelo bajaría la velocidad. También está el problema de que te baneen por tantas requests.
¿Algo de experiencia en temas así?
Usuario
Legendario III
Mensajes: 5.705
Espera a que llegue el Li-Fi a España y lo haces, o te vas a Mexico y lo coges de allí.
Usuario
Miembro plata
Mensajes: 8.648
Espera a que llegue el Li-Fi a España y lo haces, o te vas a Mexico y lo coges de allí.
Si no es por conexión, creo que el cuello de botella son las propias peticiones.
Usuario
Avanzado II
Mensajes: 524
es posible que otras operaciones que realices en cada iteracion sea lo que cause el cuello de botella, ejemplo guardarlo en disco cada vez que descargas una o algo asi.
Usuario
Miembro plata
Mensajes: 8.648
es posible que otras operaciones que realices en cada iteracion sea lo que cause el cuello de botella, ejemplo guardarlo en disco cada vez que descargas una o algo asi.
Creo que es mas lento descargar que guardar en disco.
Usuario
Avanzado II
Mensajes: 524
es posible que otras operaciones que realices en cada iteracion sea lo que cause el cuello de botella, ejemplo guardarlo en disco cada vez que descargas una o algo asi.
Creo que es mas lento descargar que guardar en disco.
eso seguro pero todo se acumula.si lo que toma mayor parte del segundo es la descarga lo de hacer multi threading seria la solucion
Usuario
Miembro plata
Mensajes: 8.648
es posible que otras operaciones que realices en cada iteracion sea lo que cause el cuello de botella, ejemplo guardarlo en disco cada vez que descargas una o algo asi.
Creo que es mas lento descargar que guardar en disco.
eso seguro pero todo se acumula.si lo que toma mayor parte del segundo es la descarga lo de hacer multi threading seria la solucion
Muchas gracias, me informaré acerca de multi threading a ver que tal va!
Usuario
McPollo
Mensajes: 818
Creo que es mas lento descargar que guardar en disco.
eso seguro pero todo se acumula.si lo que toma mayor parte del segundo es la descarga lo de hacer multi threading seria la solucion
Muchas gracias, me informaré acerca de multi threading a ver que tal va!
Ya nos informarás de la solución que encuentres, ya que es algo que me interesa y no se cómo hacer, xd
Ingeniero informático estudiando un Máster en Ciberseguridad.
Anime, videojuegos, pelis, series... casi todo menos estudiar es divertido,
Me encanta gestionar mi propio servidor con apps self-hosted y aportar al mundo open source cuando puedo