https://github.com/angelsc75/rasca_citas
Aplicación que hace web scraping en dos páginas web de citas célebres guardando varios datos de la cita, autor.. en una base de datos.
https://github.com/angelsc75/rasca_citas
beatifulsoup docker mongodb python streamlit
Last synced: 2 months ago
JSON representation
Aplicación que hace web scraping en dos páginas web de citas célebres guardando varios datos de la cita, autor.. en una base de datos.
- Host: GitHub
- URL: https://github.com/angelsc75/rasca_citas
- Owner: angelsc75
- Created: 2025-01-29T18:57:01.000Z (over 1 year ago)
- Default Branch: main
- Last Pushed: 2025-01-29T19:01:02.000Z (over 1 year ago)
- Last Synced: 2025-03-29T05:17:51.205Z (about 1 year ago)
- Topics: beatifulsoup, docker, mongodb, python, streamlit
- Language: Python
- Homepage:
- Size: 407 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
El rasca citas (célebres)
## Descripción del proyecto
El rasca citas es un proyecto donde se "rascan" citas célebres de -en principio y a modo de muestra- dos sitios web.
Responde a la necesidad de la empresa XYZ Corp, que está pensando en utilizar una frase que se identifique con sus
valores y su misión.
## Funcionalidades
Después de sacar citas de dos sitios web, éstas se almacenan en una base de datos. Una vez almacenadas, se pueden buscar desde un fronted de las siguientes formas:
- por una etiqueta: se muestran todas las citas que están asociadas a esa etiqueta
- por más de una etiqueta: se muestran todas las citas asociadas a la combinación de etiquetas seleccionadas
- por el autor de la cita
- por una combinación de etiqueta y autor
## Cómo se arranca
Variables de entorno (parar arrancar desde github o construir el docker compose: :

Comando para construir imagen de docker y ejecutarla:

Para que el proyecto funciones tiene que tener en ejecución la base de datos scraping_quotes.
A través de Visual Studio Code, habría que ejecutar el comando *streamlit run main.py * desde la carpeta src

Otra forma sería desde Docker arrancar el contenedor *web_scraping_angel_sc*

En un futuro también se desplegará desde Streamlite Cloud.
## Teconologías utilizadas
- Lenguaje de programación Python
- Base de datos MongoDB
- Test unitarios: Pytest
- Creación de fronted para que interaccione un usuario: Streamlite
- Creación de imagen y de contenedores de aplicación y base de datos: Docker
- Organizaciónd del trabajo: Trello
- Control de versiones: GitHub







## Posibles mejoras
- Despliegue en la web
- Rascado en más páginas de citas
- Mejora de búsqueda por etiqueta: que una etiqueta indique con qué otras etiquetas está relacionada al ser seleccionada...
## Autor del proyecto
Ángel Sanz Crespo