https://github.com/kernel-sqz/pap_open-api_scraper
API scraper of pap.pl
https://github.com/kernel-sqz/pap_open-api_scraper
bs4 open-api scraper
Last synced: 5 months ago
JSON representation
API scraper of pap.pl
- Host: GitHub
- URL: https://github.com/kernel-sqz/pap_open-api_scraper
- Owner: kernel-sqz
- Created: 2023-05-23T00:31:55.000Z (about 3 years ago)
- Default Branch: main
- Last Pushed: 2023-06-27T10:44:23.000Z (almost 3 years ago)
- Last Synced: 2025-01-27T10:29:28.343Z (over 1 year ago)
- Topics: bs4, open-api, scraper
- Language: Python
- Homepage:
- Size: 14.6 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# PAP open-api
PAP open-api is simple scraper of PAP.PL (Polska Agencja Prasowa). Script will parse the page and return clean api. Code uses multithreading for faster scraping.
## Run
Use the package manager [pip](https://pip.pypa.io/en/stable/) to run scraper.
```bash
pip install -r requirements.txt
```
```bash
cd src/api && uvicorn main:app --reload
```
## Usage
After running server (second command) you can navigate to:
```
http://127.0.0.1:8000/
```
and you will see that informations:
```json
{
"message": "Hi, you're using PAP open-api. Down below there is short info about usage.",
"languages": {
"PL": [
"/api",
"PATHS"
],
"EN": [
"/api/en/world",
"/api/en/business"
],
"UA": [
"/api/ua"
],
"RU": [
"/api/ru"
]
},
"paths": [
"/api/kraj",
"/api/swiat",
"/api/gospodarka",
"/api/sport",
"/api/nauka",
"/api/kultura",
"/api/zdrowie",
"/api/przeglad-mediow"
]
}
```
> /api - parse main page (latest news/ articles)
Example news object:
```json
{
"title": "Oskarżony o gwałt i zamordowanie 27-letniej Polki na Kos będzie ponownie zeznawał w sądzie",
"link": "https://www.pap.pl/aktualnosci/news,1590055,oskarzony-o-gwalt-i-zamordowanie-27-letniej-polki-na-kos-bedzie-ponownie",
"article": {
"img": "https://www.pap.pl/sites/default/files/styles/main_image/public/202306/anastazja_1_0_0.jpg?itok=X3BAzZ_W",
"date": "2023-06-27 10:31 aktualizacja: 2023-06-27, 12:34",
"header": "Mija czas, jaki oskarżony o porwanie, gwałt i zamordowanie 27-letniej Polki na Kos 32-letni Salahuddin S. z Bangladeszu dostał na przygotowanie swojej obrony. W południe ma ponownie zeznawać w sądzie – informują greckie media.",
"quote": "Banglijczyk dostał czas do wtorku, aby przygotować swoją obronę. Zebrany przez policję materiał dowodowy, w tym nagrania z kamer oraz sygnały telefonów oskarżonego i ofiary wskazują, że to właśnie on jest odpowiedzialny za zabójstwo Polki. Czytaj więcej W domu, w którym przebywał Banglijczyk mający zarzut zamordowania 27-letniej Polki, mieszka kilku innych imigrantów [WIDEO] Jak informują greckie media, oskarżony wyszukiwał na swoim telefonie sposoby, jak można usunąć dane z telefonu. Ponadto we wtorek CNN Greece podała, że policja szuka drugiego telefonu, który najpewniej posiadał oskarżony. W piątek z prowadzenia sprawy zrezygnował przydzielony z urzędu adwokat oskarżonego mężczyzny, Zafiris Drosos. Jak poinformował PAP jeden z policjantów, za morderstwo grozi Banglijczykowi dożywocie. Na Kos przebywa obecnie również zespół polskich detektywów, badających sprawę, pod kierownictwem Dawida Burzackiego. Anastazja zaginęła w poniedziałek 12 czerwca na greckiej wyspie Kos, gdzie pracowała w jednym z hoteli. W niedzielę 18 czerwca greckie media poinformowały, że znaleziono ciało 27-letniej Polki. Zwłoki zostały znalezione około godz. 19 czasu lokalnego, około kilometra od domu Salahuddina S., aresztowanego wcześniej przez policję, i 500 metrów od miejsca, w którym znaleziono telefon komórkowy Polki. (PAP) jc/"
}
}
```
## License
[MIT](https://choosealicense.com/licenses/mit/)