Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/fern-aerell/web-crawling-to-txt
Aplikasi web crawling sederhana yang dapat menelusuri URL, mengekstrak konten teks, dan menyimpan hasilnya dalam format TXT.
https://github.com/fern-aerell/web-crawling-to-txt
beautifulsoup4 crawling python requests scraping txt web-crawling web-scraping
Last synced: about 2 months ago
JSON representation
Aplikasi web crawling sederhana yang dapat menelusuri URL, mengekstrak konten teks, dan menyimpan hasilnya dalam format TXT.
- Host: GitHub
- URL: https://github.com/fern-aerell/web-crawling-to-txt
- Owner: Fern-Aerell
- License: mit
- Created: 2024-08-25T06:01:05.000Z (5 months ago)
- Default Branch: main
- Last Pushed: 2024-08-25T13:19:06.000Z (5 months ago)
- Last Synced: 2024-08-26T12:13:19.945Z (5 months ago)
- Topics: beautifulsoup4, crawling, python, requests, scraping, txt, web-crawling, web-scraping
- Language: Python
- Homepage:
- Size: 315 KB
- Stars: 2
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# Web Crawling To TXT
Proyek ini adalah sebuah aplikasi web crawling asynchronous yang ditulis dalam bahasa Python. Aplikasi ini dapat melakukan crawling pada sebuah situs web, mengumpulkan URL yang valid, dan mengekstrak konten dari setiap URL tersebut.
## Fitur
- Crawling URL secara asynchronous dalam domain yang sama
- Ekstraksi konten teks dari setiap halaman web
- Penyimpanan hasil crawling dalam format TXT
- Pembersihan teks yang diekstrak## Persyaratan
Untuk menjalankan aplikasi ini, Anda memerlukan:
- Python 3.x
- Beberapa library Python yang dapat diinstal menggunakan pip:
- aiohttp
- beautifulsoup4
- lxmlAnda dapat menginstal semua dependensi dengan menjalankan:
pip install aiohttp beautifulsoup4 lxml
## Penggunaan
Untuk menjalankan aplikasi, gunakan perintah berikut di terminal:
python webcrawling2txt.py
Dimana:
- `` adalah URL dasar situs web yang ingin Anda crawl
- `` adalah nama file output (tanpa ekstensi .txt)Contoh:
python webcrawling2txt.py https://www.example.com hasil_crawling
Hasil crawling akan disimpan dalam file TXT dengan nama `hasil_crawling.txt`.
## Struktur Proyek
- `webcrawling2txt.py`: File utama yang berisi semua fungsi untuk melakukan web crawling
- `clean_text()`: Fungsi untuk membersihkan teks yang diekstrak
- `crawl_url()`: Fungsi asynchronous untuk melakukan crawling URL
- `crawl_website()`: Fungsi utama yang menjalankan proses crawling dan menyimpan hasilnya
- `main()`: Fungsi untuk menangani argumen command line dan menjalankan crawling## Catatan
- Pastikan untuk mematuhi kebijakan dan persyaratan layanan dari situs web yang Anda crawl.
- Gunakan aplikasi ini dengan bijak dan bertanggung jawab.
- Aplikasi ini menggunakan asyncio dan aiohttp untuk melakukan crawling secara asynchronous, yang dapat meningkatkan kinerja pada situs web dengan banyak halaman.## Kontribusi
Kontribusi untuk proyek ini sangat diterima. Jika Anda memiliki saran atau perbaikan, silakan buat pull request atau buka issue.
## Lisensi
[MIT License](LICENSE)