{"id":21097152,"url":"https://github.com/alenales/parsing","last_synced_at":"2026-05-20T06:32:07.078Z","repository":{"id":219757926,"uuid":"749829567","full_name":"AlenaLes/Parsing","owner":"AlenaLes","description":"Парсинг данных по продуктам для сопоставления с базами данных","archived":false,"fork":false,"pushed_at":"2024-10-01T11:17:01.000Z","size":40,"stargazers_count":0,"open_issues_count":0,"forks_count":0,"subscribers_count":1,"default_branch":"main","last_synced_at":"2025-01-21T02:09:52.924Z","etag":null,"topics":["analytics","html","parsing","python","requests","sql"],"latest_commit_sha":null,"homepage":"","language":"Jupyter Notebook","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/AlenaLes.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null}},"created_at":"2024-01-29T13:36:44.000Z","updated_at":"2024-10-01T11:17:04.000Z","dependencies_parsed_at":"2024-01-29T17:06:21.253Z","dependency_job_id":"0ea3c0dd-8c3b-4d8b-a150-b9c9100a9eb2","html_url":"https://github.com/AlenaLes/Parsing","commit_stats":null,"previous_names":["alenales/parsing"],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/AlenaLes%2FParsing","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/AlenaLes%2FParsing/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/AlenaLes%2FParsing/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/AlenaLes%2FParsing/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/AlenaLes","download_url":"https://codeload.github.com/AlenaLes/Parsing/tar.gz/refs/heads/main","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":243538617,"owners_count":20307223,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["analytics","html","parsing","python","requests","sql"],"created_at":"2024-11-19T22:46:40.516Z","updated_at":"2026-05-20T06:32:02.043Z","avatar_url":"https://github.com/AlenaLes.png","language":"Jupyter Notebook","funding_links":[],"categories":[],"sub_categories":[],"readme":"# Парсинг данных по продуктам на сайте.\n\n## Краткое описание\nСкрипт был написан в рамках реальной задачи для [АШАН](https://www.auchan.ru/).\nЦелью являются выгрузка артикулов и наименований товаров с сайта для формирования актуальной базы по товарам на сайте.\n\nЗадачи:\n- Создать срипт для парсинга сайта;\n- Выгрузить массив данных с артикулами и наименованиями товаров;\n- Выгрузить существующую базу по товарам с помощью SQL;\n- Объединенить таблицы для добавления навигационных столбцов;\n- Загрузка полученного результата в базу.\n\nПроект выполнен с нуля и предназначен только для выгрузки определенных данных.\n\nРезультаты:\n- Создан рабочий код для конкретной задачи;\n- Финальные данные используются при проведении маркетинговых акций. Можно быстро получить данные по требуемым категориям.\n\nПолный скрипт расположен в файле \"Parsing_auchan.ipynb\".\n\nСтэк:\n\n- Python\n- SQL\n- Parsing\n- HTML\n\n## Библиотеки для работы с Python, SQL и Запросами на сайт.\n\n```\nimport requests\nfrom bs4 import BeautifulSoup\nimport pandas as pd\nimport math\nimport time\nfrom requests.packages.urllib3.exceptions import InsecureRequestWarning\nrequests.packages.urllib3.disable_warnings(InsecureRequestWarning)\nimport psycopg2\nfrom sqlalchemy import create_engine\n```\n\n## Библиотеки для оформления кода\n\n```\nimport ipywidgets as wi\nfrom ipywidgets import IntProgress\nfrom IPython.display import display\nfrom ipywidgets import Layout\n```\n\nПолученные выгрузки не выкладываются в общий доступ из-за конфеденциальности. Также скрыты все доступы для подключения к базам.\n_________________________________\n## Последние изменения\n\nКод оптимизирован путем добавления класса и методов для выгрузки разных типов категорий с сайта.\nВ класс не входят функции для оформления кода и загрузки базы в Dbeaver.\n\n_________________________________\n\n## Процесс\n\nДля подключения использовалась бибилотека BeautifulSoup. Все этапы получения данных разделены на методы, чтобы весь процесс был более отслеживаемым и наглядным.\n\nВ связи с тем, что процесс парсинга может занимать довольно длительное время, у каждого метода в классе присутствует виджет с процентами загрузки данных, а также простой подсчет оставшегося времени получения выгрузки.\n\n![image](https://github.com/AlenaLes/Parsing/assets/100629361/69d1484f-9561-44a0-ad87-ed99e1021ed7)\n_________________________________\n\n## Финальный результат\n\nИтоговая таблица, загружаемая обратно в базы данных, выглядит следующим образом: \n\n![1](https://github.com/AlenaLes/Parsing/assets/100629361/66341ce8-a6f3-4a68-bc62-ac4d63b2e71e)\n\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Falenales%2Fparsing","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Falenales%2Fparsing","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Falenales%2Fparsing/lists"}