https://github.com/valyaevgeorgiy/bigdata_processing_techno
Освоение технологий обработки больших данных в языке Python
https://github.com/valyaevgeorgiy/bigdata_processing_techno
analysis bigdata process-dataset technology
Last synced: 4 months ago
JSON representation
Освоение технологий обработки больших данных в языке Python
- Host: GitHub
- URL: https://github.com/valyaevgeorgiy/bigdata_processing_techno
- Owner: Valyaevgeorgiy
- License: agpl-3.0
- Created: 2022-09-29T14:48:20.000Z (over 2 years ago)
- Default Branch: main
- Last Pushed: 2024-04-29T13:13:05.000Z (about 1 year ago)
- Last Synced: 2024-12-29T08:13:19.937Z (5 months ago)
- Topics: analysis, bigdata, process-dataset, technology
- Language: Jupyter Notebook
- Homepage: https://koroteev.site/
- Size: 40.9 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# Обработка больших данных
- [Excel_analytics](https://github.com/Valyaevgeorgiy/Excel_analytics/tree/main) — аналитика данных с визуализацией отчётов в MS Excel.
- [SQL_dev](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/SQL_dev) — разработка баз данных в СУБД MySQL с выполнением нескольких разноплановых запросов:
- создание, обновление и удаление таблиц
- объединение, пересечение и разность запросов к таблицам
- получение данных таблиц с первоначальной фильтрацией
- группировка данных с последующим условием агрегации
- сортировка итоговых данных таблиц с возможностью получить первые несколько строк результата запроса
- вложенные запросы к таблицам
- создание временной таблицы с дальнейшим использованием её данных в основном запросе
- объединение нескольких таблиц по внешнему ключу.- [Parsing_photoalbums](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/parsing_photoalbums) — разработка собственных скриптов-парсеров фотоальбомов на популярных площадках (VK & Flickr) с локальной загрузкой всех фото и отчётностью загрузки в реальном времени.
Выполнение лабораторных работ в рамках прохождения курса «Технологии обработки больших данных» в Финансовом университете, а также реализация собственных проектов в сфере BigData и обработки данных.
- [Numpy](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/numpy) — первичная работа с библиотекой NumPy в рамках изучения массивных структур данных.
- [Pandas](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/pandas) — плотное изучение табличных структур (DataFrame) и серий данных с помощью библиотеки Pandas в рамках обработки данных.
- [Files_work](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/files_work) — детальный разбор взаимодействия с различными типами файлов посредством библиотек в Python (bs4, requests, urllib, json, xml.etree.ElementTree, shelve, pickle, os) в целях парсинга данных.
- [Tables_work](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/tables_work) — освоение главного инструмента в Python, позволяющего работать с данными, обрабатывать и получать их в таблицах формата .xlsx (Excel) с использованием библиотек xlsxwriter & xlwings.
- [Visualization](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/visualization) — плотная работа над обработкой данных с целью их дальнейшей визуализации (библиотеки matplotlib & seaborn).
- [Strings_work](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/strings_work) — изучение множества способов обработки строковых данных и дальнейшей работы с ними в тексте (библиотека re & nltk).
- [Nlp_text](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/nlp_text) — обработка данных и текстов на естественном языке при помощи библиотек Python (nltk & sklearn).
- [Profiling](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/profiling) — изучение алгоритмов оптимизации кода, анализа скорости и эффектиности его работы через библиотеку Python (numba) и магические функции (%timeit, %time, %lprun -f {name of function} {name of function(parameters)}).
- [Databases_work](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/databases_work) — взаимодействие с БД (создание структуры БД, вставка данных из файла, извлечение данных из БД) через Python и его специализированную библиотеку (sqlite3).
- [BigData_multiprocessing](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/bigdata_multiprocessing) — плотная работа с большими текстовыми данными в целях реализации распаллеливания процессов в обработке данных посредством собственных алгоритмов и реализованных идей в библиотеке Python (multiprocessing & pandarallel).