An open API service indexing awesome lists of open source software.

https://github.com/valyaevgeorgiy/bigdata_processing_techno

Освоение технологий обработки больших данных в языке Python
https://github.com/valyaevgeorgiy/bigdata_processing_techno

analysis bigdata process-dataset technology

Last synced: 4 months ago
JSON representation

Освоение технологий обработки больших данных в языке Python

Awesome Lists containing this project

README

        

# Обработка больших данных

- [Excel_analytics](https://github.com/Valyaevgeorgiy/Excel_analytics/tree/main) — аналитика данных с визуализацией отчётов в MS Excel.
- [SQL_dev](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/SQL_dev) — разработка баз данных в СУБД MySQL с выполнением нескольких разноплановых запросов:
- создание, обновление и удаление таблиц
- объединение, пересечение и разность запросов к таблицам
- получение данных таблиц с первоначальной фильтрацией
- группировка данных с последующим условием агрегации
- сортировка итоговых данных таблиц с возможностью получить первые несколько строк результата запроса
- вложенные запросы к таблицам
- создание временной таблицы с дальнейшим использованием её данных в основном запросе
- объединение нескольких таблиц по внешнему ключу.

- [Parsing_photoalbums](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/parsing_photoalbums) — разработка собственных скриптов-парсеров фотоальбомов на популярных площадках (VK & Flickr) с локальной загрузкой всех фото и отчётностью загрузки в реальном времени.


Выполнение лабораторных работ в рамках прохождения курса «Технологии обработки больших данных» в Финансовом университете, а также реализация собственных проектов в сфере BigData и обработки данных.

- [Numpy](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/numpy) — первичная работа с библиотекой NumPy в рамках изучения массивных структур данных.

- [Pandas](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/pandas) — плотное изучение табличных структур (DataFrame) и серий данных с помощью библиотеки Pandas в рамках обработки данных.

- [Files_work](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/files_work) — детальный разбор взаимодействия с различными типами файлов посредством библиотек в Python (bs4, requests, urllib, json, xml.etree.ElementTree, shelve, pickle, os) в целях парсинга данных.

- [Tables_work](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/tables_work) — освоение главного инструмента в Python, позволяющего работать с данными, обрабатывать и получать их в таблицах формата .xlsx (Excel) с использованием библиотек xlsxwriter & xlwings.

- [Visualization](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/visualization) — плотная работа над обработкой данных с целью их дальнейшей визуализации (библиотеки matplotlib & seaborn).

- [Strings_work](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/strings_work) — изучение множества способов обработки строковых данных и дальнейшей работы с ними в тексте (библиотека re & nltk).

- [Nlp_text](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/nlp_text) — обработка данных и текстов на естественном языке при помощи библиотек Python (nltk & sklearn).

- [Profiling](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/profiling) — изучение алгоритмов оптимизации кода, анализа скорости и эффектиности его работы через библиотеку Python (numba) и магические функции (%timeit, %time, %lprun -f {name of function} {name of function(parameters)}).

- [Databases_work](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/databases_work) — взаимодействие с БД (создание структуры БД, вставка данных из файла, извлечение данных из БД) через Python и его специализированную библиотеку (sqlite3).

- [BigData_multiprocessing](https://github.com/Valyaevgeorgiy/BigData_processing_techno/tree/main/bigdata_multiprocessing) — плотная работа с большими текстовыми данными в целях реализации распаллеливания процессов в обработке данных посредством собственных алгоритмов и реализованных идей в библиотеке Python (multiprocessing & pandarallel).