Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/omrigan/mentorhack-datasets
https://github.com/omrigan/mentorhack-datasets
Last synced: 27 days ago
JSON representation
- Host: GitHub
- URL: https://github.com/omrigan/mentorhack-datasets
- Owner: Omrigan
- License: gpl-3.0
- Created: 2018-02-13T09:18:35.000Z (almost 7 years ago)
- Default Branch: master
- Last Pushed: 2018-02-15T01:30:11.000Z (almost 7 years ago)
- Last Synced: 2024-10-29T14:39:20.214Z (3 months ago)
- Size: 46.9 KB
- Stars: 0
- Watchers: 3
- Forks: 3
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# Датасеты для хакатона "Менторхак"
Добрый день!Часть данных доступна на http://77.95.135.180/share
Данные свободны для распространения.
Если вам нужно больше данных какого-то типа, обращайтесь к кураторам, они могут помочь.
## SuperJob #профили #вакансии
Резюме людей с описанием их опыта и набор описаний вакансий. Всего 128 тысяч резюме, каждое записано в JSON формате на отдельной строке и 190 тысяч вакансий в аналогичном формате
http://77.95.135.180/share/superjob/
## Данные LeaderId #профили #события
Описание событий и профили людей с посещенными мероприятиями. Доступно 25к профилейhttp://77.95.135.180/share/leaderid.zip
## Проекты АСИ #проекты
Проектные идеи, поданные на финансирование в АСИ. Доступно 3000 проектов с подробным описанием и текущим статусом рассмотрения заявки.
Для получения обращайтесь в телеграм к @tenich.
## Github репозитории #проекты #разработка
Даны репозитории. В каждом репозитории доступна полная информация об истории: коммиты, их автор, ветки и так далее. Репозитории лежат в папках в стандартном формате .git. Всего можно взять произвольное число самых популярных репозиториев.Доступны на https://github.com/Omrigan/github-repo-downloader
Первые 100 репозиториев доступны на http://77.95.135.180/share/github-100.zip
## Open-source проекты #проекты #разработка
Даны проекты, собранные из пакетных менеджеров. В каждом пакете доступны название, история версий, адрес репозитория с кодом. Пакеты объединены в граф зависимостей и последовательность версий. Всего есть 2.7 миллиона проектов. ДДоступны на https://libraries.io/data
## История правок википедии #статьи
Даны правки статей в публичной википедии. В каждой правке доступны id страницы, номер ревизии, комментарий пользователя. правки объединены во временной ряд. Всего есть 18 гигабайт упакованных данных и несколько терабайт распакованных. Рекомендуется использовать поточную распаковку, чтобы экономить память.
Доступны на https://dumps.wikimedia.org/enwiki/20180201/## Kickstarter. #проекты
Даны данные о проектах за 2014-2018 годы. Для каждого проекта в датасете можно обнаружить описание, сколько денег привлекли, где проект стартовал и другие метаданные. Датасеты доступны в форматах JSON и CSV: https://webrobots.io/kickstarter-datasets/## Рейтинги и расписание студентов ВШЭ #профили #наука
Даны оценки и расписание занятий студентов. В каждой записи расписания доступны: время, студент, преподаватель, курс, тип занятия. В каждой записи рейтинга дана фамилия студента и его оценки за прошедший семестр. Расписания и рейтинги есть за несколько последних лет для всех образовательных программ. Расписания доступны на http://ruz.hse.ru/. Рейтинги доступны по адресам: https://www.hse.ru/ba/<инициалы программы>/ratings?. Профили преподавателей и резюме преподавателей доступны https://www.hse.ru/org/persons/## Багтрекер Mozilla #разработка
Даны баги. В каждом баге доступны заголовок, тело, комменты, дата, репортёр, подписанные, статус, и зависимости (кто кого блокирует). Всего есть около 11000 багов.http://77.95.135.180/share/bugzilla.mozilla.org.zip
## Code review Android #разработка
Даны git-патчи и метаданные к ним. В каждом патче доступны commit message, patch, время и другие стандартные атрибуты. Метаданные включает в себя reviewers, метки и комментарии. Доступны средние миллионы патчей: https://android-review.googlesource.com/## IRC-чаты #коммуникация
Даны сообщения по каналам. В каждом сообщении доступны отправитель, текст и дата. Доступны миллионы сообщений: https://botbot.me.
В качестве примера, уже скачаны 4214 сообщений, доступно здесь: http://77.95.135.180/share/botbot.me.zip.## Slack #коммуникация
Cообщения сообщества ODS в Slack из различных каналов. 2000 пользователей, 100 каналов, более 200к сообщений.
Доступны на http://77.95.135.180/share/Slack_OpenDataScience.zip## Gitter #коммуникация
Все сообщения с Gitter-а организации freeCodeChamp (некоммерческая образовательная платформа) с декабря 2014 по декабрь 2017Доступны на http://77.95.135.180/share/Gitter_freeCodeChamp.zip
## Рассылка linux kernel #коммуникация
Даны письма. В каждом письме доступны заголовок, тело письма, дата, оправитель, получатели, иногда git patch. Письма объединены в древовидные цепочки. Всего есть около трех миллионов писем.Доступны на https://lkml.org/lkml
## Списки проектов подавших на грант в Сколково. #проекты
3400 проектов, каждый из которых имеет описание, тематику, команду, инвесторов, презентации, ведущего менеджера и получил ли проект грант.Доступны на http://77.95.135.180/share/skolkovo/skolkovo.csv
## Stepic #курсы #наука
Дана история взаимодействия пользователей с онлайн-курсом. Дан временной ряд прохождения шагов онлайн-курса для всех пользователей, которые открывали этот курс.http://77.95.135.180/share/stepic.zip
## Данные Роструд
Можно подробно почитать на http://77.95.135.180/share/rostrud/А также по телефонам и в телеграме
```
89165752127 Ирина Анисимова. Роструд
89161495427 Сергей Макатров. Роструд. . Можно звонить с 8 утра до 24 вечера
```# Прочее
Вот еще некоторые ссылки, которые могут быть вам полезны:- https://blog.kjamistan.com/bot-scraper-new-chat-logs-nlp-dataset/
- https://www.kaggle.com/free-code-camp/all-posts-public-main-chatroom/
- https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
- https://searchworks.stanford.edu/view/mv327tb8364
- https://github.com/ckreibich/scholar.py