https://github.com/infoculture/datatasks
Задачи для волонтеров/стажеров/всех желающих по работе с открытыми, большими данными. А также всеми иными задачами связанными с темами краудсорсинга, понятного языка и электронной архивации
https://github.com/infoculture/datatasks
data infoculture opendata opengov russian-data
Last synced: 6 months ago
JSON representation
Задачи для волонтеров/стажеров/всех желающих по работе с открытыми, большими данными. А также всеми иными задачами связанными с темами краудсорсинга, понятного языка и электронной архивации
- Host: GitHub
- URL: https://github.com/infoculture/datatasks
- Owner: infoculture
- License: cc0-1.0
- Created: 2015-04-24T07:07:25.000Z (almost 11 years ago)
- Default Branch: master
- Last Pushed: 2019-10-31T05:57:40.000Z (about 6 years ago)
- Last Synced: 2024-08-08T23:20:59.837Z (over 1 year ago)
- Topics: data, infoculture, opendata, opengov, russian-data
- Size: 141 KB
- Stars: 74
- Watchers: 27
- Forks: 7
- Open Issues: 39
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# datatasks
Задачи для волонтеров/стажеров/всех желающих по работе с открытыми, большими данными. А также всеми иными задачами связанными с темами краудсорсинга, понятного языка и электронной архивации
# Пример задачи, новые необходимо делать по этому шаблону
## Цель
На сайте управления Росстата http://obdx.gks.ru/ публикуются результаты обследования домохозяйств с 2003 по 2012 годы, в форматах NESSTAR (http://www.nesstar.com/), Excel и описанием структур данных в DOC файлах.
Собрать данные из базы данных сайта управление статистики уровня жизни и обследований домашних хозяйств Федеральной службы государственной статистики (Росстат) и перенести на хаб открытых данных
## Задача
* написать парсеры и выгрузить данные структуры данных в форматах CSV и JSON
* выгрузить данные в формате NESSTAR и Excel
* загрузить данные в хаб открытых данных
## Требования
* открытый исходный код в Github под свободной лицензией
* межплатформенный код (возможность запуска на Linux/Windows)
* предусмотреть перенос всех метаданных в CKAN в виде тегов и атрибутов
* переносить все данные в CKAN или на отдельный хостинг (например, в Github)
## Пожелания
* реализация в виде программы командной строки или веб-приложения
* возможность запуска на MacOSX
* использовать скриптовые языки такие как Python, Perl, R и другие.
* преобразовать данные из формата NESSTAR в форматы удобные для работы, такие как CSV и загрузить их в github и/или хаб открытых данных
## Оценки трудоёмкости
Ожидаемое время на задачу должна занять не более 1-3 дня (8-24 часа).
## Вспомогательные материалы:
* Хаб открытых данных - http://hubofdata.ru
* документация API CKAN - http://docs.ckan.org/en/latest/api/index.html
* сайт управления Росстата - http://obdx.gks.ru/
* библиотеки разбора HTML кода. LXML - http://lxml.de/ и BeautifulSoup - http://www.crummy.com/software/BeautifulSoup/