{"id":13935471,"url":"https://github.com/infoculture/datatasks","last_synced_at":"2025-07-19T20:32:51.775Z","repository":{"id":30945415,"uuid":"34503462","full_name":"infoculture/datatasks","owner":"infoculture","description":"Задачи для волонтеров/стажеров/всех желающих по работе с открытыми, большими данными. А также всеми иными задачами связанными с темами краудсорсинга, понятного языка и электронной архивации","archived":false,"fork":false,"pushed_at":"2019-10-31T05:57:40.000Z","size":144,"stargazers_count":74,"open_issues_count":39,"forks_count":7,"subscribers_count":27,"default_branch":"master","last_synced_at":"2024-08-08T23:20:59.837Z","etag":null,"topics":["data","infoculture","opendata","opengov","russian-data"],"latest_commit_sha":null,"homepage":null,"language":null,"has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"cc0-1.0","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/infoculture.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null}},"created_at":"2015-04-24T07:07:25.000Z","updated_at":"2023-10-20T10:28:12.000Z","dependencies_parsed_at":"2022-09-08T12:00:32.483Z","dependency_job_id":null,"html_url":"https://github.com/infoculture/datatasks","commit_stats":null,"previous_names":[],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/infoculture%2Fdatatasks","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/infoculture%2Fdatatasks/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/infoculture%2Fdatatasks/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/infoculture%2Fdatatasks/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/infoculture","download_url":"https://codeload.github.com/infoculture/datatasks/tar.gz/refs/heads/master","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":226676994,"owners_count":17665998,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["data","infoculture","opendata","opengov","russian-data"],"created_at":"2024-08-07T23:01:47.730Z","updated_at":"2024-11-27T03:30:39.150Z","avatar_url":"https://github.com/infoculture.png","language":null,"funding_links":[],"categories":["Others"],"sub_categories":[],"readme":"# datatasks\nЗадачи для волонтеров/стажеров/всех желающих по работе с открытыми, большими данными. А также всеми иными задачами связанными с темами краудсорсинга, понятного языка и электронной архивации\n\n\n# Пример задачи, новые необходимо делать по этому шаблону   \n\n\n## Цель\n\nНа сайте управления Росстата http://obdx.gks.ru/ публикуются результаты обследования домохозяйств с 2003 по 2012 годы, в форматах NESSTAR (http://www.nesstar.com/), Excel и описанием структур данных в DOC файлах.\n\nСобрать данные из базы данных сайта управление статистики уровня жизни и обследований домашних хозяйств Федеральной службы государственной статистики (Росстат) и перенести на хаб открытых данных\n\n## Задача\n* написать парсеры и выгрузить данные структуры данных в форматах CSV и JSON\n* выгрузить данные в формате NESSTAR и Excel\n* загрузить данные в хаб открытых данных\n\n## Требования\n* открытый исходный код в Github под свободной лицензией\n* межплатформенный код (возможность запуска на Linux/Windows)\n* предусмотреть перенос всех метаданных в CKAN в виде тегов и атрибутов\n* переносить все данные в CKAN или на отдельный хостинг (например, в Github)\n\n## Пожелания\n* реализация в виде программы командной строки или веб-приложения\n* возможность запуска на MacOSX\n* использовать скриптовые языки такие как Python, Perl, R и другие.\n* преобразовать данные из формата NESSTAR в форматы удобные для работы, такие как CSV и загрузить их в github и/или хаб открытых данных\n\n## Оценки трудоёмкости\nОжидаемое время на задачу должна занять не более 1-3 дня (8-24 часа).\n\n## Вспомогательные материалы:\n* Хаб открытых данных - http://hubofdata.ru\n* документация API CKAN - http://docs.ckan.org/en/latest/api/index.html\n* сайт управления Росстата - http://obdx.gks.ru/\n* библиотеки разбора HTML кода. LXML - http://lxml.de/ и BeautifulSoup - http://www.crummy.com/software/BeautifulSoup/\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Finfoculture%2Fdatatasks","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Finfoculture%2Fdatatasks","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Finfoculture%2Fdatatasks/lists"}