{"id":21815604,"url":"https://github.com/arbox/corpora","last_synced_at":"2026-01-04T07:54:27.562Z","repository":{"id":32487831,"uuid":"36068296","full_name":"arbox/corpora","owner":"arbox","description":"Eine annotierte Liste von modernen linguistischen Ressourcen","archived":false,"fork":false,"pushed_at":"2015-07-18T15:34:08.000Z","size":772,"stargazers_count":7,"open_issues_count":1,"forks_count":18,"subscribers_count":8,"default_branch":"master","last_synced_at":"2025-01-26T06:25:17.550Z","etag":null,"topics":[],"latest_commit_sha":null,"homepage":null,"language":null,"has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"mit","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/arbox.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null}},"created_at":"2015-05-22T11:15:19.000Z","updated_at":"2023-05-12T11:44:16.000Z","dependencies_parsed_at":"2022-09-03T22:23:25.552Z","dependency_job_id":null,"html_url":"https://github.com/arbox/corpora","commit_stats":null,"previous_names":[],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/arbox%2Fcorpora","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/arbox%2Fcorpora/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/arbox%2Fcorpora/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/arbox%2Fcorpora/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/arbox","download_url":"https://codeload.github.com/arbox/corpora/tar.gz/refs/heads/master","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":244776273,"owners_count":20508503,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":[],"created_at":"2024-11-27T15:20:18.930Z","updated_at":"2026-01-04T07:54:27.515Z","avatar_url":"https://github.com/arbox.png","language":null,"funding_links":[],"categories":[],"sub_categories":[],"readme":"# Introduction: Corpora of (modern) German\nEine annotierte Liste von modernen linguistischen Ressourcen\n\n## Table of Contents\n * [Alcohol Language Corpus - ALC]()\n * [Deutscher Wortschatz]()\n * [Deutsches Referenzkorpus (DeReKo)]()\n * [DIRNDL-Korpus]()\n * [DWDS-Kernkorpus]()\n * [DWDS-Kernkorpus des 20./21. Jahrhunderts]()\n * [Falko]()\n * [HEMPEL]()\n * [KiezDeutsch-Korpus (KiDKo)]()\n * [SmartKom]()\n * [TüBa-D/S]()\n * [TüBa-D/Z]()\n * [Wikipedia-Korpus (DeReKo - W - wpd11)]()\n\n## Review Structure\n\n## Liste der Quellen\n - Clemens Ahrens: DWDS-Kernkorpus\n - Andrei Beliankou: TüBa-D/Z\n - Juliane Bredack: Deutsches Referenzkorpus (DeReKo)\n - Pia Chau: TüBa-D/S\n - Roman Dawidow: DWDS Kernkorpus des 20./21. Jahrhunderts\n - Katharina Dietz: Wikipedia-Korpus (DeReKo - Tagged C)\n - Gulchehra Kahhorova: SmartKom\n - Melanie Kleefisch: DIRNDL-Korpus\n - Nikola Koczuba: EK-Korpus (Elizitierte Konfliktgespräche)\n - Christina Lang: OS-Korpus (Deutsche Mundarten: ehemalige deutsche Ostgebiete)\n - Stephan Lehmler: Alcohol Language Corpus - ALC\n - Sarah Schneider: TIGER-Baumbank\n - Ursula Schultze: Deutscher Wortschatz\n - Julian Stawecki: Falko\n - Constanze Tress: KiezDeutsch-Korpus (KiDKo)\n - Jingmin Wang:\n\n## DWDS-Kernkorpus\n\n### Materialquelle\n\t- Zeitung\t\t\t\tca. 27%\n\t- Belletristik\t\t\tca. 26%\n\t- Wissenschaft\t\t\tca. 22%\n\t- Gebrauchsliteratur\tca. 20%\n\t- Transkribierte Texte\tca. 05%\n\n### Datum\nlaufendes Projekt\n\n### Korpusumfang\n\t- Tokens: 122.816.010\n\t- Tokens ohne Zahlen und Satzzeichen: 100.600.993\n\t- Types: 2.224.542\n\t- Dokumente: 79.830\n\n### Annotationsebenen\n\t- Morphologie (TAGH-Morphologie, DWDS-Eigennamenerkenner)\n\t- Syntax (Dependenzparser SynCoP)\n\n### Formate\nXML, nach TEI-Richtlinien\n\n### Lizenz\nNutzungsvereinbarung mit Verlagen und privaten Textgebern, d.h Registrierung für einige Texte notwendig\t\n\n### Beispiele\n```\nAbfrage: Linguistik\nFilter aktiv: \nSortierung: desc_date\n\nTrefferanzahl: 136 Sätze, davon anzeigbar: 115 Sätze\n\n\n1.)\t1999\tGebrauchsliteratur\tSchwanitz, Dietrich, Bildung, Frankfurt a.M.: Eichborn 1999, S. 356\n\nSie wurde erst von dem Begründer der modernen _\u0026_\u0026Linguistik\u0026_\u0026_ gemacht , dem Schweizer Ferdinand de Saussure .\n\n\n2.)\t1998\tWissenschaft\tFath, Rolf, Reclams Lexikon der Opernwelt Band 2, Stuttgart: Reclam 1998, S. 3078\n\nAb 1971 studierte er in Paris vergleichende Literatur und _\u0026_\u0026Linguistik\u0026_\u0026_ an der École des langues orientales sowie Komposition am Pariser Konservatorium , wo er 1977 den Kompositionspreis von Olivier Messiaens Klasse erhielt .\n```\n### Einsatzmöglichkeiten\nWörterbuchanalyse (Bedeutung, Etymologie, Synonymie,...)\nBelegermittlung\t\nStatistische Auswertungen:\n\t- DWDS-Wortprofil: syntaktische Relationen\n\t- DWDS-Wortverlaufskurve: zeitlicher Verlauf der Vorkommenshäufigkeit, auch nach Textsorten\n\n## Tüba-D/Z\n\n### Materialquelle\n  z.B. Zeitungstexte\n### Datum\n  z.B. 12.2014\n### Korpusumfang\n  z.B 70.000 Sätze\n### Annotationsebenen\n  z.B. Morphologie, Syntax\n### Formate\n  z.B. Folia-XML\n### Lizenz\n  z.B. GPL 3\n### Beispiele\n  z.B. `An/APPR der/ART Oder/NE wurde/VAFIN er/PPER dann/ADV verwendet/VVPP ./$.`\n### Einsatzmöglichkeiten\n  z.B. Trainieren von statistischen syntaktischen Parsern\n\n## DeReKo\n\n### Materialquelle\n- deutschsprachige Textkorpora\n- belletristische, wissenschaftliche und populärwissenschaftliche Texte, auch Zeitungstexte (vollständig und unveränderte Texte)\n- mitte 20. Jahrhundert (Texte ab 1956) bis Gegenwart\n- Korpus ist in eine Menge von Unterkorpora aufgeteilt, weltweit größte Sammlung deutschsprachiger Korpora\n\n### Datum\nStand 15.09.2014\n\n### Korpusumfang\n- 25 Milliarden Wörter\n- 86 Teilkorpora in 9 Archiven organisiert\n\n### Annotationsebenen\n- morphosyntaktische Annotation\n- Machinese Phrase Tagger, TreeTagger, Xerox FST\n\n### Formate\n- von Verlagen, Autoren gelieferte Texte in das IDS-Textmodell überführen\n- große Mengen sehr heterogener Daten in mehreren Arbeitsschritten analysiert und aufwärts konvertiert\n- Dokumentgrammatik I5\n\t- i5.odd\tODD-File mit der TEI P5-Customisierung von I5\n\t- i5.dtd\tDurch Roma-Stylesheets abgeleitete DTD\n\t- i5.html\tDurch projekt-spezifisches Stylesheet aus i5.odd abgeleitete HTML-Dokumentation\n\t- i5.xhtml\tDurch Roma-Stylesheets aus i5.odd abgeleitete HTML-Dokumentation\n\n### Lizenz\n- enthält nur lizenziertes Material\n- nicht zum Download verfügbar, keine kommerzielle Nutzung, dient ausschließlich zu Forschungszwecken\n- es bestehen Lizenzverträge zwischen Autoren und Verlagen\n- alle Korpora IDS-intern und Teile dieser Korpora weltweit öffentlich nutzbar\n\n### Beispiele\n\\par HMP09                 Russlands Gasmonopolist {\\b Gazprom} pumpt weiter Gas in separaten Pipelines\n\n\\par HMP08  PR-Strategie von Apple, mit der es der {\\b kalifornische Computerkonzern} schaffte, seinen\n\\par HMP08               schaffte, seinen iPod zum {\\b erfolgreichsten Musik-Player} der Welt zu machen.\n\n### Einsatzmöglichkeiten\n- über COSMAS II (Corpus Search Management and Analysis Tool)\n- komplexe Kollokationsanalysen\n- linguistische Forschung am IDS\n- Germanistikforschung\n- interdisziplinäre Untersuchungen, Fachgebiete Psychologie, Neurologie, Kognitionswissenschaft, Sprachtherapie, Kommunikations- und Medienwissenschaft und Statistik\n\n## TüBa-D/S\n\n### Materialquelle\n spontansprachliche, manuell transliterierte Dialoge\n\n### Datum\n September 2000\n\n### Korpusumfang\n ca. 38.000 Sätze bzw. 360.000 Wörter\n\n### Annotationsebenen\n- lexikalische Ebene\n- phrasale Ebene\n- Ebene der topologischen Felder\n- Satzebene\n\n### Formate\n - Negra Export Format (ps)\n - XML Format\n - Penn Treebank Format\n\n### Beispiele\n\n### Einsatzmöglichkeiten\n linguistische Forschung\n\n## DWDS Kernkorpus des 20./21. Jahrhunderts\n\n### Materialquelle\n- Belletristik (ca. 26%)\n- Zeitung (ca. 27%)\n- Wissenschaft (ca. 22%)\n- Gebrauchsliteratur (ca. 20%)\n- (Transkribierte) Texte gesprochener Sprache (ca. 5%)\n\n### Datum\n- befindet sich im Aufbau\n\n### Korpusumfang\n- Zwanzigstes Jahrhundert\n-\u003e Anzahl fortlaufender Textwörter (Tokens) - gesamt: 122.816.010\n-\u003e Anzahl fortlaufender Textwörter (Tokens) ohne Zahlen und Satzzeichen: 100.600.993\n-\u003e Anzahl verschiedener Wörter (Types): 2.224.542\n-\u003e Anzahl Dokumente: 79.830\n\n- Einundzwanzigstes Jahrhundert\n-\u003e Anzahl fortlaufender Textwörter (Tokens): 1.812.243\n-\u003e Anzahl fortlaufender Textwörter (Tokens) ohne Zahlen und Satzzeichen: 1.500.844\n-\u003e Anzahl der Sätze: 112.683\n\n### Annotationsebenen\n- morphosyntaktisch (STTS)\n- syntaktisch\n\n### Formate\n- XML\n\n### Lizenz\n- Nutzungsvereinbarung mit Verlagen:\n-\u003e Diogenes Verlag, Eichborn \n-\u003e S. Fischer Verlagsgruppe\n-\u003e Hoffmann \u0026 Campe\n-\u003e Kiepenheuer \u0026 Witsch \n-\u003e K.G. Saur Verlag\n-\u003e Spiegel \n-\u003e Ullstein\n-\u003e ZEIT \n\n- Nutzungsvereinbarung mit privaten Textgebern:\n-\u003e Deutsches Rundfunkarchiev, Digitale Bibliothek\n\n- Zur vollständigen Nutzung ist eine Registrierung auf der Webseite erforderlich\n\n### Beispiele\nsiehe: \n- http://www.dwds.de/?qu=\n- http://zwei.dwds.de/r\n\n\n### Einsatzmöglichkeiten\n- linguistische Forschung\n\n\n## Wikipedia-Korpus (DeReKo - Tagged C)\n\n### Materialquelle\nWikipedia-Artikel von 2005\n\n### Korpusumfang\nTexte: 196 854\nWörter: 54 041 081\n\n### Annotationsebenen\nLiegt im Archiv Tagged-C vor → annotiert durch den Tagger Connexor mit dem Tagset Connexor. Dabei handelt es sich um morphosyntaktische Annotationen\nAußerdem annotiert durch den TreeTagger (POS) und den Machinese Phrase Tagger (POS)\n\n### Formate\nDas IDS-Textmodell:\ni5.odd\ni5.dtd\ni5.html\ni5.xhtml\n\n### Lizenz\nKeine Herausgabe der Korpustexte, sondern nur Zugriff über CosmasII\n\n### Beispiele\n```\nWPD   Band 2003 sogar möglich eine Tour durch \u003cB\u003eJapan\u003c/\u003e zu machen, wo sie ebenfalls viele Fans\n```\n\n### Einsatzmöglichkeiten\nTraining von Parsern, Linguistische Untersuchungen zu Schriftsprache im Internet, empirische Grundlage für verschiedene linguistische Forschungsarbeiten\n\n\n## SmartKom\n\n### Materialquelle\nVideo- und Audioaufnahmen: 448 multimodale Aufnahmen ('Sessions') von 224 Versuchspersonen, 1 Session = ca. 4,5 min\n\n### Datum\n* Start: 01.09.1999\n* Abgeschlossen: 30.09.2003\n* letzte Aktualisierung: 29.02.2012\n\t\n### Korpusumfang\n* SmartKom Public / SKP 2.2 - 96 Sprecher - 172 Aufnahme-Sessions - Szenario: Public - Domänen: 'Cinema', 'Fax' (Hauptanwendung) und 'Restaurant', 'Telephone', 'Email' (Nebenanwendung)\n* SmartKom Mobil / SKM 1.2 - 73 Sprecher - 146 Aufnahme-Sessions - Szenario: Mobil - Domänen: 'Sehenswürdigkeiten', 'Navigation' (Hauptanwendung) und 'Telephon', 'Parkplatzsuche' (Nebenanwendung)\n* SmartKom Home / SKH 1.1 - 65 Sprecher - 130 Aufnahme-Sessions - Szenario: Home - Domänen: 'Fernsehen', 'Video' (Hauptanwendung) und 'Terminplanung', 'Musikauswahl' (Nebenanwendung)\n* SmartKom Audio / SKAUDIO 1.1 - Sonderausgabe aller Audio-Kanäle der SmartKom Korpora - 224 Sprecher - 448 Aufnahme-Sessions - Szenario: Public, Home, Mobil\n\n### Annotationsebenen\n* Transliteration (orthographische und prosodische Transkription, automatische Validation)\n* 2D Gestik (Emotion- und Gestik-Labeling)\n* User-State\n* Turn-Segmentierung\n\n### Formate\n* Audio- und Videoformate, verfügbar auf DVD\n\n### Lizenz\nCOPYRIGHT Universität München\n\t\n### Beispiele\n- SmartKom Public Aufnahme (AVI, 320MB) - w406_pxg: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/w406_pxg.avi\n  SK Public, Vierfachansicht (G track): Gesicht, Seite, System-Output + SIVIT, SIVIT (Infrarot), Domain: Hotel, Fax, Telefon, Restaurant, Navigation.\n- Transkript - w406_px.trl: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/w406_px.trl\n- Recording Protocol - w406_px.rpr: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/w406_px.rpr\n- Speaker Protocol - AJK.spr: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/AJK.spr\n\n### Einsatzmöglichkeiten\n* Untersuchung der Mensch-Maschine-Interaktion\n* Auf dem Korpus-Basis von SmartKom wurden 3 Multimodale Dialogsysteme aufgebaut:\n- SmartKom-Public: Multimodale Kommunikationszelle, Informationskiosk\n- SmartKom-Mobil: Mobiler Kommunikationsassistent\n- SmartKom-Home: Intuitives Arbeiten mit dem Computer\n\n\n## DIRNDL-Korpus\n\n### Materialquelle\n\n- DIRNDL =(D)iskurs-(I)nformations-(R)adio-(N)achrichten-(D)atenbank für (L)inguistische Analysen\n\t\n- stündlich gesendete Radio-Nachrichten von \"Deutschland-Radio\n- mündliche und schriftliche Versionen\n\n### Datum\n\n1. release: 2012 \n2. release: 26.-31. Mai 2014 \n\n### Korpusumfang\n\t\n- ca. 50.000 Wörter\n- Audiodateien im Umfang von ca. 5 Stunden (vom 25.- 27.03.2007)\n- 9 Sprecher (5 m, 4 w)\n- schriftliche Manuskripte, bestehend aus insgesamt 3221 Sätzen\n\n### Annotationsebenen\n\n1. release (DIRNDL)\n- schriftlich: Syntax mithilfe des XLE Parsers, Informationsstatus (Grad an Gegebenheit: gegebene o. neue Information)(automatisch)\n- mündlich: pitch-Akzente und prosodische Phrasengrenzen mithilfe von GToBI (manuell)\n\n- außerdem: Verbindung zwischen mündlich und schriftlich (mithilfe von relational\n- database management system PostgreSQL)\n--\u003e Vergleich zwischen einzelnen Ebenen, z.B. Zusammenhang zwischen Prosodie und Syntax \n\t\n2. release (extended version: DIRNDL anaphora)\n- zusätzlich coreference, part-of-speech und morphologische tags, Dependenz, Named-Entities\n\n### Formate\n\n- TIGER-XML mithilfe von TIGERRegistry\n- GrAF XML\n- konvertierbar in verschiedene tool input-Formate. z.B. PAULA XML\n\t\n- verfügbar in Tabellenformaten\n- SemEval\n- CoNLL\n\n### Lizenz\n\nfrei verfügbar unter http://www.ims.uni-stuttgart.de/data/dirndl\n\n### Beispiele\n```\n\t#begin document dlf-nachrichten-200703250000 (part 000)\n\tdlf-nachrichten-200703250000  0  1   1  Der             der             ART     case=nom|number=sg|gender=masc            *        2  NK  (VROOT(S(NP*    |NONE|     NONE  -          (R-UNUSED-KNOWN$2    (1\n\tdlf-nachrichten-200703250000  0  1   2  Iran            iran            NE      case=nom|number=sg|gender=masc            *        3  SB             *)   |H*L|      NONE  (L-NEW$1)  R-UNUSED-KNOWN$2)    1)\n\tdlf-nachrichten-200703250000  0  1   3  will            wollen          VMFIN   number=sg|person=3|tense=pres|mood=ind    *        0  --             *    |NONE|     NONE  -          -                    - \n\t\t   -                    - \n\t...\n\t----------------------------------\n\n\tdlf-nachrichten-200703250000  0  3   1  Der             der             ART    case=nom|number=sg|gender=masc             *        2  NK  (VROOT(S(NP*     |NONE|      NONE  -                             (R-UNUSED-KNOWN$7                        - \n\tdlf-nachrichten-200703250000  0  3   2  Westen          westen          NN     case=nom|number=sg|gender=masc             *        3  SB             *)    |L*H|       -     (L-NEW$16)                    R-UNUSED-KNOWN$7)                        - \n\tdlf-nachrichten-200703250000  0  3   3  verdächtigt     verdächtigen    VVFIN  number=sg|person=3|tense=pres|mood=ind     *        0  --             *     |NONE|      NONE  (L-NEW$15)                    -                                        - \n\tdlf-nachrichten-200703250000  0  3   4  den             der             ART    case=acc|number=sg|gender=masc             *        5  NK          (NP*     |NONE|      NONE  -                             (R-GIVEN$12                              (1\n\tdlf-nachrichten-200703250000  0  3   5  Iran            iran            NE     case=acc|number=sg|gender=masc             *        3  OA             *))   |L*H|       -     (L-GIVEN-SAME$19$1-2-2)       R-GIVEN$12)                              1)\n\tdlf-nachrichten-200703250000  0  3   6  ,               --              $,     _                                          *        3  --             *     N/A         N/A   -  \n\n\t...                           -                                        - \n```\n### Einsatzmöglichkeiten\n\n- Evaluation von automatischen Koreferenz- und Bridging-Lösungen\n- Bedeutungsunterschiede aufgrund von Prosodie (Informationsstatus)\n- Trainingskorpus für automatisches Prosodie-Annotationen\n\t\n## Elizitierte Konfliktgespräche (EK)\n### Materialquelle\n Aufnahmen von Konfliktgesprächen zwischen Müttern und ihren Töchtern\n### Datum\n15.3.1988-30.6.1992\n### Korpusumfang\n- 138 Aufnahmen von 214 Sprecherinnen, Gesamtdauer 12h 23min\n- 138 Transkripte (162123 Tokens)\n\n### Annotationsebenen\n- orthographische Transkription (Partiturschreibweise) mit zusätzlichen Notationen\n- Metadaten\n- Themenliste\n\n### Formate\n- Audio: RIFF-WAVE (PCM) 44.100 Hz 16Bit\n- Transkripte: PDF (UTF-8)\n\n###Lizenz\nnach einmaliger Registrierung webbasierter Zugriff auf ausgewählte Teile der Sammlung des Archivs für Gesprochenes Deutsch (AGD) für die Verwendung in Forschung und Lehre\nhttp://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.welcome\n### Beispiele\nhttp://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.corpora?v_session_id=EB1B4C7CC2EA5C6ECF2E9BDEBB72691C\u0026v_doctype=e\u0026v_corpus=EK--\u0026v_doc_id=EK--_E_00001\n\n### Einsatzmöglichkeiten\n- Diskurs-/Gesprächsanalyse\n- pädagogischer Kontext\n\n## ...\n\n## ...\n\n## Alcohol Language Corpus - ALC\n\n### Materialquelle\n  Laboraufnahmen nüchterner und betrunkener Versuchspersonen.\n### Datum\n  erste komplette Version: 04.11.2010, letztes Update(version 2.4): 02.12.2014\n### Korpusumfang\n  15180 Aufnahmen von 162 Sprechern. Insgesamt 1456556 phonetische Segmente.\n### Annotationsebenen\n  Metadaten(Datum, Sprecher, Blutalkoholwert etc.), phonetische Segmentierung, orthografische Transkription, kanonische Aussprache,\n  Fehler/Normabweichungen(Abbrüche, dialektale Merkmale,unverständliche Wörter, Störgeräusche etc.), Kommentare\n### Formate\n  BAS Partitur Format,TextGrid, Emu hierarchical database files, Metadaten: SpeechDat, Audio: WAVE RIFF 44100Hz 16bit\n### Lizenz\n  COPYRIGHT University of Munich\n### Beispiele\n```\nz.B. die K\"ochin mit dem -/#Tufenk/- -/#tu/- -/#topf/- \u003c\"ah\u003e -/#Tupfenkoch/- \u003cP\u003e Tupfenkopftuch kocht Karpfen in dem Kupferkochtopf\n```\n### Einsatzmöglichkeiten\n  z.B. Automatische Erfassung des Sprecherzustandes; Phonetische oder psycholinguistische Studien\n\n## TIGER\n### Materialquelle\nZeitungstexte der Frankfurter Rundschau\n\n### Datum\n1999-2004\n\n### Korpusumfang\n900,000 Tokens, 50,000 Sätze\n\n### Annotationsebenen\nWortart, Lemma, Morphosyntax (STTS)\nPhrasenkategorien: S, NP, VP, …\nSyntaktische Funktionen: Subjekt, Objekt, Relativsatz, …\n\n### Formate\nTIGER-XML Format\nNegra export Format\n\n### Lizenz\nfrei zugänglich\nLizenzvereinbarungen:\nhttp://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/TIGERCorpus/license/htmlicense.html\n\n### Beispiele\n\n(im TIGER-xml Format)\n\n``` bash\n\u003cterminals\u003e\n \u003ct id=\"s4228_1\" word=\"In\" pos=\"APPR\" /\u003e\n \u003ct id=\"s4228_2\" word=\"Japan\" pos=\"NE\" /\u003e\n \u003ct id=\"s4228_3\" word=\"wird\" pos=\"VAFIN\" /\u003e\n \u003ct id=\"s4228_4\" word=\"offenbar\" pos=\"ADJD\" /\u003e\n \u003ct id=\"s4228_5\" word=\"die\" pos=\"ART\" /\u003e\n \u003ct id=\"s4228_6\" word=\"Fusion\" pos=\"NN\" /\u003e\n \u003ct id=\"s4228_7\" word=\"der\" pos=\"ART\" /\u003e\n \u003ct id=\"s4228_8\" word=\"Geldkonzerne\" pos=\"NN\" /\u003e\n \u003ct id=\"s4228_9\" word=\"Daiwa\" pos=\"NE\" /\u003e\n \u003ct id=\"s4228_10\" word=\"und\" pos=\"KON\" /\u003e\n \u003ct id=\"s4228_11\" word=\"Sumitomo\" pos=\"NE\" /\u003e\n \u003ct id=\"s4228_12\" word=\"zur\" pos=\"APPRART\" /\u003e\n \u003ct id=\"s4228_13\" word=\"größten\" pos=\"ADJA\" /\u003e\n \u003ct id=\"s4228_14\" word=\"Bank\" pos=\"NN\" /\u003e\n \u003ct id=\"s4228_15\" word=\"der\" pos=\"ART\" /\u003e\n \u003ct id=\"s4228_16\" word=\"Welt\" pos=\"NN\" /\u003e\n \u003ct id=\"s4228_17\" word=\"vorbereitet\" pos=\"VVPP\" /\u003e\n \u003ct id=\"s4228_18\" word=\".\" pos=\"$.\" /\u003e\n\u003c/terminals\u003e\n\n \u003cterminals\u003e\n      \u003ct id=\"s4231_1\" word=\"In\" lemma=\"in\" pos=\"APPR\" morph=\"--\" /\u003e\n      \u003ct id=\"s4231_2\" word=\"Japan\" lemma=\"Japan\" pos=\"NE\" morph=\"Dat.Sg.Neut\" /\u003e\n      \u003ct id=\"s4231_3\" word=\"wird\" lemma=\"werden\" pos=\"VAFIN\" morph=\"3.Sg.Pres.Ind\" /\u003e\n      \u003ct id=\"s4231_4\" word=\"offenbar\" lemma=\"offenbar\" pos=\"ADJD\" morph=\"Pos\" /\u003e\n      \u003ct id=\"s4231_5\" word=\"die\" lemma=\"der\" pos=\"ART\" morph=\"Nom.Sg.Fem\" /\u003e\n      \u003ct id=\"s4231_6\" word=\"Fusion\" lemma=\"Fusion\" pos=\"NN\" morph=\"Nom.Sg.Fem\" /\u003e\n      \u003ct id=\"s4231_7\" word=\"der\" lemma=\"der\" pos=\"ART\" morph=\"Gen.Pl.Masc\" /\u003e\n      \u003ct id=\"s4231_8\" word=\"Geldkonzerne\" lemma=\"Geldkonzern\" pos=\"NN\" morph=\"Gen.Pl.Masc\" /\u003e\n      \u003ct id=\"s4231_9\" word=\"Daiwa\" lemma=\"Daiwa\" pos=\"NE\" morph=\"Nom.Sg.*\" /\u003e\n      \u003ct id=\"s4231_10\" word=\"und\" lemma=\"und\" pos=\"KON\" morph=\"--\" /\u003e\n      \u003ct id=\"s4231_11\" word=\"Sumitomo\" lemma=\"Sumitomo\" pos=\"NE\" morph=\"Nom.Sg.*\" /\u003e\n      \u003ct id=\"s4231_12\" word=\"zur\" lemma=\"zu\" pos=\"APPRART\" morph=\"Dat.Sg.Fem\" /\u003e\n      \u003ct id=\"s4231_13\" word=\"größten\" lemma=\"groß\" pos=\"ADJA\" morph=\"Sup.Dat.Sg.Fem\" /\u003e\n      \u003ct id=\"s4231_14\" word=\"Bank\" lemma=\"Bank\" pos=\"NN\" morph=\"Dat.Sg.Fem\" /\u003e\n      \u003ct id=\"s4231_15\" word=\"der\" lemma=\"der\" pos=\"ART\" morph=\"Gen.Sg.Fem\" /\u003e\n      \u003ct id=\"s4231_16\" word=\"Welt\" lemma=\"Welt\" pos=\"NN\" morph=\"Gen.Sg.Fem\" /\u003e\n      \u003ct id=\"s4231_17\" word=\"vorbereitet\" lemma=\"vorbereiten\" pos=\"VVPP\" morph=\"Psp\" /\u003e\n      \u003ct id=\"s4231_18\" word=\".\" lemma=\"--\" pos=\"$.\" morph=\"--\" /\u003e\n    \u003c/terminals\u003e\n```\n### Einsatzmöglichkeiten\n\n\n\n## Deutscher Wortschatz\n\n### Materialquelle\n    Zeitungstexte, Webseiten, Wikipedia\n### Datum\n\t* Start des Projekts: 1997\n\t* Hochzeit: 2001\n\t* heute abgeschlossen, wird nur noch gepflegt bzw. Material gesammelt\n### Korpusumfang\n\tVerfügbar sind 233 Korpus-basierte monolinguale Wörterbücher in 219 Sprachen\n\tBeispiele der Korpusgröße verschiedener Sprachen:\n\t| Deutsch             | Englisch            | Französisch           | Spanisch            | Chinesisch            | Okzitansisch (nach 1500) |\n\t|---------------------|---------------------|-----------------------|---------------------|-----------------------|--------------------------|\n\t| Material: 2011      | Material: 2002      | Material: 2012        | Material: 2011      | Material: 2007 - 2009 | Material: 2007           |\n\t| Sätze: 26.142.898   | Sätze: 49.628.893   | Sätze: 74.823.426     | Sätze: 16.899.636   | Sätze: 19.308.704     | Sätze: 16.895            |\n\t| Types: 5.876.655    | Types: 4.785.862    | Types: 7.873.935      | Types: 1.913.986    | Types: 1.295.315      | Types: 44.064            |\n\t| Tokens: 425.703.278 | Tokens: 926.766.504 | Tokens: 1.468.766.604 | Tokens: 391.044.224 | Tokens: 575.138.135   | Tokens: 301.449          |\n\n### Annotationsebenen\n* Wortfrequenzen\n* Beispielsätze\n* Kookkurenzen (basierend auf left- und right-neighbours in jeweiligem Satz)\n* Semantic map-Visualisierung der Kookkurenzen\n* Synonyme\n* Dornseiff-Sets (Sachgruppen)\n\n### Formate\n* Online: http://wortschatz.uni-leipzig.de/\n* PDML (Presentation model description language)\n### Lizenz\n\tCopyright Leipzig Corpora Collection\n### Beispiele\n\n* Ursula: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011\u0026word=Ursula\n* Haus: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011\u0026word=Haus\n* Hausarbeit: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011\u0026word=Hausarbeit\n\n### Einsatzmöglichkeiten\n\tNachschlagewerk, kontrastive Linguistik, quantitative Linguistik\n\n## Falko\n\n### Materialquelle\n- handschriftlich und digital verfasste Texte von fortgeschrittenen Lernern und Muttersprachlern der deutschen Sprache\n- Texte: Zusammenfassungen, argumentative Aufsätze\n- Themen: Feminismus, Entlohnung, Studium, Kriminalität\n- Muttersprachen L2: über 35, davon die größten Gruppen in Englisch, Französisch, Russisch und Polnisch\n- Voraussetzungen der Textproduktion: Keine Hilfsmittel, 90 Minuten Bearbeitungszeit\n  \n### Datum\n- Beginn der Datenerhebungen (seit 2004)\n- FALKO Version 1 (18. Oktober 2007)\n- FALKO Version 2 (26. September 2012)\n  \n### Korpusumfang\nGesamtkorpus besteht aus 6 Subkorpora (insgesamt 381.447 Tokens)\n\n- Lernerkorpus\n - FalkoSummaryL2 V1.2 (98 Lerner, 107 Texte, 40.923 Tokens)\n - FalkoEssayL2 V2.3 (186 Lerner, 248 Texte, 122.778 Tokens)\n - FalkoEssayL2WHIG V2.0 (117.189 Tokens)\n- Kontrollkorpus Muttersprache\n - FalkoSummaryL1 V1.2 (33 Muttersprachler, 36 Texte, 21.184 Tokens)\n - FalkoEssayL1 V2.3 (95 Muttersprachler, 95 Texte, 68.491 Tokens)\n- Vorlagenkorpus\n - FalkoSummaryVL (12 Texte, 11.114 Tokens)\n- Metadaten: Muttersprache, Alter, Geschlecht, akademischer Hintergrund (Schule, Semester, Fach, etc.), Sprachbiografie (beherrschte Fremdsprachen, Zeitraum, Auslandsaufenthalte, etc.)\n\n  \n### Annotationsebenen\n- Wortarten und Lemmata\n- Zielhypothesen\n - minimale ZH: nah an Lernerstruktur: Orthographie, Morphosyntax\n - erweiterte ZH: nah an Lernerintention: Semantik, Pragmatik, Stilistik\n- Lernerfehler\n- korrigierte Wortarten\n- Kommentare des Transkribenten\n- Es besteht die Möglichkeit weitere Annotationsebenen zu ergänzen und ebenenunabhängig zu bearbeiten (multi-layer stand-off annotation)\n  \n### Formate\n- Zugang Online auf: http://korpling.german.hu-berlin.de/falko-suche/ (ANNIS3-Korpus-Suchtool)\n- Original-Textdokumente\n- Excel-Tabellen\n- PAULA-XML\n  \n### Lizenz\n- Creative Commons Namensnennung 3.0 Unported Lizenz\n- Info: https://creativecommons.org/licenses/by/3.0/deed.de\n\n### Beispiele\n\n\t| tok      | Sie      | haben     | sich      | dazu     | gewöhnt   |\n\t| ZH1      | Sie      | haben     | sich      | daran    | gewöhnt   |\n\t| ZH1Diff  |          |           |           | CHA      |           |\n\t| ZH1lemma | Sie/sie  | haben     | er/sie/es | daran    | gewöhnen  |\n\t| ZH1pos   | PPER     | VAFIN     | PRF       | PAV      | VVPP      |\n  \n  \n### Einsatzmöglichkeiten \n- Fehleranalyse (Abweichungen von der Zielsprache): Welche Fehler sind lernertypisch? Sind Fehler von der Muttersprache der Lerner abhängig?\n- Interlinguale kontrastive Untersuchungen: Vergleich von zielsprachlichen Strukturen (Grammatik) in der Zielsprache und der Muttersprache\n\n## KiezDeutsch-Korpus (KiDko)\n\n### Materialquelle\n\n#### 1.) Korpus \n- spoken language corpus \n- Informelle, spontansprachliche Gesprächsdaten von Berliner **Jugendlichen** nicht-deutscher Herkunftssprache (9. Klasse, 14-17 Jahren), **Selbstaufnahmen** im Freundeskreis\n- Sprachen: v.a. Deutsch und Türkisch\n\n#### 2.) thematische Klammer\n- **Kiezdeutsch/„hood German“** (Rehbein/Schalowski/Wiese 2014) als Multiethnolekt urbaner Lebensräume\n- Zentrale Elemente: Code-Mixing und –Switching,  Abweichungen vom Standard auf phonetischer, morphosyntaktischer und lexikalischer Ebene\n\n### Datum\n- ab 2008: Beginn Korpusaufbau (Audioaufnahmen, Transkription, POS-Tagging)\n- KiDKo Version 1.0: Frühling 2014\n- Aktuelle Projektphase: Syntaktische Aufbereitung (Annotation topologischer Felder)\n\n### Korpusumfang\n\n| Korpus | Beschreibung  |\n| ------------- | ----------- |\n| Hauptkorpus      | ~ 228.000 Token; rd. 48 h Aufnahmen, |\n                   | 17 Sprecher/innen, Multiethnisches Wohngebiet (Berlin-Kreuzberg) |\n| Kontrollkorpus     | ~ 105.000 Token; rd. 18 h Aufnahme |\t \t|\n\t\t| 6 Sprecher/innen (5 männlich, 1 weiblich) |\n              \t| Monoethnisches Wohngebiet (Berlin-Hellersdorf)|\n\n\n### Annotationsebenen\n\n| Kürzel | Beschreibung  |\n| ------------- | ----------- |\n| nv      | nonverbale Ebene |\n| v     | Transkriptionsebene (GAT2): Prosodische Merkmale (Betonungen u.a.) |\n| n\t| Normalisierungsebene (Default-Suche) |\n| POS      | Wortartenebene |\n\t   | - Erweiterung STTS für gesprochene Sprache (Partikel, Abbrüche) |\n\t   | - Entwicklung eines verbesserten Taggers für informelles gesprochenes Deutsch |\n| Tr     | türkische Transkriptionsebene |\n| trnorm    | türkische Normalisierungsebene |\n| trdtwwue      |deutsche Übersetzung (Wort für Wort) |\n| trdtue     | deutsche Übersetzung (frei) |\n\n#### Metainformationen: \nSprecherkürzel, Geschlecht, Alter, Wohngebiet, Familiensprache, dominante Sprache\n\n### Formate\nwav (audio), EXMARaLDA-XML  (EXMARaLDA Partitur Editor als Darstellungs- und Transkriptionssystem)\n\n### Lizenz\n- COPYRIGHT: SFB 632 Informationsstruktur, Universität Potsdam\n- Zugang zu den EXMARaLDA-Transkripten über ANNIS (Login-Daten auf Anfrage beim SFB 632: http://www.sfb632.uni-potsdam.de/b6/license.php) \n- Zugang zu den Audiodateien aus rechtlichen Gründen nur vor Ort \n\n### Beispiele\n\n- Suche nach türkischem Einzellemma: **tr=/lan/**\n\n![Einzellemma](/kidco1.jpg)\n\n- Suche nach POS-Tag-Abfolge: **POS=/ADV/ \u0026 POS=/ADJD/ \u0026 POS=/ADJD/ \u0026 #1 . #2 \u0026 #2 . #3**\n\n![POS-Tag-Abfolge](/kidco2.jpg)\n\n- Suche nach speziellem (Berliner) Kiezdeutsch-Phänomen (Koronalisierung): **n=“isch“**\n![Koronalisierung](/kidco3.jpg)\n\n Quelle: Rehbein/Schalowski/Wiese (2014)\n\n### Einsatzmöglichkeiten\n- *Nur bei Volltextrecherche*: Gesprächsforschung\n- *Nur bei Zugang zu kompletten Audiofiles*: Intonationsforschung\n- Trainingskorpus für POS-Tagger gesprochener Sprache\n- Soziolinguistik/Jugendsprache (auch kontrastiv)\n- Sprachkontaktforschung\n- Varietätenlinguistik/Ethnolektforschung\n- Gegenwärtiger Sprachwandel\n\n### Quellen\n\n#### Korpus\n- Wiese, H.;  Rehbein, I.; Schalowski, S.;  Freywald, U. \u0026 Mayr, K. (2010ff): KiDKo - Ein Korpus spontaner Unterhaltungen unter Jugendlichen im multiethnischen und monoethnischen urbanen Raum\n\n#### Literatur\n- Rehbein, I.; Schalowski, S. \u0026 Wiese, H. (2014): The KiezDeutsch Korpus (KiDKo) Release 1.0.\nIn: Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC), May 24-31, 2014. Reykjavik, Iceland. [verfügbar unter: http://www.sfb632.uni-potsdam.de/~rehbein/papers/lrec_camera-ready.pdf, Stand 1.7.2015]\n- Rehbein, I. \u0026 Schalowski, S. (2014): STTS goes Kiez ‐ Experiments on Annotating and Tagging Urban Youth Language.  Journal for Language Technology and Computational Linguistics 28: 199-227. [verfügbar unter: http://www.jlcl.org/2013_Heft1/8Rehbein.pdf, Stand 1.7.2015]\n- Rehbein, I. (2014): Wortartenannotation im Kiezdeutschkorpus (KiDKo 1.0) – Draft [verfügbar unter: http://www.kiezdeutschkorpus.de/files/kidko/downloads/POS-KiDKo.pdf, Stand 1.7.2015]\n\n\n## Deutsche Mundarten: ehemalige deutsche Ostgebiete (OS)\n\n### Materialquelle\n  - Geplante Tonbandaufnahmen ostdeutscher Mundarten (Arten: Erzählung, Vortrag, Vorlesen, Standardtext) in den jeweiligen Wohnungen der Sprecher\n  - Realisierung: Face-to-face\n  - 987 ältere Sprecher ost- und südostdeutscher Dialekte (Übersiedler), die den Sprachstand vor 1945 repräsentieren\n  \n### Datum\n  Tonbandaufnahmen von 1962-1965\n  \n### Korpusumfang\n  981 Aufnahmen (Gesamtdauer: 460 Stunden, 52 Minuten), einzelne Aufnahmen: 5 Minuten, 19 Sekunden bis 1 Stunde, 16 Minuten \n\n  280 Transkriptionen (mit dem Ton synchronisiert)\n  \n  Zusatzmaterial: \n  - Transkriptionskonventionen\n  - Themenliste\n  - Liste der sprachlichen Besonderheiten\n  - Wortlisten\n  - Lemmalisten\n  - Listen der Berufe der Sprecher\n\n### Annotationsebenen\n  - Transkription: an alter Ortografie orientierte hochsprachliche Übertragung\n  - Erläuterungen der Transkribenten\n  - Lemmatisierung\n  - POS-Tagging\n\n### Formate\nAudio: RIFF-WAVE RIFF (PCM) 44.100 Hz 16 Bit\n\nTranskripte: XML (UTF-8)\n\nZusatzmaterial: PDF (Ansi), TXT (UTF-8)\n  \n### Lizenz\n  nach Anmeldung frei zugänglich unter http://dgd.ids-mannheim.de \n### Beispiele\nhttp://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.corpora?v_session_id=91179580965177C175A8A4097C4104A9\u0026v_doctype=t\u0026v_corpus=OS--\u0026v_doc_id=OS--_E_00001_SE_01_T_01\n\nhttp://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.corpora?v_session_id=91179580965177C175A8A4097C4104A9\u0026v_doctype=z\u0026v_corpus=OS--\u0026v_doc_id=OS--_Z_07_Lemmaliste_Frequenz.txt\n\n### Einsatzmöglichkeiten\n- Dialektforschung\n- lexikalische Untersuchungen\n- linguistische Forschung\n\n## Copyright\n...\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Farbox%2Fcorpora","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Farbox%2Fcorpora","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Farbox%2Fcorpora/lists"}