https://github.com/arbox/corpora
Eine annotierte Liste von modernen linguistischen Ressourcen
https://github.com/arbox/corpora
Last synced: 6 months ago
JSON representation
Eine annotierte Liste von modernen linguistischen Ressourcen
- Host: GitHub
- URL: https://github.com/arbox/corpora
- Owner: arbox
- License: mit
- Created: 2015-05-22T11:15:19.000Z (about 11 years ago)
- Default Branch: master
- Last Pushed: 2015-07-18T15:34:08.000Z (almost 11 years ago)
- Last Synced: 2025-01-26T06:25:17.550Z (over 1 year ago)
- Size: 754 KB
- Stars: 7
- Watchers: 8
- Forks: 18
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# Introduction: Corpora of (modern) German
Eine annotierte Liste von modernen linguistischen Ressourcen
## Table of Contents
* [Alcohol Language Corpus - ALC]()
* [Deutscher Wortschatz]()
* [Deutsches Referenzkorpus (DeReKo)]()
* [DIRNDL-Korpus]()
* [DWDS-Kernkorpus]()
* [DWDS-Kernkorpus des 20./21. Jahrhunderts]()
* [Falko]()
* [HEMPEL]()
* [KiezDeutsch-Korpus (KiDKo)]()
* [SmartKom]()
* [TüBa-D/S]()
* [TüBa-D/Z]()
* [Wikipedia-Korpus (DeReKo - W - wpd11)]()
## Review Structure
## Liste der Quellen
- Clemens Ahrens: DWDS-Kernkorpus
- Andrei Beliankou: TüBa-D/Z
- Juliane Bredack: Deutsches Referenzkorpus (DeReKo)
- Pia Chau: TüBa-D/S
- Roman Dawidow: DWDS Kernkorpus des 20./21. Jahrhunderts
- Katharina Dietz: Wikipedia-Korpus (DeReKo - Tagged C)
- Gulchehra Kahhorova: SmartKom
- Melanie Kleefisch: DIRNDL-Korpus
- Nikola Koczuba: EK-Korpus (Elizitierte Konfliktgespräche)
- Christina Lang: OS-Korpus (Deutsche Mundarten: ehemalige deutsche Ostgebiete)
- Stephan Lehmler: Alcohol Language Corpus - ALC
- Sarah Schneider: TIGER-Baumbank
- Ursula Schultze: Deutscher Wortschatz
- Julian Stawecki: Falko
- Constanze Tress: KiezDeutsch-Korpus (KiDKo)
- Jingmin Wang:
## DWDS-Kernkorpus
### Materialquelle
- Zeitung ca. 27%
- Belletristik ca. 26%
- Wissenschaft ca. 22%
- Gebrauchsliteratur ca. 20%
- Transkribierte Texte ca. 05%
### Datum
laufendes Projekt
### Korpusumfang
- Tokens: 122.816.010
- Tokens ohne Zahlen und Satzzeichen: 100.600.993
- Types: 2.224.542
- Dokumente: 79.830
### Annotationsebenen
- Morphologie (TAGH-Morphologie, DWDS-Eigennamenerkenner)
- Syntax (Dependenzparser SynCoP)
### Formate
XML, nach TEI-Richtlinien
### Lizenz
Nutzungsvereinbarung mit Verlagen und privaten Textgebern, d.h Registrierung für einige Texte notwendig
### Beispiele
```
Abfrage: Linguistik
Filter aktiv:
Sortierung: desc_date
Trefferanzahl: 136 Sätze, davon anzeigbar: 115 Sätze
1.) 1999 Gebrauchsliteratur Schwanitz, Dietrich, Bildung, Frankfurt a.M.: Eichborn 1999, S. 356
Sie wurde erst von dem Begründer der modernen _&_&Linguistik&_&_ gemacht , dem Schweizer Ferdinand de Saussure .
2.) 1998 Wissenschaft Fath, Rolf, Reclams Lexikon der Opernwelt Band 2, Stuttgart: Reclam 1998, S. 3078
Ab 1971 studierte er in Paris vergleichende Literatur und _&_&Linguistik&_&_ an der École des langues orientales sowie Komposition am Pariser Konservatorium , wo er 1977 den Kompositionspreis von Olivier Messiaens Klasse erhielt .
```
### Einsatzmöglichkeiten
Wörterbuchanalyse (Bedeutung, Etymologie, Synonymie,...)
Belegermittlung
Statistische Auswertungen:
- DWDS-Wortprofil: syntaktische Relationen
- DWDS-Wortverlaufskurve: zeitlicher Verlauf der Vorkommenshäufigkeit, auch nach Textsorten
## Tüba-D/Z
### Materialquelle
z.B. Zeitungstexte
### Datum
z.B. 12.2014
### Korpusumfang
z.B 70.000 Sätze
### Annotationsebenen
z.B. Morphologie, Syntax
### Formate
z.B. Folia-XML
### Lizenz
z.B. GPL 3
### Beispiele
z.B. `An/APPR der/ART Oder/NE wurde/VAFIN er/PPER dann/ADV verwendet/VVPP ./$.`
### Einsatzmöglichkeiten
z.B. Trainieren von statistischen syntaktischen Parsern
## DeReKo
### Materialquelle
- deutschsprachige Textkorpora
- belletristische, wissenschaftliche und populärwissenschaftliche Texte, auch Zeitungstexte (vollständig und unveränderte Texte)
- mitte 20. Jahrhundert (Texte ab 1956) bis Gegenwart
- Korpus ist in eine Menge von Unterkorpora aufgeteilt, weltweit größte Sammlung deutschsprachiger Korpora
### Datum
Stand 15.09.2014
### Korpusumfang
- 25 Milliarden Wörter
- 86 Teilkorpora in 9 Archiven organisiert
### Annotationsebenen
- morphosyntaktische Annotation
- Machinese Phrase Tagger, TreeTagger, Xerox FST
### Formate
- von Verlagen, Autoren gelieferte Texte in das IDS-Textmodell überführen
- große Mengen sehr heterogener Daten in mehreren Arbeitsschritten analysiert und aufwärts konvertiert
- Dokumentgrammatik I5
- i5.odd ODD-File mit der TEI P5-Customisierung von I5
- i5.dtd Durch Roma-Stylesheets abgeleitete DTD
- i5.html Durch projekt-spezifisches Stylesheet aus i5.odd abgeleitete HTML-Dokumentation
- i5.xhtml Durch Roma-Stylesheets aus i5.odd abgeleitete HTML-Dokumentation
### Lizenz
- enthält nur lizenziertes Material
- nicht zum Download verfügbar, keine kommerzielle Nutzung, dient ausschließlich zu Forschungszwecken
- es bestehen Lizenzverträge zwischen Autoren und Verlagen
- alle Korpora IDS-intern und Teile dieser Korpora weltweit öffentlich nutzbar
### Beispiele
\par HMP09 Russlands Gasmonopolist {\b Gazprom} pumpt weiter Gas in separaten Pipelines
\par HMP08 PR-Strategie von Apple, mit der es der {\b kalifornische Computerkonzern} schaffte, seinen
\par HMP08 schaffte, seinen iPod zum {\b erfolgreichsten Musik-Player} der Welt zu machen.
### Einsatzmöglichkeiten
- über COSMAS II (Corpus Search Management and Analysis Tool)
- komplexe Kollokationsanalysen
- linguistische Forschung am IDS
- Germanistikforschung
- interdisziplinäre Untersuchungen, Fachgebiete Psychologie, Neurologie, Kognitionswissenschaft, Sprachtherapie, Kommunikations- und Medienwissenschaft und Statistik
## TüBa-D/S
### Materialquelle
spontansprachliche, manuell transliterierte Dialoge
### Datum
September 2000
### Korpusumfang
ca. 38.000 Sätze bzw. 360.000 Wörter
### Annotationsebenen
- lexikalische Ebene
- phrasale Ebene
- Ebene der topologischen Felder
- Satzebene
### Formate
- Negra Export Format (ps)
- XML Format
- Penn Treebank Format
### Beispiele
### Einsatzmöglichkeiten
linguistische Forschung
## DWDS Kernkorpus des 20./21. Jahrhunderts
### Materialquelle
- Belletristik (ca. 26%)
- Zeitung (ca. 27%)
- Wissenschaft (ca. 22%)
- Gebrauchsliteratur (ca. 20%)
- (Transkribierte) Texte gesprochener Sprache (ca. 5%)
### Datum
- befindet sich im Aufbau
### Korpusumfang
- Zwanzigstes Jahrhundert
-> Anzahl fortlaufender Textwörter (Tokens) - gesamt: 122.816.010
-> Anzahl fortlaufender Textwörter (Tokens) ohne Zahlen und Satzzeichen: 100.600.993
-> Anzahl verschiedener Wörter (Types): 2.224.542
-> Anzahl Dokumente: 79.830
- Einundzwanzigstes Jahrhundert
-> Anzahl fortlaufender Textwörter (Tokens): 1.812.243
-> Anzahl fortlaufender Textwörter (Tokens) ohne Zahlen und Satzzeichen: 1.500.844
-> Anzahl der Sätze: 112.683
### Annotationsebenen
- morphosyntaktisch (STTS)
- syntaktisch
### Formate
- XML
### Lizenz
- Nutzungsvereinbarung mit Verlagen:
-> Diogenes Verlag, Eichborn
-> S. Fischer Verlagsgruppe
-> Hoffmann & Campe
-> Kiepenheuer & Witsch
-> K.G. Saur Verlag
-> Spiegel
-> Ullstein
-> ZEIT
- Nutzungsvereinbarung mit privaten Textgebern:
-> Deutsches Rundfunkarchiev, Digitale Bibliothek
- Zur vollständigen Nutzung ist eine Registrierung auf der Webseite erforderlich
### Beispiele
siehe:
- http://www.dwds.de/?qu=
- http://zwei.dwds.de/r
### Einsatzmöglichkeiten
- linguistische Forschung
## Wikipedia-Korpus (DeReKo - Tagged C)
### Materialquelle
Wikipedia-Artikel von 2005
### Korpusumfang
Texte: 196 854
Wörter: 54 041 081
### Annotationsebenen
Liegt im Archiv Tagged-C vor → annotiert durch den Tagger Connexor mit dem Tagset Connexor. Dabei handelt es sich um morphosyntaktische Annotationen
Außerdem annotiert durch den TreeTagger (POS) und den Machinese Phrase Tagger (POS)
### Formate
Das IDS-Textmodell:
i5.odd
i5.dtd
i5.html
i5.xhtml
### Lizenz
Keine Herausgabe der Korpustexte, sondern nur Zugriff über CosmasII
### Beispiele
```
WPD Band 2003 sogar möglich eine Tour durch Japan> zu machen, wo sie ebenfalls viele Fans
```
### Einsatzmöglichkeiten
Training von Parsern, Linguistische Untersuchungen zu Schriftsprache im Internet, empirische Grundlage für verschiedene linguistische Forschungsarbeiten
## SmartKom
### Materialquelle
Video- und Audioaufnahmen: 448 multimodale Aufnahmen ('Sessions') von 224 Versuchspersonen, 1 Session = ca. 4,5 min
### Datum
* Start: 01.09.1999
* Abgeschlossen: 30.09.2003
* letzte Aktualisierung: 29.02.2012
### Korpusumfang
* SmartKom Public / SKP 2.2 - 96 Sprecher - 172 Aufnahme-Sessions - Szenario: Public - Domänen: 'Cinema', 'Fax' (Hauptanwendung) und 'Restaurant', 'Telephone', 'Email' (Nebenanwendung)
* SmartKom Mobil / SKM 1.2 - 73 Sprecher - 146 Aufnahme-Sessions - Szenario: Mobil - Domänen: 'Sehenswürdigkeiten', 'Navigation' (Hauptanwendung) und 'Telephon', 'Parkplatzsuche' (Nebenanwendung)
* SmartKom Home / SKH 1.1 - 65 Sprecher - 130 Aufnahme-Sessions - Szenario: Home - Domänen: 'Fernsehen', 'Video' (Hauptanwendung) und 'Terminplanung', 'Musikauswahl' (Nebenanwendung)
* SmartKom Audio / SKAUDIO 1.1 - Sonderausgabe aller Audio-Kanäle der SmartKom Korpora - 224 Sprecher - 448 Aufnahme-Sessions - Szenario: Public, Home, Mobil
### Annotationsebenen
* Transliteration (orthographische und prosodische Transkription, automatische Validation)
* 2D Gestik (Emotion- und Gestik-Labeling)
* User-State
* Turn-Segmentierung
### Formate
* Audio- und Videoformate, verfügbar auf DVD
### Lizenz
COPYRIGHT Universität München
### Beispiele
- SmartKom Public Aufnahme (AVI, 320MB) - w406_pxg: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/w406_pxg.avi
SK Public, Vierfachansicht (G track): Gesicht, Seite, System-Output + SIVIT, SIVIT (Infrarot), Domain: Hotel, Fax, Telefon, Restaurant, Navigation.
- Transkript - w406_px.trl: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/w406_px.trl
- Recording Protocol - w406_px.rpr: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/w406_px.rpr
- Speaker Protocol - AJK.spr: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/AJK.spr
### Einsatzmöglichkeiten
* Untersuchung der Mensch-Maschine-Interaktion
* Auf dem Korpus-Basis von SmartKom wurden 3 Multimodale Dialogsysteme aufgebaut:
- SmartKom-Public: Multimodale Kommunikationszelle, Informationskiosk
- SmartKom-Mobil: Mobiler Kommunikationsassistent
- SmartKom-Home: Intuitives Arbeiten mit dem Computer
## DIRNDL-Korpus
### Materialquelle
- DIRNDL =(D)iskurs-(I)nformations-(R)adio-(N)achrichten-(D)atenbank für (L)inguistische Analysen
- stündlich gesendete Radio-Nachrichten von "Deutschland-Radio
- mündliche und schriftliche Versionen
### Datum
1. release: 2012
2. release: 26.-31. Mai 2014
### Korpusumfang
- ca. 50.000 Wörter
- Audiodateien im Umfang von ca. 5 Stunden (vom 25.- 27.03.2007)
- 9 Sprecher (5 m, 4 w)
- schriftliche Manuskripte, bestehend aus insgesamt 3221 Sätzen
### Annotationsebenen
1. release (DIRNDL)
- schriftlich: Syntax mithilfe des XLE Parsers, Informationsstatus (Grad an Gegebenheit: gegebene o. neue Information)(automatisch)
- mündlich: pitch-Akzente und prosodische Phrasengrenzen mithilfe von GToBI (manuell)
- außerdem: Verbindung zwischen mündlich und schriftlich (mithilfe von relational
- database management system PostgreSQL)
--> Vergleich zwischen einzelnen Ebenen, z.B. Zusammenhang zwischen Prosodie und Syntax
2. release (extended version: DIRNDL anaphora)
- zusätzlich coreference, part-of-speech und morphologische tags, Dependenz, Named-Entities
### Formate
- TIGER-XML mithilfe von TIGERRegistry
- GrAF XML
- konvertierbar in verschiedene tool input-Formate. z.B. PAULA XML
- verfügbar in Tabellenformaten
- SemEval
- CoNLL
### Lizenz
frei verfügbar unter http://www.ims.uni-stuttgart.de/data/dirndl
### Beispiele
```
#begin document dlf-nachrichten-200703250000 (part 000)
dlf-nachrichten-200703250000 0 1 1 Der der ART case=nom|number=sg|gender=masc * 2 NK (VROOT(S(NP* |NONE| NONE - (R-UNUSED-KNOWN$2 (1
dlf-nachrichten-200703250000 0 1 2 Iran iran NE case=nom|number=sg|gender=masc * 3 SB *) |H*L| NONE (L-NEW$1) R-UNUSED-KNOWN$2) 1)
dlf-nachrichten-200703250000 0 1 3 will wollen VMFIN number=sg|person=3|tense=pres|mood=ind * 0 -- * |NONE| NONE - - -
- -
...
----------------------------------
dlf-nachrichten-200703250000 0 3 1 Der der ART case=nom|number=sg|gender=masc * 2 NK (VROOT(S(NP* |NONE| NONE - (R-UNUSED-KNOWN$7 -
dlf-nachrichten-200703250000 0 3 2 Westen westen NN case=nom|number=sg|gender=masc * 3 SB *) |L*H| - (L-NEW$16) R-UNUSED-KNOWN$7) -
dlf-nachrichten-200703250000 0 3 3 verdächtigt verdächtigen VVFIN number=sg|person=3|tense=pres|mood=ind * 0 -- * |NONE| NONE (L-NEW$15) - -
dlf-nachrichten-200703250000 0 3 4 den der ART case=acc|number=sg|gender=masc * 5 NK (NP* |NONE| NONE - (R-GIVEN$12 (1
dlf-nachrichten-200703250000 0 3 5 Iran iran NE case=acc|number=sg|gender=masc * 3 OA *)) |L*H| - (L-GIVEN-SAME$19$1-2-2) R-GIVEN$12) 1)
dlf-nachrichten-200703250000 0 3 6 , -- $, _ * 3 -- * N/A N/A -
... - -
```
### Einsatzmöglichkeiten
- Evaluation von automatischen Koreferenz- und Bridging-Lösungen
- Bedeutungsunterschiede aufgrund von Prosodie (Informationsstatus)
- Trainingskorpus für automatisches Prosodie-Annotationen
## Elizitierte Konfliktgespräche (EK)
### Materialquelle
Aufnahmen von Konfliktgesprächen zwischen Müttern und ihren Töchtern
### Datum
15.3.1988-30.6.1992
### Korpusumfang
- 138 Aufnahmen von 214 Sprecherinnen, Gesamtdauer 12h 23min
- 138 Transkripte (162123 Tokens)
### Annotationsebenen
- orthographische Transkription (Partiturschreibweise) mit zusätzlichen Notationen
- Metadaten
- Themenliste
### Formate
- Audio: RIFF-WAVE (PCM) 44.100 Hz 16Bit
- Transkripte: PDF (UTF-8)
###Lizenz
nach einmaliger Registrierung webbasierter Zugriff auf ausgewählte Teile der Sammlung des Archivs für Gesprochenes Deutsch (AGD) für die Verwendung in Forschung und Lehre
http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.welcome
### Beispiele
http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.corpora?v_session_id=EB1B4C7CC2EA5C6ECF2E9BDEBB72691C&v_doctype=e&v_corpus=EK--&v_doc_id=EK--_E_00001
### Einsatzmöglichkeiten
- Diskurs-/Gesprächsanalyse
- pädagogischer Kontext
## ...
## ...
## Alcohol Language Corpus - ALC
### Materialquelle
Laboraufnahmen nüchterner und betrunkener Versuchspersonen.
### Datum
erste komplette Version: 04.11.2010, letztes Update(version 2.4): 02.12.2014
### Korpusumfang
15180 Aufnahmen von 162 Sprechern. Insgesamt 1456556 phonetische Segmente.
### Annotationsebenen
Metadaten(Datum, Sprecher, Blutalkoholwert etc.), phonetische Segmentierung, orthografische Transkription, kanonische Aussprache,
Fehler/Normabweichungen(Abbrüche, dialektale Merkmale,unverständliche Wörter, Störgeräusche etc.), Kommentare
### Formate
BAS Partitur Format,TextGrid, Emu hierarchical database files, Metadaten: SpeechDat, Audio: WAVE RIFF 44100Hz 16bit
### Lizenz
COPYRIGHT University of Munich
### Beispiele
```
z.B. die K"ochin mit dem -/#Tufenk/- -/#tu/- -/#topf/- <"ah> -/#Tupfenkoch/-
Tupfenkopftuch kocht Karpfen in dem Kupferkochtopf
```
### Einsatzmöglichkeiten
z.B. Automatische Erfassung des Sprecherzustandes; Phonetische oder psycholinguistische Studien
## TIGER
### Materialquelle
Zeitungstexte der Frankfurter Rundschau
### Datum
1999-2004
### Korpusumfang
900,000 Tokens, 50,000 Sätze
### Annotationsebenen
Wortart, Lemma, Morphosyntax (STTS)
Phrasenkategorien: S, NP, VP, …
Syntaktische Funktionen: Subjekt, Objekt, Relativsatz, …
### Formate
TIGER-XML Format
Negra export Format
### Lizenz
frei zugänglich
Lizenzvereinbarungen:
http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/TIGERCorpus/license/htmlicense.html
### Beispiele
(im TIGER-xml Format)
``` bash
```
### Einsatzmöglichkeiten
## Deutscher Wortschatz
### Materialquelle
Zeitungstexte, Webseiten, Wikipedia
### Datum
* Start des Projekts: 1997
* Hochzeit: 2001
* heute abgeschlossen, wird nur noch gepflegt bzw. Material gesammelt
### Korpusumfang
Verfügbar sind 233 Korpus-basierte monolinguale Wörterbücher in 219 Sprachen
Beispiele der Korpusgröße verschiedener Sprachen:
| Deutsch | Englisch | Französisch | Spanisch | Chinesisch | Okzitansisch (nach 1500) |
|---------------------|---------------------|-----------------------|---------------------|-----------------------|--------------------------|
| Material: 2011 | Material: 2002 | Material: 2012 | Material: 2011 | Material: 2007 - 2009 | Material: 2007 |
| Sätze: 26.142.898 | Sätze: 49.628.893 | Sätze: 74.823.426 | Sätze: 16.899.636 | Sätze: 19.308.704 | Sätze: 16.895 |
| Types: 5.876.655 | Types: 4.785.862 | Types: 7.873.935 | Types: 1.913.986 | Types: 1.295.315 | Types: 44.064 |
| Tokens: 425.703.278 | Tokens: 926.766.504 | Tokens: 1.468.766.604 | Tokens: 391.044.224 | Tokens: 575.138.135 | Tokens: 301.449 |
### Annotationsebenen
* Wortfrequenzen
* Beispielsätze
* Kookkurenzen (basierend auf left- und right-neighbours in jeweiligem Satz)
* Semantic map-Visualisierung der Kookkurenzen
* Synonyme
* Dornseiff-Sets (Sachgruppen)
### Formate
* Online: http://wortschatz.uni-leipzig.de/
* PDML (Presentation model description language)
### Lizenz
Copyright Leipzig Corpora Collection
### Beispiele
* Ursula: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011&word=Ursula
* Haus: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011&word=Haus
* Hausarbeit: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011&word=Hausarbeit
### Einsatzmöglichkeiten
Nachschlagewerk, kontrastive Linguistik, quantitative Linguistik
## Falko
### Materialquelle
- handschriftlich und digital verfasste Texte von fortgeschrittenen Lernern und Muttersprachlern der deutschen Sprache
- Texte: Zusammenfassungen, argumentative Aufsätze
- Themen: Feminismus, Entlohnung, Studium, Kriminalität
- Muttersprachen L2: über 35, davon die größten Gruppen in Englisch, Französisch, Russisch und Polnisch
- Voraussetzungen der Textproduktion: Keine Hilfsmittel, 90 Minuten Bearbeitungszeit
### Datum
- Beginn der Datenerhebungen (seit 2004)
- FALKO Version 1 (18. Oktober 2007)
- FALKO Version 2 (26. September 2012)
### Korpusumfang
Gesamtkorpus besteht aus 6 Subkorpora (insgesamt 381.447 Tokens)
- Lernerkorpus
- FalkoSummaryL2 V1.2 (98 Lerner, 107 Texte, 40.923 Tokens)
- FalkoEssayL2 V2.3 (186 Lerner, 248 Texte, 122.778 Tokens)
- FalkoEssayL2WHIG V2.0 (117.189 Tokens)
- Kontrollkorpus Muttersprache
- FalkoSummaryL1 V1.2 (33 Muttersprachler, 36 Texte, 21.184 Tokens)
- FalkoEssayL1 V2.3 (95 Muttersprachler, 95 Texte, 68.491 Tokens)
- Vorlagenkorpus
- FalkoSummaryVL (12 Texte, 11.114 Tokens)
- Metadaten: Muttersprache, Alter, Geschlecht, akademischer Hintergrund (Schule, Semester, Fach, etc.), Sprachbiografie (beherrschte Fremdsprachen, Zeitraum, Auslandsaufenthalte, etc.)
### Annotationsebenen
- Wortarten und Lemmata
- Zielhypothesen
- minimale ZH: nah an Lernerstruktur: Orthographie, Morphosyntax
- erweiterte ZH: nah an Lernerintention: Semantik, Pragmatik, Stilistik
- Lernerfehler
- korrigierte Wortarten
- Kommentare des Transkribenten
- Es besteht die Möglichkeit weitere Annotationsebenen zu ergänzen und ebenenunabhängig zu bearbeiten (multi-layer stand-off annotation)
### Formate
- Zugang Online auf: http://korpling.german.hu-berlin.de/falko-suche/ (ANNIS3-Korpus-Suchtool)
- Original-Textdokumente
- Excel-Tabellen
- PAULA-XML
### Lizenz
- Creative Commons Namensnennung 3.0 Unported Lizenz
- Info: https://creativecommons.org/licenses/by/3.0/deed.de
### Beispiele
| tok | Sie | haben | sich | dazu | gewöhnt |
| ZH1 | Sie | haben | sich | daran | gewöhnt |
| ZH1Diff | | | | CHA | |
| ZH1lemma | Sie/sie | haben | er/sie/es | daran | gewöhnen |
| ZH1pos | PPER | VAFIN | PRF | PAV | VVPP |
### Einsatzmöglichkeiten
- Fehleranalyse (Abweichungen von der Zielsprache): Welche Fehler sind lernertypisch? Sind Fehler von der Muttersprache der Lerner abhängig?
- Interlinguale kontrastive Untersuchungen: Vergleich von zielsprachlichen Strukturen (Grammatik) in der Zielsprache und der Muttersprache
## KiezDeutsch-Korpus (KiDko)
### Materialquelle
#### 1.) Korpus
- spoken language corpus
- Informelle, spontansprachliche Gesprächsdaten von Berliner **Jugendlichen** nicht-deutscher Herkunftssprache (9. Klasse, 14-17 Jahren), **Selbstaufnahmen** im Freundeskreis
- Sprachen: v.a. Deutsch und Türkisch
#### 2.) thematische Klammer
- **Kiezdeutsch/„hood German“** (Rehbein/Schalowski/Wiese 2014) als Multiethnolekt urbaner Lebensräume
- Zentrale Elemente: Code-Mixing und –Switching, Abweichungen vom Standard auf phonetischer, morphosyntaktischer und lexikalischer Ebene
### Datum
- ab 2008: Beginn Korpusaufbau (Audioaufnahmen, Transkription, POS-Tagging)
- KiDKo Version 1.0: Frühling 2014
- Aktuelle Projektphase: Syntaktische Aufbereitung (Annotation topologischer Felder)
### Korpusumfang
| Korpus | Beschreibung |
| ------------- | ----------- |
| Hauptkorpus | ~ 228.000 Token; rd. 48 h Aufnahmen, |
| 17 Sprecher/innen, Multiethnisches Wohngebiet (Berlin-Kreuzberg) |
| Kontrollkorpus | ~ 105.000 Token; rd. 18 h Aufnahme | |
| 6 Sprecher/innen (5 männlich, 1 weiblich) |
| Monoethnisches Wohngebiet (Berlin-Hellersdorf)|
### Annotationsebenen
| Kürzel | Beschreibung |
| ------------- | ----------- |
| nv | nonverbale Ebene |
| v | Transkriptionsebene (GAT2): Prosodische Merkmale (Betonungen u.a.) |
| n | Normalisierungsebene (Default-Suche) |
| POS | Wortartenebene |
| - Erweiterung STTS für gesprochene Sprache (Partikel, Abbrüche) |
| - Entwicklung eines verbesserten Taggers für informelles gesprochenes Deutsch |
| Tr | türkische Transkriptionsebene |
| trnorm | türkische Normalisierungsebene |
| trdtwwue |deutsche Übersetzung (Wort für Wort) |
| trdtue | deutsche Übersetzung (frei) |
#### Metainformationen:
Sprecherkürzel, Geschlecht, Alter, Wohngebiet, Familiensprache, dominante Sprache
### Formate
wav (audio), EXMARaLDA-XML (EXMARaLDA Partitur Editor als Darstellungs- und Transkriptionssystem)
### Lizenz
- COPYRIGHT: SFB 632 Informationsstruktur, Universität Potsdam
- Zugang zu den EXMARaLDA-Transkripten über ANNIS (Login-Daten auf Anfrage beim SFB 632: http://www.sfb632.uni-potsdam.de/b6/license.php)
- Zugang zu den Audiodateien aus rechtlichen Gründen nur vor Ort
### Beispiele
- Suche nach türkischem Einzellemma: **tr=/lan/**

- Suche nach POS-Tag-Abfolge: **POS=/ADV/ & POS=/ADJD/ & POS=/ADJD/ & #1 . #2 & #2 . #3**

- Suche nach speziellem (Berliner) Kiezdeutsch-Phänomen (Koronalisierung): **n=“isch“**

Quelle: Rehbein/Schalowski/Wiese (2014)
### Einsatzmöglichkeiten
- *Nur bei Volltextrecherche*: Gesprächsforschung
- *Nur bei Zugang zu kompletten Audiofiles*: Intonationsforschung
- Trainingskorpus für POS-Tagger gesprochener Sprache
- Soziolinguistik/Jugendsprache (auch kontrastiv)
- Sprachkontaktforschung
- Varietätenlinguistik/Ethnolektforschung
- Gegenwärtiger Sprachwandel
### Quellen
#### Korpus
- Wiese, H.; Rehbein, I.; Schalowski, S.; Freywald, U. & Mayr, K. (2010ff): KiDKo - Ein Korpus spontaner Unterhaltungen unter Jugendlichen im multiethnischen und monoethnischen urbanen Raum
#### Literatur
- Rehbein, I.; Schalowski, S. & Wiese, H. (2014): The KiezDeutsch Korpus (KiDKo) Release 1.0.
In: Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC), May 24-31, 2014. Reykjavik, Iceland. [verfügbar unter: http://www.sfb632.uni-potsdam.de/~rehbein/papers/lrec_camera-ready.pdf, Stand 1.7.2015]
- Rehbein, I. & Schalowski, S. (2014): STTS goes Kiez ‐ Experiments on Annotating and Tagging Urban Youth Language. Journal for Language Technology and Computational Linguistics 28: 199-227. [verfügbar unter: http://www.jlcl.org/2013_Heft1/8Rehbein.pdf, Stand 1.7.2015]
- Rehbein, I. (2014): Wortartenannotation im Kiezdeutschkorpus (KiDKo 1.0) – Draft [verfügbar unter: http://www.kiezdeutschkorpus.de/files/kidko/downloads/POS-KiDKo.pdf, Stand 1.7.2015]
## Deutsche Mundarten: ehemalige deutsche Ostgebiete (OS)
### Materialquelle
- Geplante Tonbandaufnahmen ostdeutscher Mundarten (Arten: Erzählung, Vortrag, Vorlesen, Standardtext) in den jeweiligen Wohnungen der Sprecher
- Realisierung: Face-to-face
- 987 ältere Sprecher ost- und südostdeutscher Dialekte (Übersiedler), die den Sprachstand vor 1945 repräsentieren
### Datum
Tonbandaufnahmen von 1962-1965
### Korpusumfang
981 Aufnahmen (Gesamtdauer: 460 Stunden, 52 Minuten), einzelne Aufnahmen: 5 Minuten, 19 Sekunden bis 1 Stunde, 16 Minuten
280 Transkriptionen (mit dem Ton synchronisiert)
Zusatzmaterial:
- Transkriptionskonventionen
- Themenliste
- Liste der sprachlichen Besonderheiten
- Wortlisten
- Lemmalisten
- Listen der Berufe der Sprecher
### Annotationsebenen
- Transkription: an alter Ortografie orientierte hochsprachliche Übertragung
- Erläuterungen der Transkribenten
- Lemmatisierung
- POS-Tagging
### Formate
Audio: RIFF-WAVE RIFF (PCM) 44.100 Hz 16 Bit
Transkripte: XML (UTF-8)
Zusatzmaterial: PDF (Ansi), TXT (UTF-8)
### Lizenz
nach Anmeldung frei zugänglich unter http://dgd.ids-mannheim.de
### Beispiele
http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.corpora?v_session_id=91179580965177C175A8A4097C4104A9&v_doctype=t&v_corpus=OS--&v_doc_id=OS--_E_00001_SE_01_T_01
http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.corpora?v_session_id=91179580965177C175A8A4097C4104A9&v_doctype=z&v_corpus=OS--&v_doc_id=OS--_Z_07_Lemmaliste_Frequenz.txt
### Einsatzmöglichkeiten
- Dialektforschung
- lexikalische Untersuchungen
- linguistische Forschung
## Copyright
...