https://github.com/arbox/corpora

Eine annotierte Liste von modernen linguistischen Ressourcen
https://github.com/arbox/corpora

Last synced: 6 months ago
JSON representation

Eine annotierte Liste von modernen linguistischen Ressourcen

Host: GitHub
URL: https://github.com/arbox/corpora
Owner: arbox
License: mit
Created: 2015-05-22T11:15:19.000Z (about 11 years ago)
Default Branch: master
Last Pushed: 2015-07-18T15:34:08.000Z (almost 11 years ago)
Last Synced: 2025-01-26T06:25:17.550Z (over 1 year ago)
Size: 754 KB
Stars: 7
Watchers: 8
Forks: 18
Open Issues: 1
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

# Introduction: Corpora of (modern) German
Eine annotierte Liste von modernen linguistischen Ressourcen

## Table of Contents
* [Alcohol Language Corpus - ALC]()
* [Deutscher Wortschatz]()
* [Deutsches Referenzkorpus (DeReKo)]()
* [DIRNDL-Korpus]()
* [DWDS-Kernkorpus]()
* [DWDS-Kernkorpus des 20./21. Jahrhunderts]()
* [Falko]()
* [HEMPEL]()
* [KiezDeutsch-Korpus (KiDKo)]()
* [SmartKom]()
* [TüBa-D/S]()
* [TüBa-D/Z]()
* [Wikipedia-Korpus (DeReKo - W - wpd11)]()

## Review Structure

## Liste der Quellen
- Clemens Ahrens: DWDS-Kernkorpus
- Andrei Beliankou: TüBa-D/Z
- Juliane Bredack: Deutsches Referenzkorpus (DeReKo)
- Pia Chau: TüBa-D/S
- Roman Dawidow: DWDS Kernkorpus des 20./21. Jahrhunderts
- Katharina Dietz: Wikipedia-Korpus (DeReKo - Tagged C)
- Gulchehra Kahhorova: SmartKom
- Melanie Kleefisch: DIRNDL-Korpus
- Nikola Koczuba: EK-Korpus (Elizitierte Konfliktgespräche)
- Christina Lang: OS-Korpus (Deutsche Mundarten: ehemalige deutsche Ostgebiete)
- Stephan Lehmler: Alcohol Language Corpus - ALC
- Sarah Schneider: TIGER-Baumbank
- Ursula Schultze: Deutscher Wortschatz
- Julian Stawecki: Falko
- Constanze Tress: KiezDeutsch-Korpus (KiDKo)
- Jingmin Wang:

## DWDS-Kernkorpus

### Materialquelle
- Zeitung ca. 27%
- Belletristik ca. 26%
- Wissenschaft ca. 22%
- Gebrauchsliteratur ca. 20%
- Transkribierte Texte ca. 05%

### Datum
laufendes Projekt

### Korpusumfang
- Tokens: 122.816.010
- Tokens ohne Zahlen und Satzzeichen: 100.600.993
- Types: 2.224.542
- Dokumente: 79.830

### Annotationsebenen
- Morphologie (TAGH-Morphologie, DWDS-Eigennamenerkenner)
- Syntax (Dependenzparser SynCoP)

### Formate
XML, nach TEI-Richtlinien

### Lizenz
Nutzungsvereinbarung mit Verlagen und privaten Textgebern, d.h Registrierung für einige Texte notwendig

### Beispiele
```
Abfrage: Linguistik
Filter aktiv:
Sortierung: desc_date

Trefferanzahl: 136 Sätze, davon anzeigbar: 115 Sätze

1.) 1999 Gebrauchsliteratur Schwanitz, Dietrich, Bildung, Frankfurt a.M.: Eichborn 1999, S. 356

Sie wurde erst von dem Begründer der modernen _&_&Linguistik&_&_ gemacht , dem Schweizer Ferdinand de Saussure .

2.) 1998 Wissenschaft Fath, Rolf, Reclams Lexikon der Opernwelt Band 2, Stuttgart: Reclam 1998, S. 3078

Ab 1971 studierte er in Paris vergleichende Literatur und _&_&Linguistik&_&_ an der École des langues orientales sowie Komposition am Pariser Konservatorium , wo er 1977 den Kompositionspreis von Olivier Messiaens Klasse erhielt .
```
### Einsatzmöglichkeiten
Wörterbuchanalyse (Bedeutung, Etymologie, Synonymie,...)
Belegermittlung
Statistische Auswertungen:
- DWDS-Wortprofil: syntaktische Relationen
- DWDS-Wortverlaufskurve: zeitlicher Verlauf der Vorkommenshäufigkeit, auch nach Textsorten

## Tüba-D/Z

### Materialquelle
z.B. Zeitungstexte
### Datum
z.B. 12.2014
### Korpusumfang
z.B 70.000 Sätze
### Annotationsebenen
z.B. Morphologie, Syntax
### Formate
z.B. Folia-XML
### Lizenz
z.B. GPL 3
### Beispiele
z.B. `An/APPR der/ART Oder/NE wurde/VAFIN er/PPER dann/ADV verwendet/VVPP ./$.`
### Einsatzmöglichkeiten
z.B. Trainieren von statistischen syntaktischen Parsern

## DeReKo

### Materialquelle
- deutschsprachige Textkorpora
- belletristische, wissenschaftliche und populärwissenschaftliche Texte, auch Zeitungstexte (vollständig und unveränderte Texte)
- mitte 20. Jahrhundert (Texte ab 1956) bis Gegenwart
- Korpus ist in eine Menge von Unterkorpora aufgeteilt, weltweit größte Sammlung deutschsprachiger Korpora

### Datum
Stand 15.09.2014

### Korpusumfang
- 25 Milliarden Wörter
- 86 Teilkorpora in 9 Archiven organisiert

### Annotationsebenen
- morphosyntaktische Annotation
- Machinese Phrase Tagger, TreeTagger, Xerox FST

### Formate
- von Verlagen, Autoren gelieferte Texte in das IDS-Textmodell überführen
- große Mengen sehr heterogener Daten in mehreren Arbeitsschritten analysiert und aufwärts konvertiert
- Dokumentgrammatik I5
- i5.odd ODD-File mit der TEI P5-Customisierung von I5
- i5.dtd Durch Roma-Stylesheets abgeleitete DTD
- i5.html Durch projekt-spezifisches Stylesheet aus i5.odd abgeleitete HTML-Dokumentation
- i5.xhtml Durch Roma-Stylesheets aus i5.odd abgeleitete HTML-Dokumentation

### Lizenz
- enthält nur lizenziertes Material
- nicht zum Download verfügbar, keine kommerzielle Nutzung, dient ausschließlich zu Forschungszwecken
- es bestehen Lizenzverträge zwischen Autoren und Verlagen
- alle Korpora IDS-intern und Teile dieser Korpora weltweit öffentlich nutzbar

### Beispiele
\par HMP09 Russlands Gasmonopolist {\b Gazprom} pumpt weiter Gas in separaten Pipelines

\par HMP08 PR-Strategie von Apple, mit der es der {\b kalifornische Computerkonzern} schaffte, seinen
\par HMP08 schaffte, seinen iPod zum {\b erfolgreichsten Musik-Player} der Welt zu machen.

### Einsatzmöglichkeiten
- über COSMAS II (Corpus Search Management and Analysis Tool)
- komplexe Kollokationsanalysen
- linguistische Forschung am IDS
- Germanistikforschung
- interdisziplinäre Untersuchungen, Fachgebiete Psychologie, Neurologie, Kognitionswissenschaft, Sprachtherapie, Kommunikations- und Medienwissenschaft und Statistik

## TüBa-D/S

### Materialquelle
spontansprachliche, manuell transliterierte Dialoge

### Datum
September 2000

### Korpusumfang
ca. 38.000 Sätze bzw. 360.000 Wörter

### Annotationsebenen
- lexikalische Ebene
- phrasale Ebene
- Ebene der topologischen Felder
- Satzebene

### Formate
- Negra Export Format (ps)
- XML Format
- Penn Treebank Format

### Beispiele

### Einsatzmöglichkeiten
linguistische Forschung

## DWDS Kernkorpus des 20./21. Jahrhunderts

### Materialquelle
- Belletristik (ca. 26%)
- Zeitung (ca. 27%)
- Wissenschaft (ca. 22%)
- Gebrauchsliteratur (ca. 20%)
- (Transkribierte) Texte gesprochener Sprache (ca. 5%)

### Datum
- befindet sich im Aufbau

### Korpusumfang
- Zwanzigstes Jahrhundert
-> Anzahl fortlaufender Textwörter (Tokens) - gesamt: 122.816.010
-> Anzahl fortlaufender Textwörter (Tokens) ohne Zahlen und Satzzeichen: 100.600.993
-> Anzahl verschiedener Wörter (Types): 2.224.542
-> Anzahl Dokumente: 79.830

- Einundzwanzigstes Jahrhundert
-> Anzahl fortlaufender Textwörter (Tokens): 1.812.243
-> Anzahl fortlaufender Textwörter (Tokens) ohne Zahlen und Satzzeichen: 1.500.844
-> Anzahl der Sätze: 112.683

### Annotationsebenen
- morphosyntaktisch (STTS)
- syntaktisch

### Formate
- XML

### Lizenz
- Nutzungsvereinbarung mit Verlagen:
-> Diogenes Verlag, Eichborn
-> S. Fischer Verlagsgruppe
-> Hoffmann & Campe
-> Kiepenheuer & Witsch
-> K.G. Saur Verlag
-> Spiegel
-> Ullstein
-> ZEIT

- Nutzungsvereinbarung mit privaten Textgebern:
-> Deutsches Rundfunkarchiev, Digitale Bibliothek

- Zur vollständigen Nutzung ist eine Registrierung auf der Webseite erforderlich

### Beispiele
siehe:
- http://www.dwds.de/?qu=
- http://zwei.dwds.de/r

### Einsatzmöglichkeiten
- linguistische Forschung

## Wikipedia-Korpus (DeReKo - Tagged C)

### Materialquelle
Wikipedia-Artikel von 2005

### Korpusumfang
Texte: 196 854
Wörter: 54 041 081

### Annotationsebenen
Liegt im Archiv Tagged-C vor → annotiert durch den Tagger Connexor mit dem Tagset Connexor. Dabei handelt es sich um morphosyntaktische Annotationen
Außerdem annotiert durch den TreeTagger (POS) und den Machinese Phrase Tagger (POS)

### Formate
Das IDS-Textmodell:
i5.odd
i5.dtd
i5.html
i5.xhtml

### Lizenz
Keine Herausgabe der Korpustexte, sondern nur Zugriff über CosmasII

### Beispiele
```
WPD Band 2003 sogar möglich eine Tour durch Japan> zu machen, wo sie ebenfalls viele Fans
```

### Einsatzmöglichkeiten
Training von Parsern, Linguistische Untersuchungen zu Schriftsprache im Internet, empirische Grundlage für verschiedene linguistische Forschungsarbeiten

## SmartKom

### Materialquelle
Video- und Audioaufnahmen: 448 multimodale Aufnahmen ('Sessions') von 224 Versuchspersonen, 1 Session = ca. 4,5 min

### Datum
* Start: 01.09.1999
* Abgeschlossen: 30.09.2003
* letzte Aktualisierung: 29.02.2012

### Korpusumfang
* SmartKom Public / SKP 2.2 - 96 Sprecher - 172 Aufnahme-Sessions - Szenario: Public - Domänen: 'Cinema', 'Fax' (Hauptanwendung) und 'Restaurant', 'Telephone', 'Email' (Nebenanwendung)
* SmartKom Mobil / SKM 1.2 - 73 Sprecher - 146 Aufnahme-Sessions - Szenario: Mobil - Domänen: 'Sehenswürdigkeiten', 'Navigation' (Hauptanwendung) und 'Telephon', 'Parkplatzsuche' (Nebenanwendung)
* SmartKom Home / SKH 1.1 - 65 Sprecher - 130 Aufnahme-Sessions - Szenario: Home - Domänen: 'Fernsehen', 'Video' (Hauptanwendung) und 'Terminplanung', 'Musikauswahl' (Nebenanwendung)
* SmartKom Audio / SKAUDIO 1.1 - Sonderausgabe aller Audio-Kanäle der SmartKom Korpora - 224 Sprecher - 448 Aufnahme-Sessions - Szenario: Public, Home, Mobil

### Annotationsebenen
* Transliteration (orthographische und prosodische Transkription, automatische Validation)
* 2D Gestik (Emotion- und Gestik-Labeling)
* User-State
* Turn-Segmentierung

### Formate
* Audio- und Videoformate, verfügbar auf DVD

### Lizenz
COPYRIGHT Universität München

### Beispiele
- SmartKom Public Aufnahme (AVI, 320MB) - w406_pxg: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/w406_pxg.avi
SK Public, Vierfachansicht (G track): Gesicht, Seite, System-Output + SIVIT, SIVIT (Infrarot), Domain: Hotel, Fax, Telefon, Restaurant, Navigation.
- Transkript - w406_px.trl: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/w406_px.trl
- Recording Protocol - w406_px.rpr: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/w406_px.rpr
- Speaker Protocol - AJK.spr: http://www.bas.uni-muenchen.de/forschung/Bas/BasSKVIDEO/AJK.spr

### Einsatzmöglichkeiten
* Untersuchung der Mensch-Maschine-Interaktion
* Auf dem Korpus-Basis von SmartKom wurden 3 Multimodale Dialogsysteme aufgebaut:
- SmartKom-Public: Multimodale Kommunikationszelle, Informationskiosk
- SmartKom-Mobil: Mobiler Kommunikationsassistent
- SmartKom-Home: Intuitives Arbeiten mit dem Computer

## DIRNDL-Korpus

### Materialquelle

- DIRNDL =(D)iskurs-(I)nformations-(R)adio-(N)achrichten-(D)atenbank für (L)inguistische Analysen

- stündlich gesendete Radio-Nachrichten von "Deutschland-Radio
- mündliche und schriftliche Versionen

### Datum

1. release: 2012
2. release: 26.-31. Mai 2014

### Korpusumfang

- ca. 50.000 Wörter
- Audiodateien im Umfang von ca. 5 Stunden (vom 25.- 27.03.2007)
- 9 Sprecher (5 m, 4 w)
- schriftliche Manuskripte, bestehend aus insgesamt 3221 Sätzen

### Annotationsebenen

1. release (DIRNDL)
- schriftlich: Syntax mithilfe des XLE Parsers, Informationsstatus (Grad an Gegebenheit: gegebene o. neue Information)(automatisch)
- mündlich: pitch-Akzente und prosodische Phrasengrenzen mithilfe von GToBI (manuell)

- außerdem: Verbindung zwischen mündlich und schriftlich (mithilfe von relational
- database management system PostgreSQL)
--> Vergleich zwischen einzelnen Ebenen, z.B. Zusammenhang zwischen Prosodie und Syntax

2. release (extended version: DIRNDL anaphora)
- zusätzlich coreference, part-of-speech und morphologische tags, Dependenz, Named-Entities

### Formate

- TIGER-XML mithilfe von TIGERRegistry
- GrAF XML
- konvertierbar in verschiedene tool input-Formate. z.B. PAULA XML

- verfügbar in Tabellenformaten
- SemEval
- CoNLL

### Lizenz

frei verfügbar unter http://www.ims.uni-stuttgart.de/data/dirndl

### Beispiele
```
#begin document dlf-nachrichten-200703250000 (part 000)
dlf-nachrichten-200703250000 0 1 1 Der der ART case=nom|number=sg|gender=masc * 2 NK (VROOT(S(NP* |NONE| NONE - (R-UNUSED-KNOWN$2 (1
dlf-nachrichten-200703250000 0 1 2 Iran iran NE case=nom|number=sg|gender=masc * 3 SB *) |H*L| NONE (L-NEW$1) R-UNUSED-KNOWN$2) 1)
dlf-nachrichten-200703250000 0 1 3 will wollen VMFIN number=sg|person=3|tense=pres|mood=ind * 0 -- * |NONE| NONE - - -
- -
...
----------------------------------

dlf-nachrichten-200703250000 0 3 1 Der der ART case=nom|number=sg|gender=masc * 2 NK (VROOT(S(NP* |NONE| NONE - (R-UNUSED-KNOWN$7 -
dlf-nachrichten-200703250000 0 3 2 Westen westen NN case=nom|number=sg|gender=masc * 3 SB *) |L*H| - (L-NEW$16) R-UNUSED-KNOWN$7) -
dlf-nachrichten-200703250000 0 3 3 verdächtigt verdächtigen VVFIN number=sg|person=3|tense=pres|mood=ind * 0 -- * |NONE| NONE (L-NEW$15) - -
dlf-nachrichten-200703250000 0 3 4 den der ART case=acc|number=sg|gender=masc * 5 NK (NP* |NONE| NONE - (R-GIVEN$12 (1
dlf-nachrichten-200703250000 0 3 5 Iran iran NE case=acc|number=sg|gender=masc * 3 OA *)) |L*H| - (L-GIVEN-SAME$19$1-2-2) R-GIVEN$12) 1)
dlf-nachrichten-200703250000 0 3 6 , -- $, _ * 3 -- * N/A N/A -

... - -
```
### Einsatzmöglichkeiten

- Evaluation von automatischen Koreferenz- und Bridging-Lösungen
- Bedeutungsunterschiede aufgrund von Prosodie (Informationsstatus)
- Trainingskorpus für automatisches Prosodie-Annotationen

## Elizitierte Konfliktgespräche (EK)
### Materialquelle
Aufnahmen von Konfliktgesprächen zwischen Müttern und ihren Töchtern
### Datum
15.3.1988-30.6.1992
### Korpusumfang
- 138 Aufnahmen von 214 Sprecherinnen, Gesamtdauer 12h 23min
- 138 Transkripte (162123 Tokens)

### Annotationsebenen
- orthographische Transkription (Partiturschreibweise) mit zusätzlichen Notationen
- Metadaten
- Themenliste

### Formate
- Audio: RIFF-WAVE (PCM) 44.100 Hz 16Bit
- Transkripte: PDF (UTF-8)

###Lizenz
nach einmaliger Registrierung webbasierter Zugriff auf ausgewählte Teile der Sammlung des Archivs für Gesprochenes Deutsch (AGD) für die Verwendung in Forschung und Lehre
http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.welcome
### Beispiele
http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.corpora?v_session_id=EB1B4C7CC2EA5C6ECF2E9BDEBB72691C&v_doctype=e&v_corpus=EK--&v_doc_id=EK--_E_00001

### Einsatzmöglichkeiten
- Diskurs-/Gesprächsanalyse
- pädagogischer Kontext

## ...

## ...

## Alcohol Language Corpus - ALC

### Materialquelle
Laboraufnahmen nüchterner und betrunkener Versuchspersonen.
### Datum
erste komplette Version: 04.11.2010, letztes Update(version 2.4): 02.12.2014
### Korpusumfang
15180 Aufnahmen von 162 Sprechern. Insgesamt 1456556 phonetische Segmente.
### Annotationsebenen
Metadaten(Datum, Sprecher, Blutalkoholwert etc.), phonetische Segmentierung, orthografische Transkription, kanonische Aussprache,
Fehler/Normabweichungen(Abbrüche, dialektale Merkmale,unverständliche Wörter, Störgeräusche etc.), Kommentare
### Formate
BAS Partitur Format,TextGrid, Emu hierarchical database files, Metadaten: SpeechDat, Audio: WAVE RIFF 44100Hz 16bit
### Lizenz
COPYRIGHT University of Munich
### Beispiele
```
z.B. die K"ochin mit dem -/#Tufenk/- -/#tu/- -/#topf/- <"ah> -/#Tupfenkoch/-

Tupfenkopftuch kocht Karpfen in dem Kupferkochtopf
```
### Einsatzmöglichkeiten
z.B. Automatische Erfassung des Sprecherzustandes; Phonetische oder psycholinguistische Studien

## TIGER
### Materialquelle
Zeitungstexte der Frankfurter Rundschau

### Datum
1999-2004

### Korpusumfang
900,000 Tokens, 50,000 Sätze

### Annotationsebenen
Wortart, Lemma, Morphosyntax (STTS)
Phrasenkategorien: S, NP, VP, …
Syntaktische Funktionen: Subjekt, Objekt, Relativsatz, …

### Formate
TIGER-XML Format
Negra export Format

### Lizenz
frei zugänglich
Lizenzvereinbarungen:
http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/TIGERCorpus/license/htmlicense.html

### Beispiele

(im TIGER-xml Format)

``` bash

```
### Einsatzmöglichkeiten

## Deutscher Wortschatz

### Materialquelle
Zeitungstexte, Webseiten, Wikipedia
### Datum
* Start des Projekts: 1997
* Hochzeit: 2001
* heute abgeschlossen, wird nur noch gepflegt bzw. Material gesammelt
### Korpusumfang
Verfügbar sind 233 Korpus-basierte monolinguale Wörterbücher in 219 Sprachen
Beispiele der Korpusgröße verschiedener Sprachen:
| Deutsch | Englisch | Französisch | Spanisch | Chinesisch | Okzitansisch (nach 1500) |
|---------------------|---------------------|-----------------------|---------------------|-----------------------|--------------------------|
| Material: 2011 | Material: 2002 | Material: 2012 | Material: 2011 | Material: 2007 - 2009 | Material: 2007 |
| Sätze: 26.142.898 | Sätze: 49.628.893 | Sätze: 74.823.426 | Sätze: 16.899.636 | Sätze: 19.308.704 | Sätze: 16.895 |
| Types: 5.876.655 | Types: 4.785.862 | Types: 7.873.935 | Types: 1.913.986 | Types: 1.295.315 | Types: 44.064 |
| Tokens: 425.703.278 | Tokens: 926.766.504 | Tokens: 1.468.766.604 | Tokens: 391.044.224 | Tokens: 575.138.135 | Tokens: 301.449 |

### Annotationsebenen
* Wortfrequenzen
* Beispielsätze
* Kookkurenzen (basierend auf left- und right-neighbours in jeweiligem Satz)
* Semantic map-Visualisierung der Kookkurenzen
* Synonyme
* Dornseiff-Sets (Sachgruppen)

### Formate
* Online: http://wortschatz.uni-leipzig.de/
* PDML (Presentation model description language)
### Lizenz
Copyright Leipzig Corpora Collection
### Beispiele

* Ursula: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011&word=Ursula
* Haus: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011&word=Haus
* Hausarbeit: http://corpora.informatik.uni-leipzig.de/res.php?corpusId=deu_newscrawl_2011&word=Hausarbeit

### Einsatzmöglichkeiten
Nachschlagewerk, kontrastive Linguistik, quantitative Linguistik

## Falko

### Materialquelle
- handschriftlich und digital verfasste Texte von fortgeschrittenen Lernern und Muttersprachlern der deutschen Sprache
- Texte: Zusammenfassungen, argumentative Aufsätze
- Themen: Feminismus, Entlohnung, Studium, Kriminalität
- Muttersprachen L2: über 35, davon die größten Gruppen in Englisch, Französisch, Russisch und Polnisch
- Voraussetzungen der Textproduktion: Keine Hilfsmittel, 90 Minuten Bearbeitungszeit

### Datum
- Beginn der Datenerhebungen (seit 2004)
- FALKO Version 1 (18. Oktober 2007)
- FALKO Version 2 (26. September 2012)

### Korpusumfang
Gesamtkorpus besteht aus 6 Subkorpora (insgesamt 381.447 Tokens)

- Lernerkorpus
- FalkoSummaryL2 V1.2 (98 Lerner, 107 Texte, 40.923 Tokens)
- FalkoEssayL2 V2.3 (186 Lerner, 248 Texte, 122.778 Tokens)
- FalkoEssayL2WHIG V2.0 (117.189 Tokens)
- Kontrollkorpus Muttersprache
- FalkoSummaryL1 V1.2 (33 Muttersprachler, 36 Texte, 21.184 Tokens)
- FalkoEssayL1 V2.3 (95 Muttersprachler, 95 Texte, 68.491 Tokens)
- Vorlagenkorpus
- FalkoSummaryVL (12 Texte, 11.114 Tokens)
- Metadaten: Muttersprache, Alter, Geschlecht, akademischer Hintergrund (Schule, Semester, Fach, etc.), Sprachbiografie (beherrschte Fremdsprachen, Zeitraum, Auslandsaufenthalte, etc.)

### Annotationsebenen
- Wortarten und Lemmata
- Zielhypothesen
- minimale ZH: nah an Lernerstruktur: Orthographie, Morphosyntax
- erweiterte ZH: nah an Lernerintention: Semantik, Pragmatik, Stilistik
- Lernerfehler
- korrigierte Wortarten
- Kommentare des Transkribenten
- Es besteht die Möglichkeit weitere Annotationsebenen zu ergänzen und ebenenunabhängig zu bearbeiten (multi-layer stand-off annotation)

### Formate
- Zugang Online auf: http://korpling.german.hu-berlin.de/falko-suche/ (ANNIS3-Korpus-Suchtool)
- Original-Textdokumente
- Excel-Tabellen
- PAULA-XML

### Lizenz
- Creative Commons Namensnennung 3.0 Unported Lizenz
- Info: https://creativecommons.org/licenses/by/3.0/deed.de

### Beispiele

## KiezDeutsch-Korpus (KiDko)

### Materialquelle

#### 1.) Korpus
- spoken language corpus
- Informelle, spontansprachliche Gesprächsdaten von Berliner **Jugendlichen** nicht-deutscher Herkunftssprache (9. Klasse, 14-17 Jahren), **Selbstaufnahmen** im Freundeskreis
- Sprachen: v.a. Deutsch und Türkisch

#### 2.) thematische Klammer
- **Kiezdeutsch/„hood German“** (Rehbein/Schalowski/Wiese 2014) als Multiethnolekt urbaner Lebensräume
- Zentrale Elemente: Code-Mixing und –Switching, Abweichungen vom Standard auf phonetischer, morphosyntaktischer und lexikalischer Ebene

### Datum
- ab 2008: Beginn Korpusaufbau (Audioaufnahmen, Transkription, POS-Tagging)
- KiDKo Version 1.0: Frühling 2014
- Aktuelle Projektphase: Syntaktische Aufbereitung (Annotation topologischer Felder)

### Korpusumfang

| Korpus | Beschreibung |
| ------------- | ----------- |
| Hauptkorpus | ~ 228.000 Token; rd. 48 h Aufnahmen, |
| 17 Sprecher/innen, Multiethnisches Wohngebiet (Berlin-Kreuzberg) |
| Kontrollkorpus | ~ 105.000 Token; rd. 18 h Aufnahme | |
| 6 Sprecher/innen (5 männlich, 1 weiblich) |
| Monoethnisches Wohngebiet (Berlin-Hellersdorf)|

### Annotationsebenen

| Kürzel | Beschreibung |
| ------------- | ----------- |
| nv | nonverbale Ebene |
| v | Transkriptionsebene (GAT2): Prosodische Merkmale (Betonungen u.a.) |
| n | Normalisierungsebene (Default-Suche) |
| POS | Wortartenebene |
| - Erweiterung STTS für gesprochene Sprache (Partikel, Abbrüche) |
| - Entwicklung eines verbesserten Taggers für informelles gesprochenes Deutsch |
| Tr | türkische Transkriptionsebene |
| trnorm | türkische Normalisierungsebene |
| trdtwwue |deutsche Übersetzung (Wort für Wort) |
| trdtue | deutsche Übersetzung (frei) |

#### Metainformationen:
Sprecherkürzel, Geschlecht, Alter, Wohngebiet, Familiensprache, dominante Sprache

### Formate
wav (audio), EXMARaLDA-XML (EXMARaLDA Partitur Editor als Darstellungs- und Transkriptionssystem)

### Lizenz
- COPYRIGHT: SFB 632 Informationsstruktur, Universität Potsdam
- Zugang zu den EXMARaLDA-Transkripten über ANNIS (Login-Daten auf Anfrage beim SFB 632: http://www.sfb632.uni-potsdam.de/b6/license.php)
- Zugang zu den Audiodateien aus rechtlichen Gründen nur vor Ort

### Beispiele

- Suche nach türkischem Einzellemma: **tr=/lan/**

![Einzellemma](/kidco1.jpg)

- Suche nach POS-Tag-Abfolge: **POS=/ADV/ & POS=/ADJD/ & POS=/ADJD/ & #1 . #2 & #2 . #3**

![POS-Tag-Abfolge](/kidco2.jpg)

- Suche nach speziellem (Berliner) Kiezdeutsch-Phänomen (Koronalisierung): **n=“isch“**
![Koronalisierung](/kidco3.jpg)

Quelle: Rehbein/Schalowski/Wiese (2014)

### Einsatzmöglichkeiten
- *Nur bei Volltextrecherche*: Gesprächsforschung
- *Nur bei Zugang zu kompletten Audiofiles*: Intonationsforschung
- Trainingskorpus für POS-Tagger gesprochener Sprache
- Soziolinguistik/Jugendsprache (auch kontrastiv)
- Sprachkontaktforschung
- Varietätenlinguistik/Ethnolektforschung
- Gegenwärtiger Sprachwandel

### Quellen

#### Korpus
- Wiese, H.; Rehbein, I.; Schalowski, S.; Freywald, U. & Mayr, K. (2010ff): KiDKo - Ein Korpus spontaner Unterhaltungen unter Jugendlichen im multiethnischen und monoethnischen urbanen Raum

#### Literatur
- Rehbein, I.; Schalowski, S. & Wiese, H. (2014): The KiezDeutsch Korpus (KiDKo) Release 1.0.
In: Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC), May 24-31, 2014. Reykjavik, Iceland. [verfügbar unter: http://www.sfb632.uni-potsdam.de/~rehbein/papers/lrec_camera-ready.pdf, Stand 1.7.2015]
- Rehbein, I. & Schalowski, S. (2014): STTS goes Kiez ‐ Experiments on Annotating and Tagging Urban Youth Language. Journal for Language Technology and Computational Linguistics 28: 199-227. [verfügbar unter: http://www.jlcl.org/2013_Heft1/8Rehbein.pdf, Stand 1.7.2015]
- Rehbein, I. (2014): Wortartenannotation im Kiezdeutschkorpus (KiDKo 1.0) – Draft [verfügbar unter: http://www.kiezdeutschkorpus.de/files/kidko/downloads/POS-KiDKo.pdf, Stand 1.7.2015]

## Deutsche Mundarten: ehemalige deutsche Ostgebiete (OS)

### Materialquelle
- Geplante Tonbandaufnahmen ostdeutscher Mundarten (Arten: Erzählung, Vortrag, Vorlesen, Standardtext) in den jeweiligen Wohnungen der Sprecher
- Realisierung: Face-to-face
- 987 ältere Sprecher ost- und südostdeutscher Dialekte (Übersiedler), die den Sprachstand vor 1945 repräsentieren

### Datum
Tonbandaufnahmen von 1962-1965

### Korpusumfang
981 Aufnahmen (Gesamtdauer: 460 Stunden, 52 Minuten), einzelne Aufnahmen: 5 Minuten, 19 Sekunden bis 1 Stunde, 16 Minuten

280 Transkriptionen (mit dem Ton synchronisiert)

Zusatzmaterial:
- Transkriptionskonventionen
- Themenliste
- Liste der sprachlichen Besonderheiten
- Wortlisten
- Lemmalisten
- Listen der Berufe der Sprecher

### Annotationsebenen
- Transkription: an alter Ortografie orientierte hochsprachliche Übertragung
- Erläuterungen der Transkribenten
- Lemmatisierung
- POS-Tagging

### Formate
Audio: RIFF-WAVE RIFF (PCM) 44.100 Hz 16 Bit

Transkripte: XML (UTF-8)

Zusatzmaterial: PDF (Ansi), TXT (UTF-8)

### Lizenz
nach Anmeldung frei zugänglich unter http://dgd.ids-mannheim.de
### Beispiele
http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.corpora?v_session_id=91179580965177C175A8A4097C4104A9&v_doctype=t&v_corpus=OS--&v_doc_id=OS--_E_00001_SE_01_T_01

http://dgd.ids-mannheim.de:8080/dgd/pragdb.dgd_extern.corpora?v_session_id=91179580965177C175A8A4097C4104A9&v_doctype=z&v_corpus=OS--&v_doc_id=OS--_Z_07_Lemmaliste_Frequenz.txt

### Einsatzmöglichkeiten
- Dialektforschung
- lexikalische Untersuchungen
- linguistische Forschung

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/arbox/corpora

Awesome Lists containing this project

README