An open API service indexing awesome lists of open source software.

https://github.com/ub-mannheim/dach-gt

Ground truth and full text for selected prints of German libraries
https://github.com/ub-mannheim/dach-gt

escriptorium fraktur ground-truth ocr

Last synced: about 1 year ago
JSON representation

Ground truth and full text for selected prints of German libraries

Awesome Lists containing this project

README

          

## Ground truth and full text for selected prints of German archives and libraries

* [Staatsbibliothek zu Berlin](data/DE-1)
* [Universitätsbibliothek Marburg](data/DE-4)
* [Bayerische Staatsbibliothek](data/DE-12) / Münchener Digitalisierungszentrum
* [Universitäts- und Landesbibliothek Darmstadt](data/DE-17)
* [Herzog August Bibliothek Wolfenbüttel](data/DE-23)
* [Thüringer Universitäts- und Landesbibliothek](data/DE-27)
* [Universitäts- und Stadtbibliothek Köln](data/DE-38)
* [Staats- und Universitätsbibliothek Bremen](data/DE-46)
* [Universitäts- und Landesbibliothek Düsseldorf](data/DE-61)
* [Hochschulbibliothek Fachhochschule Potsdam](data/DE-525)
* [MARCHIVUM Mannheim](data/DE-Mh40)

### Collection of useful commands

```
# Remove empty lines from ALTO and PAGE XML.
perl -i -ne "tr|\r||d; next if /^\s*$/;print" *.xml

# Remove ALTO files without fulltext.
rm -f $(grep -L 'CONTENT="..*"' *.xml)

# Remove PAGE files without fulltext.
rm -f $(grep -L '..*' *.xml)
```