Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/pavelsjo/ocr-invoce-metadata
https://github.com/pavelsjo/ocr-invoce-metadata
Last synced: about 2 months ago
JSON representation
- Host: GitHub
- URL: https://github.com/pavelsjo/ocr-invoce-metadata
- Owner: pavelsjo
- License: mit
- Created: 2020-10-07T15:20:18.000Z (over 4 years ago)
- Default Branch: main
- Last Pushed: 2021-04-29T01:53:04.000Z (over 3 years ago)
- Last Synced: 2023-10-17T02:47:48.542Z (over 1 year ago)
- Language: Jupyter Notebook
- Size: 1.15 MB
- Stars: 0
- Watchers: 2
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# Extractor de Metadatos de Facturas OCR
El siguiente código permite extraer los metadatos de una `factura escaneada` y almacenada en formato `.pdf`, por ejemplo:
|INVOICE|DATE|TOTAL DUE|
|--|--|--|
1989|09/12/2005|1.596.097La ejecución se inicia con un pre-procesamiento con `ImageMagick`, luego, se convierten los caracteres a texto plano con `pytesseract` y se utilizan `regex` para extraer los metadatos; finalmente el resultado queda en formato json.
Para utilizarlo se deben instalar las siguientes dependencias:
## Instalar ImageMagick en Red Hat 4.8.5-16.0.3
```Shel
sudo yum -y update
sudo yum -y install ImageMagick-devel
```Para la instalación en otras distribuciones, por favor revisa la [documentación oficial](https://docs.wand-py.org/en/latest/guide/install.html).
## Instalar Tesseract en Red Hat RHEL 7
```Shell
sudo rpm -ivh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
sudo subscription-manager repos --enable "rhel-*-optional-rpms" --enable "rhel-*-extras-rpms"
sudo yum -y update
sudo yum -y install snapd
sudo systemctl enable --now snapd.socket
sudo ln -s /var/lib/snapd/snap /snap
sudo /usr/bin/yum --enablerepo epel-testing -y install tesseract.x86_64 tesseract-langpack-fra.noarch
```## Version Alternativa
```Shell
sudo yum install install poppler-utils
```## Librerías python
Este código fué probado con `python3.6` y requiere instalar los siguientes paquetes:
```Shell
pip install -r requeriments.txt
```## Referencias
- [Enable snaps on Red Hat Enterprise Linux and install tesseract](https://snapcraft.io/install/tesseract/rhel)
- [Installing Tesseract-OCR on CentOS 6](https://stackoverflow.com/questions/23792373/installing-tesseract-ocr-on-centos-6)
- [Poppler in path for pdf2image](https://stackoverflow.com/questions/53481088/poppler-in-path-for-pdf2image)
- [pdf2image-github](https://github.com/Belval/pdf2image)
- [pdf2image-pypi](https://pypi.org/project/pdf2image/)