Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/dpriskorn/isoftermstowikidata
Tool to parse and re-publish ISOF terms and make them linkable via GUPRIs
https://github.com/dpriskorn/isoftermstowikidata
Last synced: 20 days ago
JSON representation
Tool to parse and re-publish ISOF terms and make them linkable via GUPRIs
- Host: GitHub
- URL: https://github.com/dpriskorn/isoftermstowikidata
- Owner: dpriskorn
- Created: 2024-02-26T17:07:57.000Z (11 months ago)
- Default Branch: master
- Last Pushed: 2024-06-17T22:56:56.000Z (7 months ago)
- Last Synced: 2024-12-15T02:11:39.793Z (about 1 month ago)
- Language: Python
- Size: 292 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 8
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# ISOF terms to Wikidata
Det här är ett verktyg för att bearbeta och publicera termer från ISOF
på ett sätt så de kan länkas ihop med koncepter på Wikidata.## Offentlig verksamhet
Termerna har samlats ihop från många olika officiella rapporter dokument på svenska.
Det finns termer på både svenska och engelska.### TODO
* skrapa rikstermbanken.se och länka ihop?
* möjliggör att kolla upp varje term i Wikipedia
* create a webapp that helps editors upload missing terms
or missing swedish translations of terms to Wikidata### Statistik
Det finns ~93984 termer ($ grep -r TE .|wc -l)
49365 svenska $ grep -r ^svTE .|wc -l
11110 engelska $ grep -r ^enTE .|wc -lDet finns ~30545 definitioner ($ grep -r DF .|wc -l)
28773 svenska $ grep -r ^svDF .|wc -l
1356 engelska $ grep -r ^enDF .|wc -lDet finns ~16038 anteckningar ($ grep -r AN .|wc -l)
11356 svenska anteckningar $ grep -r ^svAN .|wc -l
331 engelska anteckningar $ grep -r ^enAN .|wc -lFound 2366 sources with a total of 49266 terms and 175027 term lines in total.
19496 (39.57293062152397%) terms lack a definition
13851 (28.114724150529778%) terms lack a definition but has an explanation
5645 (11.458206470994195%) terms lack a definition and an explanation
49260 (99.9878212154427%) swedish terms### Observationer
* Datan från ISOF innebär en del utmaningar pga bristen
på enhetlig struktur. Tex är den svår att läsa rad för rad för
varje rad är inte markerat upp 100% tex när definitioner fortsätter på ny rad.
* Datamängden saknar helt unika identifierare för varje term. Det är en stor brist som sänker värdet avsevärt.
* Bristen på GUPRI och API vittnar om att ISOF ser det här som ett arkiv, det pågår ingen förädling eller
löpande kvalitetshöjning. Datan är "död" och utelämnas "as is".
* Datamängden verkar ha värde eftersom den
* kopplar ihop svenska och förvaltningsbegrepp på andra språk (mestadels engelska)
* har vettiga definitioner
* har vettiga anteckningar
* har synonymer
* har relationer till andra begrepp
* Datamängden saknar källor och författare. Det går inte att utläsa vem som skrivit vad.
* Datamängden verkar sakna en "ägare" som går i god för innehållet,
detta gäller både samlat och för varje term/källdokument.# Erfarenheter
* På en helg lyckades jag begripa mig på och tvätta datan och
skriva kod för att kunna läsa in det mesta i Pydantic objekter.
* En API/webbplats där varje term får en unik ID och presenteras via HTTP skulle vara ett stort lyft.
Då skulle varje term kunna nås via internet och kunna länkas till.