https://github.com/robertpfeiffer/dbpedia-clustering

class project
https://github.com/robertpfeiffer/dbpedia-clustering

Last synced: about 1 month ago
JSON representation

class project

Host: GitHub
URL: https://github.com/robertpfeiffer/dbpedia-clustering
Owner: robertpfeiffer
Created: 2009-04-23T17:12:43.000Z (about 16 years ago)
Default Branch: master
Last Pushed: 2009-08-31T22:23:52.000Z (over 15 years ago)
Last Synced: 2024-08-01T21:53:45.466Z (10 months ago)
Language: Java
Homepage: hpi-web.de/teaching/lehrangebot/veranstaltung/mapreduce_algorithms_on_hadoop.html
Size: 836 KB
Stars: 6
Watchers: 3
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

awesome-github-repos - robertpfeiffer/dbpedia-clustering - class project (Java)

README

Clustering of DBPedia Subjects
==============================

Seminar Map/Reduce Algorithms on Hadoop
---------------------------------------

##Schritt 1: Kompilieren des Projektes
jar mit ant erstellen

ant make-jar

##Schritt 2: Erstellen der Sequencedatei
Eine Datei mit den Namen muss aus der ersten pivotdatei generiert werden.

tail -n 1 infobox_pivot_part1 > names

Die Klasse BitsToSeqFile muss mit der pivot-Binärdatei, der Namensdatei und dem Namen
der gewünschten Ausgabedatei für die Subjekte aufgerufen werden

java -jar dist/clustering.jar de.myhpi.BitsToSeqFile infobox_pivot_part2 names subjects.seq

##Schritt 3: Erstellen der Clusterzentren
Die Klasse GenerateClusters muss mit der Subjektdatei, der Namensdatei und dem Namen
der gewünschten Ausgabedatei für die Subjekte aufgerufen werden. Weitere benötigte
Argumente sind die Anzahl der Attribute und die Anzahl der zu erzeugenden Cluster.

java -jar dist/clustering.jar de.myhpi.GenerateClusters subjects.seq centers.seq 42644 100

##Schritt 4: Kopieren der Eingabedateien ins HDFS
Danach müssen die Subjektdatei, die Clusterzetrendatei und die Datei config.xml in das
HDFS kopiert werden. Gegenbenenfalls kann die config.xml angepasst werden.

##Schritt 5: Jobs ausführen
hadoop jar mit dem Programmnamen "k-means" und der Subjektdatei, der Zentrendatei und
dem Ausgabepfad aufrufen

hadoop jar dist/clustering.jar k-means subjects.seq centers.seq output-dir

##Schritt 6: Ausgabedaten aus dem HDFS kopieren
Nachdem das Programm die Jobs ausgeführt hat, können die Ausgabedaten auf das lokale
Dateisystem kopiert und von Menschen gelesen werden

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/robertpfeiffer/dbpedia-clustering

Awesome Lists containing this project

README