JOSSER
Descrizione
JOSSER (Java Open Source Structure Extractor) è uno strumento open-source sviluppato in Java per il parsing di dump RDF di DMOZ (Open Directory Project) e l’esportazione dei dati verso database relazionali MySQL e PostgreSQL.
Il progetto è stato progettato per gestire grandi quantità di dati con efficienza e affidabilità.
Caratteristiche Principali
- Parsing efficiente dei file RDF tramite SAX parser.
- Gestione di milioni di record tramite batch processing e chunk configurabili.
- Supporto nativo per UTF-8.
- Esportazione su database MySQL (InnoDB) e PostgreSQL.
- Gestione delle transazioni per garantire l’integrità dei dati.
- Configurazione semplice tramite file
josser.properties
.
Struttura del Database
JOSSER genera diverse tabelle chiave:
- dmoz_categories: informazioni principali sulle categorie.
- dmoz_externalpages: riferimenti a pagine web esterne.
- dmoz_editors: elenco degli editor DMOZ.
- dmoz_aliases: alias delle categorie.
- dmoz_altlangs: traduzioni multilingua delle categorie.
- dmoz_related: relazioni tra categorie.
- dmoz_narrows: relazioni gerarchiche (sottocategorie).
Esempio di Configurazione
path = c:/dmoz/
top = Top/Computers
rchunk = 2000000
wchunk = 500000
driver = com.mysql.jdbc.Driver
engine = mysql
host = localhost
port = 3306
db = dmoz
Requisiti
- Java 8 o superiore
- Database MySQL o PostgreSQL
- JDBC driver appropriato installato
Collegamenti
Progetto rilasciato sotto licenza GNU GPL v2.