Ogni kanji e descritto con una serie di dati tecnici tra cui letture
on e kun numeri attributiti da vari dizionari ecc.
Purtoppo la formattazione di questo file non e' banale.
Io avrei bisogno di separare le varie informazioni in campi per
poterle ins4erire in un mio data base,
per caso quacuno ha la possibilita' di passarmi questo file con un
formato + importabile in un database?
( un formato tipo kanji <tab> Nuovo nelson> >tab> campo vupto <tab>
eccetera
l' ordine in cui sono messi i campi non impotra, basta che quando un
campo e' vuoto sia lasciatop vuoto tra 2 <tab> )
Ciao,
come sei messo a programmazione?
Credo che avrai già notato che esiste anche il KanjiDic2 in versione
XML.
Partendo dal file xml è molto più semplice fare un export in Db
relazionale quale Access/sql server/mysql.
Se poi usi il .NET framework è ancora + semplice.
Se non sbaglio tempo fa ho realizzato qualcosa del genere...appena
torno a casa controllo
nei miei vecchi progetti e se ho qualcosa di utile te la mando.
Se inceve vuoi usare la versione plain-text del kanjidic...beh
leggendo la documentazione
e avendo piccole conoscenze nella programmazione la cosa sarebbe
possibile (e credo di averla fatta anche io in passato)!!
Cmq ti faccio sapere se ho qualcosa già fatto...,
Ciao.
...se ti interessa c'è già il kanjidic in formato MS-ACCESS
ms-access? e che roba e'?
(LOL)
Io sono un mac user.. quindi non uso access, peo' partendo da questo
forse resco a ad ottenere un file
in un formato non proprietario da poter utilizzare nel mio data base
relazionale
grazie
> Io avrei bisogno di separare le varie informazioni in campi per
> poterle ins4erire in un mio data base,
> per caso quacuno ha la possibilita' di passarmi questo file con un
> formato + importabile in un database?
>
> ( un formato tipo kanji <tab> Nuovo nelson> >tab> campo vupto <tab>
> eccetera
Per prima cosa, scrivi agli autori di KanjiDict e chiedi se hanno già
programmato loro qualcosa del genere. Non è da escludere e ti
risparmieresti la fatica.
Se la prima strada va male, non vedo soluzioni più brevi che
programmarti un parser, cioè un "compilatore" che legge e interpreta il
vecchio formato KanjiDict (parte sintattica) e poi costruisce un nuovo
file, magari XML, corrispondente (parte semantica).
Se sai programmare in Java stùdiati JavaCC che è un compiler-compiler,
ovvero un generatore di parser: <https://javacc.dev.java.net/>
Se invece programmi in C, usa yacc.
In tutti i casi devi sapere quello che stai facendo :-) ti segnalo a
questo proposito i lucidi di questo corso universitario:
<http://www.dis.uniroma1.it/~rosati/lingtrad/>
頑張ってください。
--
Tchau, -João do Sabão
Ti ringrazio, ma se mi mettessi a scrivere del codice userei il buon
vecchio C utilizzando gcc. Questione di abitudini.
Vero Non avevopensato a scrivere agli autori!
Comunque convertire il file da access non credo sara' un gande
problema.
Ciao
Con questo messaggio vado decisamente OT. Meglio parlare in altre sedi.
> Ti ringrazio, ma se mi mettessi a scrivere del codice userei il buon
> vecchio C utilizzando gcc. Questione di abitudini.
Benissimo, puoi usare C.
Comunque programmare un parser completamente a mano (ad esempio, in C
senza l'aiuto di un compiler-compiler come yacc) è solitamente
sconsigliabile: ti costringe a tanti livelli di annidamento ed è
"error-prone" perché gli alberi sintattici sono gestiti meglio da una
macchina che non da un uomo.
Voglio dire che, facendo un programmino puro e semplice con tutti gli
if del caso (sulle stringe di input), stringhe che tu "hai visto" a
intuito, ti può sfuggire qualcosa e potresti scontrarti con bug
inspiegabili a runtime.
Invece usare un generatore di parser come yacc ti fa sì studiare un po'
di teoria, ma una volta che sai esprimere la grammatica generatrice del
tuo linguaggio di input (il linguaggio del vecchio formato KanjiDict),
la dai in pasto a yacc secondo una sintassi tipo espressione regolare e
ottieni in output un file C che sarà un parser accurato di tutte le
stringe possibili, più accurato di quello che avresti scritto
completamente a mano.
Infine si aggiunge lo strato semantico con tutte le regole specifiche
di quello che vuoi fare, tipo: se riconosco in input la stringa
"$kun_reading=ひがし" allora genero in output il codice XML
"<kun_reading>ひがし</kun_reading>".
> Vero Non avevopensato a scrivere agli autori!
> Comunque convertire il file da access non credo sara' un gande
> problema.
Meglio così.
Se sai programmare in java un semplice programmino java che usa funzioni
elementari tipo la split o al massimo espressioni regolari.
Tempo fa ho estratto kanjidic informazioni da kanjidic ed edict, l'ho
fatto in java ed è stato banale, non ho fatt una copia pedissequa ma
inserivo tali informazioni in un deck anki (ie un piccolo db sqlite).
Se hai problemi a eseguire un task cosi semplice è probabile che non
riuscirai a fare molto con l'eventuale database, spero di non suonare
scoraggiante ma è cosi.
Se non sai programmare e sei disposto a imparare i concetti base per
leggere kanjidic python è più semplice di java.