On 03.07.2013 11:41, Daniel Zimmel wrote:
Moin!
>> Wenn man XSLT vorzieht würde ich definitiv mal in die bibutils schauen.
>>
>>
http://sourceforge.net/p/bibutils/home/Bibutils/
>>
>> Konvertiert wie gesagt BibTeX/Endnote/RIS-Formate in ein einges XML oder
>> eben halt in der Tat nach MODS, wenn einem das lieber ist. Ggf. kann man
>> bei MODS mit dem LoC-Zeigl aufsetzen.
>
> hab das mal ausprobiert, gefällt mir ganz gut:
> BibTeX->MODS->XSLT->Solr-Schema.
> Ein erster Test sieht gut aus, wird alles genehm indexiert.
[...]
> Wir brauchen schnelle Ergebnisse, kein sauberes neues
> Datenmodell. Da kanns auch ruhig etwas schlampig sein.
> Das XSLT können wir auf unser Schema schnell anpassen.
Klingt jetzt für mich nach einer funktionierenden Lösung,
oder?
>> Im Prinzip wollen wir sowas mittelfristig auch in unserem
>> Repo als Ingester haben. Nur ist da das Problem garnicht
>> das BibTeX->Marc sondern das "und wie ergänzt man alle
>> fehlenden Daten sauber". In unserem Kontext enthält
>> BibTeX/Endnote einfach viel zu wenig.
>
> wir wollen erstmal nichts ergänzen, daher erscheint eine
> Konvertierung nach MARC mir wirklich nicht so zielführend,
Hast Du falsch verstanden. Meine Lösung für Dein Problem
(soweit ich's verstandne habe) wäre was Du oben auch
beschreiben hast. Wenn man nur nen Indexer füttern will ist
das wahrscheinlich leicht gut genug.
Der Bezug zu unserem Repo (also der Grund warum ich Dir
keinen fertigen Code geben kann) ist, dass wir wegen
/unserer/ komplexeren Daten tatsächlich für die GA von JuSER
keinen BibTeX/EndNote-Import gebaut haben. Hätten wir den,
dann hätte ich eine Routine die aus BibTeX/EndNote Marc21
macht, weil JuSER das als Internformat benutzt.
Diesen Import hatte ich mir angeschaut, komme bis zu Deiner
Lösung und sogar noch ein gutes Stück weiter, weil mir JuSER
etwas Infrastruktur gibt, aber wir brauchen ein paar Daten,
die der Nutzer definitiv interaktiv ergänzen muss => wenn
mir jemand 50 Datensätze als BibTeX gibt muss ich das in
einem Submissionworkflow passend abbilden, so dass er die
gefragt wird. Man muss überlegen wie man damit umgeht wenn
er da zwischendrinnen aufhört, wie das ggf. mit Dubletten
ist, was passiert wenn die BibTeX-Daten "zu schlecht sind"
(journal="Nucl.Phys." volume="B123", am ende brauche ich
aber "Nuclear physics <Amsterdam> / B" =
PERI:(DE-600)1466567-0 und Volume "123" ) usw.
Das war zeitlich nicht drinnen, daher hatten wir das
vorläufig gestrichen. Das hat bei uns einfach ein paar
eklige Haken und Ösen, die wir z.B. alle nicht haben wenn
wir z.B. eine DOI importieren.
> denn die ganze Komplexität interessiert uns erstmal nicht
> so (naja, für SFX wäre Komplexität dann wieder schon
> gut...)
SFX hat aber noch vergleichsweise billige Metadaten. Wenn
das bei Dir Aufsätze sind und Du eine DOI/pmid hast kannst
Du die einfach an SFX schicken und den ganzen OpenURL-Müll
weglassen. Das ist der Teil an OpenURL der gut funktioniert.
Hast Du keine Ids stellt sich wahrscheinlich schnell die
Frage ob Deine EndNote/BibTeX-Daten so "gut"
(SFX-kompatibel) sind, dass SFX überhaupt was damit anfangen
kann. Das Zeigl ist ja doch recht "gscheckert".
> Aber es wäre hilfreich, evtl. dazu mehr Code auszutauschen.
Bin ich offen für alles.