Bibliografisk kontroll og Dublin Core

Innlegg fra diskusjonen om bibliografisk kontroll og Dublin Core på epostlistene folkebib-nett@bibtils.no og bibliotek@rbt.no.

Innhold:

From: Annike Selmer <annike.selmer@nbr.no>
To: bibliotek <bibliotek@rbt.no>, folkebib-nett <folkebib-nett@bibtils.no>
Subject: Foreløpig invitasjon til Dublin 
            Core-seminar 26.10.98
Date: Fri, 19 Jun 1998 15:08:55 +0200
BIBSYS og Nasjonalbiblioteket inviterer til Dublin Core-seminar mandag 26. oktober 1998 kl. 10-17 i Ingeniørenes hus i Oslo.

Dublin Core Metadata Element Set, forkortet til Dublin Core, er et enkelt og fleksibelt format for dokumentbeskrivelse utviklet med henblikk på å lette gjenfinning av elektroniske dokumenter distribuert via internett.

Formatet har sitt navn etter Dublin i Ohio, USA, der utviklingen startet i 1995. Formatet har på kort tid fått stor internasjonal utbredelse og består av 15 beskrivelseselementer (som f.eks. forfatter, tittel, emne, informasjonsbærer osv.). En bærende idé bak utviklingen er at formatet skal være så enkelt at forfatter eller utgiver av en elektronisk publikasjon selv kan utforme beskrivelsen og integrere den i selve dokumentet.

For mer informasjon om Dublin Core, se:

http://www.bibsys.no/meta/ eller
http://purl.oclc.org/metadata/dublin core/
Målsettingen for seminaret er å gi en bred presentasjon av Dublin Core og formatets anvendelsesområder samt presentere en del prosjekter og tiltak basert på utnyttelse av Dublin Core i Norge og i våre naboland.

Seminaret er rettet mot enkeltpersoner og institusjoner som er involvert i produksjon, distribusjon og formidling av elektroniske publikasjoner og informasjon via internett: forfattere, forlag, bibliotek, forskningsinstitusjoner, mediaprodusenter, nettverksdistributører, offentlig forvaltning, organisasjoner, etc.

Endelig invitasjon vil bli sendt ut i august.

For ytterligere informasjon om seminaret kan man henvende seg til Annike Selmer i Nasjonalbiblioteket: tlf: 22 55 33 70 eller e-post: annike.selmer@nbr.no.

Annike Selmer
Nasjonalbiblioteket
Postboks 2674 Solli, 0203 Oslo
Besøksadresse: Bygdøy Allé 21
telefon: 22 55 33 70 telefaks: 22 55 38 95

To: bibliotek@rbt.no, folkebib-nett@bibtils.no Subject: Re: Foreløpig invitasjon til Dublin Core-seminar 26.10.98 Date: Mon, 22 Jun 1998 11:03:03 +0200 From: Knut Hegna <knuthe@ifi.uio.no>
Er det noen likhet mellom Dublin Core og keiserens nye klær ?

Jeg forstår "metadata", ikke som katalogposter, men som kvalifiserte data (felt) knyttet til et elektronisk dokument. Metadata i denne forstand er nyttig og bra og kan i visse tilfeller være til hjelp når man skal innlemme et elektronisk dokument i sin samling og i sin katalog. Det er MULIG at metadata kan bidra til å forbedre gjenfinning i de store søkemaskinene, men forbedret gjenfinning bestemmes ikke bare av at det fins kvalifiserte data (forfatter, tittel, emne etc), men også av HVILKE felt som tas i bruk og HVORDAN de er utfylt (konsistens).

Formater for metadata fins det flere av. Dublin Core er ETT slikt metadataformat.

Jeg syns det virker nokså snevert når Nasjonalbiblioteket nå inviterer til et promoteringsseminar for Dublin Core uten å ta opp bibliotekfaglige innvendinger mot dette og å presentere andre metadataformater som er mer gjennomarbeidet.

Hva med å utfordre Den norske katalogkomite på dette emnet?

En ny, nokså nøktern vurdering av metadata (Dublin Core inklusive) fins i en rapport fra en underkomite i American Library Association (ALA), se "Task Force on Metadata and the Cataloging Rules":

http://www.ala.org/alcts/organization/ccs/ccda/tf-tei2.html


Med hilsen
-- 
Knut Hegna          
Førstebibliotekar      | Senior academic librarian
Universitetet i Oslo   | University of Oslo, 
Informatikkbiblioteket | Informatics library

From: "Annike Selmer" <annike.selmer@nbr.no> To: <knuthe@ifi.uio.no> Cc: <bibliotek@rbt.no>, <folkebib-nett@bibtils.no> Subject: Bakgrunn for Dublin Core seminaret - svar til Kunt Hegna Date: Mon, 29 Jun 1998 15:48:39 +0200
Bakgrunn for Dublin Core seminaret

At Nasjonalbiblioteket nå ønsker å rette søkelyset på metadataformatet Dublin Core ved å arrangere et faglig seminar har blant annet sammenheng med et initiativ fra CENL (Conference of European National Librarians) samt at nasjonalbibliotekene i våre naboland (Danmark, Sverige og Finland) har igangsatt prosjekter basert på bruk av Dublin Core.

Nasjonalbiblioteket er fullt innforstått med at verken Dublin Core eller andre metadataformater kan erstatte tradisjonelle katalogdataposter i bibliotekkataloger eller nasjonalbibliografiske databaser, men vi kan ikke lukke øynene for at nasjonal bibliografisk kontroll av informasjonsressurser av det omfang som internett representerer, krever nye tilnærmingsmåter i tillegg til den tradisjonelle nasjonalbibliografien.

Nasjonalbiblioteket har ingen interesse i å undertrykke bibliotekfaglige innvendinger, men vi har et ansvar for å bidra til tiltak og løsninger som kan gjennomføres på et nasjonalt plan og som i størst mulig utstrekning fremmer samarbeid på tvers av landegrensene. At mange nasjonalbibliotek har fattet interesse for Dublin Core skyldes vel blant annet at formatet både er generelt og enkelt, i motsetning til en del andre formater som til dels er temmelig kompliserte, eller utviklet med henblikk på spesielle anvendelsesområder.

Vennlig hilsen 
Bendik Rugaas

To: Annike Selmer <annike.selmer@nbr.no> Cc: bibliotek@rbt.no, folkebib-nett@bibtils.no Subject: Dublin Core : bibliografisk kontroll Date: Tue, 30 Jun 1998 12:31:20 +0200 From: Knut Hegna <knuthe@ifi.uio.no>
Takk for svaret !

Jeg skulle gjerne fulgt opp dette, men Rugaas bringer inn et begrep som jeg først vil vite hva betyr : "nasjonal bibliografisk kontroll". Siden dette er sentralt i hans innlegg vil jeg gjerne ha svar på 2 spørsmål:

1) Hva er "bibliografisk kontroll" ?
2) Hva tar man sikte på å kontrollere ?

Svarene på disse spørsmålene, sammenholdt med hva Dublin Core er, kan også gi svar på om Dublin Core er egnet til "nasjonal bibliografisk kontroll".

Jeg har spurt forskjellige bibliotekarer hva som ligger i uttrykket "bibliografisk kontroll". Jeg har fått forskjellige svar. Jeg syns ikke jeg finner gode svar på dette i litteraturen.

Det kan være interessant å få vite hva Nasjonalbiblioteket legger i dette (kanskje de to bibliografiske avdelingene kan komme med hvert sitt svar ?).

Mens jeg venter på svaret på ovenstående:

Litt om ordet "metadata":

Jeg syns definisjonen (som jeg selv har brukt en gang) "data om data" er nokså intetsigende. Jeg forsøkte i forrige innlegg å presisere det til "data om data i data", dvs kvalifiserende opplysninger om dokumentet hektet på dokumentet selv, slik at data og metadata utgjør en enhet.

Det er i en slik sammenheng det - etter min mening - er interessant å diskutere "metadata". Det skiller det også fra en katalogpost, som også er "data om data", men som er skilt fra dokumentet og inngår i en ganske annen helhet (katalog).

Av dette utleder jeg også at metadata er dokument- orientert, mens en katalogpost er samlingsorientert.

Noen få ord om Dublin Core:

I starten (1995/6) var Dublin Cores formål å legge grunnlaget for bedret søk i søkemaskinene (Alta Vista etc). Initiativet kom - så vidt jeg vet - fra IT-hold. De hadde oppdaget at geniale metoder for fritekstsøk ikke var tilstrekkelig i de store mengdene med data som søkemaskinene etterhvert inneholdt. Det trengtes kvalifiserte data knyttet til den elektroniske informasjonen, mente de. Derfor satte de i gang med å finne opp hjulet på ny. De viktigste svakhetene ved Dublin Core i forhold til kunnskapsorganisatoriske prinsipper er etter min mening

De fleste jeg diskuterer med er enige i at Dublin Core står langt fra de kvalitetene man forlanger av en katalogpost og at de ikke kan sammenliknes.

For målet er jo også helt forskjellig.

For bibliotekkatalogene har svake metadata (som Dublin Core) bare interesse som "formelle opplysninger på fremtredende plass", de må bearbeides før de kan brukes i en bibliotekkatalog. På den annen side kan bibliotekene produsere gode metadata ut fra sine kataloger (og regler) som gir konsistens. Men her ville det være en nedtur å lage Dublin Core data, det fins mer avanserte, f.eks. MARC. MARC er riktignok upopulært, men det fins andre også f.eks SGML DTD-er som implementerer MARC.

Så hva skal da Nasjonalbibliotekets siktemål med Dublin Core være ? Å få forleggere til å legge Dublin Core metadata på sine elektroniske dokumenter ? Av innbydelsen til seminaret går det fram at den rettes til bl.a forleggere. Det er blitt meg fortalt at den norske katalogkomiteen for noen år siden gjorde forlagene oppmerksom på at det fantes en ISO-standard for utforming av tittelbladet (metadata) i bøker. Det førte ikke til noe, bortsett fra en som ville ha seg frabedt katkoms forsøk på innblanding.

Til slutt:

Jeg er ikke bibliotekar eller katalogisator, og jeg finner det noe underlig å befinne seg i en posisjon der drevne bibliotekarer med faglig innsikt heller skulle vært.

Men nå senker jeg snart lansen (legger musen død), river av meg den blanke rustningen (logger ut) og drar på ferie (skrur av strømmen). Så får de som ønsker utdyping av mitt syn på metadata og Dublin Core, lese her:

http://www.ifi.uio.no/~knuthe/bergen/foredrag.html
http://www.ifi.uio.no/~knuthe/dok/NBF98.html
i tillegg til den referansen jeg ga i forrige innlegg:
http://www.ala.org/alcts/organization/ccs/ccda/tf-tei2.html

Vennlig hilsen og god sommer.

"Kunt"

-- 
Knut Hegna          
Førstebibliotekar      | Senior academic librarian
Universitetet i Oslo   | University of Oslo, 
Informatikkbiblioteket | Informatics library
      http://www.ifi.uio.no/~knuthe/

From: Helge Høivik <helge.hoivik@jbi.hioslo.no> To: Annike Selmer <annike.selmer@nbr.no>, Knut Hegna <knuthe@ifi.uio.no> Cc: bibliotek <bibliotek@rbt.no>, folkebib-nett <folkebib-nett@bibtils.no> Subject: Definisjoner av "bibliografisk kontroll" Date: Wed, 1 Jul 1998 12:09:09 +0200
Knut Hegna spør

>>Hva er "bibliografisk kontroll" ?

Jeg er også på jakt etter et godt svar, men har (foreløpig) denne arbeidsdefinisjonen:

"Bibliografisk kontroll er kunsten å organisere tekster slik at de kan gjenfinnes og omfatter disipliner som katalogisering, indeksering, klassifisering, tesauruskonstruksjon m.v."

Helge Høivik



From: "Morten Haugen" <orland@online.no>
To: "Helge Høivik" <helge.hoivik@jbi.hioslo.no>,
        "Annike Selmer" <annike.selmer@nbr.no>,
        "Knut Hegna" <knuthe@ifi.uio.no>
Cc: <bibliotek@rbt.no>, <folkebib-nett@bibtils.no>
Subject: SV: Definisjoner av "bibliografisk kontroll"
Date: Wed, 1 Jul 1998 12:54:44 +0200

Definisjonen virker grei og dekkende for en praktiker ute på landet, selv om den krever en fire-fem supplerende definisjoner for å forstås av andre. Spesielt ville jeg nok ha utdypet "gjenfinnes", dersom det var mitt jobb å lage en definisjon.

Om man vil kalle det er "kunst" er vel også et åpent spørsmål ... 8-)

Med vennlig hilsen

__________________________________________
Morten Haugen, Ørland folkebibliotek, 7130 Brekstad
Tlf 72 52 42 72 ; Fax 72 52 53 10
epost: orland@online.no
__________________________________________
"If you can bear to hear the truth you've spoken
twisted by knaves to make a trap for fools" (Kipling)

Date: Wed, 1 Jul 1998 14:28:43 +0200 (MET DST) To: Helge Høivik <helge.hoivik@jbi.hioslo.no> From: Randi Meyer <randi.meyer@ub.uio.no> Subject: Re: Definisjoner av "bibliografisk kontroll" Cc: bibliotek@rbt.no
Helge Høivik ga følgende «arbeidsdefinisjon»

"Bibliografisk kontroll er kunsten å organisere tekster slik at de kan gjenfinnes og omfatter disipliner som katalogisering, indeksering, klassifisering, tesauruskonstruksjon m.v."

Hvorvidt det å organisere en tekst er en kunst eller ikke, skal være usagt, men det er ikke bibliotekarene som gjør det (det måtte i så fall være Fredrik Skagen).

Hvis du organiserer en tekst, går du inn i teksten og redigerer den, det vi arbeider med er den formelle beskrivelsen av dokumenter.

Randi Meyer


 Randi Meyer
Konverteringsseksjonen, UBO		
0242 Oslo			
22 85 92 94			

From: Hilde Hogas <hilde.hogas@nbr.no> To: bibliotek@rbt.no, folkebib-nett@bibtils.no Date: Wed, 1 Jul 1998 15:19:36 MET Subject: Dublin Core
Som en kommentar til Knut Hegnas to innlegg på listen med spørsmål om hvorfor nasjonalbiblioteket "ensidig" ønsker å fremme bruken av Dublin Core (DC), vil jeg forsøke å redegjøre for Nasjonalbiblioteket, avd. Ranas motiv.

NB Rana har ansvar for alt pliktavlevert norsk materiale, også elektroniske dokument. Vi har i flere år arbeidet fra flere innfallsvinkler med dette materialet - innsamling, bevaring og formidling. En av oppgavene er bibliografisk registrering av det pliktavleverte materialet. I denne forbindelse er metadata interessant for oss fra et helt praktisk utgangspunkt, nemlig å forenkle registreringsarbeidet og å forbedre grunnlaget for det. Vi ser ikke for oss at DC skal "ta over" for MARC-format og katalogiseringsregler.Her ligger vår helt praktisk tilnærming til "nasjonal bibliografisk kontroll" - bibliografisk beskrivelse med den hensikt å holde oversikt over norske utgivelser og å sikre gjenfinning av dem.

Vi ser for oss to mulige gjenfinningsmodeller for elektroniske dokument og begge kan tjene på bruken av metadata. 1) Tradisjonell bibliografisk beskrivelse, f.eks. i BIBSYS. Her vil vi ha nytte av metadata som grunnlag for registreringen og da helst i form av en konvertering mellom f.eks. DC og BIBSYS-MARC. Takket være arbeidet i Nordisk metadataprosjekt (http://linnea.helsinki.fi/meta/) er dette nå mulig. 2) På lengere sikt kan vi tenke oss pliktavlevering av elektroniske dokument i retning av en mer total nedlasting av hele det norske "vevområdet". En slik modell vil gjøre det umulig å katalogisere hvert enkelt dokument i f.eks. BIBSYS og da vi vil bli totalt avhengige av automatiske gjenfinningsmetoder. Her vil også metadata, f.eks. DC gi grunnlag for en bedre og mer presis gjenfinning.

NBR deltar for tiden i det EU-finansierte prosjektet BIBLINK (http://hosted.ukoln.ac.uk/biblink/). Målet med dette prosjektet er nettopp å prøve ut bruken av metadata for å forenkle den bibliografiske registreringen av elektroniske dokument. Planen er å påvirke utgivere (flere utgivere er knyttet til prosjektet) til å levere metadata "om" sine elektroniske dokument til "sitt" nasjonalbibliotek. Nasjonalbiblioteket skal deretter konvertere metadatapostene til MARC-format og hente dem inn i eget biblioteksystem, f.eks. BIBSYS. Her kan man bruke nasjonalbibliotekets bibliotekfaglige ekspertise til å forbedre kvaliteten på den bibliografiske posten. Deretter kan MARC-posten konverteres tilbake til en metadatapost og returneres til utgivere som ønsker å inkludere en "kvalitetssikret" metadatapost i sitt elektroniske dokument ved utgivelse. Prosjektet har altså som mål å oppnå 1) en forenkling av arbeidet registrering av elektroniske dokument på nasjonalbiblioteket, ikke minst ved å få tilgang til flere og sikrere opplysninger om dokumentet enn det som ofte er tilfelle i dag og 2) å "spre" ideen om bruk av metadata på elektroniske dokument.

Dette er i seg selv ikke argumenter akkurat for DC og valget trenger derfor en smule begrunnelse.

I BIBLINK-prosjektet er DC valgt som metadataformat etter en lang og grundig utredning: "Study of metadata" som også finnes på prosjektets vevside. Konklusjonen er at DC er tilstrekkelig utbredt og godt nok til å passe den typen elektroniske dokument som er aktuelle i prosjektet, nemlig et utvalg av elektroniske dokument som normalt fortjener en registrering i nasjonalbibliografien. I prosjektet vil vi legge til noen felter som ikke finnes i DC, f.eks. utgiversted og pris. Gjennom arbeidet med BIBLINK, i samarbeid med flere andre nasjonalbibliotek i Europa, føler vi oss rimelig trygge på at DC er godt valg i forhold til de praktiske oppgavene vi står overfor. Vi har selvfølgelig også fulgt med i det arbeidet som har vært gjort i Nordisk metadataprosjekt (hvor også DC er valgt som metadataformat).

I diskusjonen omkring metadata og DC er spørsmålet om hvor spesifikt og dekkende formatet skal være sentralt. Formatet bør helst både være så enkelt at "allmuen", dvs. ikke-bibliotekfaglig personale kan hanskes med det, samtidig som man i bibliotekene kunne ønske seg noe bortimot et komplett MARC-format. Det sier seg selv at dette ikke lar seg kombinere (og det er selvfølgelig ikke ønskelig å finne opp kruttet, dvs. MARC-format på nytt). BIBLINK prosjektet prøver seg på en løsning der nasjonalbiblioteket skal forbedre dataene, først og fremst for eget bruk, men også for å "hjelpe" utgiverne til å inkludere metadata med høy kvalitet i sine dokument. Det gjenstår å se om prosjektet lykkes.

Jeg er helt enig i at DC ikke har den kvaliteten man må forlange av en katalogpost, det skorter både på form og kontroll av innhold. Noe av dette kan avhjelpes med gode retningslinjer for bruk (og ev. utvidelser), men man må samtidig passe seg for at det ikke blir for komplisert. Her har igjen Nordisk metadataprosjekt gjort et godt arbeid, bl.a med å lage en "metadatagenerator" (http://www.lub.lu.se/cgi-bin/nmdc.pl) som vil hjelpe utgivere til å lage gode metadata på en relativt enkel måte. Jeg tror at DC-poster først og fremst vil bli laget ved hjelp av slike verktøy og at det her er mulig å bake inn hjelpefunksjoner og retningslinjer som forbedrer kvaliteten på DC-posten, f.eks. emneord og anbefalt registreringsmåte for personnavn.

Det er mulig at det er like vanskelig å overbevise utgivere om at det er lurt å knytte metadata til dokumentene sine som det var å få dem til å lage standardiserte tittelsider, men det kan også hende at det er noe enklere. En skulle tro at utgivere er opptatt av at dokumentene de lager skal kunne spres til mange og dermed vil de ha en egeninteresse i god gjenfinning av dem.

Vi har bevisst gått inn for å rette dette seminaret mot utgivere (av forskjellig slag) fordi det er her det "trenges mest". Utgivere vet generelt mindre om dette enn bibliotekfolk og for at vi skal ha noen DC-poster å samle inn/konverete/forbedre er vi avhengige av at noen lager dem! Samtidig vil selvfølgelig ikke "utestenge" verken interesserte og kompetente bibliotekfolk eller deres meninger verken i forberedelsene til seminaret eller på selve seminaret. Det er også positivt at vi får en diskusjon i dette forumet, det bidrar både til informasjonsspredning og at gode problemstillinger kommer fram.

Med hilsen Hilde Høgås

__________________________
Hilde Høgås
IT-avd.
Nasjonalbiblioteket, avdeling Rana

hilde.hogas@nbr.no
Tlf: 75 12 12 03, Fax: 75 15 54 60

Date: Thu, 2 Jul 1998 15:52:15 +0200 (cut)
From: Ole Husby <Ole.Husby@bibsys.no>
To: bibliotek@rbt.no
Subject: Hva er metadata
Knut Hegna skriver:

" ...

Jeg syns definisjonen (som jeg selv har brukt en gang) "data om data" er nokså intetsigende. Jeg forsøkte i forrige innlegg å presisere det til "data om data i data", dvs kvalifiserende opplysninger om dokumentet hektet på dokumentet selv, slik at data og metadata utgjør en enhet.

Det er i en slik sammenheng det - etter min mening - er interessant å diskutere "metadata". Det skiller det også fra en katalogpost, som også er "data om data", men som er skilt fra dokumentet og inngår i en ganske annen helhet (katalog).

Av dette utleder jeg også at metadata er dokument- orientert, mens en katalogpost er samlingsorientert.

... "

Jeg er enig i at definisjonen "data om data" er nokså intetsigende. Men jeg mener at "data om data i data" er direkte feil, eller i det minste i motstrid med den forståelse som mange har av begrepet metadata. I noen tilfeller (eksempel: Dublin Core med HTML-notasjon) kan metadata inkluderes i primærdokumentet, men metadata kan likså gjerne være separate katalogposter (f.eks. MARC). Metadata er en UTVIDELSE av "bibliografiske data", "katalogposter" o.l. Og for ordens skyld: DC (Dublin Core) forutsetter ikke at metadata skal inkluderes. Vi kan godt ha separate katalogposter i DC.

Ut fra denne forståelsen blir det nokså meningsløst å diskutere for eller mot "metadata". Spørsmålet blir heller: Hvilke metadatasystemer bør brukes i hvilke sammenhenger?

I praksis er metadatabegrepet ofte knyttet til de nye nettdokumentene. Her ligger nye problemer og utfordringer, men også nye muligheter, som f.eks. å inkludere metadata i dokumentet. (Og inkluderte metadata trenger ikke være DC, det kan f.eks. være SGML-baserte MARC-data).

Det er sjølsagt mulig å innsnevre begrepet metadata til bare å omfatte inkluderte metadata. Men jeg mener det må være lurt å se på dette fagområdet fra en vid synsvinkel, som både omfatter tradisjonell katalogiseringskunnskap og særtrekk ved nettdokumenter av forskjellig type.

Og jeg tror forøvrig IKKE at DC - like lite som MARC - har sjanse til å bli metadatasystemet som kan brukes i alle sammenhenger. Men jeg finner det rimelig at også nasjonalbibliotek engasjerer seg i både det ene og det andre. DC er fortsatt i en utviklingsprosess, og informasjon, retningslinjer og faglig påvirkning fra norske faginstanser vil sikkert bidra til å påvirke denne prosessen i riktig retning.

   Ole Husby                           BIBSYS
   ole.husby@bibsys.no                 N-7034 TRONDHEIM
   phone: +47-73 59 29 59              N o r w a y 
                                       http://www.bibsys.no/ 

To: bibliotek@rbt.no, folkebib-nett@bibtils.no Subject: Svar: Hva er metadata ? Date: Fri, 03 Jul 1998 08:01:22 +0200 From: Knut Hegna

Det er fint å få en diskusjon og mulig avklaring på hva "metadata" er. Det vil tjene den videre diskusjonen.

Husby mener at det er direkte feil å knytte metadata så sterkt til sammenbinding med primærdokumentet som jeg gjør (data(1) OM data(2) I data(1+2)).

Jeg sier ikke at metadata representerer denne sammenbindingen, men at det er en del av den. Jeg sier dette ut fra hvordan "metadata" I PRAKSIS blir brukt og med henvisning til hvordan ordet er kommet til (behovet for å knytte kvalifiserende opplysninger til elektroniske dokumenter).

Husby henviser også til hvordan det i praksis blir brukt og her er vi jo enige. Når nå Nasjonalbiblioteket innkaller til seminar, så er det først og fremst for å få forleggere og andre til å inkludere metadata i sine elektroniske dokumenter.

Denne forbindelsen mellom en beskrivelse av dokumentet og dokumentet selv, kjenner vi fra før. Den kan være gjengitt i dokumentet (som f.eks en CIP-post), den kan også være en henvisning til en post i en etablert katalog (Library of Congres nr). Sånn sett kunne vi i Informatikkbiblioteket nøye oss med å påføre våre elektroniske hovedoppgaver postidentifikasjonsnummer i bibsys-katalogen for å tilordne primærdokumentet metadata.

Jeg syns likevel diskusjonen om "metadata" først og fremst dreier seg om dokumentbeskrivelse knyttet til dokumentet selv, som kan gjenbrukes i større eller mindre grad av bibliotek, søkemaskiner osv. Begrenser vi det til det, vil diskusjonen dreie seg om hvilken form og hvilket innhold slike opplysninger skal ha og hvem som skal ha ansvaret for dem og ikke "for eller mot" metadata. For at en slik diskusjon om form/innhold av metadata skal bli meningsfull, bør man i forkant også diskutere grundig hvilke mål man ønsker å oppnå (f.eks slik Cutter gjorde i 1904 i "Rules for a dictionary Catalogue").

Når Husby skriver at metadata er en UTVIDELSE av "bibliografisk beskrivelse", så er jeg på en måte enig, men utsagnet må ikke oppfattes som at metadata (f.eks Dublin Core) i kvantitet og kvalitet overgår AACR2/MARC når det gjelder beskrivelse av f.eks bøker. Jeg oppfatter utvidelsen til å dreie seg om at metadata også dekker beskrivelse av (dokumentliknende) "objekter" bibliotekene vanligvis ikke befatter seg med.

Til slutt: jeg skulle kommentert Hilde Høgås sitt innlegg også, men det var nokså omfattende og henviste dessuten til et dokument i BIBLINK-prosjektet som jeg må lese først, så svaret får vente til etter ferien.

Det er allerede flere enn vanlig som har tatt ordet i denne biblioteksfaglige debatten. Jeg håper det blir enda flere.

Her er forøvrig BIBLINK-prosjektets definisjon av metadata:

Metadata is defined as "data which assists in the identification, description, evaluation and selection of an information object". Metadata can exist for objects at various levels of granularity e.g. it can refer to collections of documents, a single document or a chapter within a document; it can refer to a series, an individual journal, or an article within a journal; it could refer to a web-site, to a particular logical archive on that site, to a web page, or to an image embedded in that page.

Med vennlig hilsen og et fortsatt ønske om god sommer.

Knut Hegna


Date: Sat, 4 Jul 1998 00:04:17 +0100
To: bibliotek@rbt.no, folkebib-nett@bibtils.no
From: Øivind Berg 
Subject: Bibliografisk kontroll og Dublin Core
Som formann i Katalogkomitéen og ansvarlig for nasjonalbibliografien er jeg vel forpliktet til å forsøke å svare på Knut Hegnas utfordring. Ordet «kontroll» har på norsk mange betydninger. I sammenheng med bibliografisk virksomhet dekker betydningen «oversikt» bedre enn f.eks. «styring» eller «regulering». Uansett er begrepet «bibliografisk kontroll» godt innarbeidet i det bibliotekfaglige vokabular. Et av IFLAs kjerneprogram heter på engelsk «Universal Bibliographic Control» (UBC). Jeg vil ikke prøve meg på noen formaldefinisjon av begrepet «nasjonal bibliografisk kontroll», men en anvendelig bruksdefinisjon kan være: «det å sørge for en løpende oversikt over hva som til enhver tid publiseres i et land». Dette gjøres gjennom bibliografisk registrering av publikasjonene. En arbeidsgruppe nedsatt av IFLA for å utarbeide funksjonelle krav til bibliografisk informasjon opererer med følgende basisfunksjoner for bibliografiske poster / katalogposter: På denne bakgrunn er det klart at Dublin Core ikke strekker til verken hva angår form eller innhold. Jeg er enig med Knut i at det interessante ved Dublin Core og andre metadataformater for elektroniske dokumenter er at beskrivelsen kan integreres i selve dokumentet. I bibliografisk sammenheng kan dette for eksempel utnyttes som en viktig kilde for den formelle beskrivelsen. Det er imidlertid interessant for Nasjonalbiblioteket å vurdere om dokumentintegrerte metadata kan utnyttes gjennom praktiske utviklingstiltak for å etablere gode løsninger for pliktavlevering, lagring og tilgjengeliggjøring av elektroniske dokumenter.

At oppmerksomheten i første rekke rettes mot Dublin Core skyldes at dette formatet er valgt (etter grundige vurderinger av alternative formater) i flere prosjekter der europeiske nasjonalbibliotek er involvert.

Innlemming av nettverksbaserte dokumenter i nasjonalbibliografien må for øvrig på lik linje med andre typer dokumenter baseres på utvalgskriterier. Dersom dette skal kunne fungere slik at brukerne med en rimelig grad av sikkerhet vet hva en kan vente å finne i nasjonalbibliografien, forutsettes det fra Nasjonalbibliotekets side at det utvikles praktiske opplegg for innsamling og oversikt over alle dokumenter som er tilgjengelig via internett. Sett fra Nasjonalbibliotekets side er således det å anskaffe elektroniske dokumenter et langt større problem enn det å beskrive dem. En annen sak er at mengden av dokumenter på internett (sammenliknet med antall trykte publikasjoner) gjør at en forholdsmessig mindre andel av totalen vil kunne registreres bibliografisk av ressursmessige årsaker.

Med vennlig hilsen
Øivind Berg,
UBO / Bibliografisk avd.


Date: Thu, 27 Aug 1998 14:11:38 +0100
To: bibliotek@rbt.no, folkebib-nett@bibtils.no
From: Annema Hasund Langballe <a.m.h.langballe@ub.uio.no>
Subject: Bibliografisk kontroll
Som medlem av IFLAs Standing Committee i Section on Bibliography, som igjen hører inn under Division on Bibliographic Control, var jeg beskjemmet tidligere i sommer da en definisjon ble diskutert. Som mange andre visste jeg hva det var uten å kunne gi en kort, god forklaring. Jeg slo opp på IFLANET både under divisjonen, komiteen og under UBCIM-programmet - men like definisjonsløst er det alle steder.

Så da vi hadde komité-møte i Amsterdam i forrige uke og diskuterte en informasjonsfolder om oss selv, foreslo jeg at folderen også skulle gi en definisjon av hva vi holder på med. Flere forslag ble innlevert etter et par dagers betenkningstid. Nedenstående stammer fra vårt danske medlem og ble noe språklig forbedret av vårt amerikanske. Det ble levert videre til lederen av divisjonen og foreslått inkludert i folderen:

"Bibliographic Control requires the development and maintenance of a system of descriptions of documents that are arranged according to accepted standards within cataloguing, indexing, and classification, in order to ensure the identification, retrieval of and access to the documents."

Hilsen Annema Hasund Langballe, Bibliografisk avdeling, UBO


To: bibliotek@rbt.no, folkebib-nett@bibtils.no
Subject: Dublin Core - et metainnlegg
Date: Mon, 14 Sep 1998 12:59:44 +0200
From: Knut Hegna 
Nå har jeg endelig fått samlet (eller var det somlet) meg til å fortsette den diskusjonen som startet i sommer. Mitt innlegg er uforskammet langt og for å ikke fylle opp epostkassa til alle dem som syns det er en uinteressant diskusjon, har jeg lagt mitt svar i følgende URL:

http://www.ifi.uio.no/~knuthe/dok/bkdc.html

For dem som har mistet/glemt/fortrengt de tidligere innleggene, har jeg tillatt meg å samle dem i URL-en:

http://www.ifi.uio.no/~knuthe/dok/DCdisk.html

Med vennlig hilsen

-- 
Knut Hegna          
Førstebibliotekar      | Senior academic librarian
Universitetet i Oslo   | University of Oslo, 
Informatikkbiblioteket | Informatics library
      http://www.ifi.uio.no/~knuthe/

Her følger innlegget:

[Nasjonal] bibliografisk kontroll og Dublin Core

Svar på innlegg fra Hilde Høgås, Helge Høivik, Øivind Berg og Annema Hasund Langballe på biblioteklistene bibliotek@rbt.no og folkebib-nett@bibtils.no (se http://www.ifi.uio.no/~knuthe/dok/DCdisk.html der innleggene er gjengitt). Der jeg viser til tidligere innlegg, har jeg tillatt meg å lenke rett inn i de relevante avsnittene, slik at man kan kontrollere sammenhengen.

1. Nasjonal bibliografisk kontroll av hva

I mitt svar til Bendik Rugaas i sommer ba jeg om en definisjon på hva bibliografisk kontroll er og hva man tok sikte på å kontrollere.

Høivik gir en arbeidsdefinisjon :"Bibliografisk kontroll er kunsten å organisere tekster slik at de kan gjenfinnes og omfatter disipliner som katalogisering, indeksering, klassifisering, tesauruskonstruksjon m.v." (Randi Meyer reagerte på bruken av uttrykket organisere tekster, men jeg tror de fleste skjønner hva Høivik sikter til.)

Høgås anlegger en praktisk tilnærming til uttrykket : "bibliografisk beskrivelse med den hensikt å holde oversikt over norske utgivelser og å sikre gjenfinning av dem.

Berg gir en bruksdefinisjon: «det å sørge for en løpende oversikt over hva som til enhver tid publiseres i et land». Dette gjøres gjennom bibliografisk registrering av publikasjonene.

Endelig gjengir Annema Hasund Langballe en autoritativ fersk definsjon fra årets IFLA-møte:
Bibliographic Control requires the development and maintenance of a system of descriptions of documents that are arranged according to accepted standards within cataloguing, indexing, and classification, in order to ensure the identification, retrieval of and access to the documents.

Denne definisjonen er nokså lik den som Høivik gir, men jeg syns den passer bedre som svar på spørsmålet: hva er kunnskapsorganisasjon ?. Ordet "requires" er problematisk. Det betyr at det som følger etter er en nødvendig betingelse for det som kommer foran. Gjennom det antydes at det er mer som skal til, at det ikke er tilstrekkelig (nødvendig, men ikke tilstrekkelig betingelse). Dersom "requires" byttes ut med "is", så avgrenser man spørsmålet om bibliografisk kontroll til spørsmålet om bibliografisk beskrivelse og kunnskapsorganisasjon. Jeg finner dette utilfredsstilllende.

Alle disse tilnærmingene peker i retning av å knytte den bibliografiske kontrollen sterkt opp mot den bibliografiske beskrivelsen. Jeg mener man mister aspektet med dekningsgrad/fullstendighet og utvalgskriterier. Jeg vil foreslå at bibliografisk kontroll er:

  1. å fange opp mest mulig av materialet
  2. som publiseres innenfor gitte kriterier
  3. og å registrere dette på en enhetlig måte,
Dette er selvsagt en minimalistisk definisjon. Jeg har ikke en gang tatt med gjenfinningskravet, som går igjen i 3 av sitatene (Berg skriver løpende oversikt). Jeg mener man ville hatt nasjonal bibliografisk kontroll om hvert enkelt dokument fikk tildelt et entydig nummer og at Nasjonalbiblioteket (NB) førte en liste (i nummerrekkefølge) over titlene på dokumentene og oppbevarte dem i denne rekkefølgen.

Det tilligger hver enkelt bibliografiske kontrollør å sette seg mål og å gjennomføre dem både med hensyn på utvalgskriterier, ønsket dekningsgrad, og omfang av og hensikt med beskrivelsen. Målene behøver ikke være like for de ulike typene materiale.

I det biblioteket jeg arbeider vil vi gjerne dekke litteratur om flest mulig programspråk, men ikke alt som skrives om alle programspråk. Vi vil katalogisere og klassifisere dette i den hensikt å sørge for en god identifikasjon av hvert enkelt dokument og å sette dette dokumentet i en sammenheng - i relasjon til andre dokumenter i samlingen (samle det som hører sammen og skille forskjellige dokumenter fra hverandre). Vi står nokså fritt med hensyn til dekningsgrad og utvalgskriterier, vi har som deltakere i BIBSYS sterke beskrankninger på den formelle bibliografiske beskrivelsen, men står igjen fritt når det gjelder emneord og klassifikasjon. Dette er vår form for bibliografisk kontroll.

NB må selvsagt stille seg høyere mål enn den minimumsdefinisjonen jeg har satt opp. NB må også stille seg større oppgaver enn det enkelte bibliotek. NB er de siste som skal forenkle katalogiseringen, de skal være et forbilde for resten av bibliotekmiljøet og sikre at målet med å katalogisere et dokument én gang, blir oppfylt.

Pliktavleveringsloven vil tilføre NB materiale av mange slag. Det gjelder både papirbaserte og elektroniske medier. På samme måte som det papirbaserte materialet får ulik behandling alt etter "karakter" (reklametrykk, løpesedler, tidsskrifter, aviser, bøker), må det elektroniske behandles ulikt. Som Berg skriver det: Innlemming av nettverksbaserte dokumenter i nasjonalbibliografien må for øvrig på lik linje med andre typer dokumenter baseres på utvalgskriterier.

NB kan ha bibliografisk kontroll over alt det elektroniske materialet uten å behandle det likt bibliografisk. Når NBR i dag laster ned alle innlegg i elektroniske nyhetsgrupper (news), inneholder de kategoriserende data nok i seg selv - avsender, tittel, tidspunkt og navn på nyhetsgruppe. Bortsett fra tittel er disse automatisk generert. Meldingen identifiseres ved det og NB tar vare på den. Den bibliografiske kontrollen er god nok for denne typen data.

Norske vevsider har i utgangspunktet få data av denne typen (automatisk generert), forfatter og tittel vil være høyst usikre. Høgås skriver at man på lengre sikt vil laste ned hele det norske vevområdet. Det vil være helt urealistisk å håpe at noen form for menneskelig utført bibliografisk beskrivelse av dette blir mulig, selv ikke med det enkle Dublin Core. Hovedproblemet med vevområdet vil dessuten være å fange opp dynamikken i det.

NBs Dublin Core-seminar retter seg ikke til en hvilket som helst vevforfatter, men til "seriøse" institusjoner og personer som publiserer "seriøse" dokumenter på nettet eller på annet elektronisk vis. For dette materialet må NB stille seg høyere mål for den bibliografiske kontrollen. Dersom det skal inn i nasjonalbibliografien vil det kreve en bibliografisk beskrivelse som går langt utenpå Dublin Core i form og innhold. Her vil Høiviks og Langballes (IFLAs) definisjon av bibliografisk kontroll passe. Her dreier det seg om kunnskapsorganisasjon (ikke data/informasjonsorganisasjon) og i en slik sammenheng er Dublin Core et blindspor.

NB må stille seg klare mål for omfanget av den bibliografiske kontrollen som skal anvendes på de ulike typene elektroniske dokumentene. Har NB utarbeidet slike differensierte målsettinger ?

Viss NB ikke har kapasitet til å gi beskrivelsene den bibliografiske autoritet og fullstendighet som trengs, hvem skulle ellers gjøre det ? Er det ressursene som svikter, må det tilføres ressurser slik at dette blir mulig.

2. Dublin Core

Det sies at Dublin Core har fått stor utbredelse. Stor omtale, det er riktig, men stor utbredelse? Dublin Core er lite diskutert i bibliotekkretser i forhold til den betydningen det tillegges. Det er mest blitt presentert som et etablert faktum uten motforestillinger under det blafrende banner "metadata". Det er viktig at NB holder seg med en egen mening når det gjelder Dublin Core og ikke bare tar det for god fisk som IT-miljøet kommer med.

Jeg syns det er nokså motsetningsfylt når Berg sier:

Og Høgås sier: Begge sier seg altså enig i kritikken av Dublin Core, men velger likevel å gå inn for det. Hvorfor?

La oss se på forholdet mellom to formater: Dublin Core og USMARC Hva skjer ved konvertering mellom Dublin Core og MARC. Bernhard Eversberg gjengir i dokumentet "Was sind und was sollen Bibliothekarische Datenformate" en tabell over de 33 mest brukte feltene i over 4 mill. poster fra Library of Congress. Tabellen inneholder også opplysning om hvilket Dublin Core felt som er mest aktuelt for hvert enkelt MARC-felt:

Fore-
komst
Marc-
felt
BeskrivelseDublin
Core
100% 245 Tittel TITLE
260 Utgivelse(Sted, forlag, år) PUBLISHER
300 Fysisk beskrivelse (Sidetall etc.) ???
050 LC Classification
(Systematisk oppstillingssignatur)
SUBJECT
008 Koder,
bla språk, land, etc
LANGUAGE
TYPE
?95% 650 Emneord) SUBJECT
72% 100 Første forfatter CREATOR
67% 020 ISBN IDENTIFIER
500 Fotnote DESCRIPTION
63% 082 Dewey-klassifikasjon SUBJECT
50% 043 Geografisk kode COVERAGE
49% 504 Bibliografinote DESCRIPTION
43% 700 Biinnførsel personnavn CONTRIBUTOR
25% 651 Geografisk emneord COVERAGE
18% 250 Utgavebemerkning ???
710 Biinnførsel korporasjon CONTRIBUTOR
490 Rekke/serie ukontrollert RELATION
17% 440 Rekke/Serie RELATION
14% 600 Personnavn som emne SUBJECT
9.4% 740 Biinnførsel tittel TITLE
8.2% 830 Tittel på overordnet verk RELATION
7.3% 110 Korporativt ordningsord CREATOR
( 7% 041 Språk -> 008'35-37 ) LANGUAGE
6% 610 Korporasjon som emne SUBJECT
4% 520 Innholdsnote DESCRIPTION
3.8% 130 Standardtittel TITLE
3.3% 505 Bind eller kapittelangivelse DESCRIPTION
2% 111 Konferanse (med 711 : 2.5%) ???
1% 653 Frie ukontrollerte emneord SUBJECT
655 Sjanger som emne SUBJECT
630 Verktittel som emne SUBJECT
060 NLM-klassifikasjon SUBJECT
810 Serietittel under korporasjon RELATION
730 Standardtittel som biinnførsel TITLE
533 Opptrykksnote RELATION?

Som det går fram av tabellen er det f.eks en rekke av MARC-formatets emnefelt som blir konvertert inn i Dublin Core SUBJECT (i følge den offisielle definisjonen som ligger på http://purl.oclc.org/metadata/dublin_core/). Men i den konverteringen forsvinner vesentlige opplysninger om innholdet (omtalt person, kontrollerte emneord, Dewey-klassifikasjon, alt inn i samme suppa). En konvertering tilbake til utgangspunktet vil bli umulig. Disse formatene er inkompatible.

Noen vil innvende at det er mulig - for hver enkelt opplysning - å oppgi hvilket skjema som brukes i Dublin Core-feltet, og å henvise til en autorisert utgave av skjemaet, slik det for eksempel kan se ut i en html-fil (en dewey-klassifikasjon):

<META name="DC.subject" scheme="DDC" content="152.4">
<LINK REL=DDC HREF=http://www.oclc.org/fp/>
der vi tidligere kunne skrive "082 $a 152.4". Dublin Core-data i HTML-syntaks er ganske mye mer komplisert enn MARC i linjeformat. Dette er selvsagt noe demagogisk skrevet, fordi det sikkert vil dukke opp programmer som gjør ferdig det meste av syntaksen, vi vil ikke en gang se den. Men det gjør vi ikke med MARC-feltkoder heller.

Men la oss nå anta at Dublin Core utvikler seg (videre) til å takle ethvert MARC-felt korrekt (f.eks gjennom definisjon av et nytt felt FIELD : <META name="DC.field.600" scheme="USMARC" content="Ibsen, Henrik Johan">), så vil det ihvertfall bli mulig å konvertere fram og tilbake. Men hva er da vitsen ?

Hovedinnvendingen min til Dublin Core er fortsatt at det ikke er knyttet opp mot et regelverk for hvordan innholdet i de enkelte feltene skal registreres (som AACR2). Uten regelverk og med ulike produsenter av slike "metadata" vil det helt sikkert oppstå inkonsistens, noe som vil berøre presisjonen i søkemaskinene og ikke minst i bibliotekkatalogene. God presisjon oppnås ved to virkemidler, ved detaljering av informasjonen (inndeling i felt) og gjennom normaliserte data. Inkompatibiliteten mellom USMARC og Dublin Core gjelder ikke bare form, men også innhold.

Dublin Core data fra andre kilder enn bibliotekene vil derfor bare tjene som 2.rangs "formelle opplysninger på fremtredende plass". "2.rangs" fordi de formelle opplysningene som brukerne ser på skjermen er viktigere (de syns!) som faktisk identifikasjon (som tittelbladet er det i en bok). Dermed er spørsmålet om man får ut av det noe som står i forhold til arbeidsmengden nedlagt både hos utgiver og bibliotek.

Det hadde vært fint om produsentene ville føye til NBs autoriserte katalogdata i sine elektroniske dokumenter. I følge Høgås skal dette skje ved at produsenten sender over til NB sine metadata som oppgraderer dem og sender dem tilbake. Jeg mener likevel at dette er en unødvendig komplisert måte å gjøre det på (fram og tilbake er dobbelt så langt i dette tilfellet). Det ville faktisk være tilstrekkelig :

Denne framgangsmåten er ikke ulik den man ser på tittelbladets bakside i engelskspråklige bøker, der man finner Library of Congress-nr eller British Library-nr. Den vil også være mer egnet som incitament for produsenter fordi de ved enkle midler (tilordne nr) kan bli en del av en autorisert nasjonal katalog, noe som kan føre til spredning av dokumentene deres.

3. Til slutt

Å følge med i det som skjer på Internett er en egen øvelse, som krever minst en full stilling. Det har jeg ikke tid til (klassifikasjonsrestansene i mine hyller tyder på det). Jeg syns det er et problem at det er så få som har tid og anledning til å engasjere seg i og følge med på faglig utvikling og i faglige diskusjoner. Det gjør at man må basere seg på de få som har det som jobb. Det forutsetter på en måte at de som har dette som jobb også legger fram klare problemstillinger for det faglige miljøet når slike dukker opp. I tilfellet "Dublin Core" har dette ikke blitt gjort. NBs bibliografiske avdelinger, Den norske katalogkomiteen, JBI, ingen av dem har problematisert kravet om forenklet katalogisering og forfatterproduserte metadata. Kanskje har jeg misforstått det hele, kanskje det ikke er noe å diskutere ?

I øyeblikket har jeg en magefølelse av at det foregår en forflatning av de kunnskapsorganisatoriske prinsipper som det ligger lang tids diskusjon og erfaring til grunn for og som har lagt grunnlaget for de beste, mest konsistente og grundige gjenfinningsredskapene vi har i dag. Dette faktum blir mer og mer erkjent også på nettet. Vi ser det gjennom uttalelser som "librarians should rule the net".

Begrunnelsen for forflatningen tillegges den enorme mengden informasjon som er tilgjengelig og som sies å kreve en forenkling for å rekke over det. Jeg mener tvertimot - økende informasjons- og kunnskapmengde krever bedre og mer detaljerte metoder. Derfor syns jeg det er verdt å ta en diskusjon om dette, jeg hadde bare håpet at flere som har bedre forståelse enn meg av de kunnskapsorganisatoriske prinsipper ville delta.

Vi kan gjøre mer. Det datagrunnlaget vi har i bibliotekkatalogene er langt fra utnyttet i sin fulle bredde, slik mulighetene nå ligger til rette i teknologien. Selv om mye er gjort (f.eks når det gjelder videresøk ved hjelp av lenker), så kan mye ennå gjøres i brukergrensesnittene for å utnytte dataene enda bedre (sammenstilling av bibliografiske elementer, vise fram den bibliografiske strukturen bedre for å lette manøvreringen ytterligere).

4. Et lite PS til Morten Haugen

... som skriver: Om man vil kalle [kunnskapsorganisasjon] en kunst er vel et åpent spørsmål.

Jeg vil her bare referere til en av de store innen kunnskapsorganisasjon - Charles A. Cutter - som i forordet til 4.utgave av "Rules for a dictionary catalog" (1904) skriver:

Still I can not help thinking
that the golden age of cataloging is over,
and that the difficulties and discussions
which have furnished an innocent pleasure to so many
will interest them no more.
Another lost art.

Kanskje kan diskusjonen om Dublin Core og andre metadataformater bringe det kunstneriske element tilbake i bibliotekfaget ?


Knut Hegna, 14.september 1998
1998-09-16 : Rettet to korrekturfeil og føyd til setningen:
             "Dette er vår form for bibliografisk kontroll."
             i avsnitt 12 forfra.

From: Helge Høivik <helge.hoivik@jbi.hioslo.no>
To: "rbt's diskusjonsliste" <bibliotek@rbt.no>,
        folkebibliotek diskusjonsliste <folkebib-nett@bibtils.no>
Subject: Dublin Core with Fringe
Date: Wed, 16 Sep 1998 13:19:01 +0200
Jeg likte godt Knut Hegna's innlegg som har to temaer: 1) Hvordan definere bibliografisk kontroll? og 2) Hva skal en mene om Dublin Core? Min entusiasme bygger på at jeg er enig i noe og tvilende til noe av det Knut skriver, og viktigst i dette er altså at jeg ble mer engasjert og fikk nye tanker.

Innlegget avfødte også en ny "metadiskusjon" (= diskusjon om diskusjonen) som for meg hadde to nivåer:

Nivå en: At noen mener at det knytter seg opphavsrett til innlegg i en offentlig debatt. Det er jeg uenig i. Når det er sagt: Opphavsrett er generelt viktig for et forum for dette og bør slik sett føres for seg.

Nivå to: Motstand mot at dette diskusjonsforumet skal utvikle seg i faglig retning (til forkleinelse for f.eks. annonser). Nå er det ingen som *eksplisitt* argumenterer på nivå to. Men *effekten* av å trekke inn Knut's måte å argumentere på (mannen) istedenfor argumentene (ballen), drar i denne lei. Nå mener jeg at diskusjon og metadiskusjon går hånd i hånd og det er både er galt og fåfengt å stoppe det siste. Men litt rydding er nødvendig.

Dette illustrerer den problemstillingen vi hadde oppe på forsommeren: For å få framdrift bør diskusjonen ha en leder (moderator) som kan sortere innlegg. Dette kan skje tilnærmet automatisk ved hjelp av arkivfunksjon og såkalt "threaded discussion". Jeg oppforder på ny vertskapet for diskusjonslisten(e) til å vurdere om de kan legge til rette for slike løsninger. Dette ville også være i samsvar med den relativt tunge satsningen på å styrke fagligheten i norske bibliotek i form av prosjekter, konferanser og forskning. (jfr. innlegget fra Hans Martin Fagerli).

Så til saken:

Meg bekjent er det innen klassisk eller "Aristotelisk" logikk to hovedtilnærminger når en vil definere noe. Den ene består i å liste opp (navngi) de elementer som hører til i en klasse. Den andre består i å beskrive de særlige karakteristika som skal til (nødvendige og tilstrekkelige betingelser) for å delta i klassen. Men det finnes også en definisjonsmåte som ikke ser på elementene selv, men på en sosialt bestemt og underliggende *hensikt*.

Knut foreslår denne definisjonen av bibliografisk kontroll:

1 å fange opp mest mulig av materialet
2 som publiseres innenfor gitte kriterier
3 og å registrere dette på en enhetlig måte

Jeg synes dette er et godt innspill og det følgende er raskt nedtegnede kommentarer:

Det første leddet uttrykker intensjonen om universalitet. Det er altså ikke slik at en driver bibliorafisk kontroll bare når en har fanget alt. Men en gjør det når en fanger *noe* og intensjonen er å fange *mest mulig*.

Ledd to avgrenser det som skal fanges til det som "publiseres". Nå er det å publisere ikke entydig. Det holder ikke lenger med å si at teksten skal være på minimum 49 sider papir og at denne trykksaken på en eller annen måte er tilgjengelig i et "offentlig rom". En kan også stille spørsmålstegn ved verbets tid. Foregår bibligorafisk kontoll i ettertid (i forhold til det som *er publisert*) eller også i presens,- dvs. som et ledd i selve skrive - og publiseringsprosessen? Det siste er svært aktuelt dersom en f.eks. lager eksplisitte dokumentstrukturer i SGML/XML der dokumentets elementer kan ha beskrivende attributter (meta-informasjon, katalogdata eller hva en nå vil kalle det).

Det tredje leddet krever at bibliografisk kontroll innebærer at "det publiserte" er/blir *registrert* og at denne registreringen er *systematisk* (foregår på en enhetlig måte).

Intensjonaliteten i Knut's forslag (for å bruke så fine ord) går altså på universalitet, mens min "arbeidsdefinisjon" var orientert mot gjenfinnbarhet. Hele poenget med kontrollen er jo at tekster/dokumenter skal gjøres tilgjengelig. Nå kan Knut argumentere for at dette hører inn under "kunnskapsorganisasjon" og at "bibliografisk kontroll" er et subelement i dette slik at hensikten med det første også er hensikten med det siste.

(Jeg må tillate meg en sidekommentar. Det kan anføres ganske sterke argumenter for at bokstaver i en bok ikke er kunnskap. I min forstand innebærer "kunnskap" at det er noen som kan,- kunnskap er i det levende og ikke det døde. Det er derfor jeg er så glad i å bruke termer som "tekst" og "tekster" om det som står i bøker og i datanettverket. Kunnskap, derimot, eksisterer som en (intellektuell) *praksis* i menneskers samvirke med omgivelsene, - i særlig grad i sin omgang med hverandre.)

Knut bruker sitt første tema (definisjon av bibliografisk kontroll) som plattform for å mene noe om det andre tema (Dublin Core). Jeg oppfatter hans to hovedpoeng slik:

Marc (og tilsvarende) er mer finslepent enn Dublin Core (og tilsvarende). Han skriver: "(ved) konvertering forsvinner vesentlige opplysninger om innholdet ". Dette oppfatter jeg som *ett* argument * mot Dublin Core. Knut skriver også at "hovedinnvendingen .. er.. at det ikke er knyttet opp mot et regelverk". Dette er det *andre* argumentet.

Til dette:

Er det hensiktsmessig for biblioteket å *dele* systemer for bibliografisk kontroll med andre aktører (som lærere, studenter, forretningsfolk osv.)? I så fall, må da ikke slike systemer være "tøyelige" slik at folk med beskjedne behov til detaljrikdom (og evnt. lite penger) kan være med i tillegg til de som har omfattende behov (og rikholdige budsjetter)? Jeg innbiller meg at Dublin Core er et forsøk på å lage et slikt tøyelig system.

Det betyr altså at Dublin Core (og tilsvarende som f.eks. Resource Description Framework for XML) ikke er en sak for bibliotekaren alene. Mer enn det: Bibliotekaren har ikke, og kan ikke ha, monopol på dette feltet. Om bibliotekarene ikke vil være med, så er det laget og vil bli laget systemer for å skape kontroll med digitale tekster. Om bibliotekarene *vil* være med på dette, får de gjennomslag for mye (for de vet mye om dette), men de får ikke gjennomslag for alt.

Jeg tror at Knut peker på et sentralt poeng ved å trekke fram regelverket (det andre argumentet). Men jeg er usikker på hvordan han forholder seg til det som for meg er overordnet: Skal systemet kunne være både grovkornet og finkornet? Skal det kunne håndteres av andre en bibliotekarer?

Helge Høivik
pt seminarleder for et seminar med den velklingende tittel "Bibliografisk kontroll med dynamiske dokumenter i Norgesnettet" på Informasjonskunnskap hovedfag, JBI, Høgskolen i Oslo.


Date: Thu, 17 Sep 1998 15:00:58 +0200
To: bibliotek@rbt.no, folkebib-nett@bibtils.no
From: Annema Hasund Langballe 
Subject: Bibliografisk kontroll
Jeg fortsetter diskusjonen som særlig Knut, med stor energi, holder gående og tar opp noen punkter.

Definisjon av bibliografisk kontroll:

Jeg har fått et par innvendinger tidligere (før Knuts) på den vi samlet oss om i IFLAs bibliografikomité. La meg først si at jeg synes Knuts er god. Jeg er enig i at det er nødvendig med punkt 2 ("som publiseres innenfor gitte kriterier"). Når han synes definisjonen fra IFLA-møtet ligger for mye opp mot kunnskapsorganisasjon, er jeg ikke enig - ikke i Bibliografikomitéens sammenheng, for IFLA ønsker jo nettopp å knytte sitt arbeid opp mot standardene de selv arbeider for. Jeg vil nevne et par definisjoner vi var innom på veien:

Denne første er Mona Madsens, gitt i: Informationsvidenskabelige grundbegreber / Birger Hjørland. Supplement. Danmarks Biblioteksskole 199? (jeg gjengir fra møtepapiret og tar ikke bryet med å sjekke utgaven og språk): "Bibliographic Control implies the development and maintenance of a system of bibliographic registrations of documents in printed or electronic bibliographies. The purpose of Bibliographic Control is to ensure that documents - including the knowledge/information within these documents - can be retrieved".

Kirsten Waneck, Dansk Bibliotekscenter, foreslo denne definisjonen: "Bibliographic Control implies the development and maintenance of a system of descriptions of documents that are arranged according to accepted standards. The system ensures the identification, retrieval of and access to the documents".

Dette ble "forbedret" (kanskje ikke) av et amerikansk medlem til definisjonen Knut gjengir i sitt innlegg - som var den vi bragte videre til Division of Bibliographic Control.

"Gjenfinning" og "adgang til" er med i begge disse to, men utelatt hos Knut. Bibliografier gir vanligvis ikke lokaliseringer - men ved nasjonalbibliografienes registrering ligger implisitt at de beskrevne dokumenter finnes i nasjonalbiblioteket - så gjenfinning er sikret og vanligvis også adgang - ihvertfall på stedet (men ofte for bare visse kategorier brukere). For ytterligere detaljer trengs kataloger og samkataloger.

Knuts hovedanliggende oppfatter jeg å være: metadataene gir en altfor enkel bibliografisk beskrivelse og emneangivelse; bibliotekene må sette seg høyere mål. Og særlig Nasjonalbiblioteket må gjøre det. Bibliotekenes regelverk og formater er langt bedre hjelpemidler. Hovedinnvendingen mot Dublin Core er at systemet ikke er knyttet opp mot et regelverk for det som skal inn i feltene ("katalogiseringsregler"). Normalisering av visse data savnes også.

Nå vil jeg bevege meg over i virkelighetens verden. Der har Universitetsbiblioteket i Oslo ("NB Oslo") og senere også Rana forlengst resignert når det gjelder å lage en fullverdig bibliografisk beskrivelse av selv de trykte dokumentene. Vi har den såkalte SA-samlingen - tidligere "Systematisk avdeling", nå "Småtrykksamlingen" - som består av en rekke dokumenter uten personlig forfatter, knyttet til forskjellige former for foretak. Eksempler: produktkataloger, brosjyrer, rapporter. Samlingen rommer ca 1,5 millioner trykk og vokser med anslagsvis 50.000 enheter pr. år. Det er for årevis siden oppgitt å registrere hver slik enhet. Det er opprettet en base hvor foretaket registreres med navn og Dewey-nr (som gir bedriftens virkefelt), det er også et par registreringsfelt til for bl.a. note. Selve materialet ordnes i bokser etter Dewey-nr. og foretaksnavn. Den enhetlige registreringsmåten for denne typen materiale er altså en helt annen enn den som brukes i nasjonalbibliografien.

I UBO / NB Oslo har det også i årevis vært (og er fortsatt) en del dokumenter som registreres individuelt, men bare i katalogen (ikke i nasjonalbibliografien) - på et enklere katalogiseringsnivå enn det nasjonalbibliografiske. Vi har bestemt kriterier for hvilke typer dokumenter dette gjelder.

Når det gjelder nett-dokumentene, mener jeg vi står overfor lignende valg. En ting er jo selve ubestandigheten. Som det er nå, hvor dokumentene ikke kopieres eller nedlastes, er det en realitet at mye forsvinner fra nettet etter en stund. Hvis det ikke lastes ned på egne maskiner, vil vi for en stor del bare skape historiske beskrivelser i bibliografiene. Hva skal så lastes ned - og hvordan skal beskrivelsene være? I Sverige er det bestemt å laste ned alt, selv hjemmesider. Det virker fullstendig urealistisk på meg (jeg vet ikke om de har tenkt å katalogisere det også). Knut og jeg er tydeligvis enige om at det er nødvendig å bestemme både utvalgskriterier, dekningsgrad, og omfang og hensikt med beskrivelsen. Dette er ikke gjort ennå for nettdokumentene, men det må komme. Jeg mener det vil være umulig å katalogisere alt like grundig. Det må være mulig å komme frem til avgrensninger av lignende art som dem jeg har beskrevet ovenfor: noe bør katalogiseres på fullstendig nivå, for noe beholdes eventuelle metadata (evt. konvertert automatisk til enkle MARC-poster), eller slike legges til.

Hilsen
Annema/Anne M./Anne Margrete (Hasund) Langballe - (apropos normaliserte data)

From: Erling Bergan 
To: bibliotek@rbt.no, folkebib-nett@bibtils.no
Date: Fri, 18 Sep 1998 02:30:50 GMT+0100
Subject: Bibliografisk kontroll

Jeg vil prøve meg i diskusjonen om bibliografisk kontroll og metadata. Selv om gudene skal vite (og kollegaene vet) at jeg ikke har beskjeftiget meg så mye med «kat og klass».

Når det gjelder definering av begrepet "bibliografisk kontroll" har jeg lite å bidra med. Men dette spørsmålet dreier seg også om hvordan vi ser på utviklingen i nett-publisering og hvilke muligheter vi har for å produsere oversikter som dekker denne virksomheten og gjør det mulig å finne tilbake i den.

Jeg vil ta utgangspunkt i noen utviklingstrekk som mange vil kjenne igjen:

- Skillet mellom forfatter og utgiver er ikke lenger nødvendig av økonomiske grunner. Antall utgivere øker derfor samtidig med at antall dokumenter øker. Dette gjør at det blir færre ytre kjennetegn som skiller seriøse fra trivielle dokumenter.

- Et økende antall nett-dokumenter kan ikke refereres entydig til. De mangler et klart utgivelsestidspunkt, kan ikke leses lineært og utvikler seg dynamisk. De må også defineres i forhold til den maskin- og programvaren som trengs for å framstille dem.

Det første punktet tilsier at bibliografer i økende grad må gjøre tydelig hvilke utvalgskriterier som ligger til grunn for den bibliografiske kontrollen. La oss se på hva NORBOK forteller om seg selv: «I tillegg til forlagslitteratur og enkelthefter i monografiserier inneholder basen referanser til topografiske kart, lydbøker, maskinlesbare medier (CD-ROM, disketter m.m.) samt endel "grå" utgivelser.» Når papirsamfunnets skille mellom forlag og grå utgivere ikke finnes igjen på nettet, ser vi at NORBOKs omtale av sin egen avgrensning vanskelig kan anvendes for nett-dokumenter.

Vi kan kanskje se på internett som bestående av tre typer arenaer: - Den åpne og trivielle, der Ola Nordmann legger ut vev-sider om jernbane-hobbyen sin. - Den åpne og seriøse, der Høgskolen i Oslo legger ut forskningsrapportene sine. - Den lukkede, der bare de som har betalt får se gjennom Aftenpostens redaksjonsarkiv.

Det vil nok være uklare grenser mellom disse arenaene. Det trivielle kan vokse seg seriøst. Det lukkede kan åpnes gjennom reklame. Og det trivielle kan lukke seg inne. Men som en grov kategorisering finner jeg den nyttig.

Den første arenaen, den åpne og trivielle, bør heller overvåkes av sosialantropologer og søkeroboter enn av de nasjonale bibliografene. Og den siste arenaen, den lukkede, kan utenforstående av åpenbare grunner ikke kontrollere bibliografisk. Vår interesse må knyttes til den åpne og seriøse arenaen. Problemet er hvordan den skal gjenkjennes og avgrenses.

Når forfattere har gått til forlag og tidsskrift-redaksjoner med sine tekster, har det i stor grad vært av økonomiske grunner. De har ikke selv kunnet finansiere bok- eller tidsskriftutgivelsene. For en del forfattere har det også vært viktig å bli publisert av et anerkjent forlag, som oppfattes som et kvalitetsstempel og en plassering på den seriøse arenaen.

Når internett åpner for svært rimelig massedistribusjon av dokumenter, må forfattere finne nye samarbeidspartnere. De trenger hjelp til sikre seg inntekter av distribusjonen og de trenger hjelp til å få kvalitetsstemplet dokumentet. Det første kan se ut som et umulig prosjekt, så lenge dokumenter distribueres i digital form. Forfatterne må sikre seg inntekter uavhengig av antall «fremstilte eksemplar». Når det gjelder behovet for kvalitetsstempling, vil nok det finne sin form. Vev-domener vil etterhvert opparbeide ry når det gjelder kvalitetssikring av dokumenter de legger ut på eller lenker fra sine autoriserte adresser. Det kan være at disse «kvalitetsstemplerne» i mindre grad kommer til å hete Gyldendal og Universitetsforlaget, men kanskje heller Biblioteksentralen, Den Norske Lægeforening og Bellona.

Med et slikt scenario, kan det ikke tenkes at en side ved kvalitetsstemplinga kan dreie seg om å gjøre dokumentet identifiserbart og søkbart på en seriøs måte? At de nevnte «kvalitets-domenene» sørger for å legge f.eks.DC-metadata på sine dokumenter? Fordi det kanskje er eneste måten å bli innlemmet i registre som lages av anerkjente søkeverktøy? På samme måten som forlagene med den største selvfølgelighet utstyrer enhver bok med tittelblad, kan det tenkes at «kvalitetsdomenene» konsekvent utstyrer sine nettdokument med metadata? Så kan bibliografene velge å legge seg på at dokumentets metadata blir identisk med den bibliografiske innførselen. Eller de kan legge seg på at metadata, tilsvarende et tittelblad, er informasjon på fremtredende plass og brukes sammen med AACR2 til å produsere den bibliografiske innførselen. Det vil kanskje være behov for begge typer bibliografiske hjelpemidler?

Til slutt en kommentar til det Hilde Høgås omtaler som en av Nasjonalbibliotekets to «gjenfinningsmodeller for elektroniske dokument». Hun skrev i juli: «På lengere sikt kan vi tenke oss pliktavlevering av elektroniske dokument i retning av en mer total nedlasting av hele det norske «vevområdet».» Omfanget av et slikt prosjekt er ett problem. Å sørge for samtidig «total nedlasting» av dokumenter, program- og maskinvare, slik at det hele kan repeteres på et ønsket senere tidspunkt, er at annet problem. (Jeg har CD-ROM-plater fra 1994 som er uleselige på min PC kjøpt i 1997!) Men om alt dette kunne overvinnes, står vi likevel igjen med at et frosset bilde av «det norske vev-området» kan være både lite sannferdig og lite anvendelig. (Et still-bilde av Jørgen Juve forteller lite om hvilke kroppsfinter han brukte.)

Vi må prøve å unngå å bli overveldet av dokument-veksten på nettet. Som Knut Hegna påpeker kan bransjen bli fristet til å forflate det kunnskapsorganisatoriske arbeidet «for å rekke over det». Men nett-veksten må ikke forvirre oss til å blande skitt og kanel. Bibliotekene våre er jo synlige bevis på at vi har greidd å holde disse tingene adskilt i papirsamfunnet. Nå gjelder det å bygge opp kompetanse på kvalitetsvurdering av nett-dokumenter. Selv om det er flere talere på torget enn noen gang før, er det ikke sikkert at det er flere som forteller noe vi bør høre på.

Erling Bergan

________________________________________________
Hovudbibliotekar Erling Bergan
Hogskulen i Sogn og Fjordane
Postadresse: Avd.helsefag, 6800 Forde, Norway
Telefon: (+47) 57 72 25 19  
Telefax: (+47) 57 72 25 01
E-mail:  erling.bergan@ahf.hisf.no
________________________________________________
Privat - adresse : Runnen 4, 6800 Forde, Norway
Privat - telefon : (+47) 57 82 24 09
___________________________________

From: Tomas Mæsel <Tomas.Mesel@stud.jbi.hioslo.no>
To: bibliotek@rbt.no
Date: Mon, 28 Sep 1998 12:59:28 +0000
Subject: XML og bibliografisk kontroll
I forbindelse med diplomseminaret "Bibliografisk kontroll med dynamiske dokumenter i Norgesnettet" på Sivilbibliotekarstudiet ved HiO, har vi begynt å kikke på hvordan XML kan påvirke den bibliografiske kontrollen av digitale dokumenter. Jeg tenkte at dette kunne passe inn i debatten omkring bibliografisk kontroll som har pågått på listen en stund.
Jeg bruker følgende definisjon på bibliografisk kontoll: "Bibliografisk kontroll er organisering av dokumenter for seinere gjenfinning". Jeg vet at den er for enkel, men til mitt innlegg er den grei.
Vi er vant til at dokumenter på verdensveven er i HTML-format. HTML er en anvendelse av SGML. SGML er en standard for å beskrive dokumenters struktur. Problemet med HTML-formatet er at det er forholdsvis enkelt, og etterhvert som dokumentene på verdensveven blir mer og mer komplekse, blir HTMLs begrensninger stadig mer påtrengende.

For å kunne beskrive komplekse vevdokumenter, har XML (Extensible Markup Language) blitt utviklet. XML er en forenkling av SGML-standarden, det er en slags "SGML for Web". Sånn som det ser ut nå, kommer XML til å erstatte/supplere HTML som standard for vevdokumenter. Jeg har lyst til å peke på et par muligheter som åpner seg hvis det skulle skje.

I XML kan en beskrive elementer (for eksempel enkelte deler) av dokumenter ved hjelp av tagger, slik vi kjenner dem i HTML. Forskjellen fra HTML er at en kan definere taggene selv, og lage strukturene så komplekse som en selv vil. Et eksempel: Hvis en har et avsnitt i et dokument som handler om bibliografisk kontroll, kan en lage taggene og la de omslutte avsnittet. Vi har da fått et -element i teksten som seinere kan gjennfinnes eller søkes i. Jeg tror at en slik måte å beskrive deler av dokumenter på vil være et nyttig supplement til metadata (for eksempel Dublin Core) og andre måter å beskrive digitale dokumenter på.

XML vil ytterligere komplisere (hvis mulig...) debatten omkring hvordan en kan avgrense et digitalt dokument. I HTML er vi vant til enveis-lenkene, som er slik at hvis du klikker på en lenke, lastes et nytt dokument. XML har støtte for mange typer lenker. Blant annet kan du lenke til et element i et annet dokument på en helt annen server, og lenken vil føre til at det ser ut som elementet fra det andre dokumentet er en integrert del av dokumentet som inneholder lenken. I et slikt dokumentmiljø blir det ekstremt vanskelig å vurdere hvilke elementer som tilhører hvilke dokumenter, og hvordan en skal beskrive disse på en meningsfull måte. Og husk at dette bare er eksempel på en lenkevariant som XML støtter. Det finnes 6 til!

Jeg tror at vi bibliotekarer må ta tak i slike problemstillinger som jeg skisserer ovenfor, vi er blant dem som har de beste forutsetningene for å gjøre det.Og at det trengs er det vel ingen tvil om?

Hilsen Tomas


From: Knut Hegna 
To: bibliotek@rbt.no, folkebib-nett@bibtils.no
Subject: Megadata eller minidata
Date: Fri, 09 Oct 1998 09:44:29 +0200


     Forslag til helgelektyre.
     -------------------------
     Til debatten om bibliografisk kontroll og Dublin Core:

     Som forrige gang har jeg skrevet for langt og derfor lagt 
     innlegget i denne lenken:

        http://www.ifi.uio.no/~knuthe/dok/bkdc2.html

     Tidligere innlegg finner du (med forfatternes tillatelse :-) )
     fortsatt i:

        http://www.ifi.uio.no/~knuthe/dok/DCdisk.html

Her er innlegget:

Megadata eller minidata

Innlegg i debatten
på epostlistene bibliotek@rbt.no og folkebib-nett@bibtils.no
om bibliografisk kontroll og Dublin Core
i forbindelse med Nasjonalbibliotekets seminar om Dublin Core 26.oktober 1998.

Tidligere innlegg finner du her:
http://www.ifi.uio.no/~knuthe/dok/DCdisk.html

Jeg vil ta utgangspunkt i Helge Høiviks spørsmål: "Skal systemet for bibliografisk kontroll kunne være både grovkornet og finkornet ?" I all korthet er mitt svar JA.

Det er likevel ikke så enkelt, for jeg tror ikke vi snakker om samme system. Det jeg er opptatt av, er det arbeidet bibliotekene driver i forhold til samlinger (samling = dokumenter på papir eller elektronisk, i biblioteket eller utenfor organisert av biblioteket for en målgruppe). Høivik er opptatt av alt som publiseres på nettet.

Et bibliotek inneholder mange samlinger som kan få ulik bibliografisk behandling. Annema (Hasund) Langballe beskriver dette for Nasjonalbibliotekets del : en stor del av det avleveringspliktige materialet [småtrykk] får en summarisk bibliografisk beskrivelse, helt ulik den som gis i nasjonalbibliografien. Materialet lar seg skille ut og man har - etter mitt forsøk på definisjon - bibliografisk kontroll på et [lavt] nivå - enkel emnemessig beskrivelse, kriterie for samling på hylla. Vi kan jo kalle det minidata.

For nasjonalbibliografien og for bibliotekenes kataloger over sine samlinger gjelder andre mål - ikke minst når det gjelder den bibliografiske beskrivelsen - som krever detaljering og normalisering av data for å sikre god presisjon og fullstendighet og det kaller vi med et slanguttrykk for megadata.

Når det gjelder Dublin Core er målet formulert som å bedre presisjonen ved søk i søkemaskiner (som AltaVista). Målet skal oppnås ved at forfatterne av nettdokumenter skal føre på kvalifiserende opplysninger i fritt valg fra Dublin Core-formatet, og at søkemaskinene tar hensyn til feltene både ved indeksering og i søkespråk. Målet er gjenfinning, ikke bibliografisk kontroll. Jeg tillater meg å stille meg skeptisk til om målet kan nås av grunner som har med kvantitet og kvalitet å gjøre: bare en forsvinnende liten del av nettdokumentene vil ha "metadata" og de som har , vil ikke ha data som er konsistente med andre beskrivelser.

En nettdokumentforfatter ser bare sitt eget dokument - ikke den sammenhengen det skal inn i. Forfatterproduserte metadata er i sin natur dokumentorientert, mens bibliotekene arbeider med organisering av samlinger. Det er heller ikke slik at vi alltid kan stole på forfatterproduserte metadata. En forfatter kan ha helt andre hensikter med sine metadata enn et bibliotek. Dette dokumentet er selv et eksempel på dette, se nedenfor. Det selges rapporter som gir tips om hvordan man skal fylle ut metadata slik at man kommer på topp i trefflistene i søkemaskinene (se f.eks http://www.kerrnet.com/strategies/ og ta en kikk på kildekoden "view source" - det er ikke alle som har like edle hensikter på Internett som bibliotekarene).

For den enorme mengden med data på Internett må det brukes andre metoder for gjenfinning. Her kan nok automatiske metoder f.eks basert på dokumentstruktur (XML/SGML-koding som Tomas Mæsel nevner) komme til nytte (selv om jeg syntes at Mæsel mer inviterte til en diskusjon om hva et dokument er, enn å gå løs på Dublin Cores rolle i forhold til bibliotekkataloger, som er mitt hovedanliggende).

En annen metode er den som er beskrevet i en artikkel i tidsskriftet Communications of the ACM for et par år siden. Jeg siterer her fra et foredrag jeg holdt i februar 1997:

"I en av artiklene [Etzioni] gjøres det rede for ulike tilnærminger for å forbedre søking gjennom søkemaskinene. En av artikkelforfatterne reiser spørsmålet om informasjonen på WWW allerede er tilstrekkelig strukturert til å lette søkingen, om man bare bruker raffinerte nok metoder.

Selv om han understreker at et av hovedproblemene med WWW er mangel på kvalifiserende data, har han gjennom egne eksperimenter laget søkemekanismer som spesialiseres på å finne www-sider av en viss type med et brukerskrevet søkebegrep i tillegg. En enkel type www-side er folks personlige hjemmesider. Han har laget et sett av regler som gjør at programmet kan kjenne igjen denne typen www-sider. Reglene korrigeres ettersom de som søker melder tilbake om søkingen var vellykket eller ikke. Selve tjenesten virker slik at man skriver inn fornavn og etternavn. Deretter henter programmet fram aktuelle kandidatdokumenter for vellykkete treff via en metasøkemaskin (en metasøkemaskin søker gjennom en rekke vanlige søkemaskiner og samordner resultatene derfra). Kandidatdokumentene analyseres i forhold til reglene og programmet avgjør så om søket på dette grunnlaget er vellykket eller ikke.

Et av hovedpoengene hans er at dokumenttypen "hjemmeside" med sitt regelverk, lett kan byttes ut med andre dokumenttyper med andre regelsett, f.eks FAQ-dokumenter.

Tjenesten er forøvrig meget bra og den er ofte brukt med hell i Informatikkbiblioteket på jakt etter nettversjoner av ellers vanskelig tilgjengelig artikler. Anbefales ! (se http://ahoy.cs.washington.edu:6060/).

Hva så med norsk materiale som har metadata ? Etter mitt syn kan det samles i en egen database skilt fra data som har bibliografisk beskrivelse etter bibliotekstandard. Men det må for all del ikke inkluderes i bibliotekkataloger ubehandlet. Dette vil på lang sikt korrumpere katalogenes kvalitet som er bygget opp gjennom samvittighetsfull anvendelse av regler for katalogisering. Det er ikke lurt å blande data med ulike kvalitetsmål.

Kan bibliotekene gjøre seg nytte av DC-data ?

Bendik Rugaas skrev:

"... verken Dublin Core eller andre metadataformater kan erstatte tradisjonelle katalogdataposter i bibliotekkataloger eller nasjonalbibliografiske databaser ..."
Øivind Berg skrev:
Dublin Core strekker [ikke] til verken hva angår form eller innhold."
Hilde Høgås skrev:
DC har [ikke] den kvaliteten man må forlange av en katalogpost, det skorter både på form og kontroll av innhold."
I mitt forrige innlegg argumenterte jeg for at Dublin Core ikke egner seg for transport av bibliografiske data ved å sammenlikne DC med de 33 mest brukte feltene i USMARC.

Hva så med innholdet ? Og nå skal jeg bevege meg ut på tynn is, så det kan være fare for at jeg plumper, men jeg våger det ("pirkete" katalogisatorer har nå sjansen til å ta meg):

Jeg vil ta for meg registreringen av tittelen på et dokument fordi det er en opplysning som ikke enkelt kan knyttes til et autoritetsregister og det er kanskje ikke så lett å se problemene forfatterproduserte metadata skaper med tittel som med personnavn (som i en god katalog krever autorisering).

I en vanlig engelskspråklig bok kan man finne tittelen flere steder: på bokryggen, smussomslaget, smusstittelbladet, tittelbladet, tittelbladets bakside der det kan forekomme en CIP-post (ofte kalt kolofonsiden), det kan forekomme spisstittel. Disse titlene kan være forskjellige, derfor må reglene for registrering fastslå hvilken tittel som skal ha autoritet, eventuelt ha tilleggsregler for de andre tittelformene. Katalogreglenes paragraf 2.0B1 behandler "hovedkilde for opplysningene" og angir tittelsiden som hovedkilde om den fins. Hvorfor ? Det står det ikke noe om (i det hele veldig mye hvordan og lite hvorfor i katalogreglene). For meg syns grunnene å være åpenbare: vanligvis mest fullstendige opplysning på tittelsiden; siden fins der uansett omslag og innbinding; den har en fremtredende plass for leseren og dermed en gjenkjennede (identifiserende) effekt. Dette er barnelærdom for enhver bibliotekar (ikke meg).

I et nettdokument med teksten skrevet i f.eks HTML fins det også mange tittelopplysninger. Som eksempel vil jeg bruke det dokumentet du nå leser:

Hva skal vi oppfatte som dokumentets tittel ? Hvilken skal vi registrere i katalogdatabasen ? Den siste opplysningen er den som er mest framtredende for leseren og vil ha gjenkjennende (identifiserende) effekt. I tillegg er det bare den som framkommer om vi velger å skrive ut nettdokumentet på papir. Etter min mening det mest åpenbare valget. Og her får jeg støtte av katalogreglene (sitert etter Nancy B. Olsons "Cataloging Internet Resources : A Manual and Practical Guide. - Second Edition" (se http://www.oclc.org/oclc/man/9256cat/toc.htm):
The chief source of information for computer files available by remote access is the title screen or similar display from the terminal or a printout of that information. If there is no special display, information may be taken from the home page, web page, or file itself: "readme file," "about" screen, TEI (Text Encoding Initiative) header, HTML tagging, documentation file, internal menus, labels, subject line, program statements, etc.
Tittelen skal altså bestemmes av det mennesket, og ikke maskinen, oppfatter. En kombinasjon kan muligens oppnås ved å tvinge folk til å bruke en bestemt dokumentstruktureringsteknikk (SGML/XML). Jeg tror likevel dette er verken mulig eller ønskelig, men vil ikke forfølge dette synspunktet i denne omgang.

Dublin Core-tittelen kan dermed ikke importeres ubehandlet i bibliotekkataloger. BIBSYS plasserer DC.title rett inn 245 $a. Dette kan bare gjøres dersom den sammenfaller med den tittelen som leseren ser i dokumentet. Gjør den ikke det, må DC.title betraktes som en variant-tittel og plasseres i et annet felt.

Poenget gjelder enda sterkere for data som autoritetskontrolleres i bibliotekkataloger - som person- og institusjonsnavn.

Dermed mener jeg at jeg også har kommentert Erling Bergans avsnitt om "kvalitets-domenenes" interesser av å legge på seriøse metadata og hvordan bibliotekene skal forholde seg til disse. Vi kan selvfølgelig velge å anse skjulte metadata for å være de "mest framtredende", men da blir spørsmålet "framtredende for hvem" og dypest blir det et spørsmål om menneskets forrang framfor maskinene.

Før jeg beveger meg for langt ut på viddene : mitt poeng er altså at DC metadata tilknyttet et nettdokument må bearbeides, kontrolleres og suppleres før de kan inkluderes i en bibliotekkatalog, med mindre man med åpne øyne velger en praksis som kvalitetsmessig vil svekke katalogene som gjenfinningsredskap. Gevinsten av å importere forfatterproduserte DC-data ved katalogisering av nettdokumenter kan dermed være høyst tvilsom. Er DC-datene produsert/kontrollert av Nasjonalbiblioteket stiger verdien, men DC som bærer av bibliografisk informasjon er begrenset.

Den rollen som Nasjonalbiblioteket tillegger Dublin Core i innkallingen til seminaret 26.oktober bygger derfor etter min mening på et svakt bibliotekfaglig grunnlag.

Mener jeg så at Dublin Core er helt ubrukelig ? Nei. Dersom DC får generell utbredelse (det har ikke det nå!), i søkemaskiner, i dokumentproduksjonsprogrammer osv, så vil det være naturlig for bibliotekene å tilby DC-formatterte data fra sine kvalitetskataloger, slik de i dag tilbyr data i mange andre formater. Det blir så systemavdelingene i de ulike biblioteksystemene sin oppgave å sørge for at systemene kan produsere data i ulike formater og å tilrettelegge systemene slik at de som ønsker å bruke kvalitetsdata fra bibliotekene (autoritetsregistre) i sine metadata får anledning til det på en enkel måte.

Hilde Høgås peker nettopp på ovennevnte rolle for Nasjonalbiblioteket i sitt innlegg - som tilbyder av kvalitetsdata i den formen som publisister, søkemaskiner og andre kan gjøre seg nytte av - og for egen del tilføyer jeg : enten det er i MARC-format, DC, SGML/TEI/XML - you name it.

DC er ikke noe bibliotekfolk behøver å beskjeftige seg med (dette skulle jeg tatt til meg :-) ), så lenge de passer på at katalogene ikke svekkes. Men at vi skal bruke masse tid på å utbre et system som vi anser for utilstrekkelig, syns jeg er meningsløst.

Takk for følget.


Knut Hegna, 9.oktober 1998 - temmelig nøyaktig 2 år etter at jeg første gang hørte Dublin Core beskrevet av Stuart Weibel.

Rettelser:
19981009 : Byttet om de to siste avsnittene
         : I nytt siste avsnitt. Byttet ut
           ordet "Det" med "DC".
         : Rettet to skrivefeil

From: Oskar Kvasnes <OskarMarius.Kvasnes@stud.jbi.hioslo.no>
To: bibliotek@rbt.no, folkebib-nett@bibtils.no
Date: Mon, 2 Nov 1998 12:11:10 +0000
Subject: Dublin Core/Bibsys/Nasjonalt internet-arkiv
I etterkant av Nasjonalbibliotekets Dublin Core seminar 26. oktober, har jeg noen spørsmål i den pågående (?) debatten om bibliografisk kontroll og Dublin Cores kvaliteter. (Tidligere innlegg samlet av Knut Hegna: http://www.stud.ifi.uio.no/~knuthe/dok/DCdisk.html )

På Dublin Core seminaret ble det informert om arbeid som blir utført rundt Dublin Core metadata som basis for katalogisering av internet-dokument i Bibsys, og Dublin Core som grunnlag for oppbygging av et nasjonalt arkiv over norske internett-dokument i regi av Nasjonalbiblioteket.

I siste innlegg i debatten 9. oktober siterer Knut Hegna ulike debattanter og deres påpeking av svakheter ved Dublin Core når en skal bygge opp bibliotekskataloger, sitat:

" Kan bibliotekene gjøre seg nytte av DC-data ?

Bendik Rugaas skrev:
"... verken Dublin Core eller andre metadataformater kan erstatte tradisjonelle katalogdataposter i bibliotekkataloger eller nasjonalbibliografiske databaser ..." Øivind Berg skrev: Dublin Core strekker [ikke] til verken hva angår form eller innhold."

Hilde Høgås skrev: DC har [ikke] den kvaliteten man må forlange av en katalogpost, det skorter både på form og kontroll av innhold." "

På bakgrunn av dette lurer jeg på hvordan man kompenserer for Dublin Cores svakheter, i forbindelse med:

1. Dublin Core og Bibsys
Når forfatteren av et digitalt dokument fyller inn metadata er det valgfritt hvilke felt han vil fylle ut, og han har også mulighet til å "jukse" med utfyllingen for å komme høyere opp på trefflistene til søkerobotene. I tillegg eksisterer det ingen regler for hvordan forfatteren skal fylle ut de ulike feltene. Dette tilsier at metadatapostene har et større eller mindre antall feil, som må korrigeres om de kvalitetskrav som en vanligvis stiller til en bibliotekskatalog skal bli oppfylt. I hvilken grad blir DC metadata bearbeidet før de inkluderes i Bibsys-katalogen?

2. Dublin Core og nasjonalt internet-arkiv
Jeg vet ikke hvor langt man har kommet i arbeidet med å bygge opp et slikt arkiv, men slik jeg forstod situasjonen på seminaret så skal en bruke DC metadata som basis. I den forbindelse gjelder det ovenfor nevnte problem med postenes kvalitet.

Til slutt: Erling Bergan skriver i sitt innlegg 18. september om utvelgelses-kriterier for et nasjonalt internet-arkiv. Han skiller mellom tre internet-arenaer: " - Den åpne og trivielle, der Ola Nordmann legger ut vev-sider om jernbane-hobbyen sin. - Den åpne og seriøse, der Høgskolen i Oslo legger ut forskningsrapportene sine. - Den lukkede, der bare de som har betalt får se gjennom Aftenpostens redaksjonsarkiv. " Bergan mener at en bør skille mellom "skitt og kanel", og at det er den åpne og seriøse arenaen som er av interesse for et slikt arkiv. Mitt spørsmål: er det ikke Nasjonalbibliotekets oppgave å også ta vare på materiale fra den åpne og trivielle arena, slik at forskere om 15 år for eksempel kan forske på dagens private hjemmesider og ha materiale tilgjengelig?

Med hilsen 
Oskar Kvasnes
Sivilbibliotekarstudiet
Høgskolen i Oslo

To: bibliotek@rbt.no, folkebib-nett@bibtils.no
Subject: Forfatterproduserte metadata - kan vi stole på dem ?
Date: Tue, 03 Nov 1998 10:49:59 +0100
From: Knut Hegna 
Til debatten om bibliografisk kontroll og Dublin Core

I mitt forrige innlegg viste jeg til en to år gammel "tjeneste" som skulle bringe vevsider høyt opp på trefflister i søkemaskinene. Ved å studere tjenestens egen side er det lett å se at emneord ble gjentatt i det uendelige på en for leseren skjult måte, men synlig for søkerobotene som indekserer.

Lørdag kveld datt det inn en reklame for en ny slik tjeneste i min epostkasse. Den er ikke like simpel som ovennevnte. Den tar sikte på å bruke metoder som søkerobotene "liker", kanskje i form av metadata i dokumentets hode. For interesserte gjengir jeg meldingen på

http://www.ifi.uio.no/~knuthe/dok/metafuzz.html
Er det rimelig eller urimelig å tro at forlag som skal tjene penger på sine elektroniske utgivelser vil ønske å komme høyt opp på trefflister og dermed vil benytte seg av slike eller egenproduserte metoder ? Hva betyr det i så fall for vår vurdering av hensiktsmessigheten med disse metadataenes gjenbruk i bibliotekkatalogene ?

Det er vel det man kaller retoriske spørsmål ... Hm

Vel, jeg mener slike "tjenester" hører med som et element i denne diskusjonen.

Knut Hegna


From: Anne Munkebyaune 
To: bibliotek@rbt.no, folkebib-nett@bibtils.no
Date: Thu, 5 Nov 1998 17:25:10 +0000
Subject: Metadata og bibliografiske poster
Til diskusjonen om metadata og bibliografiske poster.

Jeg lurer på om det ikke er lurt å la metadata være navnet på den type data som befinner seg i dokumenter, altså data om data i data som noen ville bruke. Når data om data blir trukket ut av "i data" vil jeg ikke kalle dem metadata lenger. Selv har jeg forstått metadata som opplysninger om dokumentet som blir publisert sammen med dokumentet slik som Dublin Core er ment brukt. Metadata slik Dublin Core er utformet inneholder ingen beskrivende elementer og er derfor lite egnet til å identifisere dokumentet. Men det er heller ikke nødvendig så lenge metadataene holder seg på plass i dokumentet. Da har vi jo dokumentet for hånden (eller for skjermen) og dokumentet identifiserer seg selv. Verre blir det når "posten" (metadataene) blir revet ut av dokumentet og skal leve sitt eget liv. Da spørs det om vi har opplysninger som identifiserer dokumentet. Antakelig må det tilføyes en beskrivelse for dette formålet.

En bibliografisk post derimot inneholder både identifiserende elementer og "access points".

Elementer som er nødvendige i den ene typen poster (bibliografiske) vil være redundante data i den andre typen (metadata), hvis de sistnevnte forstås som data om data i data. Jeg synes det hadde vært greit å ha navn som skiller post-typer med ulike funksjoner.

For ordens skyld: bibliografisk beskrivelse omfatter bare den delen av posten som gjengir opplysninger slik de er gitt i dokumentet (hovedsakelig for indentifikasjonsformål), deskriptiv katalogisering omfatter både den bibliografiske beskrivelsen og "access points". Emnedataene er access points, men hører hverken med til den bibliografiske beskrivelsen eller den deskriptive katalogiseringen.

Hilsen Anne Munkebyaune


Date: Wed, 11 Nov 1998 21:21:40 +0100 (MET)
From: Kjetil Kjernsmo <kjetil.kjernsmo@astro.uio.no>
To: bibliotek@rbt.no, folkebib-nett@bibtils.no
Subject: Re: Forfatterproduserte metadata - kan vi stole på dem ?
Heisan!

Jeg har saa vidt hengt med i debatten gjennom Anders Ericson, som har sendt meg relevante innlegg. Jeg er webmaster for www.skepsis.no, og tenker iblant paa metadata. Jeg satt igang en sak for aa klassifisere dokumenter paa <URL:http://www.skepsis.no/english/classification/>, men det gaar litt tregt (hvis noen vil hjelpe, blir vi glade :-) ) Nuvel, til saken.

Forresten, jeg staar ikke paa listene naa, kan noen skrive meg paa (det holder sikkert med en av de (den mest relevante).)?

>From: Knut Hegna <knuthe@ifi.uio.no>
>>
>>Lørdag kveld datt det inn en reklame for en ny slik tjeneste
>>i min epostkasse. Den er ikke like simpel som ovennevnte.
>>Den tar sikte på å bruke metoder som søkerobotene "liker",
>>kanskje i form av metadata i dokumentets hode. For interesserte
>>gjengir jeg meldingen på 
>>    http://www.ifi.uio.no/~knuthe/dok/metafuzz.html

Jeg fikk den jeg og. Den gikk visst nesten ulest i soepla og en klagemelding gikk til en stakkars ISP :-)

>>Er det rimelig eller urimelig å tro at forlag som skal tjene
>>penger på sine elektroniske utgivelser vil ønske å komme
>>høyt opp på trefflister og dermed vil benytte seg av slike eller
>>egenproduserte metoder ? 
Det er nok sannsynlig at enkelte vil gjoere det, og dette er grunnen til at en av de store, Excite, ikke indekserer metadata i det hele tatt. Det er imidlertid en litt for defensiv strategi etter mitt syn.

De andre, store robotene har i stedet mekanismer som utestenger sider som bruker stygge metoder for aa komme seg oppover. De burde ikke veare altfor vanskelige aa avsloere, og jeg tviler paa at strategien UCEen over skulle selge ville gjoere searlig lykke, AltaVista snakker litt om det nederst paa <URL:http://www.altavista.com/av/content/addurl.htm> og Infoseek paa <URL:http://www.infoseek.com/Help?pg=spam.html>, der de f.eks. sier "Use of different pages that bridge to the same URL" [boer unngaas fordi det detekteres og anses som slemt].

>>Hva betyr det i så fall for vår
>>vurdering av hensiktsmessigheten med disse metadataenes 
>>gjenbruk i bibliotekkatalogene ?

Vel, det er ille at man maa til med slike tiltak som aa sjekke for slikt, men tiltakene ser ut til aa virke. Ihvertfall opplever jeg sjelden aa havne paa totalt irrelevante sider.... Bare ganske irrelevante sider :-).

Naar det gjelder forlag, tror jeg saken er ganske grei. Legg inn noen sjekkerutiner, og hvis noen proever seg, bare steng de ute fra databasen. Hos forlag har man noen aa forholde seg til sannsynligvis, og jeg regner med at en klage paa misbruk av noekkelord o.l. vil bli tatt serioest.

Det er en smule verre naar det gjelder resten av nettet, men optimistisk som jeg er, har jeg troen paa forfatterprodusert metadata. Forresten, RDF begynner visst aa nearme seg Recommendation, ser det ut til.

Vennlig Tiddeli-bom,

Kjetil

-- 
Kjetil Kjernsmo
Graduate astronomy-student                    Problems worthy of attack
University of Oslo, Norway            Prove their worth by hitting back
E-mail: kjetikj@astro.uio.no                                - Piet Hein
Homepage 
Webmaster@skepsis.no 

Date: Fri, 13 Nov 1998 15:34:54 +0100 (NFT)
From: Ole Husby 
To: Oskar Kvasnes 
Cc: bibliotek@rbt.no, folkebib-nett@bibtils.no
Subject: Re: Dublin Core/Bibsys/Nasjonalt internet-arkiv

Svar på et spørsmål i innlegget fra Oskar Kvasnes:

Det er riktig at metadatapostene ofte vil ha "et større eller mindre antall feil". Eksterne poster som importeres inn i BIBSYS via katalogmodulens importmulighet vil alltid bli kvalitetskontrollert og rettet opp av den som katalogiserer. Dette gjelder import fra LC-MARC, fra Z39.50-baser og selvfølgelig også nettdokumenter med Dublin Core.

Ole

On Mon, 2 Nov 1998, Oskar Kvasnes wrote:

[...]

> På bakgrunn av dette lurer jeg på hvordan man kompenserer for Dublin
> Cores svakheter, i forbindelse med:
> 
> 1. Dublin Core og Bibsys
> Når forfatteren av et digitalt dokument fyller inn metadata er det
> valgfritt hvilke felt han vil fylle ut, og han har også mulighet til å
> "jukse" med utfyllingen for å komme høyere opp på trefflistene til
> søkerobotene. I tillegg eksisterer det ingen regler for hvordan
> forfatteren skal fylle ut de ulike feltene.
> Dette tilsier at metadatapostene har et større eller mindre antall
> feil, som må korrigeres om de kvalitetskrav som en vanligvis stiller
> til en bibliotekskatalog skal bli oppfylt. I hvilken grad blir DC
> metadata bearbeidet før de inkluderes i Bibsys-katalogen?

[...]