Datensätze Ein Datensatz dient der Beschreibung bzw. Abbildung von Merkmalen bzw. Eigenschaften eines Objektes. Datensatzstruktur Die Struktur eines Datensatzes hängt ab von den Merkmalen bzw. Eigenschaften des Objekts, zu dessen Beschreibung bzw. Wiedergabe er angelegt wurde. Sie wird bestimmt durch die Art und Anzahl der Datenfelder und Datenfeldwerte. Typen von Datensätzen Folgende wichtige Datensatztypen (entsprechend auch Datenbanken) finden sich in Retrievalsystemen:
- Bibliographische Datensätze (in bibliographischen Datenbanken)
Ein bibliographischer Datensatz bildet eine Dokumentationseinheit (bzw. einen Dokumentennachweis) in Feldstruktur ab. Er beinhaltet also in der Regel nicht nur die bibliographischen Angaben zur eindeutigen Identifikation eines gegebenen Dokuments, sondern auch Inhaltsrepräsentanten in Form von Deskriptoren, Schlagwörtern oder Notationen und ein Abstract. Abb.: Beispiel eines bibliographischen Datensatzes Als Dokumentationseinheit (DE) wird die über eine dokumentarische Bezugseinheit (DBE) gewonnene Information bezeichnet. Die Dokumentationseinheit besteht aus formalen und inhaltsbeschreibenden Angaben. Formale Angaben sind u.a. Autorenname, Titel, Untertitel, Zeitschriftentitel, Erscheinungsvermerk. Die formalen Angaben stellen die eindeutige Identifizierbarkeit des Dokuments sicher. Mit Hilfe der inhaltlichen Erschließung wird versucht, das im Dokument enthaltene Wissen zu repräsentieren. Werkzeuge hierfür sind Schlagwörter, Klassifikationen, Thesauri, Textzusammenfassungen (Referate bzw. Abstracts) u.a.
- Volltextdatensätze (in Volltextdatenbanken)
Volltextdatensätze enthalten die bibliographischen Angaben zu einem Dokument und dessen vollständigen Text. Häufig werden auch inhaltsbeschreibende Angaben erfaßt. Der Volltext ist die Wiedergabe des gesamten Textdokuments. Abb.: Beispiel eines Volltextdatensatzes
- Lexikalische Datensätze (in Dictionary- und Directory-Datenbanken)
Diesem Datensatztyp werden Datensätze zugeordnet, die Einträge aus Nachschlagewerken, also Enzyklopädien, Lexika, Wörterbüchern, Handbüchern usw., enthalten. Datenbanken, in denen lexikalische Datensätze gespeichert sind, werden als Directory-Datenbanken (engl. auch Referral Databases) bezeichnet. Abb: Beispiel eines lexikalischen Datensatzes aus einer Dictionary-Datenbank Abb: Beispiel eines lexikalischen Datensatzes aus einer Directory-Datenbank
- Datensätze in Faktendatenbanken
Faktendatenbanken stellen Sammlungen statistischer, numerischer oder Eigenschaftsdaten dar. In statistischen Datensätzen sind v.a. numerische Informationen zuzüglich Textinformationen strukturiert. Ihre Form reicht von einfachen numerischen Angaben bis zu komplexen statistischen Zeitreihen. Da in IR-Systemen rechnerische und statistische Verarbeitungsfunktionen nicht integriert sind, die in statistischen Datensätzen gespeicherten Zahlenwerte also nicht unmittelbar aufbereitet werden können, werden die entsprechenden Datenbanken auch als quasi-statistische Datenbanken bezeichnet (s. Staud). Quasi-statistische Datenbanken zählen zu den sog. Faktendatenbanken. Statistische Datenbanken erfordern spezielle Datenbank- und Retrievalsysteme (z.B. AREMOS, MAGIC). Lesen Sie dazu VENKER, Karl: Nutzung von Faktendatenbanken. - In: Fachwissen Datenbanken ... - S. 75-104 Abb.: Beispiel eines Datensatzes aus einer Faktendatenbank Datenfelder In IR-Systemen unterscheidet man a) nach der Möglichkeit des Zugriffs (der Suche) zwischen
- suchbaren Feldern; d.h. nach den Einträgen in diesen Feldern kann (in Abhängigkeit von der ·Art der Invertierung und dem ·Indextyp) gesucht werden,
- Feldern, die nicht direkt suchbar, jedoch für eine Limitierung vorausgegangener Suchschritte benutzt werden können, und
- nicht suchbaren, d.h. nur für die Anzeige bzw. Ausgabe vorgesehenen Feldern.
b) nach der Art des Zugriffs (der Suche) zwischen
- Textfeldern, die IR-systemtypisch wortweise, wortgruppenweise oder wort- und wortgruppenweise invertiert sind, und
- formatierten bzw. Faktenfeldern, die v.a. feldwertweise invertiert sind und in denen mittels Vergleichsoperatoren gesucht werden kann.
Dateien Die Datenbank eines IR-Systems besteht aus mindestens zwei Dateien: der sog. Dokumentdatei (auch Textdatei; die ursprüngliche elektronische Datensammlung (auch Datenbase oder Datenbasis)), und mindestens einer invertierten Datei (auch Umkehrdatei, Indexdatei oder kurz Index, Wörterbuch, Registerdatei). Die Dokumentdatei ist vom Dateityp sequentielle Datei. Sie besteht aus gleichstrukturierten Datensätzen (auch Datenbankdokumente, kurz Dokumente genannt), die in der Reihenfolge ihrer Einspeisung in das System, also ungeordnet, abgelegt sind. Ein Datensatz wird für jeweils ein Objekt angelegt und ist gleichstrukturiert. Seine Struktur wird bestimmt durch die Anzahl vorhandener Datenfelder, die jeweils ein Merkmal des gegebenen Objektes beschreiben. Jedes Datenfeld ist von einem bestimmten Datenfeldtyp. Die Indexdatei ist das Ergebnis der Invertierung bzw. wortweisen Indexierung der Textfelder der in der Dokumentdatei abgelegten Dokumente. Sie enthält somit alle Wörter (Indexterme) eines oder mehrerer Felder eines Dokumentes in alphabetischer Ordnung. Jedem Indexterm ist wiederum eine Liste von Verweisen (Adressen) auf die entsprechenden Dokumente in der Dokumentdatei zugeordnet. Die Verweise zeigen auf die Dokumente, die das entsprechende Wort enthalten. In die Indexdatei nicht übernommen werden
- die Einträge bestimmter Datenfelder, nach denen nicht recherchiert werden soll, und
- die sog. Stoppwörter, die in einer Stoppwortliste aufgelistet sind.
Aus systemtechnischen Gründen sind die Dokumentverweise i.d.R. in einer separaten Datei, der sog. Verweisdatei (auch Adreßdatei, invertierte Datei) gespeichert. Häufig werden in der Verweisliste neben der Dokumentnummer auch das Feld, die Satznummer und die Wortnummer zu einem Indexterm erfaßt. Die Dokumentsuche beginnt in der Indexdatei und führt dann über die Verweisliste zum Dokument. Die Abbildungen bei Kind (S. 291) oder Eysenbach (S. 166) zeigen die Struktur eines Retrievalsystems. AN 1 NO Die Datenbank enthält Firmeninformationen. Neben textlichen Informationen sind auch Tabellen und Fakten erfaßt. AN 2 NO CRONOS-FRIC ist Teil des Datenbankkomplexes CRONOS von EUROSTAT (Statistisches Amt der Europäischen Gemeinschaft). Sie enthält statistische Informationen zum Außenhandel der EG-Länder. Anmerkungen:
- Die Stopwörter (hier durchgestrichen) werden nicht invertiert.
- Der Bindestrich ist nicht als Worttrenner definiert.
Die Wortpositionszählung ist erforderlich, damit Abstandsoperatoren eingesetzt werden können. Die über beide Datensätze generierte Indexliste zum Feld NO: Amt 2/10 Außenhandel 2/19 CRONOS 2/6 CRONOS-FRIC 2/1 Datenbank 1/2 Datenbankkomplexes 2/5 EG-Länder 2/21 enthält 1/3, 2/15 erfaßt 1/13 Europäischen 2/12 Fakten 1/12 Firmeninformationen 1/4 Gemeinschaft 2/13 Informationen 1/7, 2/17 Neben 1/5 statistische 2/16 Statistisches 2/9 Tabellen 1/10 Teil 2/3 textlichen 1/6 Abb.: Prinzip der Invertierung anhand eines Beispiels (Zwei Datensätze mit je 2 Feldern: AN (Accession Number) und NO (Note bzw. Anmerkungen); in Anlehnung an J.L. Staud: "Online Datenbanken. Aufbau Struktur Abfragen" (S.85). Invertierung (auch Indizierung oder automatische wortorientierte Indexierung) Unter Invertierung verstehen wir im gegebenen Kontext die Erzeugung der Indexdatei durch die automatische Extraktion der Indexterme aus dem Dokumententext. Die Indexierungsart in IR-Systemen bestimmt, wie invertiert und sortiert wird. Die Invertierungsart ist i.d.R. feldspezifisch. Man unterscheidet:
Ein Wort ist als alphanumerische Zeichenkette zwischen zwei Leerzeichen definiert. Bei der wortweisen Invertierung eines Datenfeldes wird jedes einzelne Wort dieses Feldes in die alphabetisch geordnete Indexdatei aufgenommen. Interpunktionszeichen (z.B. Bindestriche) werden als sog. Text- oder Worttrenner behandelt und bei der Indexierung ignoriert. Von der wortweisen Invertierung sind Stoppwörter und reservierte Wörter (z.B. Operatoren) ausgenommen. Die Stoppwörter sind in einer Stoppwortliste enthalten. Ihre Auswahl ist systemspezifisch.
- Mehrwortweise Invertierung (Phraseninvertierung)
Werden zwei oder mehr Wörter i.d.R. zusammen benutzt, spricht man von einer festen Wendung, Wortgruppe oder Phrase. Phrasen werden in IR-Systemen häufig durch Bindestriche kenntlich gemacht, was zur Bezeichnung "Bindestrichkompositum" geführt hat. Häufig phrasenindexiert ist das Autorfeld eines Dokumentes.
- Wortweise und mehrwortweise Invertierung (Double Posting)
Sowohl wortweise als auch mehrwortweise invertiert werden i.d.R. Felder, die als Einträge kontrolliertes Vokabular zur inhaltlichen Beschreibung des Dokumentinhaltes enthalten, also Deskriptoren, Schlagwörter oder Notationen einer Klassifikation.
Faktenfelder werden feldweise oder wertweise invertiert. Felder, die ausschließlich numerische Daten enthalten, werden i.d.R. numerisch, d.h. nach dem numerischen Gesamtwert sortiert. Im Gegensatz dazu steht die alphabetische Sortierordnung bei den vorgenannten Indexierungsarten: Sie ergibt sich aus der Wertigkeit der Zeichen in der ASCII-Zeichensatz-Tabelle und dem stellenweisen Sortieralgorithmus. Die numerische Sortierung ist die Voraussetzung für die Suche mit Vergleichsoperatoren in numerischen Faktenfeldern. Indexdateien (auch invertierte Dateien) Eine Datenbank bietet i.d.R. zwei Arten von Indexdateien als Suchmöglichkeit: eine Hauptindexdatei (Gesamtindex oder Basic Index) und einen oder mehrere feldspezifische Indexdateien. Anzahl und Art der Indexdateien sind systemspezifisch.
Der Hauptindex ist ein feldübergreifender Index. Er enthält die Einträge mehrerer, zumindest jedoch der inhaltsrelevanten Felder.
- Feldspezifische Indexdateien
Spezielle Indexe werden in IR-Systemen, die einen Gesamtindex generieren, i.d.R. für Felder aufgebaut, die Fakten enthalten. Fakten- (auch Festwert-) felder sind u.a. Erscheinungsjahr und Sprache. In Systemen, die feldweise invertieren, also keinen Gesamtindex aufbauen, werden i.d.R. alle Einträge in Feldern, die keine inhaltsrelevanten Angaben zum Dokument enthalten, in einer oder mehreren feldspezifischen Indexdateien erfaßt. |