Sichtungen. Archiv - Bibliothek - Literaturwissenschaft ISSN: 1680-8975
PURL: http://purl.org/sichtungen/

Home > Beiträge > Aufsätze > Bruvik: Text Encoding Initiative


Tone Merete Bruvik: »Yesterday's Information Tomorrow«*. Die Text Encoding Initiative (TEI) (10. 05. 2002). In: Sichtungen online, PURL: http://purl.org/sichtungen/bruvik-tm-1a.html ([aktuelles Datum]).

Tone Merete Bruvik
Universität Bergen
HIT-Centre / Office Text Encoding Initiative Consortium
Allégaten 27, N-5007 Bergen
Tel.: +47-55584222
Email: tone.bruvik@hit.uib.no; URL: http://www.hit.uib.no/english/
Adressinformation zuletzt aktualisiert: 2002

Daniel Jung

Übersetzung aus dem Norwegischen

»Yesterday's Information Tomorrow«[*]

Die Text Encoding Initiative (TEI)

Tone Merete Bruvik

Preprint


Einleitung

Es gibt eine Reihe von Formaten für elektronische Texte. Die meisten sind proprietär, was bedeutet, daß ein bestimmtes Programm benötigt wird, um die Dokumente zu lesen. Diese proprietären Formate erschweren die Weitergabe von Texten, und sogar bei Einsatz des gleichen Programms kann es bei Versionsunterschieden Leseschwierigkeiten geben. Verwendet man keine programmunabhängigen Formate, die auch nach mehreren Jahren noch gelesen werden können, gehen elektronische Texte schlichtweg verloren. Oft wurde auch auf sogenannte ›reine‹ ›Text‹-Formate zurückgegriffen; diese sind aber leider weder ›rein‹ noch zweckdienlich. Bestenfalls wird der Rohtext als solcher behalten, doch zusätzliche Informationen (alphabetfremde Zeichen, Textstruktur und Metadaten) gehen mit der Zeit verloren.

Gedruckte und elektronische Dokumente können sehr viel mehr Information beinhalten als den ›eigentlichen‹ Text. Ein Dokument kann z. B. durch mehrgliedrige Überschriften strukturiert sein; Bücher verfügen typischerweise über Einleitung und Register. Sowohl gedruckte als auch elektronische Texte können Kommentare, Fußnoten und Varianten aufweisen. Doch während man beim gedruckten Text von der Größe der materiellen Buchseite abhängig ist, gibt es diese Begrenzung bei elektronischen Texten nicht. Die gedruckte Buchseite ist statisch, während der elektronische Text dynamisch ist. Das bedeutet, daß dem elektronischen Text je nach Bedarf und Interesse ständig neue Zusatzinformation hinzugefügt werden können, und es bedeutet auch, daß ausgewählt werden kann, welche Informationen bei der Wiedergabe des Textes, sei es online oder gedruckt, aufgeführt werden sollen. Jedes gedruckte Dokument ist somit eine von vielen möglichen Realisationen des elektronischen Texts.

Es gilt nun einerseits, bei der Transformation eines Dokuments in das elektronische Format so viel Information wie möglich zu behalten, und andererseits dafür Sorge zu tragen, daß der Informationsgehalt von Dokumenten in elektronischer Form nicht durch eventuelle inkompatible proprietäre Datenformate allmählich verloren geht.


TEI - Text Encoding Initiative

1987 wurde die internationale Kooperation Text Encoding Initiative (TEI) gegründet, um den Problemen Abhilfe zu verschaffen, die elektronische Texte aufwerfen. TEI hat ein unabhängiges, portables und offenes Format zu Speicherung, Austausch und Analyse von Texten in den Geisteswissenschaften entwickelt. Das konkrete Resultat dieser Arbeit sind sowohl Richtlinien[1] für die Kodierung unterschiedlicher Textsorten als auch das Textkodierungsformat selber.

TEI folgt in der Kodierung der Markup-Standardsprache SGML (Standard Generalized Markup Language). Ziel des TEI-Formats ist es, so viele strukturelle Elemente unterschiedlicher Textsorten wie möglich zu repräsentieren. TEI liegt als DTD (Document Type Definition) in modularisierter Form vor. (Eine DTD ist eine Datei, die angibt, welche Kodierungsregeln in den dazugehörigen Dokumenten erlaubt sind.) Seit 2000 ist auch eine XML-Version (Extented Markup Language) von TEI verfügbar. Die TEI-Richtlinien und DTDs sind frei zugänglich und kostenlos.

Als Beispiel für eine TEI-Kodierung soll ein Gedicht dienen:

Hugo von Hofmannsthal
Die Beiden

Sie trug den Becher in der Hand
– Ihr Kinn und Mund glich seinem Rand –,
So leicht und sicher war ihr Gang,
Kein Tropfen aus dem Becher sprang.

So leicht und fest war seine Hand:
Er ritt auf einem jungen Pferde,
Und mit nachlässiger Gebärde
Erzwang er, daß es zitternd stand.

Jedoch, wenn er aus ihrer Hand
Den leichten Becher nehmen sollte,
So war es beiden allzu schwer:
Denn beide bebten sie so sehr,
Daß keine Hand die andre fand
Und dunkler Wein am Boden rollte.

Dieses Gedicht kann in TEI-Kodierung folgendermaßen aussehen:

<?xml version="1.0"?>
<!DOCTYPE TEI.2 PUBLIC "-//TEI//DTD TEI Lite XML ver. 1//EN" "http://www.hit.uib.no/xml/Ibsen/teixlite.dtd"[ <!ENTITY % ISOlat1 SYSTEM "http://www.hit.uib.no/xml/Ibsen/iso-lat1.ent"> %ISOlat1; ]>

<TEI.2>

        <teiHeader>
             <fileDesc>
                <titleStmt><title>Die Beiden</title>
                   <author>Hugo von Hofmannsthal</author>
                </titleStmt>
                <publicationStmt><p>Kodierungsbeispiel eines Gedichts, von Tone Merete Bruvik.</p></publicationStmt>
                <sourceDesc>
                   <bibl>
                      <title type ="m">Gedichte und Lyrische Dramen</title>
                      <title type ="s">Gesammelte Werke in zw&ouml;lf Einzelausgaben</title>
                      <author>Hugo von Hofmannsthal</author>
                      <edition>Herausgegeben von Herbert Steiner</edition>
                      <publisher>Berman-Fischer</publisher>
                      <pubPlace>Stockholm</pubPlace>
                      <date>1946</date>
                      <biblScope>S. 13</biblScope>
                   </bibl>
                </sourceDesc>
             </fileDesc>
        </teiHeader>

        <text>
             <body>
                <div type="poem">
                   <head><name>Hugo von Hofmannsthal</name> - <title>Die Beiden</title></head>
                   <lg type = "stanza">
                   <l>Sie trug den Becher in der Hand</l>
                   <l>- Ihr Kinn und Mund glich seinem Rand -,</l>
                   <l>So leicht und sicher war ihr Gang,</l>
                   <l>Kein Tropfen aus dem Becher sprang.</l>
                   </lg>
                   <lg type="stanza">
                   <l>So leicht und fest war seine Hand:</l>
                   <l>Er ritt auf einem jungen Pferde,</l>
                   <l>Und mit nachl&auml;ssiger Geb&auml;rde</l>
                   <l>Erzwang er, da&szlig; es zitternd stand.</l>
                   </lg>
                   <lg type="stanza">
                   <l>Jedoch, wenn er aus ihrer Hand</l>
                   <l>Den leichten Becher nehmen sollte,</l>
                   <l>So war es beiden allzu schwer:</l>
                   <l>Denn beide bebten sie so sehr,</l>
                   <l>Da&szlig; keine Hand die andre fand</l>
                   <l>Und dunkler Wein am Boden rollte.</l>
                   </lg>
                </div>
             </body>
        </text>

</TEI.2>

Die Kodierung des Textes besteht aus Elementen, Attributen und Entities. Ein Auszeichnungslement wird auch Tag genannt. Ein Element beginnt mit einem Start-Tag, z. B. <text>, und schließt mit einem entsprechenden Schluß-Tag, </text>. Der Inhalt eines Elements kann aus anderen Elementen oder aus Text (d. h. aus einer Zeichenfolge) bestehen. Das Start-Tag kann Attribute enthalten; im obigen Beispiel wird etwa type als Attribut für die Elemente lg (line group) und div (text division) verwendet. Die Attribute geben Zusatzinformation; hier spezifizieren sie das generische Element div als ›poem‹ (also Gedicht), und das generische Element lg als ›stanza‹ (also Gedichtstrophe).

Welche Elemente, Attribute und Entities an welchen Stellen erlaubt sind, wie sie verwendet und verschachtelt werden können, wird durch die DTD definiert.

Die Datei mit der kodierten Gedichtversion beginnt mit einer Zeile, die den Typ des Dokuments definiert, im Beispiel: XML. Auf diese XML-Deklaration folgt eine Dokumenttyp-Deklaration, in der auf die DTD referiert wird (hier mit der absoluten URL: http://www.hit.uib.no/xml/Ibsen/teixlite.dtd). In der Dokumenttyp-Deklaration wird zusätzlich zur DTD eine Entity-Referenz für die Repräsentation von ISO-646-fremden (d. h. ASCII-fremden) Zeichen angegeben.

Durch Entity-Referenzen werden Entities in das Dokument eingebunden, die in der DTD definiert sind. In der DTD werden die Entities deklariert, d. h., der Name jeder Entity wird an einen Ersetzungstext gebunden. Die Entities können dann an beliebiger Stelle in einem XML-Dokument verwendet werden, das diese DTD benutzt. Der Ersetzungstext einer Entity kann sowohl Markup als auch einfachen Text enthalten. Durch Entity-Referenzen können auch sogenannte Entity Sets in das Dokument eingebunden werden. In einem Entity Set kann eine Gruppe von Sonderzeichen zusammengefaßt werden, die in einer bestimmten Sprache oder einer Gruppe von Sprachen verwendet werden. Entity Sets können, wie im obigen Beispiel, in der Dokumenttyp-Deklaration in das Dokument eingebunden, oder aber in die dazugehörige DTD inkludiert werden. Im Beispiel wird das Entity Set ISO-lat1 eingebunden, das jene Zeichen enthält, die in ISO-8859-1 (Latin-1) definiert sind. Dadurch stehen Entities zur Verfügung, um Zeichen, die im Zeichensatz ISO-646 (ASCII) nicht enthalten sind, darstellen zu können, im obigen Beispiel die Entities der Zeichen »ß« und »ä«. Im Beispiel wird »ß« durch die Entity »&szlig;«, »ä« durch »&auml;« repräsentiert.

Auf die Dokumenttyp-Deklaration folgt der eigentliche TEI-kodierte Text, den man in zwei Abschnitte gliedern kann:
Teil 1 beinhaltet das Element teiHeader mit Metadaten, also Informationen über den kodierten Text, sowie Daten darüber, wer den Text wann kodiert hat. Im Beispiel ist der TEI-Header relativ kurz gehalten; tatsächlich kann dieser Abschnitt sehr umfangreich aussehen.[2]
Teil 2 beinhaltet das Element text mit dem eigentlichen Text. Innerhalb des text-Elements können, wo dies sinnvoll erscheint, neben dem body-Element auch front- und back-Elemente stehen. Innerhalb des body-Elements müssen eine oder mehrere Unterebenen vorhanden sein; im Beispiel ist es nur eine Ebene (div). Innerhalb des div-Elements steht das head-Element mit dem Titel des Gedichts, gefolgt von drei lg-Elementen, die wiederum eine Reihe von l-Elementen (verse line) enthalten. Das Element div (text division) dient der Strukturierung des Texts innerhalb des front-, body- oder back-Elements, wobei die div-Elemente ineinander verschachtelt werden können. Typischerweise wird etwa jedes Kapitel eines Buches durch ein div-Element mit dem type-Attribut »chapter« oder »Kapitel« kodiert; die Unterabschnitte werden als div-Elemente innerhalb der Kapitel-div-Elemente kodiert, mit type-Attributen wie etwa »section« (»Abteilung«) oder »subchapter« (»Unterabschnitt«). Es ist auch möglich, numerierte div-Elemente zu verwenden (div0, div1 bis div7); da aber die Hierarchie ohnedies durch die jeweilige Ebene der Verschachtelung gegeben ist, wird es für die meisten Projekte einfacher und praktikabler sein, nicht-numerierte (verschachtelte) div-Elemente zu verwenden.

Das kodierte Beispiel-Gedicht demonstriert das Hauptanliegen der Textkodierung: Implizite Information wird explizit gemacht, wie Textautor, Titel, Strophen- und Verseinteilung. Es ist nicht mehr nötig, das Layout des Gedichts zu bewahren, um den Text als Gedicht wiederzuerkennen. Das Gedicht kann nun elektronisch gespeichert und weitergegeben werden, ohne daß die Informationen über seine Struktur oder über die ASCII-fremden Zeichen verloren gehen. Des weiteren kann man den elektronischen Text nun weiter analysieren und z. B. eine Suche des Typs »zeige mir den zweiten Vers der dritten Strophe« durchführen. Hat man eine Serie von Gedichten, kann einfach ein Index mit sämtlichen Gedichttiteln (z. B. samt ihrer ersten Zeile) erstellt werden.

Durch die Verwendung der verbreiteten Kodierungssprachen SGML und XML stehen dem Benutzer zahlreiche Programme zur Verfügung, die es ihm ermöglichen, seine Texte zu erstellen, zu analysieren, zu redigieren und zu verwalten.


Aufbau einer TEI-DTD

Im obigen Beispiel wird die DTD »teixlite.dtd« verwendet. Wie erwähnt, enthält eine DTD die erlaubten Kodierungsregeln für das assoziierte Dokument. Dokumente, die den Regeln in einer DTD folgen, werden gültig (valid) genannt.

Ob ein Dokument gültig ist, kann durch ein Programm (einen Validator) überprüft werden. Es gibt eine Reihe solcher Validatoren, auch über das WWW frei verfügbar, die XML-Dokumente gegen die angegebene DTD prüfen. Ist ein Dokument nach dem Regelkatalog für die Struktur gültig, so ist gewährleistet, daß zahlreiche Bearbeitungen automatisch, schnell und zuverlässig durchgeführt werden können. Man denke an syntaktische Analysen innerhalb eines Textes. Eine Zeitschriftenredaktion kann z. B. feststellen, ob sämtliche von unterschiedlichen Verfassern eingesandte Artikel tatsächlich den geforderten Regeln entsprechen. Banken können prüfen, ob Transaktionen im richtigen Format vorliegen, und Archive können herausfinden, ob z. B. die Beschreibung einer Briefsammlung dem vorgegebenen Standard entspricht. Wenn die DTD dem Absender vorliegt, kann dieser den Test auch schon vor dem Einsenden vornehmen.

Eine wichtige Eigenschaft von gültigen XML-Dokumenten ist, daß sie mit Hilfe von XSLT-Stylesheets (Extensible Stylesheet Language Transformation) einfach in andere Formate übertragen werden können. Eine Zeitschriftenredaktion kann z. B. mit Hilfe von XSLT-Stylesheets je nach Bedarf die Artikel unkompliziert umformen, entweder für die Print- oder die Online-Distribution (z. B. HTML). Das vom Autor eingesandte XML-Dokument ist dabei in jedem Fall dasselbe und braucht nicht geändert zu werden. Ein Beispiel dafür ist die Website von »Sichtungen online«:[3] Die einzelnen Texte liegen in TEI-XML vor und werden für die Online-Veröffentlichung mittels eines XSLT-Stylesheets in HTML transformiert. Bei einer Modifikation der Website muß nur das XSLT-Stylesheet geändert werden, in die einzelnen Texte selbst jedoch nicht eingegriffen werden.

Es existieren zahlreiche, in verschiedenen Projekten entwickelte XSLT-Stylesheets für TEI-kodierte Texte, die einen guten Ausgangspunkt für jeden darstellen, der TEI-Texte in andere Formate umwandeln will. Eine umfangreiche Sammlung ist über die TEI-Website zugänglich.[4] Diese »XSL stylesheets for TEIXML« wurden von Sebastian Rahtz, Oxford University Computing Services, entwickelt und können über ein Webformular an die jeweiligen Bedürfnisse angepaßt werden. Die Stylesheets werden auch dafür verwendet, um die TEI-Guidelines selbst, die natürlich in TEI vorliegen, in verschiedene Formate wie PDF oder HTML zu transformieren.

TEI ist also ein Regelkatalog für strukturierten Text, aber weitaus umfassender als die meisten anderen verfügbaren DTDs. Die DTD-Module in TEI heißen Tag Sets. Wenn man einen oder eine Reihe von Texten kodiert, muß man zunächst entscheiden, welches Tag Set für diesen Text bzw. Korpus sinnvoll ist und daraufhin seine eigene TEI-DTD definieren. Einige Tag Sets sind in allen TEI-DTDs enthalten, andere können nur gruppenweise verwendet werden, wieder andere können frei kombiniert werden. Im TEI-Jargon wird diese Auswahlmöglichkeit als »The Chicago Pizza Model« bezeichnet.

Im folgenden eine Liste der verfügbaren Tag Sets:

Core Tag Set: In allen TEI-DTDs automatisch vorhanden, muß nicht explizit ausgewählt werden.

Base Tag Sets: Eine TEI-DTD kann jeweils nur eines dieser Tag Sets enthalten:

prose: Für die meisten Dokumente sinnvoll und ausreichend.
verse: Ergänzt das elementare Vers-Markup im Core Tag Set durch zusätzliche Tags für metrische Analyse, Reimschema usw.
drama: Ergänzt das elementare Dramen-Markup im Core Tag Set durch zusätzliche Tags für die Auszeichnung von Dramentexten.
spoken: Ersetzt die Basisstruktur durch eine Struktur für linguistische Analyse (z. B. Sprechakte).
dictionaries: Ersetzt die Basisstruktur durch eine detaillierte Struktur zur Auszeichnung lexikographischer Merkmale.
terminology: Ersetzt die Basisstruktur durch eine differenzierte Struktur für terminologische Datenbanken.
general base: Erlaubt die Kombination verschiedener Base Tag Sets, wobei allerdings jede einzelne Texteinheit jeweils nur Tags aus einem der ausgewählten Base Tag Sets enthalten kann.
mixed: Erlaubt die Verbindung von verschiedenen Base Tag Sets ohne Restriktion hinsichtlich der Kombination.

Additional Tag Sets: Eine TEI-DTD kann eines oder mehrere folgender Tag Sets enthalten:

linking: Ergänzung durch Elemente für Hyperlinks, sowie zur Segmentation und Verbindung von Hyperlinks.
figures: Ergänzung durch Elemente für Tabellen, Graphiken und Formeln.
analysis: Ergänzung durch Elemente für Interpretation und einfache linguistische Analysen.
fs: Ergänzung durch Elemente für Merkmalsanalyse (feature structure analysis).
certainty: Ergänzung durch Elemente zur Definition der Sicherheit und der Korrektheit einer Auszeichnung sowie Kennzeichnung der Verantwortlichkeit für eine Auszeichnung.
transcr: Ergänzung durch Elemente für die Transkription von Primärquellen (z. B. Handschriften).
textcrit: Ergänzung durch Elemente für einen textkritischen Apparat.
names.dates: Ergänzung durch Elemente für die detaillierte Auszeichnung von Namen und Daten.
nets: Ergänzung durch Elemente für die Definition von abstrakten Strukturen mathematischer Graphen, Netzwerke und Bäume.
corpora: Ergänzung des TEI-Headers durch besondere Elemente für die Struktur von Sprachkorpora.

Zusätzlich kann man innerhalb von TEI nach gewissen Grundsätzen auch Regeln ändern und hinzufügen.

Im Projekt »Henrik Ibsen's Writings«[5]wird TEI zur Kodierung sämtlicher Texte des norwegischen Schriftstellers verwendet, d. h. für die Textauszeichnung seiner Dramen, Gedichte, Briefe und Manuskripte. In dem Projekt wird eine TEI-DTD mit »mixed« als Base Tag Set und »prose«, »verse« und »drama« als Tag Sets benutzt. Als Additional Tag Sets kommen zum Einsatz: »linking«, »figures«, »transcr«, »textcrit«. Zusätzlich wurden der TEI-DTD einige eigene Änderungen und Erweiterungen hinzugefügt; diese Modifikationen stehen in zwei Dateien, die beim Generieren der TEI-DTD für das Ibsen-Projekt inkludiert werden.

Eine TEI-DTD manuell zu verfassen ist relativ kompliziert. Daher gibt es auf der TEI-Website ein Skript (»The TEI Pizza Chef«[6]), das dies einfach und automatisch erledigt. Man wählt aus, welche Tag Sets, Elemente und Entity Sets in die gewünschte DTD einfließen sollen und bekommt eine fertige DTD generiert, nach der man seine Texte kodieren kann.

Auf der TEI-Website findet man auch eine gründliche Dokumentation und ein fachliches Forum, über die man sich Unterstützung holen kann. Man erspart sich somit die ständige Neubearbeitung einer DTD und die Konsequenzen, die diese Revisionen für die kodierten Texte in den assoziierten Dateien haben können.

Für diejenigen, die sich in TEI einarbeiten wollen und noch nicht genug über die Struktur der Texte wissen, die sie kodieren möchten, und die daher keine eigene DTD mithilfe des »TEI Pizza Chef« generieren wollen, steht die vordefinierte DTD »TEI Lite« zur Verfügung, die ausführlich dokumentiert ist.[7]TEI Lite ist eine Teilmenge von TEI und dient als Einführung in die gebräuchlichsten Strukturen von TEI. Auch das obige Hofmannsthal-Beispiel ist in der XML-Version von TEI Lite kodiert. TEI Lite eignet sich gut für Lernzwecke, für tatsächliche Projektarbeit und komplexere Texte sollte es jedoch wegen der Beschränktheit der Kodierungsschemata nicht verwendet werden.


Hintergrund von TEI

Bei der Gründung der Text Encoding Initiative im Jahr 1987 wurden vier Hauptziele für TEI formuliert (TEI P3: 1.2.1: Design Principles of the TEI Scheme[8]):
Entwicklung eines Standardformats für Datenaustausch
Erarbeitung von Hilfestellungen zur Textkodierung nach eben diesem Format
Unterstützung aller Eigenschaften aller Textsorten, die für Wissenschaftler relevant sind
Softwareunabhängigkeit
Vor diesem Hintergrund wurden folgende Designgrundlagen festgelegt:
Wahl der SGML als Kodierungsformat
Ausarbeitung eines umfassenden vordefinierten Tag Sets
Differenzierung zwischen obligatorischer, empfohlener und fakultativer Kodierung
Ermöglichung unterschiedlicher Textauffassungen für das Kodieren
Ermöglichung alternativer Kodierungen derselben Texteigenschaften
Ausarbeitung von Mechanismen, die benutzerdefinierte Erweiterungen des Kodierungsschemas zulassen

TEI hat bereits mehrere Bearbeitungen hinter sich. Die erste Ausgabe der TEI-Richtlinien (TEI P1) kam 1990 als gedruckte Publikation heraus. Die sogenannten »Green Books« (TEI P3) sind im Jahr 1994 erschienen. 2001 entstanden die ersten Entwürfe für TEI P4. Die TEI-Richtlinien sind eine 1.300 Seiten umfassende Hilfestellung für die Kodierung von Texten in den meisten geisteswissenschaftlichen Fachrichtungen. Die »Green Books« sind nicht mehr erhältlich – es gibt allerdings hervorragende elektronische Ausgaben im WWW, im SGML-, PDF- und HTML-Format.[9] Die nächste größere Revision (P5) wird im Lauf des Jahres 2002 in Angriff genommen.

Von 1987 bis 1999 wurde das Projekt TEI unterstützt durch die Association for Computers and the Humanities (ACH), die Association for Computational Linguistics (ACL) und die Association for Literary and Linguistic Computing (ALLC). Daneben erhielt das Projekt finanzielle Mittel vom U.S. National Endowment for the Humanities (NEH), vom Direktorat XIII der Europäischen Kommission (CEC/DG-XIII), der Andrew W. Mellon Foundation und dem Social Science and Humanities Research Council of Canada (SSHRC).

Auf der TEI Website sind 91 Projekte aufgeführt, die gegenwärtig TEI benutzen. Die meisten Projekte beschäftigen sich mit historischem Material, mit Sprachkorpora und mit literarischen Texten. Als Beispiele aus diesen drei Kategorien können angeführt werden:

»African American Women Writers of the 19th Century«, eine digitale Sammlung von 42 veröffentlichten Werken afro-amerikanischer Schriftstellerinnen des 19. Jahrhunderts. Die Sammlung ist Teil der »New York Public Library's Digital Schomburg Collection«.[10]

»British National Corpus«, eine Sammlung von etwa 100 Millionen Wörtern aus dem gesprochenen und geschriebenen britischen Englisch der 1990er Jahre. Die Sammlung enthält mehr als 4.000 Textauszüge, die sämtliche Sprachvarianten repräsentieren sollen.[11]

»Der Junge Goethe in seiner Zeit«, eine neue Edition von Goethes Frühwerk, die 1998 in zwei Textbänden und einer CD-ROM publiziert wurde. Die Textbände enthalten die poetischen Werke, die Essays, eine Briefauswahl und eine Auswahl der juristischen Schriften des jungen Goethe. Auf der CD-ROM werden die Texte jeweils in ihre historischen Kontexte eingebettet.[12]

TEI wird in zahlreichen wichtigen Projekten der Geisteswissenschaften eingesetzt, allerdings verwenden die meisten Projekte die TEI Lite DTD, die nur eine schmale Teilmenge der TEI-Richtlinien darstellt. TEI Lite ist vor allem für Lernzwecke und für eine elementare Kodierung unkomplizierter Texte gut geeignet. Allerdings sollten die meisten Projekte, vor allem wenn sie mit komplexen Texten arbeiten oder eine detaillierte Kodierung anstreben, TEI Lite nur als einen Ausgangspunkt ansehen. Nach der Einarbeitung in die grundlegenden Konzepte sollte man für die tatsächliche Kodierungspraxis meines Erachtens dennoch die vollständigen TEI-Richtlinien (oder vielmehr: eine eigens ausgewählte Untermenge der vollständigen TEI-Richtlinien) einsetzen: Zahlreiche Projekte haben die Kodierung mit TEI Lite begonnen und waren später gezwungen, dieser DTD eigene Modifikationen und Erweiterungen hinzuzufügen, die sich möglicherweise ohnehin bereits in der vollen TEI-DTD finden und in der dazugehörigen Dokumentation auch beschrieben sind.

TEI hat in den letzten Jahren geisteswissenschaftliche Textkodierungsprojekte maßgeblich geprägt, aber auch auf andere Felder großen Einfluß gehabt, beispielsweise auf die Entwicklung von XML. So war Michael Sperberg-McQueen, der Mitherausgeber der TEI-Richtlinien von 1987 bis 1999, Mitautor der ersten Spezifikation von XML.[13] Das Konzept der »Extended Pointers«,[14] ein wichtiger Bestandteil von XML, ist zuerst in TEI entwickelt worden.[15]TEI hat auch die Entwicklung anderer DTDs beeinflußt, beispielsweise die EAD-DTD (Encoded Archival Description), die zur Kodierung von archivalischen Findhilfen verwendet wird.[16]

TEI ist jedoch auch ein eigenes Forschungsprojekt, das sich mit der Struktur von Texten beschäftigt. In diesem Kontext hat Claus Huitfeld hervorgehoben, daß sich multidimensionale Texte nicht vollständig in hierarchischen Systemen wie SGML und XML kodieren lassen.[17] Das vor kurzem gestartete Projekt MLCD (Markup Languages for Complex Documents) des Humanities Information Technologies Research Programme (HIT Centre) der Universität Bergen, Norwegen, hat daher das Ziel, Notation, Datenstruktur und Syntax für ein Kodierungssystem zu entwickeln, das diese wohlbekannten Probleme lösen soll.[18] Trotz der Probleme bei der Kodierung multidimensionaler Texte in Kodierungssprachen wie SGML und XML hat sich TEI für die Auszeichnung komplexer Texte als die bislang beste Alternative bewährt.


Informationsquellen

Die TEI-Website (http://www.tei-c.org) ist die wichtigste Informationsquelle zu TEI. Sie enthält unter anderem eine große Anzahl von Tutorien, auch auf deutsch.[19] Tutorien und Seminare zu TEI werden üblicherweise über die Mailingliste TEI-L angekündigt, die ein wichtiges Medium für jeden darstellt, der sich mit TEI beschäftigt.[20] Ein weiteres wichtiges Forum, um sich über die aktuellsten Entwicklungen in TEI zu informieren, stellen die jährlichen Mitgliederkonferenzen dar. Das erste Meeting war im November 2001 in Pisa, das nächste wird vom 11. bis 12. Oktober 2002 in Chicago stattfinden. Details sind über die TEI-Website und die Mailingliste zu erfahren. Auch auf den jährlichen Konferenzen der Association for Computers and the Humanities (ACH) und der Association for Literary and Linguistic Computing (ALLC) wird regelmäßig über TEI referiert (bei der nächsten Tagung 2002 in Tübingen[21] werden Michael Sperberg-McQueen und Wendell Piez ein Tutorium zu »XSLT as a Tool for Humanities Computing« anbieten, das für TEI-Projekte sicher relevant sein wird).


Das TEI-Konsortium

Wie jeder Standard muß TEI gepflegt, regelmäßig aktualisiert, weiterentwickelt und weiter verbreitet werden, um nützlich und allgemein zugänglich zu bleiben. Die Anwendergemeinschaft benötigt nicht nur Schulungen und Werkzeuge, sondern ist auch an regelmäßigen Verbesserungen und Ergänzungen des Standards interessiert. Außerdem muß eine konstante Koordination mit anderen Standards und Praktiken gewährleistet sein, um ein Veraltern des TEI-Standards zu verhindern. Aus diesem Grund wurde im Dezember 2000 das Text Encoding Initiative Consortium (TEI-C) gegründet, eine Mitgliederorganisation, die die TEI-Richtlinien pflegen, aktualisieren, weiterentwickeln und verbreiten soll. Das TEI-Konsortium gewährleistet eine permanente Unterstützung des TEI-Standards in Form einer unabhängigen und nicht-gewinnorientierten Organisation. Die Verwaltung des Konsortiums wird durch die folgenden vier Institutionen getragen:

University of Oxford Humanities Computing Unit (HCU), Oxford, Großbritannien[22]
Brown University Scholarly Technology Group (STG), Providence, Rhode Island, USA[23]
Universität Bergen, Humanities Information Technologies Research Programme (HIT), Bergen, Norwegen[24]
University of Virginia Electronic Text Center (ETC) / Institute for Advanced Technology in the Humanities (IATH), Charlottesville, Virginia, USA[25]

Anfang 2001 waren fünf Institutionen Mitglieder von TEI-C; im März 2002 waren es bereits 53 Institutionen aus 13 Ländern; dazu kommen noch dreißig individuelle Subskribenten. Eine Liste aller Mitgliedsorganisationen findet sich in Anhang A.

Jede Organisation (auch gewinnorientierte Organisationen), deren Aktivitäten und Ziele der Charter des TEI-Konsortiums entsprechen,[26] kann auf Antrag dem TEI-Konsortium beitreten. Das schließt nicht nur Universitäten, Bibliotheken und wissenschaftliche Gesellschaften ein, sondern auch einzelne Projekte sowie größere Konsortien mehrerer Organisationen.

Mitglieder sind berechtigt, die Prioritäten und die Zielrichtung der Arbeit des Konsortiums festzulegen. Sie beziehen Vorveröffentlichungen der TEI-Dokumente und der Projektvorschläge. Sie erhalten Ermäßigungen und Reservierungsvorrecht bei Workshops und Seminaren, können TEI-Projektconsulting in Anspruch nehmen und sind berechtigt, selbst zertifizierte TEI-Kurse anzubieten. Individuelle Subskribenten haben ebenso Anspruch auf zahlreiche dieser Vorteile, sind im Gegensatz zu den Mitgliedern jedoch nicht wahlberechtigt.

Die jährliche Mitgliedsgebühr ist abhängig von der Art bzw. Größe des Projekts oder der Organisation, sowie von der Wirtschaftsleistung des Staates, in dem das Projekt bzw. die Organisation ihren Sitz hat:

Größe der Organisation Volkswirtschaft mit niedrigem Einkommen Volkswirtschaft mit niedrigem bis mittlerem Einkommen Volkswirtschaft mit mittlerem bis hohem Einkommen Volkswirtschaft mit hohem Einkommen
Kleine Organisation mit fünf oder weniger Mitarbeitern, denen die TEI-Mitgliedschaft zugute kommt, und / oder ein kleines Projekt, das TEI einsetzt $ 100 $ 166 $ 250 $ 500
Mittelgroße Organisation mit bis zu 15 Mitarbeitern, denen die TEI-Mitgliedschaft zugute kommt, und / oder kleiner Einsatz von TEI-strukturierten Daten $ 300 $ 500 $ 750 $ 1.500
Große Organisation mit bis zu 25 Mitarbeitern, denen die TEI-Mitgliedschaft zugute kommt, und / oder mittelgroßer Einsatz von TEI-strukturierten Daten $ 500 $ 833 $ 1.250 $ 2.500
Große Organisation mit bis zu 25 oder mehr Mitarbeitern, denen die TEI-Mitgliedschaft zugute kommt, und / oder großer Einsatz von TEI-strukturierten Daten $ 1.000 $ 1.666 $ 2.500 $ 5.000

Ein kleines Projekt einer großen Organisation hat die Möglichkeit, dem TEI-Konsortium auf einer niedrigen Beitragsbasis beizutreten, allerdings berührt die Mitgliedschaft dann nur das Einzelprojekt, nicht die gesamte Organisation. Der Jahresbeitrag für individuelle Subskribenten beträgt generell $ 50. Welche Staaten zu welcher Einkommenskategorie gerechnet werden, ergibt sich aus einer Klassifikation der Weltbank.[27] Beispielsweise ergibt sich für Mitglieder aus Deutschland die Gebühr für Volkswirtschaften mit hohem Einkommen, für Mitglieder aus der Tschechischen Republik die Gebühr für Volkswirtschaften mit mittlerem bis hohem Einkommen. Unabhängig von der Höhe des jeweiligen Beitrags haben alle Mitglieder die gleichen Rechte und Pflichten.

TEI-C ist an weiteren Mitgliedern interessiert, vor allem aus französischen und deutschsprachigen Fachkreisen und außerhalb des nordamerikanischen und europäischen Bereichs. Nähere Informationen und ein Online-Beitrittsformular finden sich auf der TEI-Website.[28]


Weiterentwicklung von TEI

TEI-C hat vom National Endowment for the Humanities (NEH) für eine Zweijahresperiode ab Mai 2001 Mittel in der Höhe von $ 131.963 (€ 146.194) zur Verfügung gestellt bekommen, um den Übergang von SGML zu XML bewerkstelligen zu können. TEI war zwar, wie erwähnt, schon seit dem Jahr 2000 als XML-Version zugänglich, jedoch steht noch einige Konvertierungsarbeit aus, die unter anderem das Format des eigentlichen Richtlinien-Dokuments betrifft. Diese noch zu leistende Konvertierungsarbeit soll die Benutzer der TEI-DTD allerdings nicht davon abhalten, bereits schon jetzt XML zu verwenden.

Im November 2001 wurde von den Konsortiumsmitgliedern ein TEI-Council gewählt, das 2002 für die Weiterentwicklung der Richtlinien neue Arbeitsgruppen für neue Fachgebiete einrichten wird. Die TEIlnahme an der Weiterentwicklung von TEI steht auch Institutionen und Privatpersonen offen, die nicht Mitglieder des TEI-Konsortiums sind.


Zusammenfassung

In den Geisteswissenschaften ist der Text der wichtigste Wissensträger. Er ist sowohl Studienobjekt als auch wissenschaftliches Produkt. Besonders bei elektronischen Dokumenten ist allgemeines Wissen über die Struktur und die Eigenschaften von Text wichtig. Geisteswissenschaftler besitzen den Schlüssel zur Erstellung, Verwaltung und zum Austausch von elektronischen Texten. Dieses Wissen hat nicht nur theoretischen Wert, sondern ist für weite Fachkreise nützlich und notwendig. TEI ist ein elektronisches Textverarbeitungsformat von und für Geisteswissenschaftler, das das Potential von Texten weithin zugänglich macht – sowohl heute als auch morgen.


Anhang A: Mitgliedsliste des TEI-C, Stand vom 1. März 2002

Institution Ort Land
American Association of University Presses New York, NY USA
Apex ePublishing Data Services, LLC Herndon, Virginia USA
Brown University Providence, Rhode Island USA
Centrum voor Teksteditie en Bronnenstudie Gent Belgien
Columbia University New York, NY USA
De Montfort University, Centre for Technology and the Arts (CTA) Leicester Großbritannien
Emory University Atlanta, Georgia USA
Furman University Greenville, South Carolina USA
Georgetown University, Center for New Designs in Learning and Scholarship Washington, DC USA
Imperial College, Newton Project London Großbritannien
Indiana University Digital Library Program Bloomington, Indiana USA
Library of Congress Washington, DC USA
Markup Languages: Theory & Practice Española, New Mexico USA
Maryland Institute for Technology in the Humanities (MITH) College Park, Maryland USA
Masarykova univerzita v Brno, Faculta informatiky, Laborator zpracování prirozeného jazyka (Masaryk Universität Brünn, Fakultät für Informatik, Laboratorium für natürliche Sprachverarbeitung) Brno Tschechische Republik
Modern Language Association New York, NY USA
Národní knihovne Ceské republiky (Tschechische Nationalbibliothek, Abteilung für Handschriften und Alte Drucke) Praha Tschechische Republik
National Initiative for a Networked Cultural Heritage (NINCH) Washington, DC USA
National Library of Australia Canberra Australien
New York University New York, NY USA
Northwestern University, Department of English Evanstou, Illinois USA
Oxford University Oxford Großbritannien
Research Libraries Group (RLG) Mountain View, California USA
Rice University, Electronic Text Center Houston, Texas USA
Society of Biblical Literature Atlanta, Georgia USA
The project of »The Brownings' Correspondence« Waco, Texas USA
Tufts University, Perseus Project Medford, Massachusetts USA
Universidad de Alicante, Biblioteca Virtual Miguel de Cervantes Alicante Spanien
Università di Bologna, Dipartimento di Studi Interdisciplinari su Traduzione, Lingue e Culture (SITLeC) Forlì Italien
Università di Pisa Pisa Italien
Università di Roma, Centro Ricerche Informatica e Letteratura (CRILet) Roma Italien
Universiteit Utrecht, Institute of Information and Computing Sciences Utrecht Niederlande
Universitetet i Bergen, HIT-senteret Bergen Norwegen
Universitetet i København, Det Arnamagnæanske Institut København Dänemark
University of California, Berkeley The Bancroft Library Berkeley, California USA
University of California, Davis General Library Davis, California USA
University of Chicago Library Chicago, Illinois USA
University of Georgia Athens, Georgia USA
University of Illinois at Urbana-Champaign Champaign, Illinois USA
University of Kentucky, Research in Computing for Humanities (RCH) Lexington, Kentucky USA
University of Lancaster, Department of Linguistics and M.E.L. Lancaster Großbritannien
University of Maryland Libraries College Park, Maryland USA
University of Michigan Library Ann Arbor, Michigan USA
University of Minnesota Libraries Minneapolis, Minnesota USA
University of New Brunswick Libraries, Electronic Text Centre Fredericton, New Brunswick Kanada
University of North Carolina at Chapel Hill, Academic Affairs Library Chapel Hill, North Carolina USA
University of South Carolina, Model Editions Partnership Columbia, South Carolina USA
University of Sydney, Scholarly Electronic Text and Image Service (SETIS) Sydney Australien
University of Virginia Charlottesville, Virginia USA
Univerzita Karlova Praha Tschechische Republik
Univerzita Komenského, Pedagogická Fakulta, Laboratórium poãítaãovej lingvistiky (Comenius-Universität, Fakultät für Erziehungswissenschaften, Labor für Computerlinguistik) Bratislava Slowakische Republik
Victoria University of Wellington, New Zealand Electronic Text Centre Wellington Neuseeland
Wheaton College Norton, Massachusetts USA

Anhang B: Glossar

ACH Association for Computers and the Humanities (http://www.ach.org/)
ACL The Association for Computational Linguistics (http://www.cs.columbia.edu/~acl/)
ALLC The Association for Literary and Linguistic Computing (http://www.kcl.ac.uk/humanities/cch/allc/)
ASCII American Standard Code for Information Interchange
DTD Document Type Definition
ETC University of Virginia Electronic Text Center (http://etext.lib.virginia.edu/)
HCU University of Oxford Humanities Computing Unit (http://www.hcu.ox.ac.uk/)
HIT Humanities Information Technologies Research Programme (http://www.hit.uib.no/english/)
HTML Hyper Text Markup Language (http://www.w3.org/MarkUp/)
IATH Institute for Advanced Technology in the Humanities (http://www.iath.virginia.edu/)
ISO International Organization for Standardization (http://www.iso.ch/)
MLCD Markup Languages for Complex Documents (http://www.hit.uib.no/claus/mlcd/index.en.html)
NEH U.S. National Endowment for the Humanities (http://www.neh.fed.us/)
PDF Portable Document Format
SGML Standard Generalized Markup Language
SSHRC Social Science and Humanities Research Council of Canada (http://www.sshrc.ca/)
STG Brown University Scholarly Technology Group (http://www.stg.brown.edu/)
TEI Text Encoding Initiative (http://www.tei-c.org)
TEI-C Text Encoding Initiative Consortium (http://www.tei-c.org)
XML Extended Markup Language (http://www.w3.org/XML/)
XSLT Extensible Stylesheet Language Transformation (http://www.w3.org/Style/XSL/)

Übersetzung aus dem Norwegischen: Daniel Jung


Anmerkungen

*] Der Titel dieses Artikels ist ein TEI-Motto von Peter Flynn, der damit in einem informellen Wettbewerb den ersten Platz erlangte.

1] Guidelines for Electronic Text Encoding and Interchange. Ed. by C[hristopher] M[ichael] Sperberg-McQueen and Lou Burnard. Chicago, Oxford: Text Encoding Initiative 1994.

2] Vgl. Edward Vanhoutte: It's all in the Head(er): From minimal to optimal use of the TEI Header, http://ger-www.uia.ac.be/webger/ger/people/vanhoutte/pub/headerproposal.htm.

3] http://www.onb.ac.at/sichtungen/ und http://purl.org/sichtungen/. Vgl. dazu den Bericht von Max Kaiser im vorliegenden Band.

4] http://www.tei-c.org/Stylesheets/teixsl.html.

5] Vgl. http://www.ibsen.uio.no/his/hjemmeside/english.html.

6] http://www.tei-c.org/pizza.html.

7] Vgl. http://www.tei-c.org/Lite/.

8] http://www.tei-c.org/Guidelines/.

9] http://www.tei-c.org/Guidelines2/.

10] Vgl. http://digital.nypl.org/schomburg/writers_aa19/.

11] Vgl. http://www.hcu.ox.ac.uk/BNC/.

12] Der junge Goethe in seiner Zeit. Texte und Kontexte. Sämtliche Werke, Briefe, Tagebücher und Schriften bis 1775. [2 Bde. und CD-ROM]. Hg. von Karl Eibl, Fotis Jannidis und Marianne Willems. Frankfurt am Main, Leipzig: Insel 1998 (= Insel-Taschenbuch 2100); vgl. http://www.jgoethe.uni-muenchen.de/.

13] Vgl. http://www.w3.org/TR/1998/REC-xml-19980210.

14] Vgl. http://www.w3.org/XML/Linking/.

15] Vgl. Steve DeRose: XML and the TEI. In: Computers and the Humanities 33 (1999), H. 1/2, S. 11–30. Diese Nummer von »Computers and the Humanities« ist ein Sonderheft mit Aufsätzen der Konferenz anläßlich des 10. Jahrestages der Text Encoding Initiative (TEI10).

16] Vgl. Encoded Archival Description Tag Library, Version 1.0. Prepared and maintained by the Encoded Archival Description Working Group of the Society of American Archivists and the Network Development and MARC Standards Office of the Library of Congress. Chicago, Ill.: Society of American Archivists 1998, S. 5; zu EAD vgl. http://www.loc.gov/ead/.

17] Claus Huitfeldt: Multi-Dimensional Texts in a One-Dimensional Medium. In: Computers and the Humanities 28 (1994), H. 4/5, S. 235-241.

18] Vgl. http://www.hit.uib.no/claus/mlcd/index.en.html.

19] Fotis Jannidis: TEI in der Praxis, http://computerphilologie.uni-muenchen.de/praxis/teiprax.html; vgl. ders.: Wider das Altern elektronischer Texte. Philologische Textauszeichnung mit TEI. In: Editio 11 (1997), S. 152–177; vgl. auch Thomas Goldstrassa und Hannelore Scholze: TEI Lite – Vernetzung von Verführungsszenarien, http://www2.hu-berlin.de/literatur/projekte/loreley/Teilite/.

20] Die Adresse von »TEI-L« lautet tei-l@listserv.brown.edu. TEI-L kann durch die Anweisung »subscribe TEI-L« an die Adresse listserv@listserv.brown.edu subskribiert werden.

21] http://www.uni-tuebingen.de/allcach2002/.

22] http://www.hcu.ox.ac.uk/.

23] http://www.stg.brown.edu/.

24] http://www.hit.uib.no/english/.

25] http://etext.lib.virginia.edu/ und http://www.iath.virginia.edu/.

26] http://www.tei-c.org/Consortium/TEIcharter.html.

27] Eine Aufstellung findet sich auf der Website der Weltbank, http://www.worldbank.org/data/databytopic/class.htm.

28] http://www.tei-c.org/Consortium/ag-mem.html.




Printversion:
PURL dieser Datei:
Metadaten zu dieser Datei:
XML-Master dieser Datei:
Datum XML-Master:
PURL der zugrundeliegenden HTML-Datei:
Aktuellste Version der zugrundeliegenden HTML-Datei:
Metadaten zur zugrundeliegenden HTML-Datei:
Preprint
http://purl.org/sichtungen/bruvik-tm-1a-print.html
http://purl.org/sichtungen/bruvik-tm-1a-print.rdf
http://purl.org/sichtungen/bruvik-tm-1a.xml
2002-05-10
http://purl.org/sichtungen/bruvik-tm-1a.html
http://purl.org/sichtungen/bruvik-tm-1
http://purl.org/sichtungen/bruvik-tm-1a.rdf


Copyright 2001-2002 by Sichtungen online
HTML-Datei automatisch generiert am Thu 16. May. 2002, 13:31 Uhr
XSLT-Stylesheet: http://purl.org/sichtungen/sichtprint-xml2html.xsl, Vers. 0.5.2, erstellt am 2002-05-16 durch mka
Parser: "SAXON 6.4.3 from Michael Kay"
TEI/XML-Master: http://purl.org/sichtungen/bruvik-tm-1a.xml, erstellt am 2002-05-10 durch mp
Version History:
ch1) 2002-05-10: TEI XML Markup / mp
[Webmaster] [Disclaimer]

Valid XHTML 1.0!