SaDA - Semi-automatische Differenzanalyse von komplexen Textvarianten
Eine der zentralen, von bisherigen Projekten zur informatikgestützten Editionsphilologie wegen ihrer komplexen Erfordernisse jedoch nahezu vollkommen unbearbeiteten Aufgaben ist die Feststellung der Abhängigkeit von zu unterschiedlichen Zeitpunkten entstandenen Textzeugnissen („genetische Edition“). Für die Edition handschriftlicher Textzeugnisse bezieht sich dies vor allem auf die editionsphilologisch zentrale Frage des Zusammenhangs unterschiedlicher Handschriften und ihrer Filiation untereinander (Abschriften von unterschiedlichen Ausgangstexten, Identifikation eines, ggf. auch mehrerer Überlieferungen‚ die Dokumentation regionaler Sprach-, ggf. auch Abschriftfehler-Varianten zur Erschließung einer Manuskript-Herkunft, usw.). Die Problematik stellt sich bei gedruckten Texten aber grundsätzlich ähnlich, wenn der Text starke Überarbeitungsprozesse erfahren hat, also eine über kleinere Text- und Druckvarianten hinausgehende komplexe Textsituation aufweist, bei der zwischen unterschiedlichen Fassungen Textstreichungen, Textzufügungen in größerem Umfang, Umstellung von Textteilen an andere Orte usw. auftreten und diese Prozesse nachvollzogen und dargestellt werden müssen.
Ziel des Projektes war die Herausarbeitung von Teilprozessen der philologischen Arbeit zur Filiation von Überlieferungsvarianten eines Textes und zur Rekonstruktion der Textgenese bei Existenz einer Vielzahl von Varianten, die mit informationstechnologischen Methoden und Werkzeugen unterstützt werden können. Entsprechende, ggf. an das jeweilige Textcorpus angepasste, Methoden und Werkzeuge waren zu entwerfen, zu implementieren und zu evaluieren. Die für die unterschiedlichen Textcorpora erarbeiteten Problemstellungen und Methoden sollten auf Gemeinsamkeiten geprüft und, wo sinnvoll, zu generischen Methoden verallgemeinert werden.
Im Mittelpunkt des Projektes stand die Differenzanalyse von Textvarianten und die Visualisierung der Ergebnisse der Differenzanalyse, die eine explorative Analyse hinsichtlich einer gegebenen philologischen Fragestellung erlaubt. Die Merkmale, nach denen die Differenzanalyse zu klassifizieren hat, können sich von Fragestellung zu Fragestellung unterscheiden, sind auch von der Sprache und Sprachstufe der Texte abhängig, so dass generische Methoden, zumindest parametrisierbare bzw. Filter-gesteuerte Methoden notwendig und sinnvoll sind.
Wichtig sind dabei aus philologischer Sicht insbesondere zwei Punkte, nämlich zum einen eine durch Philologen möglichst einfache (intuitive) Handhabung der Werkzeuge und zweitens eine möglichst so gestaltete Verallgemeinerung der Werkzeuge, dass für ein konkretes Vorhaben ein nur begrenzter und bei Arbeitsbeginn abschätzbarer Anpassungsbedarf der Werkzeuge erforderlich ist.
Das Projekt setzte auf zwei unterschiedliche Erscheinungen von Texten:
- Die Edition mittelalterlicher oder frühneuzeitlicher Texte, bei denen unterschiedliche handschriftliche Varianten vorliegen, die zwar alle aufeinander beruhen, deren Filiation aber völlig unbekannt ist und erst textkritisch erstellt werden muss
- Die Edition von Texten, bei denen nicht kleinere Varianten zwischen den Auflagen vorliegen, sondern komplexe Umarbeitungen, die dazu führen, dass Texte in verschiedenen Fassungen ein jeweils ‚eigenes Recht‘ aufweisen, in editionsphilosophischer Perspektive aber zu Fassungen führen, die ihr eigenes Leben entfalten, zu jeweils zeittypischer Rezeption führen und insgesamt praktisch hochdifferenzierte Textfassungen ergeben.
Die Arbeitsziele im Speziellen:
- Bereitstellung von Methoden zur Unterstützung der Klassifikation von Textüberlieferungen
- Bereitstellung von Methoden zur Unterstützung der textgenetischen Analyse
- Bereitstellung von angepassten, intuitiv bedienbaren Arbeitsumgebungen (inklusive der Visualisierung von Varianten bzw. Überlieferungen eines Textes und der Differenzen zwischen Textfassungen)
Als Textcorpora wurden im Projekt die Wundarznei (1477) des Heinrich von Pfalzpaint und die Histoire philosophique et politique des établissements et du commerce des Européens dans les deux Indes (1770, 1774, 1780, 1820/21) von Guillaume Thomas Francois Raynal gewählt.
Heinrich von Pfalzpaint gilt als Ahnherr der plastischen Chirurgie und ist einer der bekanntesten Wundärzte des späten Mittelalters. Von seinem berühmten medizinischen Kompendium, der Wundarznei von 1460, sind elf Überlieferungen bekannt. Davon sind zehn verfügbar. Jede besteht aus bis zu 247 Kapiteln. Insgesamt haben sie einen Umfang von etwa 700.000 Wortformen.
Dieser handschriftliche frühneuhochdeutsche Text ist Forschungsgegenstand im Institut für Germanistik der Martin-Luther-Universität Halle-Wittenberg. Ziel ist es, die Abhängigkeiten der zu unterschiedlichen Zeitpunkten an unterschiedlichen Orten entstandenen Überlieferungen zu bestimmen. Mit Hilfe semi-automatischer Vergleichsmethoden wird dieser große Textumfang handhabbar. Eine Herausforderung stellt dabei die Sprachstufe Frühneuhochdeutsch dar. Auf Grund fehlender gemeinsamer Orthographie führt ein unmittelbarer automatischer Vergleich zu schlechten Ergebnissen. Mit Hilfe einer Normalisierung der Texte durch Lemmatisierung aller Wortformen können dagegen sehr gute Ergebnisse erzielt werden, die eine textgenetische Analyse ermöglichen.
Die Histoire philosophique et politique des établissements et du commerce des Européens dans les deux Indes ist eines der einflussreichsten Werke der französischen Aufklärung und beschreibt kritisch die europäische Kolonialpolitik. Nach dem Erscheinen und Verbot der Erstauflage 1770 wurde das Werk dreimal umfangreich erweitert und überarbeitet. Das Livre VI der Histoire, welches zu den umstrittensten Teilen des Gesamtwerks gehört, stellt die Eroberung Mexikos dar und umfasst beispielsweise in der postum veröffentlichten Auflage von 1820 über 52.000 Wörter gegenüber den rund 28.500 Wörtern der Erstausgabe von 1770.
Das editionsphilologische Interesse besteht darin, über den semi-automatischen Textvergleich die Textgenese nachzuvollziehen, Editionsrichtlinien für Nutzer aus verschiedenen geisteswissenschaftlichen Disziplinen anpassbar zu machen und die Textvarianten übersichtlich zu präsentieren. Aus kulturwissenschaftlicher Sicht soll über den Textvergleich gezeigt werden, wie sich Wissenbestände und Wertungen über Lateinamerika im Zuge der Überarbeitung des Textes verändert haben.
Institut für Germanistik
Institut für Romanistik
Institut für Informatik
Wissenschaftliche Hilfskräfte: Julia Ritter, M.A. und Sarah Brebeck, M.Sc.- Projektkürzel: 01UG1247 / human-325-010 / SaDA
- Projektlaufzeit: 01.09.2012 - 31.08.2015
LERA - Locate, Explore, Retrace and Apprehend complex text variants
LERA ist eine interaktive, webbasierte Arbeitsumgebung zur Untersuchung von Gemeinsamkeiten und Unterschieden zwischen mehreren Fassungen eines Textes. Die Texte werden dazu von LERA in Passagen unterteilt, einander zugeordnet und synoptisch gegenübergestellt. Unterschiede zwischen den einzelnen Fassungen werden farbig hervorgehoben und in einem gemeinsamen Variantenapparat aufgeschlüsselt, sodass sie leicht lokalisiert werden können.
Verschiedene Eingriffsmöglichkeiten erlauben die entstandene Edition den eigenen Vorstellungen nach anzupassen. So können Passagen neu eingeteilt und umsortiert werden. Durch Auswahl vordefinierter, sprach- und sprachstufen-abhängiger Filter können für die gegebene philologische Fragestellung nicht relevante Unterschiede ausgeblendet oder der Text in seiner Darstellung verändert. Exportfunktionen erlauben die Ausgabe der synoptischen Gegenüberstellung der Textvarianten (bzw. ausgewählter Passagen= nebst kritischem Variantenapparat.
Die Arbeitsumgebung bietet mit der Übersichtsleiste CATview, interaktiven Wortwolken und performanten Suchfunktionalitäten einen effektiven Ansatz zur explorativen Analyse der Differenzen zwischen verschiedenen Fassungen eines Textes und somit der Genese des Textes.
Weitere Informationen und Demos zu LERA finden Sie unter: lera.uzi.uni-halle.de
LAKomp - Lemmatisierung, Annotation und Komparation
LAKomp ist eine interaktive, webbasierte Arbeitsumgebung zur Lemmatisierung, Annotation und Komparation von Varianten frühneuhochdeutscher Texte. In einem zweistufigen Verfahren können mehrere Textvarianten untereinander verglichen werden. Im groben Vergleich werden ähnliche Textstellen identifiziert und einander gegenübergestellt. Im detaillierten Vergleich können diese synoptisch dargestellt werden und mit einem kritischen Apparat zusammengefasst werden.
In allen Arbeitsschritten ist es dem Bearbeiter möglich, einzugreifen und Ausgangsmaterial, Annotation oder Vergleichsergebnisse zu bearbeiten. Von der Eingabe der Texte in Transkriptionsnotation, über Lemmatisierung und morphologische Annotation, über das Finden gemeinsamer Textpassagen bis hin zum detaillierten Vergleich mit kritischem Apparat bietet es dem anspruchsvollen Benutzer intuitive und benutzerfreundliche Werkzeuge für die Teilaufgaben.
Als Eingabe wird neben purem Text vor allem Frühneuhochdeutsche Handschriften in der unter Germanisten als Konsens geltenden Transkriptionsnotation akzeptiert. Mit deren Hilfe kann ein Transkribierer neben eigenen Kommentaren viele Details der Handschrift auszeichnen, beispielsweise Überschriften, Rubrikationen, Unleserlichkeiten aber auch grammatikalische Details wie beispielsweise Partikelverbkonstruktionen. Diese Auszeichnungen stehen dann bei der weiteren Bearbeitung zur Verfügung.
Um frühneuhochdeutsche Texte trotz fehlender gemeinsamer Orthographie und trotz diffuser Schreibweisen vergleichen zu können, erlaubt LAKomp die Lemmatisierung der Texte. Mit Hilfe der Lemmatisierung als eine Normalisierung wird ein automatischer Textvergleich von Texten dieser Sprachstufe mit guten Ergebnissen möglich. Weiterhin wird die morphologische Annotation der Texte durch vom Nutzer definierbare komplexe Part-Of-Speech-Tag-Sätze unterstützt. Sowohl Lemmatisierung als auch morphologische Annotation werden manuell erstellt, dabei aber durch automatisch bestimmte Vorschläge stark beschleunigt. Jede eingegebene Annotation wird sofort gelernt und steht als Vorschlag zur Verfügung.
Weitere Informationen und Demos zu LAKomp finden Sie unter: lakomp.uzi.uni-halle.de
CATview - the Colored & Aligned Texts view
CATview ist ein interaktives Visualisierungswerkzeug mit effektiven Möglichkeiten zur Navigation und explorativen Analyse der eigentümlichen Gemeinsamkeiten und Differenzen der Textvarianten eines Manuskripts. Das Werkzeug verarbeitet nicht nur Daten, die durch unser eigenen Vergleichswerkzeuge erzeugt werden, sondern kann an Standardtools wie Juxta angepasst werden. CATview kann ohne großen Arbeitsaufwand in Webseiten eingebettet werden. Es ist ein mächtiges Add-On für Digitale Editionen und webbasierte Arbeitsumgebungen zur Erzeugung von Editionen.
Weitere Informationen und Demos zu CATview finden Sie unter: catview.uzi.uni-halle.de
- Adjusting LERA For The Comparison Of Arabic Manuscripts Of Kalīla wa-Dimna Digital Humanities, DH2018, Mexico City, Mexico 26.-29.06.2018
- Das Tool LAKomp und seine Anwendung auf Texte nichtstandardisierter Sprachstufen Poster auf der 3. Jahrestagung der Digital Humanities im deutschsprachigen Raum, DHd 2016‚ Leipzig 07.-12.03.2016 http://dhd2016.de/boa-2.0.pdf#page=363 3. Preis beim DHd-Poster-Award 2016
- LERA - Explorative Analyse komplexer Textvarianten in Editionsphilologie und Diskursanalyse Vortrag auf der 3. Jahrestagung der Digital Humanities im deutschsprachigen Raum, DHd 2016‚ Leipzig 07.-12.03.2016 http://dhd2016.de/boa-2.0.pdf#page=251
- Zum Einsatz digitaler Methoden bei der Erstellung und Nutzung genetischer Editionen gedruckter Texte mit verschiedenen Fassungen - Das Fallbeispiel der Histoire philosphique des deux Indes von Guillaume Thomas Raynal In: Editio, Hrsg. R. v. Nutt-Kofoth, B. Plachta und W. Woesler, Band 29, Heft 1, S. 29–51 2015 http://www.degruyter.com/view/j/edit.2015.29.issue-1/editio-2015-004/editio-2015-004.xml
- Herramientas para la edición genética electrónica: estudio ejemplar para la literatura francesa del siglo XVIII Congreso Internacional Humanidades Digitales Hispánicas, Madrid 05.-07.10.2015
- Editionsphilologie und Wissenstransformation – Überlegungen zur elektronischen Edition Raynals Lateinamerika-Darstellung Zweiter Workshop zur Methodik und Praxis von Editionsprojekten in den Franckeschen Stiftungen, Interdisziplinäres Zentrum für die Erforschung der Europäischen Aufklärung, Halle 22.09.2015
- Zwischen Online-Korpus und Buch – Die Hybridedition der Wundarznei des Heinrich von Pfalzpaint In: Vom Nutzen der Editionen, Hrsg. T. Bein, Beihefte zu Editio, Band 39, S. 167-184 2015
- Interactive Similarity Analysis of Early New High German Text Variants Digital Humanities, DH2015, Sydney, Australia 29.06.-03.07.2015 http://dh2015.org/abstracts/xml/MEDEK ...
- CATview - Supporting The Investigation Of Text Genesis Of Large Manuscripts By An Overall Interactive Visualization Tool Digital Humanities, DH2015, Sydney, Australia 29.06.-03.07.2015 http://dh2015.org/abstracts/xml/POCKELMANN ...
- SaDA - Werkzeuge für die semi-automatische Differenzanalyse komplexer Textvarianten Posterpräsentation. DH Summit 2015, Berlin 03.-04.03.2015 https://de.dariah.eu/documents/10180/472725/23 ...
- Differenzanalyse komplexer Textvarianten - Diskussion und Werkzeuge In "Informationsmanagement für Digital Humanities", Hrsg. G. Heyer und A. Henrich. In: Datenbank-Spektrum, Springer Verlag 2015 http://dx.doi.org/10.1007/s13222-014-0173-y
- Neue Wege zu Textzeugenvergleich und Edition am Beispiel der Wundarznei des Heinrich von Pfalzpaint In: Jahrbuch für Germanistische Sprachgeschichte, Band 5, Heft 1, S. 335-358 2014
- Semi-automatische Differenzanalyse von komplexen Textvarianten Vortrag auf der Jahrestagung der Internationalen Tustep User Group 2014, Amsterdam 01.-03.10.2014
- Philologische Überlegungen zu einem elektronischen Editionsprojekt: Raynals Histoire des deux Indes im semiautomatischen Textvergleich Vortrag auf dem 9. Kongress des Frankoromanistenverbands, Münster 24.-27.09.2014
- IT-Werkzeuge zur Unterstützung elektronischer Edition am Beispiel eines französischen Textes aus dem 18. Jahrhundert Vortrag auf dem 9. Kongress des Frankoromanistenverbands, Münster 24.-27.09.2014
- On automatically disambiguating end-of-line hyphenated words in French texts Talk, Digital Humanities, DH2014, Lausanne 08.-12.07.2014 http://dharchive.org/paper/DH2014/Paper-65.xml
- User-friendly lemmatization and morphological annotation of Early New High German manuscripts Poster presentation, Digital Humanities, DH2014, Lausanne 08.-12.07.2014 http://dharchive.org/paper/DH2014/Poster-146.xml
- Semi-automatische Differenzanalyse von komplexen Textvarianten Vortrag auf der 1. Jahrestagung der Digital Humanities im deutschsprachigen Raum, DHd 2014‚ Passau 25.-28.03.2014
- Angewandte Sprachgeschichte: Neue Editionen spätmittelalterlicher und frühneuzeitlicher Texte – Die ,Wundarznei' des Heinrich von Pfalzpaint Vortrag auf der 15. Internationalen Tagung ,Vom Nutzen der Editionen' der Arbeitsgemeinschaft für germanistische Editionen, Aachen 19.-22.02.2014
- Raynals Kolonialismuskritik – Das Wissen von außereuropäischen Kulturen im Spiegel der Druck- und Editionsgeschichte Vortragsreihe "Fluide Festigkeit. Wissenskonkurrenzen im 18. Jahrhundert" des Interdisziplinären Zentrums für Europäische Aufklärung, Halle 21.01.2014
- Kolonialkritik in der Spätaufklärung. Die Lateinamerika-Kapitel der ‚Histoire des deux Indes‘ vom Erstdruck bis zum Projekt einer elektronischen Edition Kabinettausstellung zum 300. Geburtstag von Guillaume-Thomas Raynal an der Martin-Luther-Universität Halle-Wittenberg, Zweigbibliothek Neuphilologien 17.04.-20.06.2013 Pressemitteilung der Universität vom 22.04.2013
- Angewandte Sprachgeschichte: Neue Editionen spätmittelalterlicher und frühneuzeitlicher Texte am Beispiel der 'Wundarznei' des Heinrich von Pfalzpaint Eingeladener Vortrag auf der Jahrestagung "Paradigmen der aktuellen Sprachgeschichtsforschung" der Gesellschaft für Germanistische Sprachgeschichte (GGSG), Kassel 26.-28.09.2013