Ein langer Weg

Von der Original-Ausgabe zum digitalen Text

Die Texte im Projekt Gutenberg entstehen nicht automatisch. Jeder Titel durchläuft einen aufwendigen, überwiegend manuellen Prozess –
von der Auswahl der Buchvorlage bis zur Veröffentlichung als geprüfter Volltext.

Diese Seite zeigt, wie viel Arbeit, Sorgfalt und Zeit in jedem einzelnen Werk steckt.

Herkunft der Texte

Der größte Teil des neueren Textbestandes kommt aus dem Gegenleseportal gaga.net. Nach Buchauswahl, Scan und OCR-Bearbeitung (Umwandlung von Bildern in Text) korrigieren freiwillige Mitwirkende die dabei entstandenen Fehler. Die Nachkorrektur (erneute Rechtschreibprüfung, Formatierung und einiges mehr) macht das Gutenbergteam. Der überwiegende Teil der Werke wurde also doppelt korrekturgelesen.

Projekt Gutenberg wird ständig erweitert und ergänzt, deshalb haben wir jetzt schon viele Werke in der Bibliothek, die wir aus Urheberrechtsgründen erst im Laufe der nächsten Jahre veröffentlichen können. So liegen die Gesamtwerke teils schon digital vor und warten nur darauf, dass das Urheberrecht erlischt.

Werktreue, Rechtschreibung

Bis auf offensichtliche Druckfehler wird der Text der Buchvorlage grundsätzlich nicht verändert; im Zweifel wird der Text so wiedergegeben, wie er uns im Buch vorliegt. Kürzungen werden nur dann vorgenommen, wenn sie aus Urheberrechtsgründen unumgänglich sind, beispielsweise, wenn ein Zeitgenosse Vor- oder Nachwort schrieb oder die Illustrationen noch dem Urheberrecht unterliegen.

Die Rechtschreibung des Originals wird beibehalten, kein Buch wird in »neue« Rechtschreibung umgesetzt oder gar inhaltlich verändert. Einige eingesandte Werke und zeitgenössische Übersetzungen sind jedoch in aktueller Rechtschreibung. Endnoten und Anmerkungen geben wir als Fußnoten an der Verweisstelle wieder. Das widerspricht zwar dem Prinzip der absoluten Werktreue, aber so entfällt das Hin- und Herklicken zum Lesen der Fußnoten. Aufgrund von Leserwünschen haben wir die Fußnoten als [Text] im Text wiedergegeben, um die Verwendung für Zitate zu vereinfachen.

Die Titelproduktion

Ein ganzes Team freiwilliger Mitwirkender ist damit beschäftigt, mit viel Mühe und Liebe zur Literatur neue Werke aufzuspüren und für die Aufnahme in das Projekt vorzubereiten. In mehr als 30 Jahren sind so über 12.500 digitale Werke entstanden (Stand: 2026).

Schritt 1: Beschaffung

Ideen für neue Titel im Projekt Gutenberg stammen aus unterschiedlichen Quellen. Neben literaturwissenschaftlichen Werken und Literaturlexika des 19. Jahrhunderts fließen auch einzelne Leseranregungen sowie Hinweise aus Online-Quellen ein.

Projekt Gutenberg erwirbt im Durchschnitt rund 40 Bücher pro Monat. Bei einem mittleren Preis von etwa 10 Euro pro Buch ergeben sich bisher Investitionen in die Buchbeschaffung von nahezu 100.000 Euro.

Zeitaufwand für Schritt 1: 0,5 Stunden/Buch.

Auswahl Klassiker — Schätze bspw. in Antiquariaten oder auf Flohmärkten aufstöbern

Schritt 2: Scannen

Das Buch wird in einzelne Bestandteile zerlegt …

Buchblock wird vom Umschlag getrennt und in Einzelseiten zerlegt

… sauber beschnitten und anschließend …

Seiten werden zum besseren Einzug beschnitten

… Seite für Seite eingescannt. Altersbedingt ist das Papier oft brüchig, sodass alle Seiten sorgfältig von Hand eingelegt werden müssen.

Scannen — Seiten werden einzeln eingescannt

Dies sind die gescannten Bilder der ersten Seiten, die für den Computer zunächst nichts weiter als ein Muster schwarzer Punkte auf weißer Fläche sind.

Zeitaufwand für Schritt 2: 0,5 Stunden/Buch.

Scan Ergebnis — Seiten werden als Bilder eingescannt

Schritt 3: OCR-Bearbeitung

Mithilfe spezieller OCR-Programme (OCR = Optical Character Recognition) werden die Bilder der gescannten Seiten in Text umgewandelt. Die Software interpretiert dabei Muster schwarzer Punkte als Buchstaben und erzeugt so einen digitalen Rohtext.

Zeitaufwand für Schritt 3: 0,25 Stunden/Buch.

OCR-Bearbeitung: Aus einzelnen Bildern werden einzelne Textdateien

Schritt 4: Korrekturlesen

Bei der Texterkennung durch OCR-Software entstehen Fehler, wenn Zeichenmuster nicht korrekt interpretiert werden. Typische Fehler bei Frakturschrift sind Verwechslungen von f/s, u/n, t/l und ähnliche.

Auch mit sehr ausgereifter Software lassen sich solche Fehler nicht automatisch korrigieren. Ob es etwa »alte werdende Eltern« oder »alle werdende Eltern« heißt, »er genoß die Luft« oder »er genoß die Lust«, ob jemand »ausgibt« oder »aufgibt«, kann nur der menschliche Leser aus dem Kontext heraus entscheiden. Eine Rechtschreibprüfung hilft hier nicht weiter, da es sich jeweils um korrekt geschriebene deutsche Wörter handelt.

Diese Fehler können daher nur durch sorgfältiges Korrekturlesen erkannt und beseitigt werden. Jede Buchseite wird in zwei aufeinanderfolgenden Leserunden mit dem gescannten Original abgeglichen.

Korrekturlesen: links vorher, rechts nachher — Links: Roh-OCR (Text, wie er aus der Maschine kommt), rechts: Text nach der 2. Leserunde

Niemand ist unfehlbar, und so werden auch in der zweiten Leserunde einzelne Fehler übersehen. Die meisten davon lassen sich in der Nachkorrektur beseitigen. Besonders tückisch sind Fehler, die von der Rechtschreibprüfung nicht erkannt werden. Sie können nur entdeckt werden, wenn der Text ein weiteres Mal vollständig gelesen wird.

Das rechts gezeigte Beispiel veranschaulicht solche Fehler, die auch nach der zweiten Leserunde noch bestehen geblieben sind.

Zeitaufwand für Schritt 4: 40 Stunden/Buch.

Zweite Leserunde: Jeder Text wird zweimal gegengelesen

Schritt 5: Einzeldateien zu einem Textdokument

Nach dem Korrekturlesen werden die einzelnen Textdateien zu einem Dokument zusammengeführt, das noch keine inhaltliche Struktur aufweist. Dies ist derzeit der einzige Schritt, der automatisiert erfolgt.

Zeitaufwand für Schritt 5: automatisch

Schritt 6: Nachbearbeitung

Nachbearbeitung »Text«
Aus dem doppelt gelesenen Text wird ein Word-Dokument erstellt. Anschließend erfolgt eine Rechtschreibprüfung mithilfe eigens entwickelter Wörterbücher für unterschiedliche Sprachepochen.

Anhand der teilweise gestaffelten Überschriften erhält der Text seine Struktur. Besonderen Textteilen wie Gedichten, Briefen oder Widmungen werden entsprechende Formatvorlagen zugewiesen. Die zur Kennzeichnung verwendeten Farben dienen ausschließlich der internen Orientierung und erscheinen nicht im fertigen Dokument.

Text wird in Word strukturiert + erneute Rechtschreibprüfung

Nachbearbeitung »Sonderzeichen und Fußnoten«
Das folgende Beispiel zeigt einen typischen Fall aus der Praxis. Das Buch enthält zahlreiche Passagen in Altgriechisch, die in der Nachbearbeitung ergänzt werden, sowie Anmerkungen des Herausgebers am Ende des Buches. Diese werden als Fußnoten an die jeweilige Verweisstelle übernommen und mit dem Zusatz »Anmerkung des Herausgebers« gekennzeichnet.

Hinzu kommen die Fußnoten des Autors. Unser bisheriger Rekord liegt bei einem Werk mit rund 1.200 Fußnoten.

Nachbearbeitung von Sonderzeichen und Fußnoten: (links der fertige Text, rechts der Text nach der zweiten Leserunde)

Nachbearbeitung »Bilder«
Etwa jedes fünfte Buch enthält Abbildungen wie Fotos oder Farbbilder. Diese werden separat gescannt, in einem Grafikprogramm nachbearbeitet und anschließend in das Textdokument eingefügt.

Bilder werden gesondert gescannt, bearbeitet und eingepflegt — Bilder werden gesondert bearbeitet: (links der fertige Text, rechts der Text nach der 2. Leserunde)

Nachbearbeitung »Tabellen«
Eine der unbeliebtesten Nachbearbeitungsarbeiten sind Sachbücher mit vielen Tabellen, da es sich dabei um eine ausgesprochen fummelige manuelle Arbeit handelt.

Zeitaufwand für Schritt 6: 2 Stunden/Buch.

Tabellen müssen manuell nachgearbeitet werden: (links der fertige Text, rechts der Text nach der 2. Leserunde)

Schritt 7: Umwandlung in eine XML-Datei

Aus dem Word-Dokument wird eine XML-Datei erzeugt, die als Basis für alle weiteren Anwendungen gespeichert wird.

Zeitaufwand für Schritt 7: 0,25 Stunden/Buch.

Schritt 8: Publizieren

Da Projekt Gutenberg einen Beitrag zur Förderung der deutschen Sprache und Kultur leisten möchte, soll gute deutsche Literatur von möglichst vielen Menschen gelesen werden. Deshalb werden alle Texte mit Quellenangaben versehen und kostenlos zum Lesen zur Verfügung gestellt.

Zeitaufwand für Schritt 8: automatisch

Titel wird auf unserer Website veröffentlicht

Summe des Zeitaufwands je digitalisiertem Buch im Mittel

Bei über 12.500 Büchern in der Bibliothek von Projekt Gutenberg (Stand: 2026) wurden bislang rund 550.000 Arbeitsstunden investiert, was etwa 13.600 Arbeitswochen auf Basis einer 40-Stunden-Woche entspricht. Diese Leistung ist das Ergebnis der Arbeit freiwilliger Mitwirkender und des Projekt-Gutenberg-Teams.

Pro Buch

Schritt 1: 0,5 Stunden

Schritt 2: 0,5 Stunden

Schritt 3: 0,25 Stunden

Schritt 4: 40 Stunden

Schritt 5: automatisch

Schritt 6: 2 Stunden

Schritt 7: 0,25 Stunden

Übrige Schritte: automatisch

43,5

Stunden

Gesamt

Danksagung

Unser Dank gilt allen freiwilligen Mitwirkenden, die mit Zeit, Geduld und
Liebe zur Literatur dazu beitragen, dass Projekt Gutenberg möglich ist.

Sandra & Sönke

Verantwortlich für das Projekt seit 2026

Neu in der Bibliothek

Da das Projekt im Januar 2026 auf neue technische Beine gestellt wurde, sind aktuell alle Titel »neu«. Sobald wir die nächsten Aktualisierungen von Titeln und Autoren vornehmen, wird sich die Liste entsprechend aktualisieren.

Von der Original-Ausgabe zum digitalen Text

Herkunft der Texte

Werktreue, Rechtschreibung