Von der Original-Ausgabe zum digitalen Text

Die Texte im Projekt Gutenberg entstehen nicht automatisch. Jeder Titel durchläuft einen aufwendigen, überwiegend manuellen Prozess –
von der Auswahl der Buchvorlage bis zur Veröffentlichung als geprüfter Volltext.

Diese Seite zeigt, wie viel Arbeit, Sorgfalt und Zeit in jedem einzelnen Werk steckt.

Herkunft der Texte

Der größte Teil des neueren Textbestandes kommt aus dem Gegenleseportal gaga.net. Nach Buchauswahl, Scan und OCR-Bearbeitung (Umwandlung von Bildern in Text) korrigieren freiwillige Mitwirkende die dabei entstandenen Fehler. Die Nachkorrektur (erneute Rechtschreibprüfung, Formatierung und einiges mehr) macht das Gutenbergteam. Der überwiegende Teil der Werke wurde also doppelt korrekturgelesen.
 
Projekt Gutenberg wird ständig erweitert und ergänzt, deshalb haben wir jetzt schon viele Werke in der Bibliothek, die wir aus Urheberrechtsgründen erst im Laufe der nächsten Jahre veröffentlichen können. So liegen die Gesamtwerke teils schon digital vor und warten nur darauf, dass das Urheberrecht erlischt.

Werktreue, Rechtschreibung

Bis auf offensichtliche Druckfehler wird der Text der Buchvorlage grundsätzlich nicht verändert; im Zweifel wird der Text so wiedergegeben, wie er uns im Buch vorliegt. Kürzungen werden nur dann vorgenommen, wenn sie aus Urheberrechtsgründen unumgänglich sind, beispielsweise, wenn ein Zeitgenosse Vor- oder Nachwort schrieb oder die Illustrationen noch dem Urheberrecht unterliegen.

Die Rechtschreibung des Originals wird beibehalten, kein Buch wird in »neue« Rechtschreibung umgesetzt oder gar inhaltlich verändert. Einige eingesandte Werke und zeitgenössische Übersetzungen sind jedoch in aktueller Rechtschreibung. Endnoten und Anmerkungen geben wir als Fußnoten an der Verweisstelle wieder. Das widerspricht zwar dem Prinzip der absoluten Werktreue, aber so entfällt das Hin- und Herklicken zum Lesen der Fußnoten. Aufgrund von Leserwünschen haben wir die Fußnoten als [Text] im Text wiedergegeben, um die Verwendung für Zitate zu vereinfachen.

Die Titelproduktion

Ein ganzes Team freiwilliger Mitwirkender ist damit beschäftigt, mit viel Mühe und Liebe zur Literatur neue Werke aufzuspüren und für die Aufnahme in das Projekt vorzubereiten. In mehr als 30 Jahren sind so über 12.500 digitale Werke entstanden (Stand: 2026).

  • Schritt 1: Beschaffung

    Ideen für neue Titel im Projekt Gutenberg stammen aus unterschiedlichen Quellen. Neben literaturwissenschaftlichen Werken und Literaturlexika des 19. Jahrhunderts fließen auch einzelne Leseranregungen sowie Hinweise aus Online-Quellen ein.

    Projekt Gutenberg erwirbt im Durchschnitt rund 40 Bücher pro Monat. Bei einem mittleren Preis von etwa 10 Euro pro Buch ergeben sich bisher Investitionen in die Buchbeschaffung von nahezu 100.000 Euro.

    Zeitaufwand für Schritt 1: 0,5 Stunden/Buch.

  • Auswahl Klassiker
    Schätze bspw. in Antiquariaten oder auf Flohmärkten aufstöbern

    Schritt 2: Scannen

    Das Buch wird in einzelne Bestandteile zerlegt …

    Buchblock wird vom Umschlag getrennt
    Buchblock wird vom Umschlag getrennt und in Einzelseiten zerlegt

    … sauber beschnitten und anschließend …

    Seiten werden zum besseren Einzug beschnitten
    Seiten werden zum besseren Einzug beschnitten

    … Seite für Seite eingescannt. Altersbedingt ist das Papier oft brüchig, sodass alle Seiten sorgfältig von Hand eingelegt werden müssen.

    Scannen
    Seiten werden einzeln eingescannt

    Dies sind die gescannten Bilder der ersten Seiten, die für den Computer zunächst nichts weiter als ein Muster schwarzer Punkte auf weißer Fläche sind.

    Zeitaufwand für Schritt 2: 0,5 Stunden/Buch.

    Scan Ergebnis
    Seiten werden als Bilder eingescannt
  • Schritt 3: OCR-Bearbeitung

    Mithilfe spezieller OCR-Programme (OCR = Optical Character Recognition) werden die Bilder der gescannten Seiten in Text umgewandelt. Die Software interpretiert dabei Muster schwarzer Punkte als Buchstaben und erzeugt so einen digitalen Rohtext.

    Zeitaufwand für Schritt 3: 0,25 Stunden/Buch.

  • OCR-Bearbeitung: Aus einzelnen Bildern werden einzelne Textdateien
    OCR-Bearbeitung: Aus einzelnen Bildern werden einzelne Textdateien
  • Schritt 4: Korrekturlesen

    Bei der Texterkennung durch OCR-Software entstehen Fehler, wenn Zeichenmuster nicht korrekt interpretiert werden. Typische Fehler bei Frakturschrift sind Verwechslungen von f/s, u/n, t/l und ähnliche.

    Auch mit sehr ausgereifter Software lassen sich solche Fehler nicht automatisch korrigieren. Ob es etwa »alte werdende Eltern« oder »alle werdende Eltern« heißt, »er genoß die Luft« oder »er genoß die Lust«, ob jemand »ausgibt« oder »aufgibt«, kann nur der menschliche Leser aus dem Kontext heraus entscheiden. Eine Rechtschreibprüfung hilft hier nicht weiter, da es sich jeweils um korrekt geschriebene deutsche Wörter handelt.

    Diese Fehler können daher nur durch sorgfältiges Korrekturlesen erkannt und beseitigt werden. Jede Buchseite wird in zwei aufeinanderfolgenden Leserunden mit dem gescannten Original abgeglichen.

  • Korrekturlesen: links vorher, rechts nachher
    Links: Roh-OCR (Text, wie er aus der Maschine kommt), rechts: Text nach der 2. Leserunde

    Niemand ist unfehlbar, und so werden auch in der zweiten Leserunde einzelne Fehler übersehen. Die meisten davon lassen sich in der Nachkorrektur beseitigen. Besonders tückisch sind Fehler, die von der Rechtschreibprüfung nicht erkannt werden. Sie können nur entdeckt werden, wenn der Text ein weiteres Mal vollständig gelesen wird.

    Das rechts gezeigte Beispiel veranschaulicht solche Fehler, die auch nach der zweiten Leserunde noch bestehen geblieben sind.

    Zeitaufwand für Schritt 4: 40 Stunden/Buch.

    Zweite Leserunde: Jeder Text wird zweimal gegengelesen
    Zweite Leserunde: Jeder Text wird zweimal gegengelesen
  • Schritt 5: Einzeldateien zu einem Textdokument

    Nach dem Korrekturlesen werden die einzelnen Textdateien zu einem Dokument zusammengeführt, das noch keine inhaltliche Struktur aufweist. Dies ist derzeit der einzige Schritt, der automatisiert erfolgt.

    Zeitaufwand für Schritt 5: automatisch

  • Schritt 6: Nachbearbeitung

    Nachbearbeitung »Text«
    Aus dem doppelt gelesenen Text wird ein Word-Dokument erstellt. Anschließend erfolgt eine Rechtschreibprüfung mithilfe eigens entwickelter Wörterbücher für unterschiedliche Sprachepochen.

    Anhand der teilweise gestaffelten Überschriften erhält der Text seine Struktur. Besonderen Textteilen wie Gedichten, Briefen oder Widmungen werden entsprechende Formatvorlagen zugewiesen. Die zur Kennzeichnung verwendeten Farben dienen ausschließlich der internen Orientierung und erscheinen nicht im fertigen Dokument.

  • Text wird in Word strukturiert + erneute Rechtschreibprüfung
    Text wird in Word strukturiert + erneute Rechtschreibprüfung

    Nachbearbeitung »Sonderzeichen und Fußnoten«
    Das folgende Beispiel zeigt einen typischen Fall aus der Praxis. Das Buch enthält zahlreiche Passagen in Altgriechisch, die in der Nachbearbeitung ergänzt werden, sowie Anmerkungen des Herausgebers am Ende des Buches. Diese werden als Fußnoten an die jeweilige Verweisstelle übernommen und mit dem Zusatz »Anmerkung des Herausgebers« gekennzeichnet.

    Hinzu kommen die Fußnoten des Autors. Unser bisheriger Rekord liegt bei einem Werk mit rund 1.200 Fußnoten.

    Nachbearbeitung von Sonderzeichen und Fußnoten
    Nachbearbeitung von Sonderzeichen und Fußnoten: (links der fertige Text, rechts der Text nach der zweiten Leserunde)

    Nachbearbeitung »Bilder«
    Etwa jedes fünfte Buch enthält Abbildungen wie Fotos oder Farbbilder. Diese werden separat gescannt, in einem Grafikprogramm nachbearbeitet und anschließend in das Textdokument eingefügt.

    Bilder werden gesondert gescannt, bearbeitet und eingepflegt
    Bilder werden gesondert bearbeitet: (links der fertige Text, rechts der Text nach der 2. Leserunde)

    Nachbearbeitung »Tabellen«
    Eine der unbeliebtesten Nachbearbeitungsarbeiten sind Sachbücher mit vielen Tabellen, da es sich dabei um eine ausgesprochen fummelige manuelle Arbeit handelt.

    Zeitaufwand für Schritt 6: 2 Stunden/Buch.

    Tabellen müssen manuell nachgearbeitet werden: (links der fertige Text, rechts der Text nach der 2. Leserunde)
    Tabellen müssen manuell nachgearbeitet werden: (links der fertige Text, rechts der Text nach der 2. Leserunde)
  • Schritt 7: Umwandlung in eine XML-Datei

    Aus dem Word-Dokument wird eine XML-Datei erzeugt, die als Basis für alle weiteren Anwendungen gespeichert wird.

    Zeitaufwand für Schritt 7: 0,25 Stunden/Buch.

  • Konvertierung in das XML-Format
    Konvertierung in das XML-Format
  • Schritt 8: Publizieren

    Da Projekt Gutenberg einen Beitrag zur Förderung der deutschen Sprache und Kultur leisten möchte, soll gute deutsche Literatur von möglichst vielen Menschen gelesen werden. Deshalb werden alle Texte mit Quellenangaben versehen und kostenlos zum Lesen zur Verfügung gestellt.

    Zeitaufwand für Schritt 8: automatisch

  • Titel wird auf unserer Website veröffentlicht
    Titel wird auf unserer Website veröffentlicht

    Summe des Zeitaufwands je digitalisiertem Buch im Mittel

    Bei über 12.500 Büchern in der Bibliothek von Projekt Gutenberg (Stand: 2026) wurden bislang rund 550.000 Arbeitsstunden investiert, was etwa 13.600 Arbeitswochen auf Basis einer 40-Stunden-Woche entspricht. Diese Leistung ist das Ergebnis der Arbeit freiwilliger Mitwirkender und des Projekt-Gutenberg-Teams.

    Pro Buch
    Schritt 1: 0,5 Stunden
    Schritt 2: 0,5 Stunden
    Schritt 3: 0,25 Stunden
    Schritt 4: 40 Stunden
    Schritt 5: automatisch
    Schritt 6: 2 Stunden
    Schritt 7: 0,25 Stunden
    Übrige Schritte: automatisch
    43,5
    Stunden
    Gesamt

    Danksagung

    Unser Dank gilt allen freiwilligen Mitwirkenden, die mit Zeit, Geduld und
    Liebe zur Literatur dazu beitragen, dass Projekt Gutenberg möglich ist.
    Sandra & Sönke
    Verantwortlich für das Projekt seit 2026