Ein langer Weg
Von der Original-Ausgabe zum digitalen Text
Die Texte im Projekt Gutenberg entstehen nicht automatisch. Jeder Titel durchläuft einen aufwendigen, überwiegend manuellen Prozess –
von der Auswahl der Buchvorlage bis zur Veröffentlichung als geprüfter Volltext.
Diese Seite zeigt, wie viel Arbeit, Sorgfalt und Zeit in jedem einzelnen Werk steckt.
Herkunft der Texte
Der größte Teil des neueren Textbestandes kommt aus dem Gegenleseportal gaga.net. Nach Buchauswahl, Scan und OCR-Bearbeitung (Umwandlung von Bildern in Text) korrigieren freiwillige Mitwirkende die dabei entstandenen Fehler. Die Nachkorrektur (erneute Rechtschreibprüfung, Formatierung und einiges mehr) macht das Gutenbergteam. Der überwiegende Teil der Werke wurde also doppelt korrekturgelesen.
Projekt Gutenberg wird ständig erweitert und ergänzt, deshalb haben wir jetzt schon viele Werke in der Bibliothek, die wir aus Urheberrechtsgründen erst im Laufe der nächsten Jahre veröffentlichen können. So liegen die Gesamtwerke teils schon digital vor und warten nur darauf, dass das Urheberrecht erlischt.
Werktreue, Rechtschreibung
Bis auf offensichtliche Druckfehler wird der Text der Buchvorlage grundsätzlich nicht verändert; im Zweifel wird der Text so wiedergegeben, wie er uns im Buch vorliegt. Kürzungen werden nur dann vorgenommen, wenn sie aus Urheberrechtsgründen unumgänglich sind, beispielsweise, wenn ein Zeitgenosse Vor- oder Nachwort schrieb oder die Illustrationen noch dem Urheberrecht unterliegen.
Die Rechtschreibung des Originals wird beibehalten, kein Buch wird in »neue« Rechtschreibung umgesetzt oder gar inhaltlich verändert. Einige eingesandte Werke und zeitgenössische Übersetzungen sind jedoch in aktueller Rechtschreibung. Endnoten und Anmerkungen geben wir als Fußnoten an der Verweisstelle wieder. Das widerspricht zwar dem Prinzip der absoluten Werktreue, aber so entfällt das Hin- und Herklicken zum Lesen der Fußnoten. Aufgrund von Leserwünschen haben wir die Fußnoten als [Text] im Text wiedergegeben, um die Verwendung für Zitate zu vereinfachen.
Die Titelproduktion
Ein ganzes Team freiwilliger Mitwirkender ist damit beschäftigt, mit viel Mühe und Liebe zur Literatur neue Werke aufzuspüren und für die Aufnahme in das Projekt vorzubereiten. In mehr als 30 Jahren sind so über 12.500 digitale Werke entstanden (Stand: 2026).
Schritt 1: Beschaffung
Ideen für neue Titel im Projekt Gutenberg stammen aus unterschiedlichen Quellen. Neben literaturwissenschaftlichen Werken und Literaturlexika des 19. Jahrhunderts fließen auch einzelne Leseranregungen sowie Hinweise aus Online-Quellen ein.
Projekt Gutenberg erwirbt im Durchschnitt rund 40 Bücher pro Monat. Bei einem mittleren Preis von etwa 10 Euro pro Buch ergeben sich bisher Investitionen in die Buchbeschaffung von nahezu 100.000 Euro.
Zeitaufwand für Schritt 1: 0,5 Stunden/Buch.

Schritt 2: Scannen
Das Buch wird in einzelne Bestandteile zerlegt …

… sauber beschnitten und anschließend …

… Seite für Seite eingescannt. Altersbedingt ist das Papier oft brüchig, sodass alle Seiten sorgfältig von Hand eingelegt werden müssen.

Dies sind die gescannten Bilder der ersten Seiten, die für den Computer zunächst nichts weiter als ein Muster schwarzer Punkte auf weißer Fläche sind.
Zeitaufwand für Schritt 2: 0,5 Stunden/Buch.

Schritt 3: OCR-Bearbeitung
Mithilfe spezieller OCR-Programme (OCR = Optical Character Recognition) werden die Bilder der gescannten Seiten in Text umgewandelt. Die Software interpretiert dabei Muster schwarzer Punkte als Buchstaben und erzeugt so einen digitalen Rohtext.
Zeitaufwand für Schritt 3: 0,25 Stunden/Buch.

Schritt 4: Korrekturlesen
Bei der Texterkennung durch OCR-Software entstehen Fehler, wenn Zeichenmuster nicht korrekt interpretiert werden. Typische Fehler bei Frakturschrift sind Verwechslungen von f/s, u/n, t/l und ähnliche.
Auch mit sehr ausgereifter Software lassen sich solche Fehler nicht automatisch korrigieren. Ob es etwa »alte werdende Eltern« oder »alle werdende Eltern« heißt, »er genoß die Luft« oder »er genoß die Lust«, ob jemand »ausgibt« oder »aufgibt«, kann nur der menschliche Leser aus dem Kontext heraus entscheiden. Eine Rechtschreibprüfung hilft hier nicht weiter, da es sich jeweils um korrekt geschriebene deutsche Wörter handelt.
Diese Fehler können daher nur durch sorgfältiges Korrekturlesen erkannt und beseitigt werden. Jede Buchseite wird in zwei aufeinanderfolgenden Leserunden mit dem gescannten Original abgeglichen.

Niemand ist unfehlbar, und so werden auch in der zweiten Leserunde einzelne Fehler übersehen. Die meisten davon lassen sich in der Nachkorrektur beseitigen. Besonders tückisch sind Fehler, die von der Rechtschreibprüfung nicht erkannt werden. Sie können nur entdeckt werden, wenn der Text ein weiteres Mal vollständig gelesen wird.
Das rechts gezeigte Beispiel veranschaulicht solche Fehler, die auch nach der zweiten Leserunde noch bestehen geblieben sind.
Zeitaufwand für Schritt 4: 40 Stunden/Buch.

Schritt 5: Einzeldateien zu einem Textdokument
Nach dem Korrekturlesen werden die einzelnen Textdateien zu einem Dokument zusammengeführt, das noch keine inhaltliche Struktur aufweist. Dies ist derzeit der einzige Schritt, der automatisiert erfolgt.
Zeitaufwand für Schritt 5: automatisch
Schritt 6: Nachbearbeitung
Nachbearbeitung »Text«
Aus dem doppelt gelesenen Text wird ein Word-Dokument erstellt. Anschließend erfolgt eine Rechtschreibprüfung mithilfe eigens entwickelter Wörterbücher für unterschiedliche Sprachepochen.
Anhand der teilweise gestaffelten Überschriften erhält der Text seine Struktur. Besonderen Textteilen wie Gedichten, Briefen oder Widmungen werden entsprechende Formatvorlagen zugewiesen. Die zur Kennzeichnung verwendeten Farben dienen ausschließlich der internen Orientierung und erscheinen nicht im fertigen Dokument.

Nachbearbeitung »Sonderzeichen und Fußnoten«
Das folgende Beispiel zeigt einen typischen Fall aus der Praxis. Das Buch enthält zahlreiche Passagen in Altgriechisch, die in der Nachbearbeitung ergänzt werden, sowie Anmerkungen des Herausgebers am Ende des Buches. Diese werden als Fußnoten an die jeweilige Verweisstelle übernommen und mit dem Zusatz »Anmerkung des Herausgebers« gekennzeichnet.
Hinzu kommen die Fußnoten des Autors. Unser bisheriger Rekord liegt bei einem Werk mit rund 1.200 Fußnoten.

Nachbearbeitung »Bilder«
Etwa jedes fünfte Buch enthält Abbildungen wie Fotos oder Farbbilder. Diese werden separat gescannt, in einem Grafikprogramm nachbearbeitet und anschließend in das Textdokument eingefügt.

Nachbearbeitung »Tabellen«
Eine der unbeliebtesten Nachbearbeitungsarbeiten sind Sachbücher mit vielen Tabellen, da es sich dabei um eine ausgesprochen fummelige manuelle Arbeit handelt.
Zeitaufwand für Schritt 6: 2 Stunden/Buch.

Schritt 7: Umwandlung in eine XML-Datei
Aus dem Word-Dokument wird eine XML-Datei erzeugt, die als Basis für alle weiteren Anwendungen gespeichert wird.
Zeitaufwand für Schritt 7: 0,25 Stunden/Buch.

Schritt 8: Publizieren
Da Projekt Gutenberg einen Beitrag zur Förderung der deutschen Sprache und Kultur leisten möchte, soll gute deutsche Literatur von möglichst vielen Menschen gelesen werden. Deshalb werden alle Texte mit Quellenangaben versehen und kostenlos zum Lesen zur Verfügung gestellt.
Zeitaufwand für Schritt 8: automatisch

Summe des Zeitaufwands je digitalisiertem Buch im Mittel
Bei über 12.500 Büchern in der Bibliothek von Projekt Gutenberg (Stand: 2026) wurden bislang rund 550.000 Arbeitsstunden investiert, was etwa 13.600 Arbeitswochen auf Basis einer 40-Stunden-Woche entspricht. Diese Leistung ist das Ergebnis der Arbeit freiwilliger Mitwirkender und des Projekt-Gutenberg-Teams.
Danksagung
Liebe zur Literatur dazu beitragen, dass Projekt Gutenberg möglich ist.
Neu in der Bibliothek
Da das Projekt im Januar 2026 auf neue technische Beine gestellt wurde, sind aktuell alle Titel »neu«. Sobald wir die nächsten Aktualisierungen von Titeln und Autoren vornehmen, wird sich die Liste entsprechend aktualisieren.