top of page

Преимущества формата DjVu

Если у Вас мало опыта создания электронных книг - Вам следует использовать только формат DjVu!

Худшая ошибка, которую делают начинающие сканировщики книг,- то, что они используют автоматическое распознавание текста (OCR) и сохраняют книгу в форматы TXT или DOC, не исправив ошибки автоматики. При сканировании научной литературы, это приводит к порче таблиц, диаграмм, формул и иллюстраций. Например, в сканированных книгах можно натолкнуться на следующие фрагменты:

"Удельная медь железо

свинец теплоемкость %1;№: #@# O45&%^"

В оригинале на этом месте была таблица. Но автомат сделал из таблицы обычный абзац, разрушив порядок ячеек, а некоторые цифры - и вовсе не распознал из-за неровности строки. Ошибка, вроде бы, не такая уж большая. Но пользоваться книгой невозможно вообще.

Представьте себе: человек стоял несколько часов у дешёвого тормознутого сканера, потратил на это огромное количество сил и времени. А потом взял весь свой труд - и за одну минуту превратил его в мусор...

При сканировании художественной литературы, эта проблема не так страшна. Ну будут в тексте опечатки такого вида:

- Но я лю%$^ тебя! - воскликнула она.

Это неприятно, немного раздражает, но можно терпеть. Что хуже - автоматическое распознавание не учитывает выделение текста. В результате, теряются нюансы, например:

- Но я люблю тебя! - воскликнула она.

 

- Но я люблю тебя! - воскликнула она.

Это более неприятная ошибка, чем опечатки. Потому что опечатки можно исправить, а восстановить пропавшее выделение - невозможно, не имея под рукой оригинального текста.

Конечно, потеря таких нюансов - тоже не трагедия. Но какой смысл делать брак, пусть даже вполне терпимый - если Вы легко можете сделать книгу вообще без брака? Если Вам лень проверять и исправлять работу OCR-программы - просто сделайте книгу в формате DjVu. Кому нужен именно распознанный текст - всегда сможет взять Ваш DjVu и сделать из него текстовый файл. А вот наоборот - не получится.

Вторая ошибка, которую часто делают начинающие - это использование формата JPG (или использование JPG-сжатия в PDF).

Алгоритм JPEG был разработан для сжатия фотографий. Слабое место этого алгоритма - резкие линии, с которыми он работает плохо. На фотографиях такие линии встречаются редко. А вот текст - только из резких линий и состоит. В результате, JPG-книга выглядит примерно так:

В принципе, читать можно. Но чтение такого текста немного раздражает, и, к тому же, от этого устают глаза. При этом, размер книги получается огромным - десятки, а иногда и сотни мегабайт. Ещё один недостаток такого текста - что он плохо распознаётся OCR-программами. Если Вы потом захотите распознать текст, чтобы улучшить качество - Вам придётся сканировать книгу заново!

В отличе от JPG, формат DjVu был разработан именно для сжатия книг. Поэтому, взяв DjVu вместо JPG, Вы без усилий получите книгу намного лучшего качества.

Для продвинутых пользователей формат DjVu рекомендуется вместо OCR-форматов в следующих случаях:

- Для книг, содержащих много формул, т.к. формулы плохо распознаются OCR-программами.

- Для экономии времени, в случаях, когда идеальное качество не требуется.

bottom of page