Сканирование в PDF книги "Деловой английский"

Сегодня я бы хотел рассказать о сканировании книги с помощью программы ScanPapyrus. В качестве подопытной книги мы возьмем книгу "Деловой английский", автор Слепович В.С. Наша задача - создать электронную книгу в формате DjVu. Почему в DjVu? Потому что это стандарт де-факто для сканированных (нераспознанных) книг.

Книга насыщена таблицами, диаграммами, справочниками в виде столбцов. Для того чтобы корректно распознать такую книгу программой типа ABBYY FineReader, нужно проделать массу работы. Поэтому с такими книгами поступают проще - сканируют "как есть", без распознавания. Получается быстро и эффективно.

Собственно, в чем отличие распознанной книги в виде текста, от нераспознанной, со страницами в виде изображения? Главное преимущество - это поиск по тексту книги. Но зачем нам поиск по тексту данного учебника? Учебник надо читать целиком, от и до, поиск тут не нужен.

Сканировать книгу будем целиком книжными разворотами. В программе ScanPapyrus есть автоматическое разделение скана книжного разворота на две отдельные страницы. То есть, книгу нужно класть на стекло сканера так, как это показано на картинке ниже.

Крышку сканера при этом закрывать не надо. Но надо обеспечить плотное и надежное прилегание обеих страниц к стеклу сканера. Дело в том, что книга неравномерной толщины слева и справа. Когда мы сканируем книгу, о сначала мы имеем толстую левую часть книги, затем обе части примерно одинаковой толщины, и под конец сканирования более толстой становится правая часть книги. Соответственно, толстая часть более плотно прилегает к стеклу сканера, в то время как тонкая часть книги хуже. Это снижает качество сканирования. Чтобы получить высокое качество, нужно обеспечить равномерное прижатие книги к стеклу сканера. Как этого можно достичь? Например, можно прижимать обе части книги руками. Либо можно на более тонкую часть класть что-нибудь тяжелое, например, другую книгу.

Начнем сканирование. Нажмите кнопку Сканировать книгу на панели инструментов. Откроется окно мастера.

В этом окне вы можете задать настройки автоматического сканирования. Первое, это интервал времени, через который будет запускаться следующее сканирование. То есть, после того как закончится сканирование одного книжного разворота, будет запущен таймер. За это время вы успеете перевернуть страницу книги и вложить ее снова в сканер. Обычно на это достаточно пяти секунд, с учетом того времени которое потратится на обработку книжного разворота, т.е. на разделение на две страницы.

Следующий флажок Сканировать первую страницу сразу (не ждать). Он означает, что сканирование начнется сразу после сканирования кнопки Далее >. Если мы его не включим, то сначала будут отсчитаны 5 секунд, а после этого начнется процесс сканирования.

Следующий флажок – Разделять книжный разворот на две страницы. Этот флажок указывает программе, что мы сканируем книжный разворот целиком. При взведенном флажке, полученный скан будет разделяться на две страницы. Если мы его не поставим, то программа будет считать, что мы сканируем по одной странице. При этом, при сканировании по одной странице, на стекло сканера попадает часть соседней страницы. Программа ScanPapyrus позволяет удалить эту соседнюю страницу и оставит только ту, которую мы сканируем.

Следующие опции – это опции поворота. В опциях поворота можно задать 4 действия. Первое, это не выполнять никаких действий, т.е. нет поворота. Второе действие, это поворачивать каждую страницу. То есть, если при сканировании мы положили книгу вверх ногами, потому что нам, например, так удобно, то при этом действии книга будет автоматически перевернута и мы будем на выходе иметь страницы, которые правильно сориентированы. Следующее действие – это Переворачивать каждую нечетную страницу, то есть первую, третью, пятую и т.д. Это действие имеет смысл только для сканирования по одной странице.
В этом режиме будет разворачиваться каждая нечетная страница. Это очень удобно при сканировании на сканере, у которого крышка открывается сбоку. На таком сканере удобно отсканировать одну страницу, затем просто развернуть книгу вверх ногами и отсканировать следующую. При этом ScanPapyrus будет разворачивать перевернутую страницу обратно. На рисунке ниже представлен вариант сканирования с разворотом нечетной страницы книги.

После того, как вы задали все необходимые настройки, можно переходить непосредственно к сканированию книги. Откройте книгу на первой странице и вложите книжный разворот в сканер. Как я уже упоминал, постарайтесь обеспечить равномерное прижатие книги к стеклу сканера, но не переусердствуйте, а то сломаете сканер. Нажмите кнопку Далее > в программе. Начнется сканирование. По окончании сканирования программа развернет изображение согласно заданным настройкам и попытается разделить полученное изображение на две отдельные книжные страницы. Ориентируется программа по перегибу между страницами. Пример перегиба представлен на рисунке ниже.

Если программа не найдет перегиба, то результат вас явно не порадует. В каком месте будет разрезано изображение трудно предсказать, но это будет явно не то, что вам нужно. Поэтому, я хочу заострить на этом внимание, в этом режиме сканирования книги обязательно должен быть перегиб.
Итак, разворот отсканирован и получены две отдельные страницы. Обратите внимание, что страницы были дополнительно обработаны программой. А именно, были обрезаны лишние белые поля и убраны черные засвеченные полосы. Кроме того, скорректирован контраст и теперь фон изображения имеет ровный белый цвет, а буквы – четкий черный цвет.

Но не время разглядывать страницы, затикал таймер и вам нужно поторопиться, чтобы успеть вложить следующий разворот в сканер. Если вы вдруг не успеваете, или вам нужно сделать паузу, нажмите клавишу Пробел на клавиатуре. Это остановит таймер. Чтобы продолжить работу нажмите Пробел еще раз.

Отсканируйте таким образом все книжные развороты книги. В итоге у вас будет электронная копия книги. Теперь ее нужно сохранить в формат DjVu. Нажмите кнопку Сохранить в DjVu на панели инструментов.

Откроется окно, в котором можно задать параметры сохранения в DjVu. Особое внимание хочу обратить на параметр Сжатие DjVu. Формат DjVu позволяет сжать полученные страницы. Качество при этом, конечно, будет страдать, но всегда можно выбрать оптимальное значение сжатие/качество. Сжатие задается в процентах от исходного качества. Вы можете выставить 100% - это будет максимальное качество без сжатия, либо выставить 10% и вы получите практически нечитаемый текст, но размер файла вас, конечно, порадует. Опытным путем я вывел цифру в 50%, сжатие с таким коэффициентом практически не влияет на качество, но при этом серьезно уменьшает размер выходного файла DjVu.

Итак, мы рассмотрели сканирование книги целиком книжными разворотами. В следующей раз я расскажу о том, как сканировать большую книгу, книжный разворот которой целиком не помещается в сканер. Такие книги мы будем сканировать постранично. Программа ScanPapyrus нам в этом поможет, она будет автоматически разворачивать нечетные страницы.
А пока я бы хотел выложить результат сканирования книги Деловой английский, автора Слеповича. Вы можете скачать книгу и оценить качество полученной электронной копии.