Как распознать отсканированный документ

Получите 500 бесплатных страниц для распознавания документов

Отсканированный документ представляет собой набор графических изображений, объединенных в некоторый формат. Например, форматы DjVu или TIFF предназначены исключительно для хранения изображений. В отличие от формата PDF: в этом формате можно хранить как изображения, так и текст. Зачастую вам может быть достаточно целиком сохранять отсканированные страницы в PDF без распознавания. В этом случае вы максимально сохраняете исходный внешний вид документа, не подвергая его искажениям при распознавании.

Программа ScanPapyrus дает вам возможность воспользоваться облачным сервисом распознавания от компании ABBYY (http://www.abbyy.com). Алгоритмы распознавания этой компании прошли многолетнее развитие и являются, пожалуй, самыми лучшими в мире. Они редко ошибаются при распознавании, максимально сохраняют форматирование документа и не тратят на распознавание много времени.

Для распознавания вам потребуется подключение к Интернету, кроме того сервис распознавания не является бесплатным со стороны компании ABBYY. Но вы можете получить 500 бесплатных страниц при первой регистрации на сервисе распознавания.

Для того чтобы использовать распознавание, вам нужно создать аккаунт на сайте ABBYY Cloud OCR и подключить его к ScanPapyrus.

Создание аккаунта на ABBYY Cloud OCR

Перейдите по ссылке, чтобы создать новый аккаунт на ABBYY Cloud OCR. Если вы уже зарегистрированы на этом сервисе, то переходите на страницу авторизации.

Введите ваш e-mail и придумайте пароль, а также введите капчу. После регистрации вы сможете авторизоваться и войти в панель управления.

Здесь вам нужно создать приложение для распознавания. Для этого нажмите кнопку ADD NEW APPLICATION.

Откроется страница создания вашего приложения. Идентификатор приложения (Application ID) будет создан автоматически. Вам нужно будет ввести имя приложения и выбрать размещение сервера распознавания (в США или в Европе). После нажатия кнопки CREATE APPLICATION на ваш e-mail придет пароль от созданного приложения.

Когда вы создадите ваше первое приложение, вы автоматически получите 500 бесплатных страниц A4 для распознавания сроком на 90 дней. После истечения этого периода вам нужно будет отдельно приобретать страницы.

Существует также способ получить бесплатные страницы. Дополнительную информацию можно найти в разделе Получить бесплатно.

Подключение приложения ABBYY к ScanPapyrus

Теперь, созданное приложение вы можете подключить к ScanPapyrus и использовать распознавание. Запустите ScanPapyrus, перейдите во вкладку Распознавание и нажмите кнопку Настройки сервиса.

В появившемся окне введите параметры вашего созданного приложения. Скопируйте Application ID и пароль из письма от ABBYY Cloud OCR и вставьте в соответствующие поля.

Как использовать распознавание в ScanPapyrus

Теперь вы можете отправлять документы на распознавание в облачный сервис ABBYY Cloud OCR. Во вкладке Распознавание нажмите кнопку Распознать онлайн.

В окне Параметры распознавания вы можете указать язык документа, либо же, если документ на нескольких языках, то несколько языков, например, русский и английский.

Здесь же выберите выходной формат документа. Доступно несколько вариантов:

  • Microsoft Word – документ будет сохранен в файл формата Microsoft Word. Будет сохранено форматирование исходного документа, изображения будут вставлены в документ как в оригинале.
  • Microsoft Excel – если исходный отсканированный документ предоставляет собой таблицу, то вы сразу можете сохранить его в табличном документе в формате Microsoft Excel.
  • PDF текст и изображения – документ будет сохранен в PDF. Текст исходного документа будет сохранен как текст в PDF, вы сможете его копировать из PDF, производить поиск по документу. Изображения будут вставлены в документ как в оригинале. Также будет сохранено форматирование оригинального документа.
  • Rich Text – документ в текстовом формате RTF, более простом, чем формат Microsoft Word.
  • Простой текст – простой текстовый документ без хранения изображений. Форматирование документа будет утеряно.

После выбора параметров нажмите кнопку Распознать. Программа отправит ваш документ в облачный сервис распознавания. На экране вы увидите ваш список документов, отправленных на распознавание.

Обычно, распознавание выполняется сервисом за одну - две минуты. Состояние распознавания документа вы можете отслеживать в окне Список задач распознавания, которое вызывается кнопкой Список задач из главного окна программы. Нажмите кнопку Обновить статус, чтобы обновить состояние задачи. Когда распознавание будет закончено, состояние задачи изменится на Завершено, а в колонке Файл появится кнопка Сохранить как…, нажав которую вы можете сохранить документ в выбранное место на вашем жестком диске.

Безопасность ваших данных

Для распознавания ScanPapyrus использует облачный сервис ABBYY OCR Cloud (https://www.ocrsdk.com). Ваши данные хранятся и обрабатываются ABBYY в соответствии с политикой конфиденциальности (https://www.abbyy.com/privacy). ABBYY не имеет права просматривать, использовать, публиковать, воспроизводить или раскрывать любые ваши загруженные данные. Загруженные данные будут храниться для целей обработки на сервере в Европейском союзе ограниченное время.

ABBYY автоматически удаляют все загруженные данные в течение сорока двух (42) часов после их загрузки в Сервис. Обработанные загруженные данные удаляются в течение двадцати четырех (24) часов после их обработки Сервисом.

При отправке страниц вы должны самостоятельно оценивать законность, уместность, право собственности на интеллектуальную собственность и права на использование данных, отправляемых вами в Сервис.

Все данные передаются по защищенному протоколу HTTPS, обеспечивающему защиту от перехвата данных.

Программа ScanPapyrus не отправляет и не хранит ваши данные на сторонних серверах. Пароль от вашего приложения хранится на вашем компьютере в зашифрованном виде.