Довідка » Оцифрування паперових книг у формат EPUB
додати сторінку до вибраного 

 

Оцифрування паперових книг у формат EPUB

 

 

Для оцифровки паперової книги в формат EPUB  рекомендуємо використовувати зчитувач ABBYY FineReader 10/11 і редактор Sigil. Зчитувач OCR FineReader дуже потужний, він оцифровує навіть рукописний текст українською, який важко прочитати візуально. Технологія складається з однієї вичитки й кількох швидких проходів по тексту. Важливо на кожному етапі точно виконувати всі операції даного етапу, не відволікаючись на операції суміжних етапів. Тільки тоді вдасться отримати одночасно високі якість і швидкість.
 
  1. Сканувати в формат PDF на будь-якому сканері. Розрізнення 300dpi для звичайного тексту і 400dpi для дрібного. Встановити тон чорно-білий (не відтінки сірого), або текстовий режим сканера. Яскравість підібрати в залежності від пожовклості паперу.
  2. Отриманий документ PDF завантажити в FineReader (команда File=>Open PDF File). При завантаженні встановити у вікні Options перемикач Do not read and analyze acquired page images automatically (Не читати й не аналізувати запрошені малюнки сторінок автоматично) і прапорець Enable image preprocessing (Включити обробку малюнків). Це означає, що при завантаженні документ не буде відкриватись. Відкривати поки що не можна, бо треба спочатку вирівняти (команда Deskew), інакше в тексті буде багато помилок і тривалість вичитки (це самий трудоємний етап) збільшиться в кілька разів. Встановити українську мову документа.
  3. Встановтити режим Plain Text (Простий текст). Це важливо, інакше зчитувач вкине в документ багато чудернацьких стилів, на виправлення яких піде багато часу. Встановіть збереження номерів сторінок, вони знадобляться на наступних етапах.
  4. Вибрати команду Page=>Edit Image Page (Сторінка=>Редагувати сторінку малюнка). Встановити прапорець Apply to all images (Застосувати для всіх малюнків) і клацнути на кнопці Deskew Image (Вирівняти малюнок).
  5. Клацнути на кнопці Read (Прочитати). Всі сторінки будуть прочитані зчитувачем. На лівій панелі з'явится список сторінок і біля кожної процент підозрілих символів. Повинно бути 0-3%. Якщо більше, значить зроблено щось неправильно. Краще зробити все заново, інакше етап вичитки буде надто тривалим.
  6. Вичитка -- самий відповідальний і тривалий етап -- виконується в FineReader. Відкрийте у верхньому вікні текст, який ви редагуєте, у ніжньому -- текст PDF. Якщо не можете розібрати щось у верхньому тексті, подивіться в нижній. На символи табуляції й пробіли на цьому етапі не відволікайтесь, вони будуть автоматично виправлені потім.
  7. Періодично зберігайте зроблене. На жаль, в FineReader немає простої команди збереження. Є команда Save As (Зберегти як), але вона чомусь відмовляється зберігати документ з тим же іменем. Можна створювати ряд документів, наприклад а1, а2 і т.д. Можна також вибрати File=>Close FineReader Document (Файл=>Закрити документ FineReader). Хоч як це нелогічно, він буде збережений.
  8. Коли вичитка завершена, виберіть команду Save=>Save to other formats (зверніть увагу: не Save as Text).
  9. Перед проходами необхідно автоматично зкоригувати текст. Зчитувач додає символи табуляції. При вичитці не звертайте на них уваги. Замініть їх автоматично пробілами утилітою Replace (Заміна). В остаточному тексті символів табуляції не повинно бути. Зчитувач погано інтерпретує кількість пробілів. Тому декілька разів запустіть заміну двох пробілів одним. Вставте пробіли після тире. Для цього запустіть автоматичну заміну (-) на (- ). І знов знищіть подвійні пробіли.
  10. Створіть в Sigil новий документ EPUB і вставте в нього отриманий простий текст.
  11. Перший прохід. Корекція стилів. Відкрийте на екрані зліва документ PDF, а справа -- документ EPUB у вікні Sigil. Не вичитуючи, прокручуйте зліва документ PDF. Коли побачите нестандартний стиль (курсив, жирний і т.п.), виправте його в правому вікні. Також виправляйте пропуски рядків.
  12. Вставка посилань в примітки. Відкрийте в Sigil вікно коду XHTML. Запишіть в буфер обміну дескриптор примітки, наприклад, <a class="note" href="#idnoteref7" id="idnote7">7.</a> і вставляйте його в кінці книги багаторозово в кожний номер примітки клавішами <Clrl+V>.
  13. Знайдіть кожну примітку в тексті й аналогічно вставте в неї гіперпосилання, сумісне з вищевказаним. Для цього потрібні були номера сторінок.
  14. Другий прохід. Видалення номерів сторінок. Як і при першому проході, зліва відкрийте вікно PDF, а справа вікно Sigil. На цьому етапі вставляйте вставляйте після абзаців примітки, розміщені знизу сторінки.
  15. В залежності від структури книги можуть знадобитись додаткові проходи.
  16. Додайте стилі в заголовок і прізвище автора. Задайте в Sigil назву, мову і автора твору. Додайте зміст, якщо твір має розділи. Кінець.
 
При вичитці й проходах по тексту будьте обережні. Постійно пам'ятайте, що один незграбний порух може привести до миттєвого зникнення чи спотворення кількох сторінок, причому помітити це майже неможливо, навіть якщо ще раз вичитаєте всю книгу. Тому подумайте над тим, які можуть траплятись аварійні ситуації. Наприклад, не можна виділяти фрагмент тексту (та це й не потрібно), бо якщо в цей момент доторкнутись до клавіші <Del>, він зникне й ви цього не помітите.
 
Не привласнюйте нестилізованому тексту (це основний об'єм книги) ніяких атрибутів, стилів чи властивостей, щоб читач без перешкод міг сам вибрати властивості, зручні для нього. Не додавайте відступи в перші рядки абзаців, це зробить вьюер користувача, якщо він захоче.
Шаблон стилів і гіперпосилань можете взяти з книги Бальзака "Пошуки абсолюту", викладеній у Чтиві. Втім, на використанні даного шаблону не наполягаємо. Якщо вмієте створити власні стилі й вам здається, що вони красивіші, можете вільно використати їх, не радячись з нами. Якщо ж ви не знайомі з HTML і CSS, то зробіть наступне.

  1. Зкопіюйте файл Style0001.css в свій документ EPUB.
  2. В файлі Section0001.xhtml додайте дескриптор <link> в дескриптор <head>, як в шаблоні.
  3. Додайте в дескриптор <p> атрибут class="title".
  4. Якщо щось не спрацьовує, ретельно перевірте коди CSS і XHTML. Все повинно бути точно, як в шаблоні.
  5. Є ще такий спосіб. Привласніть файлу "Пошуки абсолюту" свою назву і відкрийте його в Sigil в режимі перегляду. Клавішами <Ctrl+C> i <Ctrl+V> замініть існуючі заговок, автора і текст своїми. Відкрийте вікно Edit=>Meta Editor (Правка=>Метаредактор) і введіть назву і автора твору.
  6. Якщо ж зі стилями зовсім нічого не виходить, залиште у вікні Sigil голий текст. Лише вкажіть це в коментарі для модератора. В решті решт, для читача головне -- якість і доступність тексту. Нехай краще буде текст без стилів, ніж ніякого тексту. Можете також викласти його в форматі TXT, але EPUB кращий тим, що архівує текст і в результаті його об'єм у кілька разів зменшується.
 
При роботі з Sigil, зауважте наступне. В останній версії Sigil 0.5.3 (вийшла в кінці лютого 2012 р.) з'явився російський інтерфейс. Це дуже погано, тому що на лівій панелі відображені імена папок Стили, Текст, Рисунки і т.п., хоча в файлі й коді XHTML їх справжні імена -- Styles, Text, Pictures. Це приведе до багатьох неприємностей: не підключаться CSS, умруть гіперпосилання і т.д.

Тому рекомеднуємо переключити Sigil назад на англійський інтерфейс. В Win7 це залежить від вкладки Пуск=>Панель управления=>Язык и региональные стандарты=>Формат. В списку Формат встановити Украинский або Английский. Українського інтерфейсу немає, тому Sigil відобразить англійський.

І ще. В Sigil є таке дивацтво. Перехід по гіперпосиланню виконується не клацем лівою кнопкою миші (при цьому курсор переходить, а вікно ні). Треба клацнути правою кнопкою і вибрати в контекстному меню команду Open Link (Відкрити посилання). Ми довгий час не знали цього й відкривали документ у вьюері Calibre, щоб перевірити посилання. Виявилось, це зайве, можна перевіряти, не виходячи з Sigil.

Завантажити останню версію програми можна на офіційному сайті проекту Sigil.

Додатково дивіться довідку з автоматизації додавання гіперпосилань до книги у форматі EPUB та додавання українського словника OpenOffice до редактору Sigil.
 
14.03.2012, aetes