додати сторінку до вибраного |
Оптимізація розміру PDF-файлу за допомогою FineReader
Якщо через якісь причини Ви не маєте змоги чи бажання повноцінно відсканувати або перетворити книгу в один зі зручних для використання текстових форматів (*.fb2, *.doc, *.html тощо), тоді Вам варто знати яким чином можна максимально зменшити розмір результуючого файл PDF, зберігши при цьому якість зображення сторінок. Коли книга сканується у фотокопійний PDF з текстовим шаром, то практично завжди виникає проблема непомірно великого розміру файлу, який ми отримуємо на виході. Однак, при правильному підході розмір файлу можна зменшити у кількі разів, до цілком прийнятних розмірів. Відомі випадки, коли PDF файл за допомогою оптимального стискання вдавалося зменшити зі 100 МБ до 5 МБ, при цьому повністю зберігши читабельність тексту та якість зображень книги. У цій статті йтиметься про те, як максимально зменшити розмір PDF-файлу за допомогою програми ABBYY FineReader 9 (у новіших версіях це робиться за аналогією).
1. Відкриваємо PDF-файл через меню Файл -> Відкрити файл PDF/зображення... (Ctrl+O). Програма деякий час аналізуватиме файл і зрештою відкриє його. Це займе якийсь час, в залежності від розміру файлу та потужності Вашого комп'ютера.
Якщо Ви щойно просканували книгу, то цей крок пропускаєте.
2. Після відкриття/сканування та аналізу книги кожна її сторінка буде розбита на різнокольорові блоки (зелені — текст, червоні — зображення, сині — таблиці). Дуже важливо уважно перевірити і підкорегувати розташування блоків. Якщо якийсь текст чи зображення залишаться поза відповідним блоком, на виході цей текст чи зображення буде розмите аж до невпізнання. Весь текст, який міститься у тектових (зелених) блоках у результуючому файлі матиме текстовий шар, який дозволятиме здійснювати пошук по документу та копіювати текст.
3. Тепер потрібно розпізнати весь документ, обравши у меню Документ -> Розпізнати документ (Ctrl+Shift+R). Процес розпізнавання триватиме деякий час, залежно від величини книги та потужності Вашого комп'ютера.
4. Останній і найважливіший крок — збереження у потрібному форматі. Для цього слід перейти по меню Файл -> Зберегти як -> документ PDF.
У вікні «Зберегти сторінки» потрібно натиснути кнопку «Параметри...», після чого з'явиться вікно параметрів збереження PDF-файлу (вікно «Параметри», вкладка «3. Збереження», підвкладка «PDF»).
На вікні параметрів збереження PDF варто зупинитися докладніше, оскільки в основному на розмір результуючого файлу впливають саме параметри, які виставлені у цьому вікні.
Параметр «Розмір паперу по замовчанню» дає можливість обрати формат (розмір) паперового аркуша. Для книг звичайного формату це, як правило, А5, а для документів - А4. Оптимальним вибором тут буде або встановити конкретний розмір — А4, А5, інший розмір, тоді усі сторінки матимуть однаковий розмір, або ж обрати пункт «Зберегти вихідний розмір зображення», тоді кожна сторінка матиме такий розмір, який залишився пусля сканування. Збереження вихідного розміру може бути корисним якщо не усі сторінки однакового розміру, наприклад, є мапи на дві сторінки тощо.
Параметр «Режим збереження» містить різноманітні варіації/комбінації збереження зображення сторінки та тексту (текстового шару). Тут можна експериментувати, але, на мою думку, оптимальним є варіант «Текст під зображенням», тоді скановане зображення (відображення) тексту залишається найбільш наближеним до оригіналу, а разом з ним є ще й текстовий шар.
Тут же є інші параметри збереження графічного та текстового шарів книги, з якими можна експериментувати. Проте, я ставлю галочку лише для параметру «Використовувати змішаний растровий вміст».
«Параметри зображення» (графічного шару) — це параметри, які найбільше впливають на розмір результуючого файлу PDF. Їх обов'язково потрібно перевіряти перед збереженням файлу PDF, але про їх налаштування буде докладно розказано нижче.
«Параметри шрифту» особливо широкого вибору не надають. Можна обрати використання системних або стандартних шрифтів, а також, для деяких варіантів режиму збереження (див. вище), можна обрати параметр «Вбудовувати шрифти». Різниця між стандартними і системними шрифтрами полягає в тому, що стандартні — це Times New Roman, Arial та Courier New, а системні - усі, встановлені на комп'ютері (в ОС). Оскільки немає різниці який шрифт буде прихованим під графічним шаром, раджу виставляти «Використовувати стандартні шрифти». Не раджу в жодному разі ставити галочку біля «Вбудовувати шрифти», оскільки усі використані шрифти будуть вбудовані у результуючий PDF-файл, що значно збільшить його розмір.
Параметр «Захист» найкраще не зачіпати, щоб файл залишався без будь-якого захисту. Це дозволить дати охочим у майбутньому без зайвих проблем перетворити (відсканувати) створений Вами PDF-файл у один з текстових форматів (FB2, HTML, DOC тощо), які є набагато зручнішими для використання, ніж PDF.
Як і обіцяв, повертаюся до поглибленого розгляду групи параметрів «Параметри зображення». Як я вже казав, — вибір цих параметрів найбільше впливає на розмір результуючого файлу PDF. Тут однозначно варто обирати пункт «Інше...», після чого з'явиться вікно для вибору докладних параметрів зображення.
Для параметру «Роздільна здатність» раджу обирати або «вихідна» (з якою було відскановано зображення), або «300 dpi (висока)». В такому випадку зберігається якість графічного шару на рівні щонайменше не нижчому за той, який був. Це дозволить у подальшому, при потребі, легко відсканувати збережений Вами PDF-файл та перетворити його на один з текстових форматів. Роздільна здатність 96 dpi та 200 dpi є занадто низькими, тому при потребі у майбутньому перетворити PDF у якийсь зручніший формат доведеться на порядок більше часу витратити на його вичитку, а крім того ще й графічний шар збереженого PDF буде низькоякісним.
Формат зображення — наріжний камінь розміру файлу. Описуватиму формати за списком, як вони йдуть у програмі.
- JPEG, кольоровий (для фотографій) — Найчастіше використовується саме він, хоча формат призводить до великого розміру результуючого PDF. При виборі цього формату також можна обрати його якість від 10 до 100%, пересунувши повзунок під випадаючим списком. Якість зображення впливає на розмір результуючого файлу, тому не завжди доцільно виставляти 100%. При 80% втрати якості майже непомітні.
- JPEG, сірий (для фотографій) — Аналогічний кольоровому, але зображення буде лише відтінками сірого. Іноді корисний, якщо у книзі є зображення з багатьма відтінками сірого. Також при збереженні у сірому JPEG сторінки, які були кольорові, зберігаються в кольорі.
- LZW, кольоровий (без втрат) — Формат не дає помітного стиснення, а отже не має суттєвих вигод для використання його при оцифруванні літератури.
- LZW, сірий (без втрат) — Аналогічно з попереднім.
- ZIP, кольоровий (без втрат) — Аналогічно з попереднім.
- Zip, сірий (без втрат) — Аналогічно з попереднім.
- CCITT4, чорно-білий — Формат має однин з найкращих рівнів стиснення, дає невеликий результуючий файл, але лише чорно-білий (монохромний). Кращий за нього результат дає лише формат JBIG2.
- J2KColor, кольоровий — Формат дуже подібний до JPEG, оскільки є його продовженням (J2K = JPEG2000), але дає краще стиснення, що зменшує результуючий PDF-файл у розмірі. Найкращий формат для збереження кольорових книг та журналів.
- J2KGrey, сірий — Аналогічний до кольорового, але зображення будуть лише відтінками сірого кольору.
- JBIG2, чорно-білий — Дає найкраще стиснення, що забезпечує найменший розмір результуючого файлу PDF з-поміж усіх інших форматів. При збереженні у цьому форматі його якість (у FR10) варто, якщо це не спотворить результуючий файл, виставляти на рівні 10% — це ще більше зменшить розмір. Недолік формату — він зберігає лише чорно-біле (монохромне) зображення. Найкращий формат для збереження книг, чорно-білих журналів та газет.
Вплив параметру «Підвищити якість зображення» на розмір результуючого PDF-файлу майже не помітний для форматів JBIG2 та CCITT4. Однак, для форматів JPEG та J2K, якщо цей параметр активний, розмір результуючого PDF-файлу може збільшитися в кілька разів, при чому помітного покращення якості графічного шару книги помітно не буде.
Докладніші відомості про більшість параметрів, окрім вікна «Інші параметри зображення», Ви можете знайти у довідковому файлі ABBYY FineReader. Там все досить зрозуміло описано.
Я щиро вдячний читачу Едм за базові знання про оптимізацію розміру PDF, на підставі яких була написана дана стаття, а також за вичитку та корисні доповнення до тексту статті.
Бажаю Вам вдалого оцифрування книг!
Якщо маєте якісь доповнення чи зауваження до статті, будь ласка, напишіть нам листа.
© vitalis
Написано: 02.03.2010
Змінено: 20.03.2010