OCR PDF

Сделайте отсканированные PDF доступными для поиска

Инструмент OCR от pdfty превращает PDF на основе изображений (сканы, фото документов) в PDF с поисковым копируемым текстом. Используется Tesseract 5 с оптимизированными моделями для английского, русского, французского, немецкого и испанского — с поддержкой кириллицы и диакритических знаков.

После OCR ваш PDF выглядит так же, но теперь можно копировать текст, искать по нему и конвертировать в Word с сохранением исходного макета. Полезно для отсканированных договоров, архивных документов, фотографий досок или факсов.

До 50 страниц и 20 МБ на бесплатном. Pro снимает лимиты. Страницы со смешанными скриптами работают — OCR определяет скрипт по областям. Мы никогда не обучаем модели на ваших данных.

Как это работает

  1. 1

    Загрузите скан

    Перетащите отсканированный или фотографический PDF. До 20 МБ бесплатно.

  2. 2

    Выберите языки

    Один или несколько из английского, русского, французского, немецкого, испанского.

  3. 3

    Запустите OCR

    Tesseract обрабатывает каждую страницу. Обычно 1-3 секунды на страницу.

  4. 4

    Скачайте поисковый PDF

    Тот же вид + скрытый текстовый слой. Теперь можно копировать, искать, конвертировать.

  5. 5

    Готово

    Файлы удаляются в течение 1 часа.

Частые вопросы

На чистых сканах 300 DPI: 98%+ для латиницы, 95%+ для кириллицы. Низкое DPI или шумные сканы снижают точность.

Похожие инструменты