Краткое описание программы cuneiform. Распознавание текста


CuneiForm – бесплатная утилита, предназначенная для быстрого преобразования изображения в текстовый формат. Программа находит свое применение во многих сферах: в школах, в университетах, офисной работе, при оцифровке старых архивов, книг и прочих документов.

CuneiForm OpenOCR – лучшая альтернатива Abbyy Finereader

Чем же данный инструмент лучше Finereader для обычного пользователя? Прежде всего, бесплатностью. Стоимость вышеупомянутого софта составляет 5776 рублей, в то время, как за CuneiForm OpenOCR вы не платите ровным счетом ничего. Просто устанавливаем и пользуемся. Кстати, скачать CuneiForm вы сможете прямо на данной странице (внизу мы разместили ссылку на официальную версию программы). Сразу после установки открываем наш распознаватель и читаем небольшую инструкцию к нему:

Итак, как происходит преобразование картинки в текст? В данной программе будет очень просто работать и новичку, и профессионалу, ведь для распознавания нужно сделать всего пару действий. Во-первых, вам необходимо какое-то изображение (любого формата – PNG, BMP, JPEG и т.п.), поэтому открываем нужный объект.

Во-вторых, необходимо нажать на кнопку «Распознать». Далее, в CuneiForm запускается процесс распознавания текста. Это, как правило, происходит очень быстро, только в редких случаях нужно ждать больше 5-10 секунд.

После того, как инструмент распознал текст, открывается ваш стандартный текстовый редактор — Word, WordPad и т.п. Кстати, здесь же можно отредактировать полученный текст, ибо далеко не всегда утилита выдает точный результат, особенно при обработки испорченных, старых страниц.

Также далеко не всегда CuneiForm OpenOCR может выделить области текста, т.е. таблицы, абзацы, заголовки и прочие разделы. В такой ситуации вам необходимо вручную выполнить разметку страницы, для этого создан отдельный, удобный инструмент.

Для большего удобства разработчики добавили функцию сканирования. Ты просто кладешь в МФУ или сканер какой-то документ или книгу, сканируешь нужный участок, а после Кьюниформ автоматически преобразовывает текст в изображение — очень полезный инструмент.

Общих параметров здесь не так много, можно настроить всего 3 – разметка, сканирование и форматирование, но это компенсируется тем, что можно настраивать каждый модуль отдельно, так что пользователь все может настроить под себя. Кстати, сама утилита достаточно простая и совместима с любой ОС:

  • Windows XP;
  • Windows Vista, 7;
  • Windows 8, 8.1 и 10;
  • Mac OS;
  • Linux и другие.

Чтобы скачать CuneiForm бесплатно на русском, посетите официальный сайт разработчиков, там вы получите полную информацию о программе. Если вы уже поняли, как с ней работать, то просто нажмите на зеленую кнопку, и тогда вы получите отличный распознаватель текста, скачав его с официального сайта без вирусов и СМС-подписок.

Итак, установка. В Убунте кстати доступна версия 0.7 из репозитариев. Версия 0.9 является последней на данный момент.
wget http://launchpad.net/cuneiform-linux/0.9/cuneiform-linux-0.9/+download/cuneiform-linux-0.9.0.tar.bz2
tar xvjf cuneiform-linux-0.9.0.tar.bz2
cd cuneiform-linux-0.9.0
mkdir builddir
cd builddir
cmake -DCMAKE_BUILD_TYPE=debug ..
make
make install
Дополнительный аргумент "-DCMAKE_INSTALL_PREFIX=/your/dir" установит cuneiform в нужную директорию.
Запускать можно со следующими аргрументами:

L
Указывает язык документа. Из возможных: eng(по умолчанию) ger fra rus swe spa ita ruseng ukr srp hrv pol dan por dut cze rum hun bul slo lav lit est tur.

O
Сохраняет в файл.

F
Формат полученного текста. Из поддерживаемых: text(по умолчанию), html, rtf, smarttext(plain text with TeX paragraphs), hocr(hOCR HTML format), native(Cuneiform 2000 format)

Dotmatrix
Оптимизация работы скрипта под изображение, распечатанное с помощью матричного принтера.

Fax
Оптимизация работы скрипта под изображение, распечатанное с помощью факса.

Singlecolumn
Отключает анализ страницы и подразумевает, что у нас изображение состоит из одной колонки текста.

Пример использования:
cuneiform -l ruseng -o /our/dir/text.txt /our/dir/book_1.tif

GUI

Далее захотелось уже графический интерфейс под бытовые нужды. Есть 2 штуки на выбор - это YAGF и :

Было решено пользовать YAGF. Он тоже написан на qt и требует еще пакет проверки орфографии aspell . Скачиваем, устанавливаем.

CuneiForm — это программа для оптического распознавания текста документов в редактируемый вид. Результаты работы программы можно редактировать в офисных программах и текстовых редакторах и сохранять в популярных форматах, проводить по ним полнотекстовый поиск. Однако для Linux имеется только консольная версия программы, поэтому гораздо удобнее пользоваться вместе с фронт-эндом YAGF.

Оболочка YAGF — Y et A nother G raphical F ront-end for CuneiForm предоставляет графический интерфейс для консольной программы распознавания текстов CuneiForm на платформе Linux. Кроме того, YAGF позволяет управлять сканированием изображений, их предварительной обработкой и собственно распознаванием из единого центра. Программа YAGF также упрощает последовательное распознавание большого числа сканированных страниц.

Программа CuneiForm имеется в стандартном репозитории Ubuntu, а вот для YAGF необходимо подключить один из дополнительных репозиториев:

Ppa:alex-p/notesalexp deb http://archive.getdeb.net/ubuntu natty-getdeb apps

и установить с помощью Центра приложений Ubuntu.

Для работы YAGF необходим пакет проверки орфографии aspell и словари соответствующих языков (aspell-en, aspell-ru и т.д.). Если вы хотите управлять сканированием изображений напрямую из YAGF, установите программу XSane. Для распознавания текста потребуется, естественно, программа CuneiForm.

Работа в YAGF состоит из нескольких этапов: получение изображения (серии изображений) страниц; подготовка к распознаванию (если необходимо); распознавание; сохранение результатов.

Получение изображений

Вы можете использовать файлы изображений, сохраненные на жестком диске, или отсканировать новое изображение. Для того чтобы загрузить изображение, воспользуйтесь командой Файл/Открыть (вы можете открыть несколько файлов сразу). Вы также можете перетащить графически файлы мышью на темную полосу в левой части главного окна программы, в результате чего они будут загружены в программу. YAGF поддерживает все основные растровые графические форматы (JPEG , PNG , BMP, TIFF , GIF , PNM, PPM, PBM и другие). Если имя открытого файла имеет вид nameXXX.ext, где XXX - последовательность цифр, вы можете переходить к предыдущему/следующему файлам с помощью кнопок перехода, расположенных на панели быстрого доступа. Например, если вы открыли файл MyPage001.jpg, то при щелчке кнопки перехода к следующему изображению программа попытается открыть файл MyPage002.jpg.

Вы можете получать изображения напрямую со сканера с помощью программы XSane. Находясь в YAGF, скомандуйте Файл/Сканировать. Будет запущена программа XSane. Настройте параметры сканирования в XSane и нажмите кнопку «Сканировать». По окончании сканирования в окне просмотра изображений YAGF появится отсканированное изображение. Если вам нужно отсканировать несколько изображений, выполняйте эти операции несколько раз (в окне просмотра изображений всегда будет открыто последнее отсканированное изображение, вы можете перейти к предыдущим изображениям, используя команды перемещения). Вы можете работать в YAGF, не закрывая окно XSane. Если вам нужно отсканировать очередное изображение, просто щелкните кнопку XSane «Сканировать». При выходе из YAGF открытое программой окно XSane будет закрыто автоматически. Для перехода к другим отсканированным изображениям пользуйтесь кнопками с панели быстрого доступа, как было описано выше. Все полученные изображения отображаются в уменьшенном виде на панели изображений в левой части главного окна программы. Вы можете сохранить эти изображения в отдельную директорию с помощью кнопки «Сохранить».

Подготовка изображений

В YAGF вы можете выполнять простые операции подготовки отсканированного изображения: выделение блока текста для распознавания и поворот. Если изображение ориентировано неправильно, его можно повернуть на 90 градусов по и против часовой стрелки или на 180 градусов. Делается это с помощью кнопок панели быстрого доступа в окне просмотра изображений. Если вы хотите передать на распознавание не все отсканированное изображение, а его часть, вы можете выделить мышью один или несколько прямоугольных блоков в окне просмотра изображений. Если щелкнуть левой кнопкой мыши по существующему блоку, его цвет изменится на розовый. Теперь размер выбранного блока можно изменить, «ухватившись» мышью за край блока. Если щелкнуть в окне изображения правой кнопкой мыши, появится контекстное меню, с помощью которого можно удалить все выделенные блоки, удалить выбранный блок, распознать текст выбранного блока. Для удобства выделения блоков вы можете уменьшить или увеличить размеры изображения в окне просмотра (эта операция не влияет на размеры изображения, передаваемого программе CuneiForm). Изменение видимых размеров изображения можно выполнить так же с помощью комбинаций клавиш Ctrl++ и Ctrl+- или вращая колесико мыши, удерживая при этом клавишу Ctrl (точно так же можно изменить размеры шрифта в окне просмотра текста).

Если в программе открыто несколько страниц и для каждой выбраны своя ориентация, свой масштаб и выделены свои блоки, YAGF запомнит эти параметры для каждой страницы.

Если страница отсканирована неровно, с наклоном, вы можете попробовать исправить наклон с помощью новой функции «Исправить наклон страницы». Для этого нажмите соответсвующую кнопку.

Распознавание

Приступая к распознаванию, вы должны выбрать подходящий язык распознавания (или пару языков, если распознаваемый документ написан на нескольких языках). Основная версия CuneiForm позволяет вам распознавать тексты почти на всех европейских языках, а также тексты, содержащие пару языков русский-английский.

Каждый новый распознанный фрагмент текста (выделенный блок или новая страница) добавляется в редактор распознанного текста в виде нового абзаца.

По умолчанию YAGF выполняет проверку орфографии распознанного текста с помощью libaspell. Обычно в вашей системе устанавливаются орфографические словари для «родной» локали система и английского. Если вы хотите проверять орфографию для текстов на других языках, установите соответствующие словари. Если YAGF не находит нужного словаря для проверки орфографии для заданного языка распознавания, программа предупреждает вас об этом. Отключите проверку орфографии, если не хотите получать такие предупреждения.

Если вам нужно распознать текст сразу с нескольких изображений, вы можете воспользоваться пакетным распознаванием. Для этого все изображения, которые требуется распознать, должны быть открыты на панели изображений (в левой части окна программы). Щелкните кнопку «Распознать все страницы». Все открытые изображения будут загружаться и распознаваться автоматически. При этом будет выведено диалоговое окно, отображающее прогресс распознавания. Вы можете остановить процесс пакетного распознавания, щелкнув кнопку «Прервать». Если на распознаваемых страницах выделены блоки, будет распознан только текст внутри блоков.

Сохранение результатов

Распознанный текст может быть сохранен на диске в текстовом формате (кодировка UTF-8), в формате HTML или скопирован в буфер обмена. Кнопка «Копировать текст в буфер обмена» копирует в буфер выделенный фрагмент распознанного текста или весь текст, если в редакторе отсутствует выделение.

OCR CuneiForm сможет отсканировать и мгновенно распознать бумажную документацию по технологии Optical Character Recognition в редактируемые текстовые и табличные форматы, совместимые с Microsoft Office Word и Excel. Потом материалы лучше сохранить и редактировать в офисных пакетах, текстовых и табличных редакторах, аналогах Microsoft Word и Microsoft Excel. Программа распространяется "как есть", разработчики не несут ответственности в связи с возможными проблемами и могут отменить действие свободной лицензии для следующих версий, поэтому стоит поторопиться и последнюю версию OCR CuneiForm скачать бесплатно для Windows 10, 8.1, 8, 7, Vista, XP, Linux или Mac OS X. Экономить время с КьюниФорм разработчики предлагают по принципу: чем лучше отсканировать и распознать, тем быстрее исправить и получить готовый результат.

Применение в CuneiForm новых технологических достижений

В начале XXI века считалось, что нормально работающей альтернативы ABBYY FineReader не существует. Несмотря на существование различных программ для OCR распознавания текста, ABBYY FineReader прочно оставался в лидерах индустрии сканирования и оцифровки документов. Это продолжалось до тех пор, пока самые продвинутые пользователи не попробовали для полноценного распознавания сфотографированного или сканированного текста скачать OCR CuneiForm 12 бесплатно без регистрации и SMS и протестировать потенциал этой по-настоящему бесплатной проги для Виндовс. При этом оказалось, что возможности OCR CuneiForm не уступают ABBYY FineReader ни в чем.

OCR CuneiForm умеет мгновенно идентифицировать все стандартные символы всевозможных начертаний и шрифтового исполнения. Распознаванию поддаются книги, журналы, листовки, газетки, принт-листы, факсовые рассылки, неудачные ксероксные копии, тексты с древних пишущих машинок и прочее, исключая декоративный шрифт и рукопись. В программном коде CuneiForm применяется ряд уникальных инновационных технологий Optical Character Recognition, таких как: адаптивное распознавание с применением шрифтонезависимых инструкций, нейронно-аналитические сети нормализации, когнитивная аналитика альтернативных вариантов трактовки текста, спецалгоритмы для матричного принтера, некачественных результатов ксерокопирования, факсов и машинописных страниц и прочие. При необходимости использовать все это для дела всегда можно бесплатно скачать CuneiForm для Windows 10, 8.. CuneiForm способен воссоздать абсолютную копию исходника. Сохраняется форматирование и структурирование, отступы, колонтитулы, сноски, индексы, количество и размеры колонок, абзацы, расположение отдельных фрагментов текста, табличных элементов и иллюстраций, стили шрифтов и другие элементы шрифтового оформления.

Интерфейс, языки, словари и функционал ОСР КьюниФорм

OCR CuneiForm отлично узнает и оцифровывает документацию, удобна в работе и не создает проблем начинающим пользователям, поскольку обладает удобным русскоязычным интерфейсом, имеет встроенные советы и всплывающие подсказки. Для закачки и подключения доступны популярные графические интерфейсы для КьюниФорм: YAGF, OCR Feeder, CF-Qt, Puma и прочие. Стандартный графический интерфейс имеет все инструменты, необходимые для полноценного распознания сканированного или сфотографированного текста. Мультиязычный интерфейс на родном языке способствует ускорению понимания оператором принципов работы и расширению спектра используемых возможностей. В настройках доступно конфигурирование под распознавание символов на русском, инглише, русско-английском и еще 20-ти европейских языковых раскладках. Качество мгновенного распознавания повышается при использовании словарей, которые можно расширять, импортируя слова из словарных файлов.

Основные функциональные преимущества программы OCR CuneiForm:

  • достойное OCR распознавание и скорость работы,
  • автоподбор оптимальных настроек сканирования,
  • импорт отсканированных, сфотографированных или принятых иным путем картинок,
  • поворот, переворот, инверсия, очистка и прочее редактирование изображений,
  • несколько вариантов идентификации абзацев текста, таблиц и картинок,
  • в работу идет любой материал, исключая декор и рукопись,
  • словарная поддержка для улучшения качества,
  • сравнительная демонстрация исходников и символьных результатов,
  • OCR-совместимость со свыше двадцати языками, включая русский.

Бесплатность, множество преимуществ, скорость и отсутствие проблем в работе являются весомыми аргументами, чтобы скачать CuneiForm бесплатно на сайте сайт русскую версию. Использование высокотехнологичного гарантирует высококачественные скан и распознавание документации с бумажных носителей или растровых файлов в форматы, подходящие для редактирования в соответствующих редакторах.

Немного исторических фактов

Cognitive Technologies образовалась в 1993 г. на основе главного центра ИИ ИСА Российской Академии Наук. Как итог научно-практических исследований появилась первая CuneiForm. В конце 1993 года был подписан OEM-контракт с Corel Corporation, по которому код КьюниФорм вошел в пакет Corel Draw. В дальнейшем после многих лет перерыва компания освободила проект, перестав продавать и поддерживать программу, но программа КьюниФорм настолько хороша, что сегодня отсканировать и распознать русский текст лучше и дешевле всего получится, если бесплатно скачать OCR CuneiForm русскую версию на свой компьютер.

Вскоре этот программный продукт оказался одним из наиболее востребованных средств оптического распознавания текстов и заслужил позитивные отзывы и комментарии пользователей на официальном сайте cognitiveforms в домене com, тематических сайтах и форумах, а также в социальных сетях. Сегодня CuneiForm выделяется из массы прочего Optical Character Recognition программного обеспечения достойным распознаванием некачественной документации. Среди достоинств КуниФорма отмечены качественный перевод в цифровой вид бумажной документации и растровых файлов с экспортом в мультиформатный текст и таблицы Microsoft Office Word и Excel или их аналоги.

Ошибка во взаимодействии со сканерами

Сканирование на HP, Epson, Mustek, Canon и некоторых других черевато ошибкой. Причина данной проблемы обусловлена нюансами взаимодействия TWAIN-интерфейса с оборудованием. Лечится проблема простым редактированием строки с содержимым TWAIN_TransferMode в файле C:\Windows\face.ini до состояния: TWAIN_TransferMode=memory-native и перезапуском программы. Как правило, сегодня таких проблем не наблюдается, и чтобы получить из бумажного документа редактируемую электронную версию, нужно просто бесплатно скачать CuneiForm на русском языке с этой страницы сайта сайт без регистрации и СМС и использовать ее по прямому назначению. Это сбережет время и освободит от ручного набирания текста в Microsoft Word и таблиц в Microsoft Excel или аналогах этого ПО.

Последнюю версию CuneiForm 12 скачать бесплатно на русском языке

Бесплатные программы скачать бесплатно

Сейчас Вы находитесь на странице с названием "OCR КьюниФорм для полноценного распознавания сфотографированного или сканированного текста" сайта , где каждый имеет возможность легально скачать программы для компьютера с Microsoft Windows. Эта страница создана/существенно обновлена 06.06.2019. Спасибо, что посетили раздел .

Итак, установка. В Убунте кстати доступна версия 0.7 из репозитариев. Версия 0.9 является последней на данный момент.
wget http://launchpad.net/cuneiform-linux/0.9/cuneiform-linux-0.9/+download/cuneiform-linux-0.9.0.tar.bz2
tar xvjf cuneiform-linux-0.9.0.tar.bz2
cd cuneiform-linux-0.9.0
mkdir builddir
cd builddir
cmake -DCMAKE_BUILD_TYPE=debug ..
make
make install
Дополнительный аргумент "-DCMAKE_INSTALL_PREFIX=/your/dir" установит cuneiform в нужную директорию.
Запускать можно со следующими аргрументами:

L
Указывает язык документа. Из возможных: eng(по умолчанию) ger fra rus swe spa ita ruseng ukr srp hrv pol dan por dut cze rum hun bul slo lav lit est tur.

O
Сохраняет в файл.

F
Формат полученного текста. Из поддерживаемых: text(по умолчанию), html, rtf, smarttext(plain text with TeX paragraphs), hocr(hOCR HTML format), native(Cuneiform 2000 format)

Dotmatrix
Оптимизация работы скрипта под изображение, распечатанное с помощью матричного принтера.

Fax
Оптимизация работы скрипта под изображение, распечатанное с помощью факса.

Singlecolumn
Отключает анализ страницы и подразумевает, что у нас изображение состоит из одной колонки текста.

Пример использования:
cuneiform -l ruseng -o /our/dir/text.txt /our/dir/book_1.tif

GUI

Далее захотелось уже графический интерфейс под бытовые нужды. Есть 2 штуки на выбор - это YAGF и :

Было решено пользовать YAGF. Он тоже написан на qt и требует еще пакет проверки орфографии aspell . Скачиваем, устанавливаем.







2024 © teslales.ru.