Программа для распознавания текста
Да. Это текст. Графический файл. Картинка, на которой растровой графикой изображены буквы. Откорректировать такой текст или вставить в документ — никак. Да и вес графического файла на порядок больше чем текстового. И вот чтобы перевести картинку в текстовый формат, нужна программа для распознавания текста. Для виндовс это или «Файн-ридер» (платный, но очень хороший вариант) или всякая мелочёвка, коей полон инет, но которая и работает так себе. Ну а поскольку мой блог ориентирован на Линукс, конкретно на Альт-6 с KDE-4. то и речь пойдёт о нём.
Чтобы всё заработало, надо убедиться, что установлены необходимые пакеты. Как минимум те, что носят название cuneiform Для полноты картины обязательно посмотрите чтоб был установлен cuneiform-qt. Это графическая оболочка для распознавалки, то, что держит связь между монитором и программой. Без неё будет скучнее.
Но это был движок программы. Сама она носит название yagf. Наберите это в «искать» Синаптика и если не установлено — поставьте. Программа сама подключится ко всему, что будет иметь с ней дело, ничего никому указывать не надо. Это же Линукс… Как пользоваться Синаптиком, помните? Если нет — Вам сюда:
Едем дальше. Это DJVU-файл открытый в программе Okular. Вернее сам в ней открывшийся. Программа стоит по-умолчанию и щелчок по «дежавю»-файлу автоматом его в ней и откроет. Как образец — книга Плющева «Халява в интернете». Кстати рекомендую. И её и другие творения этого автора.
Что с ней можно делать: Не с книгой, с программой. С книгой-то и так всё понятно…
Первым делом щёлкаем по меню «сервис» и выбираем выделение. Хотим ли мы выделить текст или область. Потом подводим курсор в угол картинки, нажимаем левую кнопку и не отпуская ведём в другой угол. По диагонали. Место курсора будет показано крестиком (красный овал) и область (или текст) начнут выделяться. Не стоит выделять больше одной страницы, иначе получающийся графический файл будет слишком необъятен.
Как только отпустили мышку, возникает вопрос: как её сохранять. Просто копировать в буфер обмена, чтоб сразу же вставить, допустим, в Гимп или сохранить как картинку обычного формата. Надёжнее сохранить в файл. Хотя, если Вы хотите распознать всю эту книгу, операцию придётся повторить раз 300… Может и надоесть. Само собой, сохранять лучше в заранее сделанную папку, в которой не будет ничего лишнего.
Как обычно в таких случаях, появится окошко файл-менеджера (ну типа того) где Вы можете конкретно указать место сохранения файла, его имя и в каком формате он будет сохранён. Я для простоты дела выбрал рабочий стол, создав на нём папку «текст». Кстати, если Вы планируете распознавать отсканированные книги, имейте в виду: файлы PDF хорошо импортируются (о чём попозже) Можно открывать хоть полтыщи картинок сразу.
Но если нужно распознать документ в десяток страниц, то и ничего страшного. Справимся и так. Вот в файл-менеджере, на своём месте виден получившийся графический элемент, бывшая страничка DJVU-файла. Открытая в программе-просмотрщике графики Gwenview. Пока она представляет собой кучу пикселей растрового изображения. Но программу yagf.мы поставили и она уже со всеми подружилась.
В меню «Файл» программы-просмотрщицы уже есть её координаты, и она вполне может поделиться с подружкой всем своим богатством. Чем мы и воспользуемся.
Пожалуйста. За дело взялясь программа-распознавалка текста, закатала изображение в свои недра и готова приступить к распознаванию. Конечно ей надо на это намекнуть, либо щёлкнув в меню, либо по иконке. Но это касается одной картинки. Если у Вас PDF-файл, его просто вызываем из меню, создаём где-нибудь пустую папку и указываем её как место хранения получившегося. Думаю с этим Вы разберётесь и сами. Ну а я пока закончу первую серию статьи. Снимков ещё много, информации тоже. Программа для распознавания текста будет дорассказана завтра. (здесь: ). Компутер уже недоволен: браузёр то и дело падает. Надо и ему отдохнуть.
А пока -Удачи.
Константин, с новым годом! Желаю всего наилучшего!
Тема очень интересная и может вскоре стать для меня актуальной. Так что даже открыл соответствующую тему на клубном форуме : http://forum.russ2.com/index.php?showtopic=3564&view=findpost&p=35090
Ну, там наверняка мозговой штурм соделается…
Последнюю версию Файн Ридер скачать бесплатно на русском можно тут http://www.freeversions.ru/abby-fine-reader-free-download