Приветствуем! Мы запустили новую версию форума. Надеемся что вам она понравится. Если вы нашли проблему или у вас есть предложения - напишите нам :)

DJVU

У команды БКРС на форуме http://forum.ru-board.com/ появились друзья, которые предложили очень хорошее решение – перевод отсканированного БКРС в формат djvu с одновременным распознаванием русского текста.

Что распознанный русский текст можно разместить в качестве второго слоя в файлах djvu для меня стало большим сюрпризом. Услышал об этом первый раз. По-моему, это может стать весьма перспективным началом для более удобной работы с электронными книгами. Так как появляется возможность поиска.

Технологию того, как размещается русский текст в файлах djvu, я сейчас выясняю. Как будут новости, сообщу.

В связи с этим возникает такой интересный вопрос. А нельзя ли тоже самое сделать с китайским текстом? Ведь шаншу распознает чисто китайский текст весьма уверено, а дополнить сканы китайских словарей еще и возможностью поиска было бы весьма соблазнительно.

20-страничный образец БКРС в формате djvu можно скачать отсюда (631 кб)

http://bkrs.narod.ru/

а плагин для браузера отсюда:

http://www.lizardtech.com/download/dl_options.php?page=popular

Написать комментарий...
kvk
17 years ago

я послал запрос насчет китайского если будет интерес у автора програмки сообщу но повидимому хитростить состоит в том, что фр умеет сохранять пдф со вторым слоем в виде текста вот этот то слой и перехватывается и затем вставляется в djvu есть ли что то аналогичное в китайском оцифровщике вопрос
есть конечно более сложный путь научить фр распознавать иероглифы (как некие символы) аа потом скриптом заменять эти символы на иероглифы в текстовом слое
вот как он выглядит для русского

(word 2460 312 2476 289 "8")
(word 2494 312 2510 291 "8"))
)

.

#-------------------------------------
select 2
remove-txt
set-txt
(page 0 0 3524 2502
(line 1937 1850 3314 1812
(word 1937 1850 2181 1815 "\320\237\321\200\320\265\320\264\320\270\321\201\320\273\320\276\320\262\320\270\320\265")
(word 2206 1840 2389 1812 "\321\200\320\265\320\264\320\260\320\272\321\202\320\276\321\200\320\260")
(word 2415 1843 3314 1813 "\320\277\320\265\321\200\320\265\320\262\320\276\320\264\320\260 3"))
(line 1943 1777 3314 1739
(word 1943 1777 2196 1741 "\320\237\321\200\320\265\320\264\320\270\321\201\320\273\320\276\320\262\320\270\320\265")
(word 2219 1776 2404 1740 "\320\233\320\265\320\276\320\275\320\260\321\200\320\264\320\260")
(word 2426 1775 3314 1739 "\320\234\320\276\321\202\320\275\320\265\321\200\320\260 4"))
(line 1942 1703 3312 1665
(word 1942 1703 2171 1665 "\320\222\321\201\321\202\321\203\320\277\320\273\320\265\320\275\320\270\320\265")
(word 2196 1701 2336 1666 "\320\240\320\260\320\273\321\214\321\204\320\260")
(word 2361 1702 3312 1666 "\320\233\320\265\320\271\321\202\320\276\320\275\320\260 5"))
(line 1938 1628 3310 1591
(word 1938 1628 1988 1601 "\320\236\321\202")
(word 2014 1620 3310 1591 "\320\260\320\262\321\202\320\276\321\200\320\260 \320\261"))
(line 1936 1555 3309 1517
(word 1936 1554 2158 1522 "\320\233\320\265\320\272\321\206\320\270\321\217")
(word 2186 1552 2213 1524 "1.")
(word 2241 1555 3309 1517 "\320\222\320\222\320\225\320\224\320\225\320\235\320\230\320\225 7"))
(line 1936 1482 3304 1442
(word 1936 1480 1967 1452 "\320\233")
это конечно кусочек

но боюсь что если для единичных символов трюк проходит (я это проделывал для формул) то иероглифов очень много и задача становится слишком сложной.
Удачи

Ответить
Олег
17 years ago

Отрывки из переписки с kvk, которые могут представлять интерес для понимания того, как создается второй распознанный слой

насчет китайского не знаю но можно спросить у нашего болгарского друга дело в том что фр создает файлы с расширением .FRF в них содержится рспознаный текст и координаты на страницы, он расковыривает этот формат и вынимает из него нужную информацию, а утилита по вклеиванию ее в djvu стандартная из набора для разработчиков если подобные файлы с нужной информацией есть в китайской програме то наверное проблема разрешима если эта ocr сохраняет пакет посмотрите нет ли там к каждой картинке пары с каким нибудь расширением и маленьким размером. Склеивать djvu куски нет проблем (независимо от того содержат ли они ocr)

Еще интересный момент тоже самое позволяет сам файнридер делать для пдф (просто передать все страницы в файл (это и осначает в пдф) а в форматах указать текст под изображением, но есть проблема файнридер чуть чуть портит изображение (у него лучшее качество jpg 90% вот на эти 10 и портит если картинки 600 dpi это не заметно если 150 то критично, на 300 не проверял).

Еще одна важная вещь описанный метод (по причине файнридера те и в djvu и в pdf ) не дает 100% результата поскольку какой то процент фр распознает неправильно или вовсе не распознает а править нельзя (хоят в пдф может быть и можно) поэтому я и говорил про распознавание с обучением медленнее но процент ошибок гораздо меньше (можно до нуля почти довести).

Ответить
Олег
17 years ago

Стопроцентный результат распознавания в нашем случае - неважен. Если говорить, например, о HanYuDaCiDian с его неподъемными 12-ю томами, то даже распознавание на 80 процентов будет достаточным, чтобы найти описание нужного иероглифа. Тут главное – что появляется возможность поиска в больших массивах информации, а прочитать потом текст можно и нераспознанный.

Ответить
quaxter
17 years ago

Рад приветствовать хорошего человека (в смысле kvk) у нас на Полушарии. Надеюсь, обозначившееся сотрудничество будет полезным для обеих сторон.
И формат DjVu мне весьма по душе. Полдьзоваться им несложно - берется инсталляха с оффсайта www.lizardtech.com и запускалка от наших (можем выложить на доступном фтп, например у того же рулеза). И все дамы наши 🙂 Да простят меня представительницы дамского пола.

Ответить
Олег
17 years ago

Подумал я тут немного, если такой слой можно впаять и в пдф, то пожалуй, я предпочел бы пдф. Вес сейчас большой роли не играет. А акробат намного более удобней, чем djvu – закладки, пометки можно разные делать. Тем более что когда я набираю в поиске djvu иероглифы, то он выдает их в виде вопросительных знаков, а акробат иероглифы уж точно поддерживает.

Ответить
quaxter
17 years ago

Не горячись.
В ПДФ они же (слои) не в автоматическом режиме впаиваются.

Ответить
Echter
17 years ago
...Если говорить, например, о HanYuDaCiDian с его неподъемными 12-ю томами, то даже распознавание на 80 процентов будет достаточным, чтобы найти описание нужного иероглифа. .

Напомню, что возможность полнотекстового поиска на основе OCR реализована в SSReader'е. Но на современном этапе развития систем оптического распознавания подобные штуки для китайского пока мало эффективны.

Ответить
quaxter
17 years ago

Алекс, а кто-нибудь его защиту одолел?
А то понятно, что SSR - это здорово, да зуб как-то неймёт.

Ответить
Олег
17 years ago

Даааааа, иногда делаешь открытия на пустом месте. Только сейчас обратил внимание, что в файн ридере можно, сохраняя проект в формате PDF, сохранять текст под изображением страницы, что впоследствии дает возможность применять функцию поиска.

Такое же возможно с функцией поиска русского текста и для сканов БКРС. Второй, третий и четвертый тома преобразованные в PDF с помощь Акробата занимают 300 мег. Вероятно, около этого они буду занимать, если pdf делать при помощи файн ридера.

По поводу OCR HanWang – он создает (вероятно то, что содержит распознанный текст) в файле с расширением BLK, иконка которого в точности такая же как у файн ридеровского файла с расширением TRF.

Что с этим делать дальше, непонятно.

Ответить
Lunatic
17 years ago
По поводу OCR HanWang – он создает (вероятно то, что содержит распознанный текст) в файле с расширением BLK, иконка которого в точности такая же как у файн ридеровского файла с расширением TRF.

Странно... У меня в директориях с пакетами ФайнРидера TRF'ов нет. Там есть FRF - FineReader Page Data. В них ФайнРидер хранит информацию о странице в пакете - разбиение на блоки, распознанный текст, форматирование, ошибки и неточности и т.д. Впрочем, об этом уже писалось выше. BLK, кстати, тоже зарегистрирован на ФайнРидер и тоже значится как FineReader Page Data.

Сомневаюсь, что формат файлов BLK для ФР и для HanWang совпадает...

И еще очень интересно, как ребятам с форума удалось раздраконить FRF-файлы... Неужели достали техническую документацию ABBYY? Или сами расчленили? 😉

Ответить
Олег
17 years ago
Странно... У меня в директориях с пакетами ФайнРидера TRF'ов нет. Там есть FRF - FineReader Page Data.

ошибся, действительно FRF

Ответить
quaxter
17 years ago

FRF - это подобие фреймовой разметки разбиения хтмла.
А HanWang позволяет сохранять PDF со слоями в виде текстовой подложки и возможности контекстного поиска по иероглифам?

Ответить
Олег
17 years ago
А HanWang позволяет сохранять PDF со слоями в виде текстовой подложки и возможности контекстного поиска по иероглифам?

Нет, возможно сохранение только в txt, doc и html

Ответить
Wang Ya
17 years ago

Друзья, а djvu-файлы это файлы с многостраничной структоруй, типа как у pdf'ов? Я имею ввиду, когда вы сканите словарь или книгу, запихиваете все страницы книги в один djvu-файл, или, один djvu-файл - это одна страница/разворот? А чем он лучше или хуже чем тот же tiff или gif...? Качество? Сжатие?

спасибо.

Ответить