• Welcome to Восточное Полушарие.

News:

Друзья! Форум перенесен на новый сервер, обновлено программное обеспечение, конвертированы данные. Изменений очень много, что-то могло сломаться, что-то не заработать, что-то пропасть. Если вы обнаружили проблему на форуме, пожалуйста, напишите на admin[собака]polusharie.com — постараемся исправить! 02.01.2026

Main Menu

OCR (распознавание сканов) SOFTWARE [a]

Started by Олег, 01 August 2003 10:29:36

Previous topic - Next topic

0 Members and 1 Guest are viewing this topic.

pnkv

В приватной библиотеке появилась OCR SharpEye v.2.0. Интерфейс английский. Судя по официальному сайту www.twinbridge.com программа давно не обновлялась. Рассчитана на Win95. Можно инсталлировать в ХР в режиме запуска Win95. Для работы программы требуется также дополнительно инсталлировать TwinBridge ChinesePartner. А также в папке, куда инсталлирован SharpEye разместить динамическую библиотеку CTL3D.DLL.

О самой OCR. Распознавание даже хороших китайских текстов не более 60-70%. Не поддерживает оптимизированные файлы FineReader.


quaxter

Олег, давай дождемся инфо по ReadIris Pro 8.0 Corporate Edition.
Я в области программирования в чудеса не верю, но может хоть часть дыр в поле наших интересов эта прога заткнет.
А если софтина требует TwinBridge, да еще не обновлялась давно и под 95-ку склепана... Сомненья меня одолевают :(

quaxter

Вчера фирма АБИ (ABBYY) совершила дерзкий релиз 7-й версии FineReader'а (см. http://www.oriental.ru/cgi-bin/forum/YaBB.pl?%20Professional,%20Corporate%20и%20Sprint-версии%20программы.%20В%20очередной%20раз%20улучшено%20качество,%20добавлено%20пользовательских%20удобств%20-%20две%20ручки%20по%20одной%20с%20каждой%20стороны%20унитаза%20и%20т.д.,%20и%20т.п.%20Никаких%20намеков%20на%20китайский%20язык%20в%20числе%20поддерживаемых,%20см.%20сайт%20фирмы%20[url]http://www.abbyy.com/ocr_products.asp?param=28560 а также в разделе морфологических средств анализа (если кто готов пожертвовать 900 или 1600 долларов) - только несколько кодовых таблиц http://www.abbyy.com/developer_toolkits.asp?param=1636&from=leftcom1
В русскую версию сайта я не глядел. Я понял, что специалисты АБИ не намернеы разрабатывать китайский язык: ведь украдут все равно, а особенно после релиза с китайским. Понятно ведь... :'( :'( :'(
Тем более, что тут надо произвести сегментацию иероглифического сплошняка, а эта задача даже в коммерческом софте самого серьезного и дорогого программного продукта (RICOH Yomitori-Monogatari) решается со скрипом и дает в итоге без последних грамматических и прочих корректоров всего 90% точность распознавания (кого интересует, могу скинуть по этой теме интереснейшую статью проф. Масааки Нагата о его алгоритме правке ошибок в японском OCR на английском в PDF). Дополнительный чекспел дает улучшение цифры до 94-98%, причем серьезно снижает зависимость результата от качества исходного документа и скана.
Но это для японского языка, где многие грамматические моменты сразу же отслеживаются по наличию каны.

Fozzie

Да в общем-то никто особых подвигов от ABBYY на китайском фронте и не ожидал. Ты лучше скажи как там дела с DanQing Gold?
據梧

quaxter

Quote from: Fozzie on 04 September 2003 20:26:55Да в общем-то никто особых подвигов от ABBYY на китайском фронте и не ожидал. Ты лучше скажи как там дела с DanQing Gold?
Осел испытыывает мое терпение. Закачано 95 м из 192-х :(
если у тебя коннект получше или закачка ослом/мулом/чем угодно нормальная, даю ослиную ссылку:
ed2k://|file|chinese.ocr.danqing.gold.version.[found.via.www.fileDonkey.com].rar|201329087|430DA917F7DF6D70FE97E5BBB4944A60|/

Fozzie

Quote from: quaxter on 05 September 2003 01:52:35если у тебя коннект получше...
Да с коннектом-то как раз проблем вообще никаких нет - уже давно всё закачал еще по первой твоей ссылке (THNX!) И даже установил.

НО! Какие-то уроды сделали в этой программе все менюшки на китайском. И даже более того - все доки тоже китайско-японские.  О бедных россиянах (да и вообще о всех белых людях) эти балбесы даже и не задумались.
А моё китайское правильночитание... Вообще-то оно у меня правильное. Но немного хромает.
Я переслал Jin Jie доку, она обещала помочь разобраться что там к чему.
據梧

quaxter

Quote from: Fozzie on 05 September 2003 19:45:55Да с коннектом-то как раз проблем вообще никаких нет - уже давно всё закачал еще по первой твоей ссылке (THNX!) И даже установил.
У кого нет, а у кого и есть :(
Сижу на гнилом диалапе на старой чешской аналоговой телефонной станции фимы Tesla постройки 1977 года. Утешаю себя тем, что в соседнем куске района (Печерск, если бывал в Киеве - должен запомнить) дела еще хуже. Утешение весьма слабое.
Насчет менюх - судя по версии 4.0 и твоему сообщению там не изменилось ничего.
Отчего ж такой рост объема?

Надеюсь, присланный JinJie перевод менюшек будет полезен. А может каким ResHack'ом можно перевести заменить китайские меню на английские или русские?
Только если в ResHack правильно отображается ихняя кодовая таблица...

Fozzie

Как я сегодня обнаружил, на диске прилагаемом забездаром к сканерам Benq, окромя Finereader'a 4-й версии присутствует также некая HanWang chinese OCR.

Кто-нибудь с ней имел дело? Понятно, халява редко бывает качественной, но тем не менее - если у неё уровень хотя бы того же 4-го Finereader'a...
據梧

Georgio

Quote from: Fozzie on 16 September 2003 11:39:38Как я сегодня обнаружил, на диске прилагаемом забездаром к сканерам Benq, окромя Finereader'a 4-й версии присутствует также некая HanWang chinese OCR.

Кто-нибудь с ней имел дело? Понятно, халява редко бывает качественной, но тем не менее - если у неё уровень хотя бы того же 4-го Finereader'a...

Классная программа. Распознаёт 99% иероглифов. Если качество печати хорошее, то и все 100%.
Про традиционные иероглифы ничего сказать не могу, так как работал только с упрощёнными.
Это тот редкий случай, когда халява, действительно, оказывается качественной.


Fozzie

據梧

Echter

  Работал с нею на графическом планшете. Рукописный текст распознаёт вроде бы так себе. Сканы не пробовал.
   Недостаток: привязка к конкретному сканеру/планшету.

quaxter

#11
Да видел я ее неоднократно еще с первых попыток крутануть что-нибудь китайское OCR-ом. Слышь, Fozzie, а какие модели сканеров она поддерживает?
Есть ли в списке Epson, Microtec, Brother, или там все больше экзотика?
~~~~~~~~~~~~~~
И еще: вот ты (Fozzie, то есть) говоришь, что
Quote...хотя бы уровень того же файнридера
Но ведь это даже для 4-й версии очень высокий уровень планки. Без балды. Я четверкой прогнал несколько тысяч страниц скана, причем иногда такой блеклой печати по такой серой бумаге...
Оч-ч-чень хороша четверка. И пользовательские словари накопил огромные. Только с выходом 5-й версии конвертнуть их в новыйридер с перписанным ядром не могу уже пару лет :)

Fozzie

Посмотрел я этого зверя (более точное название HanWang OCR 5.0 Plus OEM2001). Размер дистрибутива - 32Mb, дата - 15.03.2001 Привязки к конкретному сканеру не обнаружено - с соседским Agfa работает как с родным Benq. С другими не пробовал, но на родном сайте (http://www.hw99.com) в качестве OEM партнеров упоминаются и mustek и microtek.

Качество распознавания - действительно превосходное (пробовал стандартный книжный текст на плохой бумаге). Распознает и упрощенные и традиционные знаки (правда результат всё равно даёт упрощенными). Есть английский интерфейс. Help и manual - только на китайском.

Quaxter, может глянешь на сайте насчёт обновлений? Вдруг есть...
據梧

Echter

Quote from: Fozzie on 19 September 2003 15:48:31Посмотрел я этого зверя (более точное название HanWang OCR 5.0 Plus OEM2001). Размер дистрибутива - 32Mb, дата - 15.03.2001 .......Quaxter, может глянешь на сайте насчёт обновлений? Вдруг есть...
Кажется, я видел в сети упоминания о версии 6.0, но для свободного доступа её в китайской сети пока вроде бы нет. Версия 5.0 вполне доступна для скачивания - правда, мне доводилось видеть только укороченную, в 17 мегабайт или что-то вроде этого.

Fozzie

#14
Quote from: Echter on 19 September 2003 19:02:51Кажется, я видел в сети упоминания о версии 6.0
С номерами версий там совсем сложно - постоянно путаются под ногами всякие Palm и Handwriting версии. Прямо упоминаются (http://www.hw99.com/english/production/OEM/ocr.asp - а с вершины сайта туда не пробраться  >:( ) Hanwang OCR New Century Professional Edition и Hanwang 5.1 Boosting Edition.
據梧

Fozzie

Последние эксперименты показали абсолютную независимость данного продукта от какой-либо конкретной модели сканера, равно как и вообще от наличия оного. Посему рекомендую всем.  

P.S. Для участников приватных файлообменных операций в папку Soft сегодня утром выложено мнение одного моего приятеля о настройках этого ftp-сервера выраженное 31588266 раз. Там внутре - то, что надо.

P.P.S Я понимаю, халявному ftp в настройки не смотрят... Но утраивать на ровном месте траффик и геморрои - совсем не дело.
據梧

pnkv

Такое впечатление, что HanWang и ShangShu одна и та же программа, только интерфейс немного разный. Тем более что в About указывается одна и та же фирма-производитель  Hanwang Technology Co. Lmt.

Fozzie

Quote from: Олег on 07 October 2003 22:20:58Такое впечатление, что HanWang и ShangShu одна и та же программа...
Судя по датам дистрибутивов - HanWang - это новое название для ShangShu.
據梧

pnkv

С наводки уважаемого Echter'a попробовал новую OCR, в которой заявлена поддержка распознавания русского языка.

Quote from: Echter on 28 May 2004 12:39:59RapidScan高速扫描影像优化OCR识别系统 в её полной версии работает с русским языком. Однако из пробной версии неясно, может ли она адекватно распознавать китайско-русские страницы. Пробную версию (распознаёт только китайский) можно найти здесь: http://www.ocr.bj001.net/show_hdr.php?xname=TVKUIV0&xpos=7&dname=
   Неплохое впечатление производит 汉王文本王 文豪5300. Но русского не поддерживает. http://ftp.xjb.ac.cn/pub/tools/ocr/
   Версию TH-OCR2003 (она же 9.0) пока для скачки, похоже, найти нельзя, но доступна TH-OCR2002 (она же 8.5, она же XP). http://ftp.xjb.ac.cn/pub/tools/ocr/清华紫光ocr%20xp/

Неплохой продукт – китайские тексты распознает идеально. И даже в двуязычном тексте страницы из БКРС распознал иероглифы весьма неплохо. У ШанШу это выходило гораздо хуже. Недостаток, типичных для продуктов материка – текст выводит только в упрощенных иероглифах. Ну, еще интерфейс китайский – приходится переключать кодировку.

Вот отсюда скачал версию 7.8 – демо 50 мег.
http://www.vipcn.com/SoftView/SoftView_6079.html

Надо искать рабочую.

NNK72

Решил поднять данную тему. Нет ли у кого ссылки на OCR? Можно китайскую или английскую....
Вперед, только вперед!

Criptozavr

Finereader в помощь (на данный момент самая последняя версия - 11.0.113.164). Если интересует экзотика, можете заглянуть на magazeta и прошерстить топик по китайскому софту. Наверняка что-нибудь для себя найдете...