Восточное Полушарие

Китайский форум => Китайский язык: письменность, изучение, диалекты, вэньянь => Китайский Язык: компьютеры, программы, шрифты => Тема начата: Clazziquai от 21 Сентября 2002 03:18:37

Название: СКАНИРОВАНИЕ И РАСПОЗНАВАНИЕ [a]
Отправлено: Clazziquai от 21 Сентября 2002 03:18:37
Вопрос китаистам, живущим со внешней стороны Великой Китайской Стены: имеется отсканированный текст на китайском, который нужно распознать. Чем? Можно ли ABYY FineReader  приучить распознавать китайские тексты - никто не пробовал?
Название: Re: Сканирование и распознавание
Отправлено: Anatoli от 27 Сентября 2002 16:07:21
Цитировать
Вопрос китаистам, живущим со внешней стороны Великой Китайской Стены: имеется отсканированный текст на китайском, который нужно распознать. Чем? Можно ли ABYY FineReader  приучить распознавать китайские тексты - никто не пробовал?

Na yaponskom forume http://polusharie.com/? my etu temu obsuzhdali. V osnovnom problema v tom, chto takoy soft pishut v tekh stranakh, gde on nuzhen, v dannom sluchaye kitayskiy yazyk, nuzhen dlya raspoznavaniya, kak ni stranno v Kitaye. Yestestvenno, ves' interface budet na kitayskom, na zapadnom PC yego dazhe ne ustanovish' normal'no.

Windows XP pozvolyayet pereklyuchat' systemnyye shrifty (trebuyetsya perezagruzka).

Ishchite OCR products cherez www.google.com
Название: Re: Сканирование и распознавание
Отправлено: Clazziquai от 27 Сентября 2002 16:15:33
Может подскажете что конкретно искать (названия программ)?

А то, что интерфейс на китайском - это меня не пугает :)
Название: Re: Сканирование и распознавание
Отправлено: Papa HuHu от 29 Сентября 2002 16:20:25
я приобрел TH-OCR 2000, но чей-то плохо он работает....
а вообще-то введи в www.google.com фразу Chinese OCR  и все ОК... там добра этого много.....  
Название: Re: Сканирование и распознавание
Отправлено: quaxter от 20 Октября 2002 02:22:46
Цитировать
что конкретно искать (названия программ)?

А то, что интерфейс на китайском - это:)

Значит так: ТН - это хорошо, но это в принципе ДОСовская программа. Работает со всем сканируемым текстом в едином окне (перенастроить мне не удалось). Я пользуюсь для традиционного начертания DanQing 4.0 - подаренный мне инсталлятор занимает в "природно-архивированном" состоянии мнее 20 МБ, в распакованном виде - 30 998 649 bytes in 14 file(s) (конец цитаты из FAR screenshot). Интерфейс китайский. К упрощенным иероглифам относится с недоумением.

Есть еще Han Wang, который по отзывам еще лучше, а есть еще балдежная программа от Fujitsu, хорошая тем, что она еще и японские кокудзи вместе с каной  понимает. Только цена - страшно сказать - $660.

Есть прекрасная шаровая программа OmniOCR китайца-хуацяо Гэ Баочуня из NASA. Она занимает не более 300 Кб (!!!!!!!), но работает только под правильным Юниксом на чисто Юниксоидных платформах. Интерфейс английский. Если вы счастливый обладатель Silicon Graphics под IRIX, Sun Microsystems SPARC под Solaris или же Hewlett-Packard под хпуксом - вам крупно повезло. На остальных Линухах и Юниксах эта феня не пляшет. У меня самого на этой же машине от Intel кроме винды живет интеловский вариант Sun Solaris 8, так не выходит ничего.

Касательно обучения FineReader ханьцзам: это возможно, но не силами одного разработчика. Вы можете купить Professional версию программы с открытым для вас одного исходным кодом за $1700 у ABBYY, содрать с сайтов www.w3.org и www.unicode.org все, что относится до кодировок и OCR, внести поправки в алгоритм распознавания, зашить таблицы ханцзейных кривых вместе со словарями и подпрограммой морфологического анализа и сегментации слитного иероглифического текста на лексемы. Можно купить готовый продукт у Basis Technologies - стоит несколько сот тысяч долларов. Мне предлагали скидку ввиду некоммерческого использования. Готов уступить ее вам. На шару.
Неплохо при этом уметь программировать. ;D
Ну а дальше, как говаривал Великий Кормчий, чтобы научиться плавать - плавай.
Готов ответить серьезно на все возникающие на эту тему вопросы.
Название: Re: Сканирование и распознавание
Отправлено: pnkv от 17 Декабря 2002 00:18:52
    Пробовал пользоваться следующими программами TH-OCR MF 7.50, DanChing 4.0, ShangShu 6.0. Первые две не покатили. Распознают плохо, и в окне распознавания выдают результат не в виде иероглифов, а смеси букв. У меня английский XP с русским MUI, но даже когда ставишь китайский MUI, все равно некоторые надписи в настройках первых двух программ выдаются в виде вопросительных знаков. Остановился на ShangShu. Распознает достаточно хорошо, распознанные иероглифы выводит в читаемом виде. Имеет три режима распознавания: упрощенный и традиционный китайский, а также только английский. В настройках можно выставить английскую морду, что есть очень зер гут. Недостатки: плохая система коррекции неверно распознанных иероглифов, иероглифы в традиционном написании автоматом переводит в упрощенное.
    Но в общем и целом все равно не фонтан. Что-нибудь серьезное типа словаря Ошанина отсканировать не удастся.
Название: Re: Сканирование и распознавание
Отправлено: Fozzie от 17 Декабря 2002 03:50:21
Цитировать
Что-нибудь серьезное типа словаря Ошанина отсканировать не удастся.

:A) Так китайского-то в нём совсем почти что ничего - проще лапами вбивать. Тем более, что даже русский текст там распознается еле-еле (из-за специфического шрифта и не очень высокого качества печати).

А что, есть люди всерьёз занимающиеся оцифровкой БКРС?  :o
Название: Re: Сканирование и распознавание
Отправлено: Shuravi от 17 Декабря 2002 13:25:55
Цитировать

.....а есть еще балдежная программа от Fujitsu, хорошая тем, что она еще и японские кокудзи вместе с каной  понимает. Только цена - страшно сказать - $660.


Ну дык. Наверное не ошибусь, если скажу, что Fujitsu первой в продажу запустило свои портативные (не планшетки) сканеры с софтом-распозновалкой в комплекте. Цена была действительно великовата. Стремно, что попробовать не давали. Запечатано все было. Словно и не в Японии  ;D Надо бы простучать на вопрос чего у них изменилось.
Название: Re: Сканирование и распознавание
Отправлено: China Red Devil от 17 Декабря 2002 17:32:35
Цитировать

А что, есть люди всерьёз занимающиеся оцифровкой БКРС?  


Mnogie ob etom dumaut, no poka pohoje chto ruki korotki u vseh... V smysle softa normalnogo net.
Название: Re: Сканирование и распознавание
Отправлено: pnkv от 17 Декабря 2002 18:11:56
Цитировать

:A) Так китайского-то в нём совсем почти что ничего - проще лапами вбивать. Тем более, что даже русский текст там распознается еле-еле (из-за специфического шрифта и не очень высокого качества печати).

А что, есть люди всерьёз занимающиеся оцифровкой БКРС?  :o


Я пробовал сканировать, как раз русский текст в файн ридере распознается нормально. Если собрать команду человек сто, можно действительно лапами вбить за полгода. Но вопрос: все ли иероглифы которые есть в БКРС можно отобразить средствами ворда. И второе, можно ли это будет свободно разместить в интернете, чтобы не было проблем с авторским правом.
 А сделать оцифровку действительно заманчиво, особенно если потом все это впихнуть в лингво.
Название: Re: Сканирование и распознавание
Отправлено: pnkv от 17 Декабря 2002 19:57:11
Предлагаю вопрос о сканировании БКРС обсудить в отдельной теме "Электронный БКРС Ошанина"

http://polusharie.com/?id=1040092703;board=china_language_questions;action=display;num=1040118039
Название: Вопросы сканирования
Отправлено: pnkv от 03 Апреля 2004 05:57:03

Кто-нибудь пользовался программой
Recogniform PerfectScan 1.04
?

Из описания:

Программа, позволяющая делать более качественные копии документов, изображений и т.д. при их сканировании. Обработка происходит в реальном времени, непосредственно во время сканирования и делится на три этапа. В первом этапе программа исправляет все возможные дефекты, которые обнаружатся на сканируемом объекте. Во втором этапе, проводится проверка качества результата сканирования, исходя из выбранных пользователем настроек и может ли быть результат более качественным, чётким, ярким, контрастным и т.д. В третьем этапе, у тех изображений, которые не удовлетворяют Вас своим качеством, Вы сможете изменить настройки и пересканировать их до желаемого результата. Не смотря на всё вышенаписанное, программой пользоваться достаточно просто, поскольку настройки в программе только по делу, ничего лишнего.

Офсайт:
http://www.recogniform.com/scanning.htm
Название: Re: Вопросы сканирования
Отправлено: MiR от 03 Апреля 2004 07:24:51
Кто-нибудь пользовался программой Recogniform PerfectScan 1.04?

Данной программой не пользовался, но, насколько я помню, в FineReader'е есть подобная функция. Нужно только выставить в опциях, чтобы при сканировании использовался встроенный в FR Twain-драйвер.
Название: Re: Вопросы сканирования
Отправлено: Fozzie от 05 Апреля 2004 17:18:07
Кто-нибудь пользовался программой Recogniform PerfectScan 1.04

Пользовался. Но то ли кряк к ней был кривой (дело было с полгода назад, на днях вроде вышел новый), то ли прога по жизни несколько недоделанная (как и всё итальянское) - но только качество резко упало. Пробовал я мудрить со всякими настройками и фишками - но когда обнаружил, что после неё изображение стопудово получается как бы порезаным на горизонтальные полосы сдвинутые относительно друг друга на несколько пикселов - Finereader от такого просто шизеет - то забросил это гиблое дело в ожидании более доработанной версии. Да, и чтобы при её использовании не падала  скорость сканирования нужен комп не менее P-III.
Название: Re: Вопросы сканирования
Отправлено: pnkv от 20 Апреля 2004 22:45:14
Программа

ScanKromsator

Из описания к версии 1.0

Программа предназначена для автоматизации обработки изображений страниц книг,
полученных в результате сканирования.

Основные функции:
-конвертация формата и DPI изображений;
-разворот изображений на 90,-90,180 градусов;
-автоматическое исправление наклона страниц;
-разрезание разворотов страниц на две отдельные страницы;
-автоматическое определение ширины книги и приведение размеров всех ее страниц к
единому значению,автоматическое исправление полей страниц;
-убирание лишних или «грязных » полей;;
-убирание черных полос на развороте страниц;
-полу-автоматическая чистка черных полос (как правило,на развороте),«налезающих »
на текст (в настоящей версии функция работает,но не совсем стабильно,поэтому
вынесена в пост-обработку);
-гибкие правила по именования выходных файлов (добавление префикса,нумерация с
шагом,нумерация начиная с определенного значения);
-smart-сортировка имен исходных файлов:правильно расположит файлы типа
[xxx ]1.tif,[xxx ]1 [x ].tif,[xxx ]2.tif,…,[xxx ]100.tif,…
где [xxx ] – произвольный опциональный префикс,,[x ] – произвольный опциональный
однобуквенный суффикс;
-высокая скорость обработки:от 7 (600dpi – исходный,300dpi – конечный)до 30
(300dpi-300dpi)разворотов страниц в минуту.(Данные для P-IV-2400).

Поддерживаемый формат исходных файлов:BMP (сжатый и несжатый),TIFF (все
форматы включая LZW),GIF.
Поддерживаемый формат конечных файлов:BMP (несжатый),TIFF (сжатый и
несжатый).
Поддерживаемое значение DPI исходных файлов:все.
Поддерживаемое значение DPI конечных файлов:300,600,а также режим сохранения
DPI равным его значению в исходном файле.
Поддержка серых (256)и цветных изображений:есть,но практически не
тестировалась.

Программа работает в пакетном режиме,но с полной визуализацией исходного и
конечного результатов.Процесс обработки проходит в два этапа:на первом этапе
пользователь формирует задание:задает для каждой станицы или целой группы страниц
определенное правило обработки.На втором этапе происходит собственно сама обработка
изображений в соответствии с построенными правилами.Процесс составления задания
полностью интерактивный и визуальный.Задания можно сохранять в файл для повторного
использования или корректировки.После завершения обработки задания пользователь имеет
возможность тут же просмотреть результат,сверить его с оригиналом,и при необходимости
вернуться к заданию и отредактировать его правила,целиком,или для любых выборочных
страниц.

—————————————————————

Программа бесплатная. Последняя версия 4.0

Скачать можно отсюда

http://bolega.hotmail.ru/

в папку windows/system32 необходимо установить два DLL, которые можно скачать там же.

Название: Re: Вопросы сканирования
Отправлено: pnkv от 22 Октября 2004 14:01:22
С http://www.avaxhome.ru/


Цитировать
Всем известная компания ABBYY выпустила новый продук, но нам показывать и продавать его не хочет почему-то, иначе как можно объяснить вот такую надпись на сайте производителя - Remember that ABBYY ScanTo Office is available only in North America, Central America, and Western European countries. Для тех кто не совсем дружит с английским, перевожу:"Помните, продукт ABBYY ScanTo Office доступен только в Северной и Центральной Америке и в западноевропейских странах!".. А как же мы, живущие в других регионах??? Лицом не вышли ? Ну вот наверное ребята из группы PARADOX тоже так подумали и зарелизили ScanTo Office v1.0 ? чтоб уже всем доступен был, чтоб по справедливости :-)


После небольшого лирического вступления, немного о самом продукте. ScanTo Office v1.0 - навороченный програмный продукт для сканирования документов и картинок. Но, он не просто сканирует, но и сразу может конвертировать отсканированный документ в формат любого офисного приложения. Также программа интегрируется во все офисные приложения, в меню File у вас появится строка вызова программы. Как заявляют производители, программа понимает 37 языков, русский в том числе. Также, опять же по словам производителя, программа просто создана для сканирования книг.


кто-нибудь пользовался? нужная ли в хозяйстве вещь?

Название: Re: Вопросы сканирования
Отправлено: pnkv от 22 Октября 2004 14:10:46
Новая версия ScanKromsator  5.03beta

http://bolega.hotmail.ru/
Название: Re: Вопросы сканирования
Отправлено: Fozzie от 22 Октября 2004 22:03:21
кто-нибудь пользовался? нужная ли в хозяйстве вещь?

Стянем - посмотрим.
Кстати не так давно ReadIRIS обновился. Пробую тянуть диск (СО ВСЕМИ ОПЦИЯМИ  ;) )
Название: Re: Вопросы сканирования
Отправлено: Long Tou от 23 Октября 2004 13:42:29
;),
а вот кто может подсказать, отсканировал книжку одну, потом пришлось переустнавливать винду, и книжка осталась  в FR, который я перезаписал на диск, можно ли со старого FR выдернуть отсканированную книгу на переустановленный...
Название: Re: Вопросы сканирования
Отправлено: pnkv от 23 Октября 2004 19:40:27
;),
а вот кто может подсказать, отсканировал книжку одну, потом пришлось переустнавливать винду, и книжка осталась  в FR, который я перезаписал на диск, можно ли со старого FR выдернуть отсканированную книгу на переустановленный...

Непонятно в чем проблема. Ведь ФР создает папку, где хранятся сканы. А если вы переуставили ФР заново, то, естественно, этой папки там уже нет.
Название: Re: Вопросы сканирования
Отправлено: Long Tou от 23 Октября 2004 20:53:09
А как называется сия папка, и сохраняются ли там не распознанные страницы, но отсканированные, дело в том что я переписал на рв каталог старого фр.
Название: Re: Вопросы сканирования
Отправлено: pnkv от 23 Октября 2004 21:31:24
А как называется сия папка, и сохраняются ли там не распознанные страницы, но отсканированные, дело в том что я переписал на рв каталог старого фр.

папку вы задаете сами, когда создаете новый пакет для сканирования.
Название: Re: Вопросы сканирования
Отправлено: дима от 05 Января 2005 04:11:02
Люди подскажите программу которая сканирует а потом может преобразовать в ворд документ с поддержкой русских букв...
Название: Re: Вопросы сканирования
Отправлено: MiR от 05 Января 2005 04:21:07
Люди подскажите программу которая сканирует а потом может преобразовать в ворд документ с поддержкой русских букв...

Abbyy FineReader любой версии. Удивлены?
Название: Re: Вопросы сканирования
Отправлено: дима от 05 Января 2005 04:28:27
а шас шде его моно скачать...я просто седня токо сканер купил а завтра экзамены хочу шпоры сделать
Название: Re: Вопросы сканирования
Отправлено: Shuravi от 05 Января 2005 12:10:03
http://www.abbyy.com/finereader_ocr/
Название: Re: СКАНИРОВАНИЕ И РАСПОЗНАВАНИЕ [a]
Отправлено: pnkv от 21 Сентября 2005 01:26:02
вышел

ABBYY FineReader 8.0 Professional Edition

восточные языки, как обычно в пролете,

Изменение в языках распознавания и словарях к ним
ABBYY FineReader 8.0 поддерживает 179 языков распознавания, включая 36 языков со словарной поддержкой. Главные изменения в новой версии:

Доработаны словари для венгерского, датского, польского, итальянского, голландского (Нидерланды), норвежского (букмол и нюнорск), португальского (Португалия), финского языков распознавания. Это позволило увеличить качество распознавания на всех перечисленных языках.
Увеличилось количество языков распознавания со словарной поддержкой. Добавлены словари для словенского и башкирского языков.
Добавлены 2 новых языка: уйгурский (кириллица) и уйгурский (латиница).


Название: Re: СКАНИРОВАНИЕ И РАСПОЗНАВАНИЕ [a]
Отправлено: А.Психарулидзе от 21 Сентября 2005 01:40:01
А чем все - таки распознавать после сканирования китайские тексты, хотя-бы как-то и печатные?
Название: Re: СКАНИРОВАНИЕ И РАСПОЗНАВАНИЕ [a]
Отправлено: pnkv от 21 Сентября 2005 01:56:44
А чем все - таки распознавать после сканирования китайские тексты, хотя-бы как-то и печатные?

http://polusharie.com/index.php/topic,9740.0.html
http://polusharie.com/index.php/topic,8892.0.html
Название: Re: СКАНИРОВАНИЕ И РАСПОЗНАВАНИЕ [a]
Отправлено: А.Психарулидзе от 21 Сентября 2005 11:03:19
А чем все - таки распознавать после сканирования китайские тексты, хотя-бы как-то и печатные?

http://polusharie.com/index.php/topic,9740.0.html
http://polusharie.com/index.php/topic,8892.0.html

Да мне лучше, чтоб просто распознавал, без перевода, только интерфейс чтоб английский или русский.
Название: Re: СКАНИРОВАНИЕ И РАСПОЗНАВАНИЕ [a]
Отправлено: XiaoEn от 25 Сентября 2005 03:20:09
Я лично вот этой пользуюсь 尚书六号表格文字识别系统. Она довольно простенькая (без наворотов), но если графический текс ровно расположить на картинке (что можно сделать, например, фотошопом), то распознаёт очень хорошо. Бывают конечно и глюки...
Название: Re: СКАНИРОВАНИЕ И РАСПОЗНАВАНИЕ [a]
Отправлено: А.Психарулидзе от 25 Сентября 2005 03:47:06
Shangshu шестая форма, пишущая система  распознавания. А где ее найти можно?
Название: Re: СКАНИРОВАНИЕ И РАСПОЗНАВАНИЕ [a]
Отправлено: XiaoEn от 25 Сентября 2005 23:51:12
Shangshu шестая форма, пишущая система  распознавания. А где ее найти можно?
Честно сказать, уже не помню. Введите в Гугле или в Байде, думаю, его не трудно будет найти.
Название: Re: СКАНИРОВАНИЕ И РАСПОЗНАВАНИЕ [a]
Отправлено: XiaoEn от 21 Октября 2005 20:23:24
Недавно обратился к ABBY с предложением внести восточные языки в базу FINE READER'а
Вот что получил в ответ:

Добрый день, xxxxxxxx!

Благодарим Вас, за проявленный интерес к программным продуктам нашей компании.

К сожалению, в настоящий момент ABBYY FineReader, предназначенный для обыкновенного пользователя не поддерживает распознавание перечисленных Вами языков [китайский, японский корейский, вьетнамский, тайский и т.д.] . Полный список поддерживаемых языков Вы можете найти на сайте: http://www.abbyy.ru/finereader8/?param=45021

Поддержка нового языка дела непростое, долгое и дорогостоящее. В настоящее время FineReader не поддерживает данных языков, потому, что ABBYY не предлагались большие проекты, связанные с необходимостью такой поддержки. Если Вы готовы профинансировать поддержку данных языков или знаете кого-либо, кто в этом заинтересован, то сообщите, пожалуйста, нам об этом. Мы можем предложить реализацию данного модуля распознавания в индивидуальном проекте.

С уважением,
 
xxxxxxxxxx
Менеджер по продажам
продуктов для разработчиков
ABBYY Россия


Вот
Название: Re: СКАНИРОВАНИЕ И РАСПОЗНАВАНИЕ [a]
Отправлено: Shuravi от 22 Октября 2005 00:18:03
К сожалению, в настоящий момент ABBYY FineReader, предназначенный для обыкновенного пользователя
... а восточники - это такие необыкновенные пользователи... всё им мало... всё им не так...  ;D
Название: Re: СКАНИРОВАНИЕ И РАСПОЗНАВАНИЕ [a]
Отправлено: Echter от 22 Октября 2005 01:26:40
Недавно обратился к ABBYY с предложением внести восточные языки в базу FINE READER'а ...
   Модули распознавания восточных языков для ФайнРидера существуют уже сравнительно давно и продаются ABBYY за приличные деньги. Мы на них возлагали надежды в отношении БКРС.
   Однако выяснилось, что дело выглядит совсем не так радужно. Эти самые модули были не разработаны ABBYY, а, очевидно, перекуплены где-то на стороне. Человек, который по моей просьбе протестировал их на своей фирме, сказал, что впечатление совершенно удручающее. С программистской точки зрения состряпаны небрежно, распознавание хромает. Даже английский текст они не распознают как следует, а в комбинации с русским работать просто не могут.
   У меня такое впечатление, что появления русско-китайской OCR в ближайшее время теперь можно ждать только от китайцев. А жаль. ФайнРидер был бы однозначно лучше.
Название: Re: СКАНИРОВАНИЕ И РАСПОЗНАВАНИЕ [a]
Отправлено: Dake от 22 Октября 2005 22:37:40
Звучит пессимистично..
А мне было внушило надежды то, что
1) теперь Файнридер (вер. 8.0) "более юникоден" (под нерусской локалью можно переключаться на русский интерфейс)
2) иконка программы подозрительно похожа на китайскую (только личное мнение, но этот красный фон и белая вязь, отдаленно напоминающая иероглифы - ??)
Название: Re: СКАНИРОВАНИЕ И РАСПОЗНАВАНИЕ [a]
Отправлено: MiR от 25 Октября 2005 13:00:07
На днях ставил MS Office 2003 почти со всеми MLP сразу. В глаза бросилась аббревиатура OCR... Насколько я понял, в пруфинг тулз для большинства языков входит модуль OCR для мелкософтовского графического редактора (кажется, MS Photo Editor). В связи с катастрофической нехваткой времени разбираться с этим всем добром не стал, но, может, кто-то уже это сделал до меня? Что там за OCRка? Насколько хорошо распознает? Можно ли комбинировать восточные и западные языки в пределах одного документа?
Название: Re: СКАНИРОВАНИЕ И РАСПОЗНАВАНИЕ [a]
Отправлено: Echter от 25 Октября 2005 23:55:34
На днях ставил MS Office 2003 почти со всеми MLP сразу. В глаза бросилась аббревиатура OCR... Насколько я понял, в пруфинг тулз для большинства языков входит модуль OCR для мелкософтовского графического редактора (кажется, MS Photo Editor). В связи с катастрофической нехваткой времени разбираться с этим всем добром не стал, но, может, кто-то уже это сделал до меня? Что там за OCRка? Насколько хорошо распознает? Можно ли комбинировать восточные и западные языки в пределах одного документа?
   Распознаёт плохо. Опций нет никаких, за исключением одной: распознавать или не распознавать. Форматирование текста не сохраняет.
   Подозреваю, что эта распознавалка может более-менее стабильно работать с чистым английским текстом. Иначе смысл её существования был бы вообще под большим вопросом.