Автор Тема: СКАНИРОВАНИЕ И РАСПОЗНАВАНИЕ [a]  (Прочитано 23942 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Clazziquai

  • Новичок
  • *
  • Сообщений: 30
  • Карма: 1
  • Пол: Мужской
СКАНИРОВАНИЕ И РАСПОЗНАВАНИЕ [a]
« : 21 Сентября 2002 03:18:37 »
Вопрос китаистам, живущим со внешней стороны Великой Китайской Стены: имеется отсканированный текст на китайском, который нужно распознать. Чем? Можно ли ABYY FineReader  приучить распознавать китайские тексты - никто не пробовал?

Оффлайн Anatoli

  • Заслуженный
  • *****
  • Сообщений: 1481
  • Карма: 41
  • Пол: Мужской
    • Studying Chinese Language and Chinese Culture
Re: Сканирование и распознавание
« Ответ #1 : 27 Сентября 2002 16:07:21 »
Цитировать
Вопрос китаистам, живущим со внешней стороны Великой Китайской Стены: имеется отсканированный текст на китайском, который нужно распознать. Чем? Можно ли ABYY FineReader  приучить распознавать китайские тексты - никто не пробовал?

Na yaponskom forume http://polusharie.com/? my etu temu obsuzhdali. V osnovnom problema v tom, chto takoy soft pishut v tekh stranakh, gde on nuzhen, v dannom sluchaye kitayskiy yazyk, nuzhen dlya raspoznavaniya, kak ni stranno v Kitaye. Yestestvenno, ves' interface budet na kitayskom, na zapadnom PC yego dazhe ne ustanovish' normal'no.

Windows XP pozvolyayet pereklyuchat' systemnyye shrifty (trebuyetsya perezagruzka).

Ishchite OCR products cherez www.google.com
千里の道も一歩より始まる (senri-no michi-mo ippo-yori hajimaru)
千里之行, 始于足下 (qian li zhi xing, shi yu zu xia)
رحلة الألف ميل تبدأ بخطوة واحدة (riHlatu l-'alfi miili tabda'u bi-khaTwati waaHidati)

Оффлайн Clazziquai

  • Новичок
  • *
  • Сообщений: 30
  • Карма: 1
  • Пол: Мужской
Re: Сканирование и распознавание
« Ответ #2 : 27 Сентября 2002 16:15:33 »
Может подскажете что конкретно искать (названия программ)?

А то, что интерфейс на китайском - это меня не пугает :)

Оффлайн Papa HuHu

  • Модератор
  • Заслуженный
  • *****
  • Сообщений: 6029
  • Карма: 157
  • Пол: Мужской
    • Папа ХуХу
Re: Сканирование и распознавание
« Ответ #3 : 29 Сентября 2002 16:20:25 »
я приобрел TH-OCR 2000, но чей-то плохо он работает....
а вообще-то введи в www.google.com фразу Chinese OCR  и все ОК... там добра этого много.....  

Оффлайн quaxter

  • Заслуженный
  • *****
  • Сообщений: 668
  • Карма: 8
  • Пол: Мужской
Re: Сканирование и распознавание
« Ответ #4 : 20 Октября 2002 02:22:46 »
Цитировать
что конкретно искать (названия программ)?

А то, что интерфейс на китайском - это:)

Значит так: ТН - это хорошо, но это в принципе ДОСовская программа. Работает со всем сканируемым текстом в едином окне (перенастроить мне не удалось). Я пользуюсь для традиционного начертания DanQing 4.0 - подаренный мне инсталлятор занимает в "природно-архивированном" состоянии мнее 20 МБ, в распакованном виде - 30 998 649 bytes in 14 file(s) (конец цитаты из FAR screenshot). Интерфейс китайский. К упрощенным иероглифам относится с недоумением.

Есть еще Han Wang, который по отзывам еще лучше, а есть еще балдежная программа от Fujitsu, хорошая тем, что она еще и японские кокудзи вместе с каной  понимает. Только цена - страшно сказать - $660.

Есть прекрасная шаровая программа OmniOCR китайца-хуацяо Гэ Баочуня из NASA. Она занимает не более 300 Кб (!!!!!!!), но работает только под правильным Юниксом на чисто Юниксоидных платформах. Интерфейс английский. Если вы счастливый обладатель Silicon Graphics под IRIX, Sun Microsystems SPARC под Solaris или же Hewlett-Packard под хпуксом - вам крупно повезло. На остальных Линухах и Юниксах эта феня не пляшет. У меня самого на этой же машине от Intel кроме винды живет интеловский вариант Sun Solaris 8, так не выходит ничего.

Касательно обучения FineReader ханьцзам: это возможно, но не силами одного разработчика. Вы можете купить Professional версию программы с открытым для вас одного исходным кодом за $1700 у ABBYY, содрать с сайтов www.w3.org и www.unicode.org все, что относится до кодировок и OCR, внести поправки в алгоритм распознавания, зашить таблицы ханцзейных кривых вместе со словарями и подпрограммой морфологического анализа и сегментации слитного иероглифического текста на лексемы. Можно купить готовый продукт у Basis Technologies - стоит несколько сот тысяч долларов. Мне предлагали скидку ввиду некоммерческого использования. Готов уступить ее вам. На шару.
Неплохо при этом уметь программировать. ;D
Ну а дальше, как говаривал Великий Кормчий, чтобы научиться плавать - плавай.
Готов ответить серьезно на все возникающие на эту тему вопросы.
« Последнее редактирование: 20 Октября 2002 18:17:20 от quaxter »

pnkv

  • Гость
Re: Сканирование и распознавание
« Ответ #5 : 17 Декабря 2002 00:18:52 »
    Пробовал пользоваться следующими программами TH-OCR MF 7.50, DanChing 4.0, ShangShu 6.0. Первые две не покатили. Распознают плохо, и в окне распознавания выдают результат не в виде иероглифов, а смеси букв. У меня английский XP с русским MUI, но даже когда ставишь китайский MUI, все равно некоторые надписи в настройках первых двух программ выдаются в виде вопросительных знаков. Остановился на ShangShu. Распознает достаточно хорошо, распознанные иероглифы выводит в читаемом виде. Имеет три режима распознавания: упрощенный и традиционный китайский, а также только английский. В настройках можно выставить английскую морду, что есть очень зер гут. Недостатки: плохая система коррекции неверно распознанных иероглифов, иероглифы в традиционном написании автоматом переводит в упрощенное.
    Но в общем и целом все равно не фонтан. Что-нибудь серьезное типа словаря Ошанина отсканировать не удастся.

Оффлайн Fozzie

  • Заслуженный
  • *****
  • Сообщений: 702
  • Карма: 10
  • Пол: Мужской
Re: Сканирование и распознавание
« Ответ #6 : 17 Декабря 2002 03:50:21 »
Цитировать
Что-нибудь серьезное типа словаря Ошанина отсканировать не удастся.

:A) Так китайского-то в нём совсем почти что ничего - проще лапами вбивать. Тем более, что даже русский текст там распознается еле-еле (из-за специфического шрифта и не очень высокого качества печати).

А что, есть люди всерьёз занимающиеся оцифровкой БКРС?  :o
據梧

Оффлайн Shuravi

  • Заслуженный
  • *****
  • Сообщений: 1260
  • Карма: 12
  • Пол: Мужской
    • Shuravi
Re: Сканирование и распознавание
« Ответ #7 : 17 Декабря 2002 13:25:55 »
Цитировать

.....а есть еще балдежная программа от Fujitsu, хорошая тем, что она еще и японские кокудзи вместе с каной  понимает. Только цена - страшно сказать - $660.


Ну дык. Наверное не ошибусь, если скажу, что Fujitsu первой в продажу запустило свои портативные (не планшетки) сканеры с софтом-распозновалкой в комплекте. Цена была действительно великовата. Стремно, что попробовать не давали. Запечатано все было. Словно и не в Японии  ;D Надо бы простучать на вопрос чего у них изменилось.

Оффлайн China Red Devil

  • Заслуженный
  • *****
  • Сообщений: 7334
  • Карма: 290
  • Пол: Мужской
Re: Сканирование и распознавание
« Ответ #8 : 17 Декабря 2002 17:32:35 »
Цитировать

А что, есть люди всерьёз занимающиеся оцифровкой БКРС?  


Mnogie ob etom dumaut, no poka pohoje chto ruki korotki u vseh... V smysle softa normalnogo net.
不怕困难不怕死

pnkv

  • Гость
Re: Сканирование и распознавание
« Ответ #9 : 17 Декабря 2002 18:11:56 »
Цитировать

:A) Так китайского-то в нём совсем почти что ничего - проще лапами вбивать. Тем более, что даже русский текст там распознается еле-еле (из-за специфического шрифта и не очень высокого качества печати).

А что, есть люди всерьёз занимающиеся оцифровкой БКРС?  :o


Я пробовал сканировать, как раз русский текст в файн ридере распознается нормально. Если собрать команду человек сто, можно действительно лапами вбить за полгода. Но вопрос: все ли иероглифы которые есть в БКРС можно отобразить средствами ворда. И второе, можно ли это будет свободно разместить в интернете, чтобы не было проблем с авторским правом.
 А сделать оцифровку действительно заманчиво, особенно если потом все это впихнуть в лингво.

pnkv

  • Гость
Re: Сканирование и распознавание
« Ответ #10 : 17 Декабря 2002 19:57:11 »
Предлагаю вопрос о сканировании БКРС обсудить в отдельной теме "Электронный БКРС Ошанина"

http://polusharie.com/?id=1040092703;board=china_language_questions;action=display;num=1040118039

pnkv

  • Гость
Вопросы сканирования
« Ответ #11 : 03 Апреля 2004 05:57:03 »

Кто-нибудь пользовался программой
Recogniform PerfectScan 1.04
?

Из описания:

Программа, позволяющая делать более качественные копии документов, изображений и т.д. при их сканировании. Обработка происходит в реальном времени, непосредственно во время сканирования и делится на три этапа. В первом этапе программа исправляет все возможные дефекты, которые обнаружатся на сканируемом объекте. Во втором этапе, проводится проверка качества результата сканирования, исходя из выбранных пользователем настроек и может ли быть результат более качественным, чётким, ярким, контрастным и т.д. В третьем этапе, у тех изображений, которые не удовлетворяют Вас своим качеством, Вы сможете изменить настройки и пересканировать их до желаемого результата. Не смотря на всё вышенаписанное, программой пользоваться достаточно просто, поскольку настройки в программе только по делу, ничего лишнего.

Офсайт:
http://www.recogniform.com/scanning.htm

Оффлайн MiR

  • Модератор
  • Заслуженный
  • *****
  • Сообщений: 770
  • Карма: 10
  • Пол: Мужской
Re: Вопросы сканирования
« Ответ #12 : 03 Апреля 2004 07:24:51 »
Кто-нибудь пользовался программой Recogniform PerfectScan 1.04?

Данной программой не пользовался, но, насколько я помню, в FineReader'е есть подобная функция. Нужно только выставить в опциях, чтобы при сканировании использовался встроенный в FR Twain-драйвер.
We play the game
With the bravery of being out of range...

Оффлайн Fozzie

  • Заслуженный
  • *****
  • Сообщений: 702
  • Карма: 10
  • Пол: Мужской
Re: Вопросы сканирования
« Ответ #13 : 05 Апреля 2004 17:18:07 »
Кто-нибудь пользовался программой Recogniform PerfectScan 1.04

Пользовался. Но то ли кряк к ней был кривой (дело было с полгода назад, на днях вроде вышел новый), то ли прога по жизни несколько недоделанная (как и всё итальянское) - но только качество резко упало. Пробовал я мудрить со всякими настройками и фишками - но когда обнаружил, что после неё изображение стопудово получается как бы порезаным на горизонтальные полосы сдвинутые относительно друг друга на несколько пикселов - Finereader от такого просто шизеет - то забросил это гиблое дело в ожидании более доработанной версии. Да, и чтобы при её использовании не падала  скорость сканирования нужен комп не менее P-III.
據梧

pnkv

  • Гость
Re: Вопросы сканирования
« Ответ #14 : 20 Апреля 2004 22:45:14 »
Программа

ScanKromsator

Из описания к версии 1.0

Программа предназначена для автоматизации обработки изображений страниц книг,
полученных в результате сканирования.

Основные функции:
-конвертация формата и DPI изображений;
-разворот изображений на 90,-90,180 градусов;
-автоматическое исправление наклона страниц;
-разрезание разворотов страниц на две отдельные страницы;
-автоматическое определение ширины книги и приведение размеров всех ее страниц к
единому значению,автоматическое исправление полей страниц;
-убирание лишних или «грязных » полей;;
-убирание черных полос на развороте страниц;
-полу-автоматическая чистка черных полос (как правило,на развороте),«налезающих »
на текст (в настоящей версии функция работает,но не совсем стабильно,поэтому
вынесена в пост-обработку);
-гибкие правила по именования выходных файлов (добавление префикса,нумерация с
шагом,нумерация начиная с определенного значения);
-smart-сортировка имен исходных файлов:правильно расположит файлы типа
[xxx ]1.tif,[xxx ]1 [x ].tif,[xxx ]2.tif,…,[xxx ]100.tif,…
где [xxx ] – произвольный опциональный префикс,,[x ] – произвольный опциональный
однобуквенный суффикс;
-высокая скорость обработки:от 7 (600dpi – исходный,300dpi – конечный)до 30
(300dpi-300dpi)разворотов страниц в минуту.(Данные для P-IV-2400).

Поддерживаемый формат исходных файлов:BMP (сжатый и несжатый),TIFF (все
форматы включая LZW),GIF.
Поддерживаемый формат конечных файлов:BMP (несжатый),TIFF (сжатый и
несжатый).
Поддерживаемое значение DPI исходных файлов:все.
Поддерживаемое значение DPI конечных файлов:300,600,а также режим сохранения
DPI равным его значению в исходном файле.
Поддержка серых (256)и цветных изображений:есть,но практически не
тестировалась.

Программа работает в пакетном режиме,но с полной визуализацией исходного и
конечного результатов.Процесс обработки проходит в два этапа:на первом этапе
пользователь формирует задание:задает для каждой станицы или целой группы страниц
определенное правило обработки.На втором этапе происходит собственно сама обработка
изображений в соответствии с построенными правилами.Процесс составления задания
полностью интерактивный и визуальный.Задания можно сохранять в файл для повторного
использования или корректировки.После завершения обработки задания пользователь имеет
возможность тут же просмотреть результат,сверить его с оригиналом,и при необходимости
вернуться к заданию и отредактировать его правила,целиком,или для любых выборочных
страниц.

—————————————————————

Программа бесплатная. Последняя версия 4.0

Скачать можно отсюда

http://bolega.hotmail.ru/

в папку windows/system32 необходимо установить два DLL, которые можно скачать там же.


pnkv

  • Гость
Re: Вопросы сканирования
« Ответ #15 : 22 Октября 2004 14:01:22 »
С http://www.avaxhome.ru/


Цитировать
Всем известная компания ABBYY выпустила новый продук, но нам показывать и продавать его не хочет почему-то, иначе как можно объяснить вот такую надпись на сайте производителя - Remember that ABBYY ScanTo Office is available only in North America, Central America, and Western European countries. Для тех кто не совсем дружит с английским, перевожу:"Помните, продукт ABBYY ScanTo Office доступен только в Северной и Центральной Америке и в западноевропейских странах!".. А как же мы, живущие в других регионах??? Лицом не вышли ? Ну вот наверное ребята из группы PARADOX тоже так подумали и зарелизили ScanTo Office v1.0 ? чтоб уже всем доступен был, чтоб по справедливости :-)


После небольшого лирического вступления, немного о самом продукте. ScanTo Office v1.0 - навороченный програмный продукт для сканирования документов и картинок. Но, он не просто сканирует, но и сразу может конвертировать отсканированный документ в формат любого офисного приложения. Также программа интегрируется во все офисные приложения, в меню File у вас появится строка вызова программы. Как заявляют производители, программа понимает 37 языков, русский в том числе. Также, опять же по словам производителя, программа просто создана для сканирования книг.


кто-нибудь пользовался? нужная ли в хозяйстве вещь?


pnkv

  • Гость
Re: Вопросы сканирования
« Ответ #16 : 22 Октября 2004 14:10:46 »
Новая версия ScanKromsator  5.03beta

http://bolega.hotmail.ru/
« Последнее редактирование: 22 Октября 2004 14:11:20 от pnkv »

Оффлайн Fozzie

  • Заслуженный
  • *****
  • Сообщений: 702
  • Карма: 10
  • Пол: Мужской
Re: Вопросы сканирования
« Ответ #17 : 22 Октября 2004 22:03:21 »
кто-нибудь пользовался? нужная ли в хозяйстве вещь?

Стянем - посмотрим.
Кстати не так давно ReadIRIS обновился. Пробую тянуть диск (СО ВСЕМИ ОПЦИЯМИ  ;) )
據梧

Оффлайн Long Tou

  • Заслуженный
  • *****
  • Сообщений: 525
  • Карма: 10
  • Пол: Мужской
Re: Вопросы сканирования
« Ответ #18 : 23 Октября 2004 13:42:29 »
;),
а вот кто может подсказать, отсканировал книжку одну, потом пришлось переустнавливать винду, и книжка осталась  в FR, который я перезаписал на диск, можно ли со старого FR выдернуть отсканированную книгу на переустановленный...
ООоооооооммммммм

pnkv

  • Гость
Re: Вопросы сканирования
« Ответ #19 : 23 Октября 2004 19:40:27 »
;),
а вот кто может подсказать, отсканировал книжку одну, потом пришлось переустнавливать винду, и книжка осталась  в FR, который я перезаписал на диск, можно ли со старого FR выдернуть отсканированную книгу на переустановленный...

Непонятно в чем проблема. Ведь ФР создает папку, где хранятся сканы. А если вы переуставили ФР заново, то, естественно, этой папки там уже нет.

Оффлайн Long Tou

  • Заслуженный
  • *****
  • Сообщений: 525
  • Карма: 10
  • Пол: Мужской
Re: Вопросы сканирования
« Ответ #20 : 23 Октября 2004 20:53:09 »
А как называется сия папка, и сохраняются ли там не распознанные страницы, но отсканированные, дело в том что я переписал на рв каталог старого фр.
ООоооооооммммммм

pnkv

  • Гость
Re: Вопросы сканирования
« Ответ #21 : 23 Октября 2004 21:31:24 »
А как называется сия папка, и сохраняются ли там не распознанные страницы, но отсканированные, дело в том что я переписал на рв каталог старого фр.

папку вы задаете сами, когда создаете новый пакет для сканирования.

дима

  • Гость
Re: Вопросы сканирования
« Ответ #22 : 05 Января 2005 04:11:02 »
Люди подскажите программу которая сканирует а потом может преобразовать в ворд документ с поддержкой русских букв...

Оффлайн MiR

  • Модератор
  • Заслуженный
  • *****
  • Сообщений: 770
  • Карма: 10
  • Пол: Мужской
Re: Вопросы сканирования
« Ответ #23 : 05 Января 2005 04:21:07 »
Люди подскажите программу которая сканирует а потом может преобразовать в ворд документ с поддержкой русских букв...

Abbyy FineReader любой версии. Удивлены?
We play the game
With the bravery of being out of range...

дима

  • Гость
Re: Вопросы сканирования
« Ответ #24 : 05 Января 2005 04:28:27 »
а шас шде его моно скачать...я просто седня токо сканер купил а завтра экзамены хочу шпоры сделать