Автор Тема: сканирование и распознавание китайского язка - проблема  (Прочитано 42319 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Dannisi

  • Пионер
  • **
  • Сообщений: 73
  • Карма: 0
  • Пол: Мужской
есть проблема : при сканировании Fine readerом китайские тексты не распознаются. заходил на сайт АВВУ в языках есть все кроме китайского корейского и японского.
где можно скачать китайский для файн реадера или другую программу для сканированя китайскйих текстов в ворд, что бы установить на русскую винду
« Последнее редактирование: 23 Июля 2007 16:53:33 от Dannisi »
!!!Хороший Руль Левым Не Назовут!!!

Оффлайн IgOriOk

  • Бывалый
  • ***
  • Сообщений: 117
  • Карма: 3
  • Пол: Мужской
есть проблема : при сканировании Fine readerом китайские тексты не распознаются. заходил на сайт АВВУ в языках есть все кроме китайского корейского и японского.
где можно скачать китайский для файн реадера или другую программу для сканированя китайскйих текстов в ворд, что бы установить на русскую винду

Fine Reader не умеет распознавать иероглифическое письмо, на сегодняшний момент он предназначен для распознавания азбучного письма.
Для распознавания китайских текстов советую использовать китайское ПО. Таких программ масса: Danqing OCR (丹青文件辨識系統), 清華紫光, Penpower Chinese OCR и т.п
На компьютере под управлением русской версии Windows НЕрусский софт ставится при помощи Microsoft AppLocale Utility (http://www.microsoft.com/globaldev/tools/apploc.mspx)


Оффлайн JUPITER

  • Новичок
  • *
  • Сообщений: 42
  • Карма: 1
  • Пол: Мужской
есть проблема : при сканировании Fine readerом китайские тексты не распознаются. заходил на сайт АВВУ в языках есть все кроме китайского корейского и японского.
где можно скачать китайский для файн реадера или другую программу для сканированя китайскйих текстов в ворд, что бы установить на русскую винду

Fine Reader не умеет распознавать иероглифическое письмо, на сегодняшний момент он предназначен для распознавания азбучного письма.
Для распознавания китайских текстов советую использовать китайское ПО. Таких программ масса: Danqing OCR (丹青文件辨識系統), 清華紫光, Penpower Chinese OCR и т.п
На компьютере под управлением русской версии Windows НЕрусский софт ставится при помощи Microsoft AppLocale Utility (http://www.microsoft.com/globaldev/tools/apploc.mspx)

Уважаемый IgOriOk!

А не подскажете -где можно скачать указанные Вами программы?

Спасибо!

Оффлайн Bayan

  • Бывалый
  • ***
  • Сообщений: 104
  • Карма: 6
  • Пол: Мужской
Есть еще в китайском офисе встроенная OCR-программа, но не уверен, что китайский офис на русскоязычную ОС встанет (не пробовал).

Оффлайн IgOriOk

  • Бывалый
  • ***
  • Сообщений: 117
  • Карма: 3
  • Пол: Мужской
Если Вы находитесь в Китае - то это не проблема. Продаются диски везде: от компьютерных рынков до книжных магазинов.
Скачать можно попробовать при помощи программы Emule, по крайней мере программу Danqing OCR (丹青文件辨識系統) там найти точно можно.

Оффлайн Fajh

  • Пионер
  • **
  • Сообщений: 70
  • Карма: 0
а эта прога распознает из
ПДФ? а то скачал книгу.ХОЧУ ПЕРЕВЕСТИ, А ВРУЧНУЮ ДОЛГО И ДОЛГО. ХОТЕЛОСЬ БЫ НЕАНОГО УСКОРИТЬ ПРОЦЕСС.
我的时间无穷无尽

Оффлайн alef65

  • Зарегистрированный
  • *
  • Сообщений: 4
  • Карма: 0
Привет всем!
1. А нельзя ли тупо кинуть в Файнридер 6.0 какие нить файлы чтобы он начал сканировать иероглифы. Винда ХР, мультиязычная.
2. Какая кодировка здесь на форуме? Набираю иероглифы, а в сообщении кракозябры...
Ni hao! Annyeong-haseyo! konnichiwa!

Оффлайн qleap

  • Заслуженный
  • *****
  • Сообщений: 724
  • Карма: 39
Привет всем!
1. А нельзя ли тупо кинуть в Файнридер 6.0 какие нить файлы чтобы он начал сканировать иероглифы. Винда ХР, мультиязычная.
Можно. Только смысл? Если только другой программы для сканирования нет... Распознать он их все равно не сможет.
Цитировать
2. Какая кодировка здесь на форуме? Набираю иероглифы, а в сообщении кракозябры...
Кодировка - Windows CP1251.

Оффлайн alef65

  • Зарегистрированный
  • *
  • Сообщений: 4
  • Карма: 0
Спасибо конечно за ответ, ... ,ээ, но я собственно вот о чём: Файнридер 6.0 распознаёт, к примеру, чешский, захожу C:\program files\ABBYY Finerider 6.0 и вижу там файлы Czech, Czech.amm, Czech.amt. Так вот если положить в эту папку, japan, japan.amm, japan.amt, будет ли Файнридер сканировать японский? Если нет, то может кто нить дать ссылку на Файнридер с чисто азиатским OCR (японск., кит., корейск.), или какой нить сканер азиатского текста, небольшого веса. (Вопрос трафика имеет значение)
Ni hao! Annyeong-haseyo! konnichiwa!

Оффлайн qleap

  • Заслуженный
  • *****
  • Сообщений: 724
  • Карма: 39
Спасибо конечно за ответ, ... ,ээ, но я собственно вот о чём: Файнридер 6.0 распознаёт, к примеру, чешский, захожу C:\program files\ABBYY Finerider 6.0 и вижу там файлы Czech, Czech.amm, Czech.amt. Так вот если положить в эту папку, japan, japan.amm, japan.amt, будет ли Файнридер сканировать японский? Если нет, то может кто нить дать ссылку на Файнридер с чисто азиатским OCR (японск., кит., корейск.), или какой нить сканер азиатского текста, небольшого веса. (Вопрос трафика имеет значение)
Собственно Файнридер не поддерживает иероглифические языки. Совсем. Так что никакими файлами это не исправить (кроме как "отвинтить крышку бензобака и заменить машину в сборе"). Можно конечно попробовать его натренировать на часть символов, но овчинка не стоит выделки.
Лучше посмотрите в этом разделе довольно много ссылок как раз-таки на распознавалки для иероглифов. Банальный поиск поможет.

Оффлайн alef65

  • Зарегистрированный
  • *
  • Сообщений: 4
  • Карма: 0
Аа, понятно, а я то думал последние версии Файнридера поддерживают азиатские языки. Спасибо за ответы.
Ni hao! Annyeong-haseyo! konnichiwa!

Оффлайн alef65

  • Зарегистрированный
  • *
  • Сообщений: 4
  • Карма: 0
Привет всем!
Ну вот поюзал я Гугл, на русском и английском на данную тему и ... ничего не нашёл :-( Тогда сделал запрос на китайском в поисковик Байду и нашёл прямую ссылку на DanQing 4.0 Gold (Maxreader) (21 мб). Мож кто юзает сие чудо, поделимся опытом (про Shangshu, Readiris и т.п. сканерах я знаю-много весят)
Ni hao! Annyeong-haseyo! konnichiwa!

Оффлайн vikleto

  • Новичок
  • *
  • Сообщений: 27
  • Карма: 0
  • Пол: Мужской
Всем благ. Может я ни туда пишу - перенаправте. Видел некоторую информацию, что набирать китайские иероглифы на компьютере можно не только через пининь как в винде, а и непосредственно собирая их из знаков, есть мол такие проги. Т.е. не обязательно произношениее знать - а собрал, записал, электронным словарем отсканировал и вот тебе значение и произношение. Помогите подскажите кто что знает, а может и пользуется.
QQ 763062221

Оффлайн qleap

  • Заслуженный
  • *****
  • Сообщений: 724
  • Карма: 39
Всем благ. Может я ни туда пишу - перенаправте. Видел некоторую информацию, что набирать китайские иероглифы на компьютере можно не только через пининь как в винде, а и непосредственно собирая их из знаков, есть мол такие проги. Т.е. не обязательно произношениее знать - а собрал, записал, электронным словарем отсканировал и вот тебе значение и произношение. Помогите подскажите кто что знает, а может и пользуется.
http://forum.vostokopedia.ru/index.php?showtopic=13
Вот тут много чего описано.
Если включить поддержку Тайваньского китайского, то можно рисовать мышкой.
Сканирование тут действительно ни при чем.

Оффлайн paveleon

  • Пионер
  • **
  • Сообщений: 60
  • Карма: 3
  • Пол: Мужской
Я такой распознавалкой пользуюсь:
http://forum.vostokopedia.ru/index.php?showtopic=2344
Кстати, может кто  знает OCR для китайских субтитров?
« Последнее редактирование: 23 Декабря 2007 10:43:15 от paveleon »
ليلكك عمرى لاقلاق ايله كچر

Оффлайн Victor_V_V

  • Заслуженный
  • *****
  • Сообщений: 1733
  • Карма: 8
  • Пол: Мужской
Re: сканирование и распознавание китайског
« Ответ #15 : 01 Апреля 2008 00:14:20 »
Собственно Файнридер не поддерживает иероглифические языки. Совсем. Так что никакими файлами это не исправить (кроме как "отвинтить крышку бензобака и заменить машину в сборе"). Можно конечно попробовать его натренировать на часть символов, но овчинка не стоит выделки.
Лучше посмотрите в этом разделе довольно много ссылок как раз-таки на распознавалки для иероглифов. Банальный поиск поможет.
Зато есть  ABBYY FineReader Engine 8.0

http://www.ocr.sk/default_Engine_Engine_80.htm
It also has additional recognition functions specifically designed for international conversion or capturing projects, such as Fast Mode Recognition, Document Analysis for Invoices, CJK OCR (Recognition of Chinese, Japanese, and Korean), etc.

Никто не пробовал?

Оффлайн qleap

  • Заслуженный
  • *****
  • Сообщений: 724
  • Карма: 39
Re: сканирование и распознавание китайског
« Ответ #16 : 01 Апреля 2008 03:44:39 »
....
Зато есть  ABBYY FineReader Engine 8.0

http://www.ocr.sk/default_Engine_Engine_80.htm
It also has additional recognition functions specifically designed for international conversion or capturing projects, such as Fast Mode Recognition, Document Analysis for Invoices, CJK OCR (Recognition of Chinese, Japanese, and Korean), etc.

Никто не пробовал?
В каком смысле? Программировал ли кто-нибудь здесь под этот SDK? Который стоит к тому же как фотошоп (в смысле лицензионный).
Вот если бы в ABBYY не поленились и включили все эти возможности в сам FineReader, то было бы дело. А так...

Оффлайн nogakota

  • Зарегистрированный
  • *
  • Сообщений: 5
  • Карма: 0
  • Пол: Мужской
  • Skype: nogakota87
ABBYY Finereader 9.0.0.1019 Professional Edition  - начиная с этой новой версии, добавлена поддержка распознавания традиционного и упрощенного китайских языков.

http://magazeta.com/soft/2010/01/08/readiris-corporate-asian-12-0-5702-portable/

Так же слышал про Readiris Pro — OCR-система, пакeт для распознавания текста.  O:)
"убери руку"- ba shou na hui

Оффлайн nogakota

  • Зарегистрированный
  • *
  • Сообщений: 5
  • Карма: 0
  • Пол: Мужской
  • Skype: nogakota87
А ещё http://magazeta.com/soft/2010/02/13/han-wang-7600/

Han Wang 7600

Но мне кажется это фигня...так же как и Readiris Pro!

Сегодня-завтра постараюсь ABBYY Finereader 9 или 10 установить... что и как получилось отпишусь....
« Последнее редактирование: 19 Июля 2010 18:59:01 от nogakota »
"убери руку"- ba shou na hui

Оффлайн Cubana

  • Бывалый
  • ***
  • Сообщений: 107
  • Карма: 2
  • Пол: Мужской
Так же слышал про Readiris Pro — OCR-система, пакeт для распознавания текста.  O:)
ставил я этот Readiris.
ИМХО- полнейший маразм, для использования не пригодно. Пришлось стереть.

Оффлайн Marishka06

  • Новичок
  • *
  • Сообщений: 27
  • Карма: -5
здравствуйте, может я ни туда пишу, но из всего вышеизложенного не поняла ничего, просто подскажите мне, что нужно установить на компьютер, чтобы он видел иероглифы, а не квадратики вместо иероглифоф. спасибо за ответ!

Оффлайн Criptozavr

  • Бывалый
  • ***
  • Сообщений: 154
  • Карма: 7
здравствуйте, может я ни туда пишу, но из всего вышеизложенного не поняла ничего, просто подскажите мне, что нужно установить на компьютер, чтобы он видел иероглифы, а не квадратики вместо иероглифоф. спасибо за ответ!

Обычно это делается так: Панель управления — Язык и региональные стандарты — Языки — Установить поддержку языков с письмом иероглифами — Применить — ОК. Дальше все может происходить по двум сценариям: 1) система найдет нужную папку (i386), скопирует из нее нужные шрифты, установит их и попросит перезагрузку 2) система попросит вставить инсталяционный диск с Windows, с которого будет скопирована и установлена вся необходимая информация. Есть еще и третий вариант, при котором у Вас отсутствует папка i386 или на компакт-диске с Windows отсутствует (вырезана) папка с восточными языками. В этом случае Вам придется ее скачать:

http://rapidshare.com/files/153892608/LANG.rar

... распаковать и проделать все шаги, указанные в первом сценарии. После того, как установка прервется и система попросит Вас вставить компакт-диск, нажать ОК — Обзор, указать папку i386, найти в папке LANG файл CPEEXE.EX, нажать Открыть — ОК. Начнется копирование файлов, которое прервется на определенном моменте, и Вас попросят еще раз вставить компакт-диск. Опять находите папку i386, а в ней файл XJIS.NL_ Жмете Открыть — ОК и ждете окончания копирования и установки. Когда все закончится, система попросит перезагрузку — соглашаетесь. После перезагрузки Пуск - Панель управления - Языки и региональные стандарты - Языки - Подробнее - Добавить - Жмете на ПЕРВУЮ стрелку, показывающую вниз и выбираете из выпадающего списка Китайский (КНР) - ОК - Применить - ОК. После этого попробуйте клавишами переключения языков поменять раскладку клавиатуры. Среди прочих там теперь должен присутствовать CHN или CN - это и есть китайский :)

Оффлайн Marishka06

  • Новичок
  • *
  • Сообщений: 27
  • Карма: -5
Спасибо, все получилось! Теперь мой комп видит иероглифы ёхууууу

Оффлайн maresin

  • Зарегистрированный
  • *
  • Сообщений: 4
  • Карма: 3
Говоря о различных OCR-программах, никто не упомянул об Adobe Acrobat. А он очень неплохо сканирует и иерогифику, в том числе. Конечно долго, но в результате получаешь распознанный PDF-документ, который и расшивать не пришлось. Распознается естественно не все, но жизнь сильно облегчает. Я так распознавал некоторые китайские словари.

А что касается сканирования отдельных страниц и их частей в ручном режиме, то HanWang, по моему, удобнее всех. Однако, при работе с ней надо учитывать следующее: 1) копирование текста возможно только в китайских кодировках (РЕШЕНИЕ: из HanWang текст сначала копируется в NJStar WP, а оттуда в любой текстовый редактор, поддерживающий уникод); 2) для удобства работы вам потребляться делать снимок части экрана (РЕШЕНИЕ: небольшие программки, вроде SnippingTool от Александра Коурова); 3) Снимок должен быть в максимальном увеличении, выделены в HanWang должны быть только необходимые иероглифы и в максимальном увеличении;4) Не помню точно, но HanWang кажется требует установки локали? (РЕШЕНИЕ: Microsoft AppLocale).

Ну вот кажется все...

Оффлайн timpor

  • Зарегистрированный
  • *
  • Сообщений: 1
  • Карма: 0
Китайский язык нормально поддерживается finereader-ом http://geek-nose.com/5-programm-raspoznavaniya-teksta-chto-skachat-besplatno/
только нужно системную поддержку соответствующих языков включить в систему
CuneiForm тоже поможет.
из списка программ, указанного выше можно еще попробовать freemore ocr, помоему там поддержка китайского есть.