Автор Тема: OCR и деванагари  (Прочитано 10028 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Hindu

  • Гость
OCR и деванагари
« : 27 Ноября 2005 21:38:20 »
Пдскажите как отсканировать текст на хинди, еслив в fine reader нет поддержки языка хинди.
Спасибо заранне!!!
« Последнее редактирование: 28 Ноября 2005 16:37:15 от Олег »

pnkv

  • Гость
Re: Пдскажите как сделать...
« Ответ #1 : 28 Ноября 2005 16:36:41 »
Пдскажите как отсканировать текст на хинди, еслив в fine reader нет поддержки языка хинди.
Спасибо заранне!!!

В виде графики, OCR которые бы распознавали деванагари нет.




Оффлайн Komar

  • Бывалый
  • ***
  • Сообщений: 147
  • Карма: 9
  • Пол: Мужской
Re: Пдскажите как сделать...
« Ответ #2 : 29 Ноября 2005 02:30:07 »
OCR которые бы распознавали деванагари нет.

Есть такой зверь! Ещё в 2002-м выпустили. Зовут Chitrankan. Но  Rs. 10 000  :'(
http://www.cdac.in/html/gist/products/chitra.asp

А вот ещё SanskritOCR задаром, и как ни удивительно, даже делает вид, что работает.  :)
http://www.sanskritreader.de/Inhalt/software.htm

Оффлайн gasyoun

  • Профессионал
  • ****
  • Сообщений: 484
  • Карма: 0
  • Пол: Мужской
    • Лирика
FineReader
« Ответ #3 : 08 Января 2006 19:40:16 »
Пдскажите как отсканировать текст на хинди, еслив в fine reader нет поддержки языка хинди.

Проблема не нова и... решалась аж с 1987-го года или даже раньше в штатах, однако кроме Оливеровской утилиты ничего дельного пока что нет и Абби не собирается выпускать распознавалку для нагари - ведь все не просто, это почти что пехлеви - пойди пойми где там хвост, где уши. Так что картинками или ручками.
Индолог, который сканирует разные словари мертвых и еще живых азиатских языков.
Собираю общество молодых востоковедов здесь и в реале! Встречаемся в ИВ РАНе, звоните, пишите - ищите!

Оффлайн Amita-Krishna

  • Зарегистрированный
  • *
  • Сообщений: 11
  • Карма: 0
  • Пол: Мужской
    • www.rupanuga.narod.ru
Re: OCR и деванагари
« Ответ #4 : 15 Января 2006 18:40:43 »
Файнридер я месяц мучал тренировками. Так более 10% успешного распознования и не получилось.
А что такое Оливеровская утилита?

Оффлайн gasyoun

  • Профессионал
  • ****
  • Сообщений: 484
  • Карма: 0
  • Пол: Мужской
    • Лирика
Ручками
« Ответ #5 : 16 Января 2006 04:20:23 »
Тогда уж ручками, как я всегда.
sanskritreader.de делал Оливер из Берлина
Индолог, который сканирует разные словари мертвых и еще живых азиатских языков.
Собираю общество молодых востоковедов здесь и в реале! Встречаемся в ИВ РАНе, звоните, пишите - ищите!

shravan

  • Гость
Re: Пдскажите как сделать...
« Ответ #6 : 02 Ноября 2006 04:16:54 »

А вот ещё SanskritOCR задаром, и как ни удивительно, даже делает вид, что работает.  :)
http://www.sanskritreader.de/Inhalt/software.htm

Ни хрена он не работает. Пишет, что ему нкжно разрешение 8 бит/пкс и на этом все. Даже жаль потраченного времени на перекачку 8 метров.  :(

Оффлайн Komar

  • Бывалый
  • ***
  • Сообщений: 147
  • Карма: 9
  • Пол: Мужской
Re: Пдскажите как сделать...
« Ответ #7 : 03 Ноября 2006 01:09:57 »
А вот ещё SanskritOCR задаром, и как ни удивительно, даже делает вид, что работает.  :)
http://www.sanskritreader.de/Inhalt/software.htm
Ни хрена он не работает. Пишет, что ему нкжно разрешение 8 бит/пкс и на этом все. Даже жаль потраченного времени на перекачку 8 метров.  :(

Хм... Неужто всё?

А вы не пробовали дать ему те 8 бит, о которых он просит?

Я полтора года назад скачал программу, потестировал, распознал пару страниц стихов.
Результат не блистает и требует много правки. Но работает.
Вот из-за вас специально скачал их новую версию и проверил.
Как раньше работало, так примерно и сейчас работает.
Но наверное, много от шрифта зависит. Про акцентированный текст можно сразу забыть. А вот с хорошим стандартным шрифтом можно и повозиться, если охота. Может, что и выйдет.
Включенная проверка орфографии приводит к сбою.

Вот тест сделал.
Источник - текст шрифтом xdvng сфотографированный с файла pdf и сохранённый в bmp.
(текста с хорошим шрифтом как-то под рукой не оказалось)
Распознание как есть, без каких-либо предварительных настроек программы.
Первый результат - старая версия, второй - новая.

результат 1:
dhџtarеrara uvеca
dharmak№etre kukak№etre samavetе yuyutyavaµ
mеmakеµ pееg•avеёcaiva kimakurvata sanjaya 1 1

результат 2:
dhџtarе?ra uvеca
dharmak№etre kuruk№etre samavetе yuyutmavaµ
mеmakеµ pеее•avеёcaiva kimakurvata saсajaya thџ 1

Радует, что хотя бы в общих чертах узнаваемо, а не полная бессмыслица получается.
Но мне казалось, что в прошлый раз результаты были несколько лучше.

Оффлайн Komar

  • Бывалый
  • ***
  • Сообщений: 147
  • Карма: 9
  • Пол: Мужской
Re: OCR и деванагари
« Ответ #8 : 06 Ноября 2006 19:06:44 »
Нашёл-таки отсканированную страничку из книги.
Вот что получилось после распознавания в SanskritOCR и приведения шрифта к стандарту итранс.
Почему-то на этом образце патологически путаются "дх" с "гх" и "в" с "б".
Во второй раз то же самое может распознаться иначе.
Заметны регулярные глюки, но в целом неплохо.

Цитировать
atha prathamo.adhyaayaH //
? arjunaavaiiShaadayogaH ?
ghR^itaraaShTa uvaacha ?
dharbhakShetre kurukShetre samabetaa yuyutsabaH /
maamakaa paaNDavaashchaiva kimakurvata sa~njaya // 1 //
sa~njaya ubaacha
dR^iShTvaa tu paaNDabaaniikaM vyuuDhaM duryodhanastadaa /
aachaaryamupasaN^gamya raajaa vachanamabraviit // 2 //
pashyaitaaM paaNDuputraaNaamaachaarya ? mahatiiM chamuum /
vyuuDhaaM drupadaputreNa tava shiShyeNa dhiimataa // 3 //
atra sh?aa maheShvaasaa bhiimaarjunasamaa yudhi /
yuyudhaano viraaTashcha drupadashcha mahaarathaH /g 4 //
ghR^iShTaketushchekitaanaH kaashiraajashcha biiryabaan /
purujitkuaatabhojashcha shaibyashcha narapuN^gabaH // 5 //
yudhaamanyushcha vikraanta uttamaujaashcha biiryabaan /
saubhadro draupadeyaashcha sarva eba mahaarathaaH // 5ii //
asmaakaM tu bishiShTaa ye taaaaiinnabodha dvijottama /
naayakaa mama sainyasya saMj~naarthaM taan brabiimi te // 7 //
bhavaanbhiiShmashcha karNashcha kR^ipashcha siimiita~njayaH /
ashvatthaamaa vikarNashcha saumadattistathaiva cha // 8 //

Оффлайн gasyoun

  • Профессионал
  • ****
  • Сообщений: 484
  • Карма: 0
  • Пол: Мужской
    • Лирика
Re: OCR и деванагари
« Ответ #9 : 08 Декабря 2006 19:46:41 »
Летом узнал, что в Чикаго работают и сделали уже хорошую распозновалку для хинди, просили выслать несколько страничек санскритских лигатур. Видимо на этом застряли. В штатах все деньги идут на арабицу, индийские языки нафиг никому не нужны. Интересно то, что они про Оливера и не слыхали. Вот что значит не уметь немецкую мову.
Индолог, который сканирует разные словари мертвых и еще живых азиатских языков.
Собираю общество молодых востоковедов здесь и в реале! Встречаемся в ИВ РАНе, звоните, пишите - ищите!

Оффлайн valera1

  • Зарегистрированный
  • *
  • Сообщений: 5
  • Карма: 0
Re: OCR и деванагари
« Ответ #10 : 12 Октября 2011 23:40:29 »
Oliver Hellwig теперь коммерсант.
===> OCR programs for Hindi and Sanskrit are now available at ind.senz. <===
Но качество распознавания отличное, по демо-версии это можно определить.
Только Oliver Hellwig и развивался за все эти годы. Но почему?

Оффлайн Komar

  • Бывалый
  • ***
  • Сообщений: 147
  • Карма: 9
  • Пол: Мужской
Re: OCR и деванагари
« Ответ #11 : 13 Октября 2011 02:42:18 »
Цитировать
Purchase the full version of SanskritOCR for 129 Euros1 through Paypal for immediate download.
1Other currencies: 8694 INR, 178 USD
http://www.indsenz.com/int/index.php?content=software_ind_ocr_sanskrit

Цитировать
Purchase the full version of HindiOCR for 149 Euros1 through Paypal for immediate download.
1Other currencies: 10042 INR, 205 USD
http://www.indsenz.com/int/index.php?content=software_ind_ocr_hindi


Мдя. Цены явно не для российских энтузиастов. :(

Оффлайн valera1

  • Зарегистрированный
  • *
  • Сообщений: 5
  • Карма: 0
Re: OCR и деванагари
« Ответ #12 : 21 Октября 2011 03:11:24 »
Так российские энтузиасты могут и демо-версию для практических целей задействовать;)
Там и взламывать ничего не надо. А еще есть вариант скинуться 10-ти энтузиастам на 1 лицензию. Тогда все не так дорого получается. Тут все  количеством энтузиастов определяется...

Оффлайн Komar

  • Бывалый
  • ***
  • Сообщений: 147
  • Карма: 9
  • Пол: Мужской
Re: OCR и деванагари
« Ответ #13 : 22 Октября 2011 04:10:28 »
Наконец смог скачать и протестировать демку SanskritOCR. По сравнению с прошлыми версиями, во-первых, устранён фатальный перепут похожих букв (б/в, бх/м). Во-вторых, результат выводится в юникодовском дэванагари (что, с одной стороны, хорошо, а с другой, не помешала бы и возможность сохранения транслита). В-третьих, по-прежнему наблюдаются странные глюки. Так, в протестированном фрагменте из 4-го стиха одно слово просто пропало, заменившись на данду. Но в целом качество распознавания весьма и весьма приличное.

Вуаля!

Цитировать
अथ प्रथमोऽध्यायः ।।
( अर्जुनविषादयोगः )
धृतराष्टू उवाच--
धर्मक्षेत्रे कुरुक्षेत्रे समवेता युयुत्सवः ।
मामकाः पाण्डवाश्चैव किमकुर्वत सञ्जय ।। १ ।।
सञ्जय उवाच-
दृष्ट्वा तु पाण्डवानीकं व्यूढं दुर्योधनस्तदा ।
आचार्यमुपसङ्गम्य राजा वचनमब्रवीत् ।। ?ं ।।
पश्यैतां पाण्डुपुत्राणामाचार्य । महतीं चमूम् ।
ठय्ढां द्रुपदपुत्रेण तव शिष्येण धीमता ।। ३ ।।
अत्र महेष्वासा भीमार्जुनसमा युधि ।
युयुधानो विराटश्च द्रुपदश्च महारथः ।। ४ !१
धृष्टकेतुश्चेकितानः काशिराजश्च वीर्यवान् ।
पुरुजित् कुन्तिभोजश्च शैब्यश्च नरपुङ्गवः ।। ५ ।।
युधामन्युश्च विक्रान्त उत्तमौजाश्च वीर्यवान् ।
सौभद्रो द्रौपदेयाश्च सर्व एव महारथाः ।। ६ ाा
अस्माकं तु विशिष्टा ये तान्निबोध द्विजोत्तम ।
नायका मम सैन्यस्य संज्ञार्थं तान् ब्रवीमि ते ।। ७ ।।
भवान् भीष्मश्च कर्णश्च कृपश्च समितिञ्जयः ।
अश्वत्थामा विकर्णश्च सौमदत्तिस्तथैव च ।। ८ ।।

з.ы. В демо-версии заблокированы команды копирования и сохранения результатов.

Оффлайн valera1

  • Зарегистрированный
  • *
  • Сообщений: 5
  • Карма: 0
Re: OCR и деванагари
« Ответ #14 : 22 Октября 2011 14:59:01 »
Цитировать
Additional features of the full version:
Storing and export (Devanagari Unicode or Latin transcription)
Trainable letter set included
В полной версии можно сохранять и в транслите.
« Последнее редактирование: 22 Октября 2011 23:53:47 от valera1 »

Оффлайн sumeru

  • Зарегистрированный
  • *
  • Сообщений: 17
  • Карма: 0
Re: OCR и деванагари
« Ответ #15 : 16 Февраля 2013 00:51:16 »
Полную версию не видел, а демо - кастрирована. Покажете полную?

Оффлайн Komar

  • Бывалый
  • ***
  • Сообщений: 147
  • Карма: 9
  • Пол: Мужской
Re: OCR и деванагари
« Ответ #16 : 16 Февраля 2013 05:09:45 »
Так полной версии, наверное, ни у кого и нет. Покупать дорогие программы с 30-дневной лицензией и интернет-активацией мало кто может себе позволить.

Оффлайн valera1

  • Зарегистрированный
  • *
  • Сообщений: 5
  • Карма: 0
Re: OCR и деванагари
« Ответ #17 : 20 Февраля 2013 18:08:45 »
Так полной версии, наверное, ни у кого и нет. Покупать дорогие программы с 30-дневной лицензией и интернет-активацией мало кто может себе позволить.
Лицензия не ограничена по времени
Цитировать
SanskritOCR

Use SanskritOCR to convert scans of printed Sanskrit documents into searchable and editable digital text.
The license is a time-unlimited, single-place license without digitization quota.

Price per single-place license: 129 Euros (9358 INR, 172 USD)
хотя гугловский переводчик
с этим не согласен
Цитировать
SanskritOCR

Используйте SanskritOCR для преобразования сканирование печатных документов санскрита на поиск и редактирование цифрового текста.
Лицензия времени ограничено, одним местом лицензии без оцифровки квоты.

Цена за одно место лицензию: 129 евро (9358 INR, 172 USD)
« Последнее редактирование: 20 Февраля 2013 18:28:20 от valera1 »

Оффлайн Komar

  • Бывалый
  • ***
  • Сообщений: 147
  • Карма: 9
  • Пол: Мужской
Re: OCR и деванагари
« Ответ #18 : 20 Февраля 2013 20:52:05 »
В самом лицензионном соглашении нет слов "time-unlimited". Единственное, что там о времени сказано, это то, что гарантия на программу длится 30 дней ("Software Warranty Period"). Лицензия даётся на установку программы на один компьютер. Как указано в справке, активация программы возможна только при подключении к интернету. Как я понимаю, это означает, что активация привязана к конфигурации конкретного компа. И скорее всего, активация слетит при переустановке оси или замене винчестера и т.п. Никаких сведений о возможности повторной активации я нигде не нашёл. Потому я не уверен даже в том, что они в 30-дневный гарантийный период будут возиться с вами по поводу повторной активации. И уж навряд ли фирма предоставляет пожизненную услугу с неограниченным количеством повторных активаций. Но даже если они вдруг такие добрые и хотят это сделать, нет никаких гарантий, что их фирма протянет хотя бы год. Нет фирмы - нет активации, а следовательно, нужная программа превращается в бесполезный файл. Интернет-активация - зло.

Оффлайн valera1

  • Зарегистрированный
  • *
  • Сообщений: 5
  • Карма: 0
Re: OCR и деванагари
« Ответ #19 : 22 Февраля 2013 01:23:08 »
Мудро сказано. Однако, если программа действительно необходима, вышеперечисленные проблемы решаемы. Интересно, кроме каких-нибудь гипотетических индологов из Германии, кто-нибудь приобрел лицензию?