Восточное Полушарие
Инкубатор Полушария и другие страны Азии => Индия - India - 印度 => Санскрит, хинди, другие языки Индии => Тема начата: Hindu от 27 Ноября 2005 21:38:20
-
Пдскажите как отсканировать текст на хинди, еслив в fine reader нет поддержки языка хинди.
Спасибо заранне!!!
-
Пдскажите как отсканировать текст на хинди, еслив в fine reader нет поддержки языка хинди.
Спасибо заранне!!!
В виде графики, OCR которые бы распознавали деванагари нет.
-
OCR которые бы распознавали деванагари нет.
Есть такой зверь! Ещё в 2002-м выпустили. Зовут Chitrankan. Но Rs. 10 000 :'(
http://www.cdac.in/html/gist/products/chitra.asp
А вот ещё SanskritOCR задаром, и как ни удивительно, даже делает вид, что работает. :)
http://www.sanskritreader.de/Inhalt/software.htm
-
Пдскажите как отсканировать текст на хинди, еслив в fine reader нет поддержки языка хинди.
Проблема не нова и... решалась аж с 1987-го года или даже раньше в штатах, однако кроме Оливеровской утилиты ничего дельного пока что нет и Абби не собирается выпускать распознавалку для нагари - ведь все не просто, это почти что пехлеви - пойди пойми где там хвост, где уши. Так что картинками или ручками.
-
Файнридер я месяц мучал тренировками. Так более 10% успешного распознования и не получилось.
А что такое Оливеровская утилита?
-
Тогда уж ручками, как я всегда.
sanskritreader.de делал Оливер из Берлина
-
А вот ещё SanskritOCR задаром, и как ни удивительно, даже делает вид, что работает. :)
http://www.sanskritreader.de/Inhalt/software.htm
Ни хрена он не работает. Пишет, что ему нкжно разрешение 8 бит/пкс и на этом все. Даже жаль потраченного времени на перекачку 8 метров. :(
-
А вот ещё SanskritOCR задаром, и как ни удивительно, даже делает вид, что работает. :)
http://www.sanskritreader.de/Inhalt/software.htm
Ни хрена он не работает. Пишет, что ему нкжно разрешение 8 бит/пкс и на этом все. Даже жаль потраченного времени на перекачку 8 метров. :(
Хм... Неужто всё?
А вы не пробовали дать ему те 8 бит, о которых он просит?
Я полтора года назад скачал программу, потестировал, распознал пару страниц стихов.
Результат не блистает и требует много правки. Но работает.
Вот из-за вас специально скачал их новую версию и проверил.
Как раньше работало, так примерно и сейчас работает.
Но наверное, много от шрифта зависит. Про акцентированный текст можно сразу забыть. А вот с хорошим стандартным шрифтом можно и повозиться, если охота. Может, что и выйдет.
Включенная проверка орфографии приводит к сбою.
Вот тест сделал.
Источник - текст шрифтом xdvng сфотографированный с файла pdf и сохранённый в bmp.
(текста с хорошим шрифтом как-то под рукой не оказалось)
Распознание как есть, без каких-либо предварительных настроек программы.
Первый результат - старая версия, второй - новая.
результат 1:
dhџtarеrara uvеca
dharmak№etre kukak№etre samavetе yuyutyavaµ
mеmakеµ pееg•avеёcaiva kimakurvata sanjaya 1 1
результат 2:
dhџtarе?ra uvеca
dharmak№etre kuruk№etre samavetе yuyutmavaµ
mеmakеµ pеее•avеёcaiva kimakurvata saсajaya thџ 1
Радует, что хотя бы в общих чертах узнаваемо, а не полная бессмыслица получается.
Но мне казалось, что в прошлый раз результаты были несколько лучше.
-
Нашёл-таки отсканированную страничку из книги.
Вот что получилось после распознавания в SanskritOCR и приведения шрифта к стандарту итранс.
Почему-то на этом образце патологически путаются "дх" с "гх" и "в" с "б".
Во второй раз то же самое может распознаться иначе.
Заметны регулярные глюки, но в целом неплохо.
atha prathamo.adhyaayaH //
? arjunaavaiiShaadayogaH ?
ghR^itaraaShTa uvaacha ?
dharbhakShetre kurukShetre samabetaa yuyutsabaH /
maamakaa paaNDavaashchaiva kimakurvata sa~njaya // 1 //
sa~njaya ubaacha
dR^iShTvaa tu paaNDabaaniikaM vyuuDhaM duryodhanastadaa /
aachaaryamupasaN^gamya raajaa vachanamabraviit // 2 //
pashyaitaaM paaNDuputraaNaamaachaarya ? mahatiiM chamuum /
vyuuDhaaM drupadaputreNa tava shiShyeNa dhiimataa // 3 //
atra sh?aa maheShvaasaa bhiimaarjunasamaa yudhi /
yuyudhaano viraaTashcha drupadashcha mahaarathaH /g 4 //
ghR^iShTaketushchekitaanaH kaashiraajashcha biiryabaan /
purujitkuaatabhojashcha shaibyashcha narapuN^gabaH // 5 //
yudhaamanyushcha vikraanta uttamaujaashcha biiryabaan /
saubhadro draupadeyaashcha sarva eba mahaarathaaH // 5ii //
asmaakaM tu bishiShTaa ye taaaaiinnabodha dvijottama /
naayakaa mama sainyasya saMj~naarthaM taan brabiimi te // 7 //
bhavaanbhiiShmashcha karNashcha kR^ipashcha siimiita~njayaH /
ashvatthaamaa vikarNashcha saumadattistathaiva cha // 8 //
-
Летом узнал, что в Чикаго работают и сделали уже хорошую распозновалку для хинди, просили выслать несколько страничек санскритских лигатур. Видимо на этом застряли. В штатах все деньги идут на арабицу, индийские языки нафиг никому не нужны. Интересно то, что они про Оливера и не слыхали. Вот что значит не уметь немецкую мову.
-
Oliver Hellwig теперь коммерсант.
===> OCR programs for Hindi and Sanskrit are now available at ind.senz. <===
Но качество распознавания отличное, по демо-версии это можно определить.
Только Oliver Hellwig и развивался за все эти годы. Но почему?
-
Purchase the full version of SanskritOCR for 129 Euros1 through Paypal for immediate download.
1Other currencies: 8694 INR, 178 USD
http://www.indsenz.com/int/index.php?content=software_ind_ocr_sanskrit
Purchase the full version of HindiOCR for 149 Euros1 through Paypal for immediate download.
1Other currencies: 10042 INR, 205 USD
http://www.indsenz.com/int/index.php?content=software_ind_ocr_hindi
Мдя. Цены явно не для российских энтузиастов. :(
-
Так российские энтузиасты могут и демо-версию для практических целей задействовать;)
Там и взламывать ничего не надо. А еще есть вариант скинуться 10-ти энтузиастам на 1 лицензию. Тогда все не так дорого получается. Тут все количеством энтузиастов определяется...
-
Наконец смог скачать и протестировать демку SanskritOCR. По сравнению с прошлыми версиями, во-первых, устранён фатальный перепут похожих букв (б/в, бх/м). Во-вторых, результат выводится в юникодовском дэванагари (что, с одной стороны, хорошо, а с другой, не помешала бы и возможность сохранения транслита). В-третьих, по-прежнему наблюдаются странные глюки. Так, в протестированном фрагменте из 4-го стиха одно слово просто пропало, заменившись на данду. Но в целом качество распознавания весьма и весьма приличное.
Вуаля!
अथ प्रथमोऽध्यायः ।।
( अर्जुनविषादयोगः )
धृतराष्टू उवाच--
धर्मक्षेत्रे कुरुक्षेत्रे समवेता युयुत्सवः ।
मामकाः पाण्डवाश्चैव किमकुर्वत सञ्जय ।। १ ।।
सञ्जय उवाच-
दृष्ट्वा तु पाण्डवानीकं व्यूढं दुर्योधनस्तदा ।
आचार्यमुपसङ्गम्य राजा वचनमब्रवीत् ।। ?ं ।।
पश्यैतां पाण्डुपुत्राणामाचार्य । महतीं चमूम् ।
ठय्ढां द्रुपदपुत्रेण तव शिष्येण धीमता ।। ३ ।।
अत्र । महेष्वासा भीमार्जुनसमा युधि ।
युयुधानो विराटश्च द्रुपदश्च महारथः ।। ४ !१
धृष्टकेतुश्चेकितानः काशिराजश्च वीर्यवान् ।
पुरुजित् कुन्तिभोजश्च शैब्यश्च नरपुङ्गवः ।। ५ ।।
युधामन्युश्च विक्रान्त उत्तमौजाश्च वीर्यवान् ।
सौभद्रो द्रौपदेयाश्च सर्व एव महारथाः ।। ६ ाा
अस्माकं तु विशिष्टा ये तान्निबोध द्विजोत्तम ।
नायका मम सैन्यस्य संज्ञार्थं तान् ब्रवीमि ते ।। ७ ।।
भवान् भीष्मश्च कर्णश्च कृपश्च समितिञ्जयः ।
अश्वत्थामा विकर्णश्च सौमदत्तिस्तथैव च ।। ८ ।।
з.ы. В демо-версии заблокированы команды копирования и сохранения результатов.
-
Additional features of the full version:
Storing and export (Devanagari Unicode or Latin transcription)
Trainable letter set included
В полной версии можно сохранять и в транслите.
-
Полную версию не видел, а демо - кастрирована. Покажете полную?
-
Так полной версии, наверное, ни у кого и нет. Покупать дорогие программы с 30-дневной лицензией и интернет-активацией мало кто может себе позволить.
-
Так полной версии, наверное, ни у кого и нет. Покупать дорогие программы с 30-дневной лицензией и интернет-активацией мало кто может себе позволить.
Лицензия не ограничена по времени
SanskritOCR
Use SanskritOCR to convert scans of printed Sanskrit documents into searchable and editable digital text.
The license is a time-unlimited, single-place license without digitization quota.
Price per single-place license: 129 Euros (9358 INR, 172 USD)
хотя гугловский переводчик
с этим не согласен
SanskritOCR
Используйте SanskritOCR для преобразования сканирование печатных документов санскрита на поиск и редактирование цифрового текста.
Лицензия времени ограничено, одним местом лицензии без оцифровки квоты.
Цена за одно место лицензию: 129 евро (9358 INR, 172 USD)
-
В самом лицензионном соглашении нет слов "time-unlimited". Единственное, что там о времени сказано, это то, что гарантия на программу длится 30 дней ("Software Warranty Period"). Лицензия даётся на установку программы на один компьютер. Как указано в справке, активация программы возможна только при подключении к интернету. Как я понимаю, это означает, что активация привязана к конфигурации конкретного компа. И скорее всего, активация слетит при переустановке оси или замене винчестера и т.п. Никаких сведений о возможности повторной активации я нигде не нашёл. Потому я не уверен даже в том, что они в 30-дневный гарантийный период будут возиться с вами по поводу повторной активации. И уж навряд ли фирма предоставляет пожизненную услугу с неограниченным количеством повторных активаций. Но даже если они вдруг такие добрые и хотят это сделать, нет никаких гарантий, что их фирма протянет хотя бы год. Нет фирмы - нет активации, а следовательно, нужная программа превращается в бесполезный файл. Интернет-активация - зло.
-
Мудро сказано. Однако, если программа действительно необходима, вышеперечисленные проблемы решаемы. Интересно, кроме каких-нибудь гипотетических индологов из Германии, кто-нибудь приобрел лицензию?