Восточное Полушарие
Японский форум => Японский язык => Японский Язык: компьютеры, программы, шрифты => Тема начата: volg от 13 Марта 2005 05:26:50
-
Не могу найти unicode некоторых иероглифов из БЯРСа в японских/китайских/корейских шрифтах Windows XP и 2003. Посоветуйте, пожалуйста, наиболее полные (по количеству знаков, с вариантами начертаний) японские/китайские фонты для Windows.
В качестве примера привожу здесь один из таких иероглифов (интересует именно такое начертание, а не его эквивалент)
-
То есть такое начертание не подходит 焙?
Тогда единственным фонтом, где можно найти подобные редкие начертания, будет, пожалуй, Mojikyo
http://www.mojikyo.org/html/download/index.html
Фонт претендует на наиболее полное представление CJK знаков. Подробнее о проекте:
http://www.mojikyo.com/info/about/index.html
Но это не юникод, у шрифта свое IME, и даже там я не смог найти этот иероглиф в подобном начертании.
Возможно, что подобного начертания в юникоде нет и придется обходиться картинкой, либо гайдзи.
Последняя база Unihan юникода лежит здесь, и если там описания иероглифа нет, то, естественно, его не будет ни в одном юникодовском шрифте (файл огромный).
http://www.unicode.org/Public/4.1.0/ucd/Unihan-4.1.0d4.txt
ИМХО, по приведенному примеру, это, практически чисто декоративное отличие, не имеющее особой смысловой нагрузки.
Если не секрет, что за проект?
-
Zenzen, спасибо за ссылки.
"что за проект?" - да развлекаюсь я в свободное от основной работы время: хочу сделать полный электронный аналог БЯРСа со всеми присутствующими в нем начертаниями; и конечно, если нет unicode на символ, то вставляю его картинку - что мне не очень нравится - поэтому ищу соответствующие шрифты.
-
Zenzen, спасибо за ссылки.
"что за проект?" - да развлекаюсь я в свободное от основной работы время: хочу сделать полный электронный аналог БЯРСа со всеми присутствующими в нем начертаниями; и конечно, если нет unicode на символ, то вставляю его картинку - что мне не очень нравится - поэтому ищу соответствующие шрифты.
Замечательно! Я как раз развлекаюсь подобным образом с японско-русским словарем от Кэнкюся. Хотел потом перейти и к БЯРСу.
Можно взять уже наспех обработанную А. Кайдаловым русскую часть словаря (там потеряны все длительности и пр., и все равно будет меньше работы, чем распознавать весь словарь самому заново) отсюда:
http://www.lingvo.multikulti.ru/
Исходники легко извлекаются.
В качестве формата словаря настоятельно рекомендую EPWING. Единственный формат полностью поддерживающий индексацию для японского языка на настоящее время (есть еще DicX, но он еще сырой). Вместо картинок используются гайдзи.
Если нужно что-либо обсудить, можно прямо здесь, либо в привате, либо см. мой мейл в профиле. :)
-
все равно будет меньше работы, чем распознавать весь словарь самому заново)
распознавалка у меня уже есть, вроде работает нормально и сохраняет все длительности, ударения и т.д., но править после нее хоть и немного, но надо
В качестве формата словаря настоятельно рекомендую EPWING.
я пока использую свой формат, основанный на rtf
-
распознавалка у меня уже есть, вроде работает нормально и сохраняет все длительности, ударения и т.д., но править после нее хоть и немного, но надо
Интересно было бы узнать, что за распознавалка. Сам я пользуюсь FineReader'ом для русского текста и 読んで!ココ для японского. Потом обе части составляются. Такой способ требует меньше времени для исправления ошибок. Кто-то (Sapporo, например) предпочитает e.Typist для работы с японским текстом.
я пока использую свой формат, основанный на rtf
Я имел ввиду не промежуточный формат для хранения и редактирования данных, а конечный формат для словарной оболочки. Заранее извиняюсь, если неправильно понял цитируемую выше фразу.
Впрочем, не стоит пока зацикливаться на форматах. Куда важнее получить данные в текстовой форме.
-
Интересно было бы узнать, что за распознавалка.
моя, собственной разработки
-
Интересно было бы узнать, что за распознавалка.
моя, собственной разработки
:o ??? Ну, что еще сказать!?
-
Тогда единственным фонтом, где можно найти подобные редкие начертания, будет, пожалуй, Mojikyo
http://www.mojikyo.org/html/download/index.html
Нет там такого начертания, как это не странно для Mojikyo. Там есть только (http://www.mojikyo.gr.jp/gif/019/019099.gif)
Возможно, что подобного начертания в юникоде нет и придется обходиться картинкой, либо гайдзи.
Лишь некоторые шрифты используют такой вариант написания. Вполне понятно, что в одном шрифте нет смысла держать дубликаты.
ИМХО, по приведенному примеру, это, практически чисто декоративное отличие, не имеющее особой смысловой нагрузки.
Точно точно... :)
-
Интересно было бы узнать, что за распознавалка.
моя, собственной разработки
А нельзя ли поподробнее? Ваша OCR работает со смешанным русско-японским тестом?
-
Echter
А нельзя ли поподробнее? Ваша OCR работает со смешанным русско-японским тестом?
Да, но в настоящее время заточена под БЯРС. Хотелось иметь электронный БЯРС один-в-один. Я собирался сделать электронный переводчик, работа над которым разделилась на три этапа:
1) OCR
2) словари
3) грамматика
Сейчас я на втором (но это другая тема :) ).
-
Echter
А нельзя ли поподробнее? Ваша OCR работает со смешанным русско-японским тестом?
Да, но в настоящее время заточена под БЯРС. Хотелось иметь электронный БЯРС один-в-один. Я собирался сделать электронный переводчик, работа над которым разделилась на три этапа:
1) OCR
2) словари
3) грамматика
Сейчас я на втором (но это другая тема :) ).
Это потрясающе! Дело в том, что на Полушарии уже не первый год ведётся работа по оцифровке Большого Китайско-Русского словаря, дело продвигается крайне медленно, хотя работающих людей много. Основной камень преткновения - отсутствие нормальной OCR. Иероглифы все приходится набирать вручную. Крайне медленно, словарь четырёхтомный.
А нельзя ли Вашу программу как-то использовать и в этих целях? Чтобы пусть с грехом пополам, но чего-то распознавала?
Ваш труд тоже - это не для одного человека. Неужели нет помощников?
-
Я уже не помню как выглядит внутри БКРС, но скорее всего не сильно отличается от БЯРСа.
Однако есть, как минимум, два "но":
1) у меня база знаков - около 5900 символов, а в китайском, как я помню, - побольше будет;
2) к проге нет хелпа (никак не соберусь) - поэтому пользоваться ею могу только я :(
Следовательно нужны некоторые доработки.
-
volg, разрешите задать Вам два прямых вопроса:
1) Вы можете поделиться своей уникальной разработкой с нами? Пусть даже без хелпа.
2) Вы собираетесь оцифровать весь БЯРС в одиночку? Или согласитесь на совместную работу?
Надеюсь получить на прямые вопросы такие же прямые ответы. Извините за прямоту, но проблема эта весьма актуальна для многих участников данного форума.
-
zenzen
я не готов сейчас ответить на Ваши вопросы - голова постоянно занята совсем другим делом (до ~осени); но варианты всегда возможны :)
-
Я уже не помню как выглядит внутри БКРС, но скорее всего не сильно отличается от БЯРСа.
Однако есть, как минимум, два "но":
1) у меня база знаков - около 5900 символов, а в китайском, как я помню, - побольше будет;
2) к проге нет хелпа (никак не соберусь) - поэтому пользоваться ею могу только я :(
Следовательно нужны некоторые доработки.
5900 японских символов - это более 90 процентов среднего китайского текста. То есть, 90-процентный выигрыш во времени.
То, что нет доков - это, конечно затрудняет дело.
Но Вы знаете, Ваш грандиозный труд крайне нужен общественности, как японской, так и китайской. Может быть, если появится время, внесёте доработки, чтобы он не лежал просто так, почти впустую? Может быть, найдутся и другие знающие люди, которые смогут помочь Вам в этом деле.
-
Замечательно! Я как раз развлекаюсь подобным образом с японско-русским словарем от Кэнкюся. Хотел потом перейти и к БЯРСу.
Ура! Наконец-то заговорили об электронной версии БЯРС. Как показал опыт БКРС-проекта и невозможное - возможно. :)