• Welcome to Восточное Полушарие.

News:

Друзья! Форум перенесен на новый сервер, обновлено программное обеспечение, конвертированы данные. Изменений очень много, что-то могло сломаться, что-то не заработать, что-то пропасть. Если вы обнаружили проблему на форуме, пожалуйста, напишите на admin[собака]polusharie.com — постараемся исправить! 02.01.2026

Main Menu

Unicode иероглифа?

Started by volg, 12 March 2005 22:26:50

Previous topic - Next topic

0 Members and 1 Guest are viewing this topic.

volg

Не могу найти unicode некоторых иероглифов из БЯРСа в японских/китайских/корейских шрифтах Windows XP и 2003. Посоветуйте, пожалуйста, наиболее полные (по количеству знаков, с вариантами начертаний) японские/китайские фонты для Windows.
В качестве примера привожу здесь один из таких иероглифов (интересует именно такое начертание, а не его эквивалент)

zenzen

То есть такое начертание не подходит ?

Тогда единственным фонтом, где можно найти подобные редкие начертания, будет, пожалуй, Mojikyo
http://www.mojikyo.org/html/download/index.html
Фонт претендует на наиболее полное представление CJK знаков. Подробнее о проекте:
http://www.mojikyo.com/info/about/index.html
Но это не юникод, у шрифта свое IME, и даже там я не смог найти этот иероглиф в подобном начертании.
Возможно, что подобного начертания в юникоде нет и придется обходиться картинкой, либо гайдзи.

Последняя база Unihan юникода лежит здесь, и если там описания иероглифа нет, то, естественно, его не будет ни в одном юникодовском шрифте (файл огромный).
http://www.unicode.org/Public/4.1.0/ucd/Unihan-4.1.0d4.txt

ИМХО, по приведенному примеру, это, практически чисто декоративное отличие, не имеющее особой смысловой нагрузки.

Если не секрет, что за проект?

volg

Zenzen, спасибо за ссылки.

"что за проект?" - да развлекаюсь я в свободное от основной работы время: хочу сделать полный электронный аналог БЯРСа со всеми присутствующими в нем начертаниями; и конечно, если нет unicode на символ, то вставляю его картинку - что мне не очень нравится - поэтому ищу соответствующие шрифты.

zenzen

Quote from: volg on 13 March 2005 01:50:51
Zenzen, спасибо за ссылки.

"что за проект?" - да развлекаюсь я в свободное от основной работы время: хочу сделать полный электронный аналог БЯРСа со всеми присутствующими в нем начертаниями; и конечно, если нет unicode на символ, то вставляю его картинку - что мне не очень нравится - поэтому ищу соответствующие шрифты.

Замечательно! Я как раз развлекаюсь подобным образом с японско-русским словарем от Кэнкюся. Хотел потом перейти и к БЯРСу.
Можно взять уже наспех обработанную А. Кайдаловым русскую часть словаря (там потеряны все длительности и пр., и все равно будет меньше работы, чем распознавать весь словарь самому заново) отсюда:
http://www.lingvo.multikulti.ru/
Исходники легко извлекаются.

В качестве формата словаря настоятельно рекомендую EPWING. Единственный формат полностью поддерживающий индексацию для японского языка на настоящее время (есть еще DicX, но он еще сырой). Вместо картинок используются гайдзи.

Если нужно что-либо обсудить, можно прямо здесь, либо в привате, либо см. мой мейл в профиле. :)

volg

Quoteвсе равно будет меньше работы, чем распознавать весь словарь самому заново)
распознавалка у меня уже есть, вроде работает нормально и сохраняет все длительности, ударения и т.д., но править после нее хоть и немного, но надо

QuoteВ качестве формата словаря настоятельно рекомендую EPWING.
я пока использую свой формат, основанный на rtf

zenzen

Quote from: volg on 14 March 2005 05:26:10
распознавалка у меня уже есть, вроде работает нормально и сохраняет все длительности, ударения и т.д., но править после нее хоть и немного, но надо

Интересно было бы узнать, что за распознавалка. Сам я пользуюсь FineReader'ом для русского текста и 読んで!ココ для японского. Потом обе части составляются. Такой способ требует меньше времени для исправления ошибок. Кто-то (Sapporo, например) предпочитает e.Typist для работы с японским текстом.

Quote
я пока использую свой формат, основанный на rtf

Я имел ввиду не промежуточный формат для хранения и редактирования данных, а конечный формат для словарной оболочки. Заранее извиняюсь, если неправильно понял цитируемую выше фразу.
Впрочем, не стоит пока зацикливаться на форматах. Куда важнее получить данные в текстовой форме.

volg

QuoteИнтересно было бы узнать, что за распознавалка.
моя, собственной разработки

zenzen

Quote from: volg on 14 March 2005 17:58:35
QuoteИнтересно было бы узнать, что за распознавалка.
моя, собственной разработки

:o ??? Ну, что еще сказать!?

Shuravi

Quote from: zenzen on 13 March 2005 01:28:21
Тогда единственным фонтом, где можно найти подобные редкие начертания, будет, пожалуй, Mojikyo
http://www.mojikyo.org/html/download/index.html
Нет там такого начертания, как это не странно для Mojikyo. Там есть только
QuoteВозможно, что подобного начертания в юникоде нет и придется обходиться картинкой, либо гайдзи.
Лишь некоторые шрифты используют такой вариант написания. Вполне понятно, что в одном шрифте нет смысла держать дубликаты.
QuoteИМХО, по приведенному примеру, это, практически чисто декоративное отличие, не имеющее особой смысловой нагрузки.
Точно точно...  :)

Echter

Quote from: volg on 14 March 2005 17:58:35
QuoteИнтересно было бы узнать, что за распознавалка.
моя, собственной разработки
А нельзя ли поподробнее? Ваша OCR работает со смешанным русско-японским тестом?

volg

Echter
QuoteА нельзя ли поподробнее? Ваша OCR работает со смешанным русско-японским тестом?
Да, но в настоящее время заточена под БЯРС. Хотелось иметь электронный БЯРС один-в-один. Я собирался сделать электронный переводчик, работа над которым разделилась на три этапа:
1) OCR
2) словари
3) грамматика
Сейчас я на втором (но это другая тема :) ).

Echter

Quote from: volg on 13 April 2005 16:05:16
Echter
QuoteА нельзя ли поподробнее? Ваша OCR работает со смешанным русско-японским тестом?
Да, но в настоящее время заточена под БЯРС. Хотелось иметь электронный БЯРС один-в-один. Я собирался сделать электронный переводчик, работа над которым разделилась на три этапа:
1) OCR
2) словари
3) грамматика
Сейчас я на втором (но это другая тема :) ).
Это потрясающе! Дело в том, что на Полушарии уже не первый год ведётся работа по оцифровке Большого Китайско-Русского словаря, дело продвигается крайне медленно, хотя работающих людей много. Основной камень преткновения - отсутствие нормальной OCR. Иероглифы все приходится набирать вручную. Крайне медленно, словарь четырёхтомный.
   А нельзя ли Вашу программу как-то использовать и в этих целях? Чтобы пусть с грехом пополам, но чего-то распознавала?
   Ваш труд тоже - это не для одного человека. Неужели нет помощников?

volg

Я уже не помню как выглядит внутри БКРС, но скорее всего не сильно отличается от БЯРСа.
Однако есть, как минимум, два "но":
1) у меня база знаков - около 5900 символов, а в китайском, как я помню, - побольше будет;
2) к проге нет хелпа (никак не соберусь) - поэтому пользоваться ею могу только я :(
Следовательно нужны некоторые доработки.

zenzen

volg, разрешите задать Вам два прямых вопроса:

1) Вы можете поделиться своей уникальной разработкой с нами? Пусть даже без хелпа.
2) Вы собираетесь оцифровать весь БЯРС в одиночку? Или согласитесь на совместную работу?

Надеюсь получить на прямые вопросы такие же прямые ответы. Извините за прямоту, но проблема эта весьма актуальна для многих участников данного форума.

volg

zenzen
я не готов сейчас ответить на Ваши вопросы - голова постоянно занята совсем другим делом (до ~осени); но варианты всегда возможны  :)

Echter

Quote from: volg on 13 April 2005 20:51:29
Я уже не помню как выглядит внутри БКРС, но скорее всего не сильно отличается от БЯРСа.
Однако есть, как минимум, два "но":
1) у меня база знаков - около 5900 символов, а в китайском, как я помню, - побольше будет;
2) к проге нет хелпа (никак не соберусь) - поэтому пользоваться ею могу только я :(
Следовательно нужны некоторые доработки.
   5900 японских символов - это более 90 процентов среднего китайского текста. То есть, 90-процентный выигрыш во времени.
   То, что нет доков - это, конечно затрудняет дело.
   Но Вы знаете, Ваш грандиозный труд крайне нужен общественности, как японской, так и китайской. Может быть, если появится время, внесёте доработки, чтобы он не лежал просто так, почти впустую? Может быть, найдутся и другие знающие люди, которые смогут помочь Вам в этом деле.

Zvago

Quote from: zenzen on 14 March 2005 04:26:02
Замечательно! Я как раз развлекаюсь подобным образом с японско-русским словарем от Кэнкюся. Хотел потом перейти и к БЯРСу.

Ура! Наконец-то заговорили об электронной версии БЯРС. Как показал опыт БКРС-проекта и невозможное - возможно.  :)