Unicode иероглифа?

volg · 12 March 2005 22:26:50

Не могу найти unicode некоторых иероглифов из БЯРСа в японских/китайских/корейских шрифтах Windows XP и 2003. Посоветуйте, пожалуйста, наиболее полные (по количеству знаков, с вариантами начертаний) японские/китайские фонты для Windows.
В качестве примера привожу здесь один из таких иероглифов (интересует именно такое начертание, а не его эквивалент)

zenzen · 13 March 2005 01:28:21

То есть такое начертание не подходит 焙?

Тогда единственным фонтом, где можно найти подобные редкие начертания, будет, пожалуй, Mojikyo
http://www.mojikyo.org/html/download/index.html
Фонт претендует на наиболее полное представление CJK знаков. Подробнее о проекте:
http://www.mojikyo.com/info/about/index.html
Но это не юникод, у шрифта свое IME, и даже там я не смог найти этот иероглиф в подобном начертании.
Возможно, что подобного начертания в юникоде нет и придется обходиться картинкой, либо гайдзи.

Последняя база Unihan юникода лежит здесь, и если там описания иероглифа нет, то, естественно, его не будет ни в одном юникодовском шрифте (файл огромный).
http://www.unicode.org/Public/4.1.0/ucd/Unihan-4.1.0d4.txt

ИМХО, по приведенному примеру, это, практически чисто декоративное отличие, не имеющее особой смысловой нагрузки.

Если не секрет, что за проект?

volg · 13 March 2005 01:50:51

Zenzen, спасибо за ссылки.

"что за проект?" - да развлекаюсь я в свободное от основной работы время: хочу сделать полный электронный аналог БЯРСа со всеми присутствующими в нем начертаниями; и конечно, если нет unicode на символ, то вставляю его картинку - что мне не очень нравится - поэтому ищу соответствующие шрифты.

zenzen · 14 March 2005 04:26:02

Quote from: volg on 13 March 2005 01:50:51
Zenzen, спасибо за ссылки.

"что за проект?" - да развлекаюсь я в свободное от основной работы время: хочу сделать полный электронный аналог БЯРСа со всеми присутствующими в нем начертаниями; и конечно, если нет unicode на символ, то вставляю его картинку - что мне не очень нравится - поэтому ищу соответствующие шрифты.

Замечательно! Я как раз развлекаюсь подобным образом с японско-русским словарем от Кэнкюся. Хотел потом перейти и к БЯРСу.
Можно взять уже наспех обработанную А. Кайдаловым русскую часть словаря (там потеряны все длительности и пр., и все равно будет меньше работы, чем распознавать весь словарь самому заново) отсюда:
http://www.lingvo.multikulti.ru/
Исходники легко извлекаются.

В качестве формата словаря настоятельно рекомендую EPWING. Единственный формат полностью поддерживающий индексацию для японского языка на настоящее время (есть еще DicX, но он еще сырой). Вместо картинок используются гайдзи.

Если нужно что-либо обсудить, можно прямо здесь, либо в привате, либо см. мой мейл в профиле.

volg · 14 March 2005 05:26:10

Quoteвсе равно будет меньше работы, чем распознавать весь словарь самому заново)

распознавалка у меня уже есть, вроде работает нормально и сохраняет все длительности, ударения и т.д., но править после нее хоть и немного, но надо

QuoteВ качестве формата словаря настоятельно рекомендую EPWING.

я пока использую свой формат, основанный на rtf

zenzen · 14 March 2005 11:41:53

Quote from: volg on 14 March 2005 05:26:10
распознавалка у меня уже есть, вроде работает нормально и сохраняет все длительности, ударения и т.д., но править после нее хоть и немного, но надо

Интересно было бы узнать, что за распознавалка. Сам я пользуюсь FineReader'ом для русского текста и 読んで！ココ для японского. Потом обе части составляются. Такой способ требует меньше времени для исправления ошибок. Кто-то (Sapporo, например) предпочитает e.Typist для работы с японским текстом.

Quote
я пока использую свой формат, основанный на rtf

Я имел ввиду не промежуточный формат для хранения и редактирования данных, а конечный формат для словарной оболочки. Заранее извиняюсь, если неправильно понял цитируемую выше фразу.
Впрочем, не стоит пока зацикливаться на форматах. Куда важнее получить данные в текстовой форме.

volg · 14 March 2005 17:58:35

QuoteИнтересно было бы узнать, что за распознавалка.

моя, собственной разработки

zenzen · 14 March 2005 18:18:43

Quote from: volg on 14 March 2005 17:58:35
QuoteИнтересно было бы узнать, что за распознавалка.
моя, собственной разработки

Ну, что еще сказать!?

Shuravi · 15 March 2005 01:43:07

Quote from: zenzen on 13 March 2005 01:28:21
Тогда единственным фонтом, где можно найти подобные редкие начертания, будет, пожалуй, Mojikyo
http://www.mojikyo.org/html/download/index.html

Нет там такого начертания, как это не странно для Mojikyo. Там есть только

QuoteВозможно, что подобного начертания в юникоде нет и придется обходиться картинкой, либо гайдзи.

Лишь некоторые шрифты используют такой вариант написания. Вполне понятно, что в одном шрифте нет смысла держать дубликаты.

QuoteИМХО, по приведенному примеру, это, практически чисто декоративное отличие, не имеющее особой смысловой нагрузки.

Точно точно...

Echter · 13 April 2005 14:28:18

Quote from: volg on 14 March 2005 17:58:35
QuoteИнтересно было бы узнать, что за распознавалка.
моя, собственной разработки

А нельзя ли поподробнее? Ваша OCR работает со смешанным русско-японским тестом?

volg · 13 April 2005 16:05:16

Echter

QuoteА нельзя ли поподробнее? Ваша OCR работает со смешанным русско-японским тестом?

Да, но в настоящее время заточена под БЯРС. Хотелось иметь электронный БЯРС один-в-один. Я собирался сделать электронный переводчик, работа над которым разделилась на три этапа:
1) OCR
2) словари
3) грамматика
Сейчас я на втором (но это другая тема

).

Echter · 13 April 2005 20:07:45

Quote from: volg on 13 April 2005 16:05:16
Echter
QuoteА нельзя ли поподробнее? Ваша OCR работает со смешанным русско-японским тестом?
Да, но в настоящее время заточена под БЯРС. Хотелось иметь электронный БЯРС один-в-один. Я собирался сделать электронный переводчик, работа над которым разделилась на три этапа:
1) OCR
2) словари
3) грамматика
Сейчас я на втором (но это другая тема ).

Это потрясающе! Дело в том, что на Полушарии уже не первый год ведётся работа по оцифровке Большого Китайско-Русского словаря, дело продвигается крайне медленно, хотя работающих людей много. Основной камень преткновения - отсутствие нормальной OCR. Иероглифы все приходится набирать вручную. Крайне медленно, словарь четырёхтомный.
А нельзя ли Вашу программу как-то использовать и в этих целях? Чтобы пусть с грехом пополам, но чего-то распознавала?
Ваш труд тоже - это не для одного человека. Неужели нет помощников?

volg · 13 April 2005 20:51:29

Я уже не помню как выглядит внутри БКРС, но скорее всего не сильно отличается от БЯРСа.
Однако есть, как минимум, два "но":
1) у меня база знаков - около 5900 символов, а в китайском, как я помню, - побольше будет;
2) к проге нет хелпа (никак не соберусь) - поэтому пользоваться ею могу только я

Следовательно нужны некоторые доработки.

zenzen · 13 April 2005 21:19:43

volg, разрешите задать Вам два прямых вопроса:

1) Вы можете поделиться своей уникальной разработкой с нами? Пусть даже без хелпа.
2) Вы собираетесь оцифровать весь БЯРС в одиночку? Или согласитесь на совместную работу?

Надеюсь получить на прямые вопросы такие же прямые ответы. Извините за прямоту, но проблема эта весьма актуальна для многих участников данного форума.

volg · 13 April 2005 21:35:37

zenzen
я не готов сейчас ответить на Ваши вопросы - голова постоянно занята совсем другим делом (до ~осени); но варианты всегда возможны

Echter · 14 April 2005 15:30:08

Quote from: volg on 13 April 2005 20:51:29
Я уже не помню как выглядит внутри БКРС, но скорее всего не сильно отличается от БЯРСа.
Однако есть, как минимум, два "но":
1) у меня база знаков - около 5900 символов, а в китайском, как я помню, - побольше будет;
2) к проге нет хелпа (никак не соберусь) - поэтому пользоваться ею могу только я
Следовательно нужны некоторые доработки.

5900 японских символов - это более 90 процентов среднего китайского текста. То есть, 90-процентный выигрыш во времени.
То, что нет доков - это, конечно затрудняет дело.
Но Вы знаете, Ваш грандиозный труд крайне нужен общественности, как японской, так и китайской. Может быть, если появится время, внесёте доработки, чтобы он не лежал просто так, почти впустую? Может быть, найдутся и другие знающие люди, которые смогут помочь Вам в этом деле.

Zvago · 02 May 2005 21:29:20

Quote from: zenzen on 14 March 2005 04:26:02
Замечательно! Я как раз развлекаюсь подобным образом с японско-русским словарем от Кэнкюся. Хотел потом перейти и к БЯРСу.

Ура! Наконец-то заговорили об электронной версии БЯРС. Как показал опыт БКРС-проекта и невозможное - возможно.

Восточное Полушарие

News:

Unicode иероглифа?

volg

zenzen

volg

zenzen

volg

zenzen

volg

zenzen

Shuravi

Echter

volg

Echter

volg

zenzen

volg

Echter

Zvago