Автор Тема: Unicode иероглифа?  (Прочитано 16781 раз)

0 Пользователей и 1 Гость просматривают эту тему.

volg

  • Гость
Unicode иероглифа?
« : 13 Марта 2005 05:26:50 »
Не могу найти unicode некоторых иероглифов из БЯРСа в японских/китайских/корейских шрифтах Windows XP и 2003. Посоветуйте, пожалуйста, наиболее полные (по количеству знаков, с вариантами начертаний) японские/китайские фонты для Windows.
В качестве примера привожу здесь один из таких иероглифов (интересует именно такое начертание, а не его эквивалент)

Оффлайн zenzen

  • Бывалый
  • ***
  • Сообщений: 201
  • Карма: 0
  • Пол: Мужской
Re: Unicode иероглифа?
« Ответ #1 : 13 Марта 2005 08:28:21 »
То есть такое начертание не подходит ?

Тогда единственным фонтом, где можно найти подобные редкие начертания, будет, пожалуй, Mojikyo
http://www.mojikyo.org/html/download/index.html
Фонт претендует на наиболее полное представление CJK знаков. Подробнее о проекте:
http://www.mojikyo.com/info/about/index.html
Но это не юникод, у шрифта свое IME, и даже там я не смог найти этот иероглиф в подобном начертании.
Возможно, что подобного начертания в юникоде нет и придется обходиться картинкой, либо гайдзи.

Последняя база Unihan юникода лежит здесь, и если там описания иероглифа нет, то, естественно, его не будет ни в одном юникодовском шрифте (файл огромный).
http://www.unicode.org/Public/4.1.0/ucd/Unihan-4.1.0d4.txt

ИМХО, по приведенному примеру, это, практически чисто декоративное отличие, не имеющее особой смысловой нагрузки.

Если не секрет, что за проект?

volg

  • Гость
Re: Unicode иероглифа?
« Ответ #2 : 13 Марта 2005 08:50:51 »
Zenzen, спасибо за ссылки.

"что за проект?" - да развлекаюсь я в свободное от основной работы время: хочу сделать полный электронный аналог БЯРСа со всеми присутствующими в нем начертаниями; и конечно, если нет unicode на символ, то вставляю его картинку - что мне не очень нравится - поэтому ищу соответствующие шрифты.

Оффлайн zenzen

  • Бывалый
  • ***
  • Сообщений: 201
  • Карма: 0
  • Пол: Мужской
Re: Unicode иероглифа?
« Ответ #3 : 14 Марта 2005 11:26:02 »
Zenzen, спасибо за ссылки.

"что за проект?" - да развлекаюсь я в свободное от основной работы время: хочу сделать полный электронный аналог БЯРСа со всеми присутствующими в нем начертаниями; и конечно, если нет unicode на символ, то вставляю его картинку - что мне не очень нравится - поэтому ищу соответствующие шрифты.

Замечательно! Я как раз развлекаюсь подобным образом с японско-русским словарем от Кэнкюся. Хотел потом перейти и к БЯРСу.
Можно взять уже наспех обработанную А. Кайдаловым русскую часть словаря (там потеряны все длительности и пр., и все равно будет меньше работы, чем распознавать весь словарь самому заново) отсюда:
http://www.lingvo.multikulti.ru/
Исходники легко извлекаются.

В качестве формата словаря настоятельно рекомендую EPWING. Единственный формат полностью поддерживающий индексацию для японского языка на настоящее время (есть еще DicX, но он еще сырой). Вместо картинок используются гайдзи.

Если нужно что-либо обсудить, можно прямо здесь, либо в привате, либо см. мой мейл в профиле. :)

volg

  • Гость
Re: Unicode иероглифа?
« Ответ #4 : 14 Марта 2005 12:26:10 »
Цитировать
все равно будет меньше работы, чем распознавать весь словарь самому заново)
распознавалка у меня уже есть, вроде работает нормально и сохраняет все длительности, ударения и т.д., но править после нее хоть и немного, но надо

Цитировать
В качестве формата словаря настоятельно рекомендую EPWING.
я пока использую свой формат, основанный на rtf

Оффлайн zenzen

  • Бывалый
  • ***
  • Сообщений: 201
  • Карма: 0
  • Пол: Мужской
Re: Unicode иероглифа?
« Ответ #5 : 14 Марта 2005 18:41:53 »
распознавалка у меня уже есть, вроде работает нормально и сохраняет все длительности, ударения и т.д., но править после нее хоть и немного, но надо

Интересно было бы узнать, что за распознавалка. Сам я пользуюсь FineReader'ом для русского текста и 読んで!ココ для японского. Потом обе части составляются. Такой способ требует меньше времени для исправления ошибок. Кто-то (Sapporo, например) предпочитает e.Typist для работы с японским текстом.

Цитировать
я пока использую свой формат, основанный на rtf

Я имел ввиду не промежуточный формат для хранения и редактирования данных, а конечный формат для словарной оболочки. Заранее извиняюсь, если неправильно понял цитируемую выше фразу.
Впрочем, не стоит пока зацикливаться на форматах. Куда важнее получить данные в текстовой форме.

volg

  • Гость
Re: Unicode иероглифа?
« Ответ #6 : 15 Марта 2005 00:58:35 »
Цитировать
Интересно было бы узнать, что за распознавалка.
моя, собственной разработки

Оффлайн zenzen

  • Бывалый
  • ***
  • Сообщений: 201
  • Карма: 0
  • Пол: Мужской
Re: Unicode иероглифа?
« Ответ #7 : 15 Марта 2005 01:18:43 »
Цитировать
Интересно было бы узнать, что за распознавалка.
моя, собственной разработки

 :o ??? Ну, что еще сказать!?

Оффлайн Shuravi

  • Заслуженный
  • *****
  • Сообщений: 1260
  • Карма: 12
  • Пол: Мужской
    • Shuravi
Re: Unicode иероглифа?
« Ответ #8 : 15 Марта 2005 08:43:07 »
Тогда единственным фонтом, где можно найти подобные редкие начертания, будет, пожалуй, Mojikyo
http://www.mojikyo.org/html/download/index.html
Нет там такого начертания, как это не странно для Mojikyo. Там есть только
Цитировать
Возможно, что подобного начертания в юникоде нет и придется обходиться картинкой, либо гайдзи.
Лишь некоторые шрифты используют такой вариант написания. Вполне понятно, что в одном шрифте нет смысла держать дубликаты.
Цитировать
ИМХО, по приведенному примеру, это, практически чисто декоративное отличие, не имеющее особой смысловой нагрузки.
Точно точно...  :)

Echter

  • Гость
Re: Unicode иероглифа?
« Ответ #9 : 13 Апреля 2005 21:28:18 »
Цитировать
Интересно было бы узнать, что за распознавалка.
моя, собственной разработки
   А нельзя ли поподробнее? Ваша OCR работает со смешанным русско-японским тестом?

volg

  • Гость
Re: Unicode иероглифа?
« Ответ #10 : 13 Апреля 2005 23:05:16 »
Echter
Цитировать
А нельзя ли поподробнее? Ваша OCR работает со смешанным русско-японским тестом?
Да, но в настоящее время заточена под БЯРС. Хотелось иметь электронный БЯРС один-в-один. Я собирался сделать электронный переводчик, работа над которым разделилась на три этапа:
1) OCR
2) словари
3) грамматика
Сейчас я на втором (но это другая тема :) ).

Echter

  • Гость
Re: Unicode иероглифа?
« Ответ #11 : 14 Апреля 2005 03:07:45 »
Echter
Цитировать
А нельзя ли поподробнее? Ваша OCR работает со смешанным русско-японским тестом?
Да, но в настоящее время заточена под БЯРС. Хотелось иметь электронный БЯРС один-в-один. Я собирался сделать электронный переводчик, работа над которым разделилась на три этапа:
1) OCR
2) словари
3) грамматика
Сейчас я на втором (но это другая тема :) ).
   Это потрясающе! Дело в том, что на Полушарии уже не первый год ведётся работа по оцифровке Большого Китайско-Русского словаря, дело продвигается крайне медленно, хотя работающих людей много. Основной камень преткновения - отсутствие нормальной OCR. Иероглифы все приходится набирать вручную. Крайне медленно, словарь четырёхтомный.
   А нельзя ли Вашу программу как-то использовать и в этих целях? Чтобы пусть с грехом пополам, но чего-то распознавала?
   Ваш труд тоже - это не для одного человека. Неужели нет помощников?

volg

  • Гость
Re: Unicode иероглифа?
« Ответ #12 : 14 Апреля 2005 03:51:29 »
Я уже не помню как выглядит внутри БКРС, но скорее всего не сильно отличается от БЯРСа.
Однако есть, как минимум, два "но":
1) у меня база знаков - около 5900 символов, а в китайском, как я помню, - побольше будет;
2) к проге нет хелпа (никак не соберусь) - поэтому пользоваться ею могу только я :(
Следовательно нужны некоторые доработки.

Оффлайн zenzen

  • Бывалый
  • ***
  • Сообщений: 201
  • Карма: 0
  • Пол: Мужской
Re: Unicode иероглифа?
« Ответ #13 : 14 Апреля 2005 04:19:43 »
volg, разрешите задать Вам два прямых вопроса:

1) Вы можете поделиться своей уникальной разработкой с нами? Пусть даже без хелпа.
2) Вы собираетесь оцифровать весь БЯРС в одиночку? Или согласитесь на совместную работу?

Надеюсь получить на прямые вопросы такие же прямые ответы. Извините за прямоту, но проблема эта весьма актуальна для многих участников данного форума.

volg

  • Гость
Re: Unicode иероглифа?
« Ответ #14 : 14 Апреля 2005 04:35:37 »
zenzen
я не готов сейчас ответить на Ваши вопросы - голова постоянно занята совсем другим делом (до ~осени); но варианты всегда возможны  :)

Echter

  • Гость
Re: Unicode иероглифа?
« Ответ #15 : 14 Апреля 2005 22:30:08 »
Я уже не помню как выглядит внутри БКРС, но скорее всего не сильно отличается от БЯРСа.
Однако есть, как минимум, два "но":
1) у меня база знаков - около 5900 символов, а в китайском, как я помню, - побольше будет;
2) к проге нет хелпа (никак не соберусь) - поэтому пользоваться ею могу только я :(
Следовательно нужны некоторые доработки.
   5900 японских символов - это более 90 процентов среднего китайского текста. То есть, 90-процентный выигрыш во времени.
   То, что нет доков - это, конечно затрудняет дело.
   Но Вы знаете, Ваш грандиозный труд крайне нужен общественности, как японской, так и китайской. Может быть, если появится время, внесёте доработки, чтобы он не лежал просто так, почти впустую? Может быть, найдутся и другие знающие люди, которые смогут помочь Вам в этом деле.

Оффлайн Zvago

  • Пионер
  • **
  • Сообщений: 52
  • Карма: 0
Re: Unicode иероглифа?
« Ответ #16 : 03 Мая 2005 04:29:20 »
Замечательно! Я как раз развлекаюсь подобным образом с японско-русским словарем от Кэнкюся. Хотел потом перейти и к БЯРСу.

Ура! Наконец-то заговорили об электронной версии БЯРС. Как показал опыт БКРС-проекта и невозможное - возможно.  :)