Автор Тема: Ввод иероглифов по ключам (Radical lookup) (Прочитано 58210 раз)

Chunky · « **Ответ #50 :** 29 Апреля 2012 20:43:11 »

Цитата: Макар Н. от 29 Апреля 2012 20:30:05

NJStar классная вещь и, слава богу, создатели выставляют его в свободном доступе.

Не понял. Закачка свободная, это понятно. А как с пользованием?
На странице закачки:
"This trial version is for 30 days free evaluation;
Fully registered version can be purchased securely online;"

Или я что-то не так делаю?

Макар Н. · « **Ответ #51 :** 29 Апреля 2012 21:00:29 »

Мой предыдущий (5.20) "лечился"...

WERTA · « **Ответ #52 :** 30 Апреля 2012 00:07:05 »

Благодарю всех за ответы и участие в обсуждении.
Уважаемый Макар.Н.
Насчет произвола. Конечно, в плане унификации иероглифики без произвола не обойтись. Но для нас (тех, кто не вырабатывает стандарты), рано или поздно, придется подстроиться хотя бы частично под эти самые стандарты (их вырабатывают те, кто «рулят»). Касательно 伙(huo3) U+4F19 в Юникоде это как раз ключ (КанСи - №9) (человек). В NanJi Star это просто ляпсус. Это свидетельствует о том, что, скорее всего, в основе сортировок у них была не Юникодовская кодировка, а стандартные GB2312 и Big5. Вот уже иллюстрация удобства стандартизации – готовая сортировка по ключам и строкам. Хотя я сам лично все 20902 иероглифа CJK Unifed Ideographs проверял в плане принадлежности к ключам и числу строк – есть неоднозначности в плане принадлежности к ключам (пример – 龝) и строкам с точностью до ±2 строк в зависимости от начертания в шрифте (Сун, Хей, Мин, Японск, Кор и т.п.) – произвол однако. В настоящее время наиболее четкая концепция стандартизации наблюдается у стандарта Юникод. Ведь мало выбрать во всяких древних словарях и закодировать по порядку кучу редчайших знаков, но они еще и выработали XYZ CJK концепцию подстановок и эквивалентности знаков. Именно отсюда идут так называемые Z-варианты – исторически разное написание одного и того же знака.

По поводу экономности ввода. Я исследовал в плане информационной емкости на разных выборках текстов кит. оригинала и русс. перевода. Так вот, получается, что один ханьцзы соответствует в среднем примерно нашим 4–4,5 буквам. Т.е. 4 нажатия клавиш ввода однобайтовых символов как раз и являются тем чисто информационным пределом. В ЦанЦзе, кстати, максимум распределения длины записей кодировки также соответствует четырем нажатиям на один иероглиф. В УБи, также пиарят ввод в 4 нажатия. Boshiamy, Array30, DaYi – тоже длина кодировки не более 4 символов.

Цитировать

А по третьему вопросу экономность сама говорит за себя - 2 клика на 90 % иероглифов

Ну, если указывать декомпозицию, то это 3 клика. И опять если 2 клика из списка (таблицы) 100-200 знаков, то это победа только для «мышиных» систем ввода, а не клавиатурных. Декомпозиция, согласен, это уже излишество в Вашем варианте системы ввода – тогда чаще 2, реже три клика без декомпозиции. Мне очень понравилось, что проблему неоднозначности декомпозиции Вы решаете просто и изящно при помощи одного модификатора. Только бы не возникло ситуаций, где надо снять неоднозначность 2-3 модификаторами подряд, но я уже вижу, это действительно будут редкие случаи. По принципу сокращения длинной цепочки кодировки «первый, второй, последний» - это та же самая ЦанЦзе, только не с алфавитом из 25 знаков, а существенно большим – более 200. У Вашего подхода действительно есть серьезные перспективы. Только может в плане сортировки таблицы «ваших» ключевых знаков нужно что-то поменять. Подойдут классическая сортировка по числу черт, сортировка по «многонаселенности» ключа (рекордсмен тут ключ «вода» - нереально много знаков, более 1000). Сортировка по частоте использования для ключевых знаков, даже не могу сказать – подходит ли она? Также стоит в таблице унифицировать варианты ключей.

Цитировать

что бы ни глаголили стандарты, "нож сбоку" и "нож сверху" графически совершенно разные элементы, и вижу я их по-разному.

Вот тут то и нужна оптимизация. Действительно, если в Вашей системе начать объединять варианты ключей, то попрет неоднозначность декомпозиции, которую модификатором уже не выправишь. Но излишняя подробность в описании графических вариантов одного и того же «малозаселенного» ключа тоже нагружает мозг. Я кстати благодаря Wenlin4 и Вашей структурной иероглифике начинаю понимать глубокую связь между графическими вариантами, которые ранее вообще не мог связать между собой, считая их какими-то вымершими ключами. А это улучшает мнемонику запоминания иероглифа.

Вообще, проблема в том, чтобы система ввода с одной стороны не была излишне подробной – возрастает длина строки ввода (число нажатий на один знак), но с другой стороны излишнее упрощение системы приведет к неоднозначности списка выбора, состоящего в отдельных ситуациях из 10-20 знаков, что терпимо, но не совсем желательно. Именно ЦанЦзе имеет оптимальную неоднозначность списка выбора максимум в 3-4 иероглифа и то – очень редко.

С моим подходом (см. мои посты в теме выше) у меня получается с использованием элементов ЦанЦзе длина строки ввода не более 5 символов (ключ(1-2 символа), декомпозиция(1 символ-разделитель), неключевая часть (1-2 символа)). Но однозначно закодировать стандартный радикал двумя символами из алфавита ЦанЦзе не получается. Иногда неоднозначность доходит до трех. Я думаю, может подключить иную систему морфологического ввода, хотя и там не гарантируется однозначность кодирования именно радикалов. Поэтому пока я частично признаю фиаско клавиатурных методов по части реализации систем ввода на основе ключевых знаков. Тут, наверное, придется обходиться только мышкой.

Макар Н. · « **Ответ #53 :** 30 Августа 2012 15:03:07 »

Последний "штрих" к теме.

Прикрутил "композиционный ввод" к доступному в сети словарю Котова из Lingvo (http://www.daokedao.ru/blog/wp-content/pleco/Pleco_dic.rar), слегка "поправив" оный (добавил к заголовкам статей транскрипцию по палладию).

Теперь можно смело "набрать" незнакомый иероглиф с помощью комбинации графов ("ключей") и сразу получить его перевод. Сохранен и фонетический ввод (и в пиньине, и по палладию), но, ввиду некоторых расхождений в транскрипции "по Lingvo" и "по UniHan" (см. описание http://poutko.ru/China/Dictionary.html), нахально использовал вариант UniHan. Понятно, что композиционный ввод этих "ляпов" лишен, хотя, наверное, имеет свои

.

Несколько "программистских приколов" позволяют выбирать "слова" где искомый иероглиф стоит не на первом месте, а на любом ином (включая и последнее) в сочетании таковых. Иногда это удобно. Почему в Лингве этого нет, не понятно...

Кому любопытно, может взять отсюда (http://poutko.ru/China/DownLoadsRu.html) и пользовать без ограничений

...

Parker · « **Ответ #54 :** 07 Июня 2013 23:19:30 »

Оцените, камрады, какая вещь: ввод по ключам, рукописный, по четырем углам. Богато!

anima*** · « **Ответ #55 :** 08 Июня 2013 01:33:27 »

Цитата: Parker от 07 Июня 2013 23:19:30

Богато!

Всякое даяние — благо!
Сходу наткнулся на жесткое требование соблюдения порядка рисования черт и что этот порядок не совпадает с WenLin.
К примеру, никак не мог нарисовать 隹, непривычный порядок. Может быть, где-нибудь есть отмена соблюдения порядка, как в WenLin?

Parker · « **Ответ #56 :** 08 Июня 2013 11:46:19 »

Меня, главным образом, multiradical и 4 угла порадовали. Рукописный в байде нормальный.

Макар Н. · « **Ответ #57 :** 16 Апреля 2014 01:17:01 »

Все течет и изменяется.
И Radical lookup тоже. После изменения порядка графов на матрице "композиционного" ввода стало проще вводить иероглифы (особенно на сенсорном экране, если "тыкать" в него пальцем

.

Если кто-то еще не забыл об этой теме, давненько как-то притихшей, может посмотреть теперь (не разбираясь в зауми сторонников и доводах противников), как это может выглядеть в реальности

http://poutko.ru/China/Img/LazyImg/ChineseInput.mp4

Hanxuejia · « **Ответ #58 :** 11 Февраля 2015 20:27:39 »

Добрый день!
Извините, что лезу в вашу тему)))
Не подскажите мне как можно вводить отдельные черты китайских иероглифов, вот например 一丿丨 есть, а остальные?
Где можно почитать по этому поводу? Мне нужно просто вводить черты из которых состоят иероглифы, но я никак не могу найти и понять как это сделать!(((
Спасибо большое и еще раз извините

anima*** · « **Ответ #59 :** 12 Февраля 2015 00:11:46 »

Вот такой вариант (думаю, самый простой): составить табличку из линий и вводить их куда надо через буфер обмена.
Все линии перечислены в учебнике: Т.П. Задоенко и Хуан Шуин 基礎漢语 Основы китайского языка Вводный курс Урок 1.
7 линий есть в символах SimSun: 一丨丿丶乛亅乚
Их коды: 4E00, 4E28, 4E3F, 4E36, 4E5B, 4E85, 4E5A.
Еще 5 линий есть в расширенном диапазоне шрифтов (см. картинку), их 5-значные коды:
2010C, 200CC, 200CA, 200CB, 21FE8.
В редакторе Word, если в конце символа поставить курсор и одновременно нажать 2 клавиши (латиница) Alt и X, то код заменится символом.
Для недостающих линий можно создать личные символы (через кнопку Пуск в Widows). Картинки недостающих линий можно копировать при этом с иероглифов с этими линиями.

Fozzie · « **Ответ #60 :** 12 Февраля 2015 13:15:01 »

Зачем изобретать столь изощрённый велосипед?

В Unicode есть специальный раздел - CJK Strokes (U+31E0 - U+31EF):

㇀㇁㇂㇃㇄㇅㇆㇇㇈㇉㇊㇋㇌㇍㇎㇏㇐㇑㇒㇓㇔㇕㇖㇗㇘㇙㇚㇛㇜㇝㇞㇟㇠㇡㇢㇣

В полном составе присутствует в нескольких фонтах, например в Hanazono.

А для набора гораздо проще использовать BabelMap

anima*** · « **Ответ #61 :** 12 Февраля 2015 15:49:26 »

Цитата: Fozzie от 12 Февраля 2015 13:15:01

В полном составе присутствует в нескольких фонтах, например в

Fozzie, щиро дякую!

Hanxuejia · « **Ответ #62 :** 16 Февраля 2015 16:08:35 »

Спасибо большое за ответы!

Макар Н.

Поиск иероглифов "по компонентам" потихоньку проникает на просторы интернета, что греет душу (особенно дилетанта, причастного к этой ветке форума

). К примеру, весьма достойный ресурс MDBG (http://www.mdbg.net/chindict/chindict.php), который можно рекомендовать и сам по себе, недавно к своим инструментам добавил и такой - "Show entries containing character components: (汉字部件)" (http://www.mdbg.net/chindict/chindict.php?page=chardict). И ведь работает.
Но, кроме поиска, по этому же принципу можно организовать и ввод иероглифов, о чем я постоянно трындел на форуме и всем предлагал инструменты для такого ввода. Не сочтите за саморекламу

, это скорее "авторский зуд"

, но теперь можно посмотреть на этого "зверя" и в он-лайне (т.е. ничего не скачивая, не устанавливая) и хоть из-под андроида, хоть из-под иОС'а:
http://poutko.ru/Compositor/full.html - полноэкранная версия для большого экрана,
http://poutko.ru/Compositor/compact.html - "стиснутая" версия для планшетника.
(Понятно, функционал слабее, чем в локальной версии).
Пробуйте (если это еще кому-нибудь интересно

)...

Восточное Полушарие

Новости:

Автор Тема: Ввод иероглифов по ключам (Radical lookup) (Прочитано 58210 раз)

Chunky

Re: Ввод иероглифов по ключам (Radical lookup)

Макар Н.

Re: Ввод иероглифов по ключам (Radical lookup)

WERTA

Re: Ввод иероглифов по ключам (Radical lookup)

Макар Н.

Re: Ввод иероглифов по ключам (Radical lookup)

Parker

Re: Ввод иероглифов по ключам (Radical lookup)

anima***

Re: Ввод иероглифов по ключам (Radical lookup)

Parker

Re: Ввод иероглифов по ключам (Radical lookup)

Макар Н.

Re: Ввод иероглифов по ключам (Radical lookup)

Hanxuejia

Re: Ввод иероглифов по ключам (Radical lookup)

anima***

Re: Ввод иероглифов по ключам (Radical lookup)

Fozzie

Re: Ввод иероглифов по ключам (Radical lookup)

anima***

Re: Ввод иероглифов по ключам (Radical lookup)

Hanxuejia

Re: Ввод иероглифов по ключам (Radical lookup)

Макар Н.

Re: Ввод иероглифов по ключам (Radical lookup)