Приветствуем! Мы запустили новую версию форума. Надеемся что вам она понравится. Если вы нашли проблему или у вас есть предложения - напишите нам :)

Шрифты, Кодировки, Иероглифы (на компьютере)

Здесь предлагаю делится инфой по шрифтам, кодировкам и прочему.... здесь всем предлагаю следующую ссылку для ознакомления с историей предмета http://wuecon.wustl.edu/~ec110ev/fa01/characcodehist.html ниже, привожу сообщения уважаемого quaxter'a перенесенные из другой темы. ***************** оригиналы сообщений можете просмотреть в теме "Конкурс 3 = 1. Сколько всего?" https://polusharie.com/?id=1036905780; вот на модзыкё http://www.mojikyo.org/html/abroad/download.html по умолчаниию грузится иероглиф № 48846. На ём аш четыри дракона. Даешь больше драконов, хороших и разных... А всего ханьцов с кандзами, ханчжами и вьетнамскими иероглифами у них больше 110 тысяч (ста десяти тысяч). Кто не гулял в ихнем саду - загляните. **** .... вот привалило счастье: купил днесь в 13:00 по Киеву книжицу Ken Lunde, CJKV Information Processing, O'Reilly, 1999. То, что автор последовательно пишет не CJK, а CJKV (добавляя вьетнамский язык и аспекты его компьютерной реализации) - в известном смысле новация, но новация весьма полезная. Заявляю со всей ответственностью, надвинув на голову ведро до поясницы во избежание оплеваний с заушениями... Тема этого треда элементарно может быть исчерпана, если вы включите у себя в операционке способ ввода иероглифов Wubi. По-моему, эта феня пашет не только под виндой. Остальное доступно не только шимпанзе - понятно полному дебилу, увидевшему ханьцзы две минуты назад. Жмете 3 (4, 5, 143) раз на любую понравившуюся клавишу евроклавиатуры - и получаете соответствующий хиероглиф, аще таковой обрящется. Раскладка Wubi в упомянутой книге на 243 стр. Только вот даже jian2 (три женщины) в такой способ не наберете. И все равно, славный вы наш ПапаХуХушенька, есть еще кроме мозыкейного шрифтец GT-Mincho (реплика известного китайско-японского начертания Ming-Min) в обалденной графической реализации, но идущая только в репликах японской ОС TRON - μTRON - bTRON. Смотрите на сайтах Токё дайгаку / Sakamura Laboratory. У них есть не только тангуты... А доблестный Джек Хэлперн с его славным помощником Йоуни Керманом воапсче такую базу ханцзейно-лексических данных сколотили. Даже легендарный Тэцудзи Морохаси отдыхает... Все его 13 + 2 тома Канва дайдзитэна с 36-мя томами тайваньского словаря туда вошли стройными рядами. ****** Ссылки: http://www.l.u-tokyo.ac.jp/KanjiWEB/00_cover.html и далее (Токийский ун-т) с сайта Sakamura lab (тоже дунцзин дасюэ) http://www.sakamura-lab.org слетело множество страниц, в частности посвященных TRON & GT-Mincho, много under construction - зато повыкладывали личные послужные списки сотрудников Кое-какую инфо можно взять даже в личных делах (напр. Нобору Косидзука: http://www.adm.u-tokyo.ac.jp/IRS/IntroPage_J/intro60486351_j.html ) Ну и вообще http://www.google.com/search?q=GT-Mincho&sourceid=opera&num=0&ie=utf-8&o e=utf-8 Или набираете латиницей / кандзи noboru koshizuka или ken sakamura в лучшей в мире искалке (гугл, коперник) - и вперед. Эти два славных парня за все ответют. Есть еще Хэлперн с Керманом, тоже в Токё. там все просто: http://www.cjk.org если упросите мессира Джека Хэлперна, убедив в некоммерческом использовании его базы данных - получите доступ к ней за вполне символическую плату. Из убитых страниц Сакамуры кое-что уцелело на моем винте. И есть демонстрашка этого самого GT-Mincho, exe-шник, ставящий фишку с японским интерфейсом. *********** Японцы оказались достаточно умны, чтобы выбросить такое сокровище, не переложив его на другую папку. Возрадуйтесь - обретохом паки: http://www.l.u-tokyo.ac.jp/GT/Codebook/CDbook11.htm http://www.l.u-tokyo.ac.jp/GT/Codebook/CDbook21.htm http://www.l.u-tokyo.ac.jp/GT/Codebook/CDbook31.htm http://www.l.u-tokyo.ac.jp/GT/Codebook/CDbook41.htm http://www.l.u-tokyo.ac.jp/GT/Codebook/CDbook51.htm Это таблицы кодировок GT-Mincho вместе с картинками иероглифов, нарезанные на 5 хтмлов. Бровзить надо в кодировке Japanese S-JIS, можно Japanese Auto-select. Попробуйте еще порыть банальной искалкой на romaji/hiragana/kanji а) chokanji b) kanjiweb это все вокруг трона и GT-Mincho Личная Web-страничка профессора Нобору Косидзука: http://www.l.u-tokyo.ac.jp/~koshi/ Если нужен повод для завязывания беседы, скажите профессору, что его статья WISS2000.PDF неизменно грузится побитой и Acrobat ее не хочет читать. Его публикации выложены по адресу: http://www.l.u-tokyo.ac.jp/~koshi/PAPERS/ Личной странички професора Кена Сакамура я пока не нашел. Не сомневаюсь, что она есть. **************

Написать комментарий...
Papa HuHu
18 years ago

очень интересная статья по вопросам перевода (компьтерного) из "простых" в "сложные" иероглифы и обратно... рекомендую!

http://www.cjk.org/cjk/c2c/c2cbasis.htm

Ответить
quaxter
18 years ago
очень интересная статья по вопросам перевода (компьтерного) из "простых" в "сложные" иероглифы и обратно... рекомендую!

http://www.cjk.org/cjk/c2c/c2cbasis.htm

Дружище Papa HuHu! Да это ж классика, было давно опубликовано на двух китайских, японском и английском языках в И-нете. Слушайте сюда все:

Светозарные прозрения Хэлперна (единоличный автор печатной и электронной версий яп-англ словаря Кэнкюся) и Кермана давно (!!!) реализованы в электронном виде масачуссетской фирмой Basis Technologies www.basistech.com Правда, американцы остановились перед четвертой верхней планкой - контекстной конверсией c2c. Обаче возрадуйтеся, аще не ленивии и пугливии есте. На сайте этой же фирмы выложены онлайновые демо-конвертилки c2c, достигающие 3-го уровня конверсии по Хэлперну/Керману (лексемная коверсия). Я уже более года пользуюсь этой чудой. Испытайте, и вы убедитесь: это здорово!
даю ссылки: общая конвертация c2c до 3-го уровня по Хэлперну/Керману:
http://demos.basistech.com/c2c
конвертация трад. ханьцзы -> упрощ. ханьцзы
http://demos.basistech.com/tc2sc
обратная конвертация упрощ. ханьцзы -> упрощ. трад. ханьцзы
http://demos.basistech.com/sc2tc

При попытке проникнуть на эту страницу фирма потребует заполнить анкету. Фокусы с проксятиной и анонимайзингом не проходят. Там серьезные системные программисты работают. Пишите правду, как бы горька она ни была. Самое худшее, что может за этим последовать - в вашу контору придет спамное письмо спредложением купить базистеховскую продукцию.
Упаси вас Бог согласиться! Продукция компании предназначена для торговых и справочных монстров типа Гугла, Амазона и т.п. Поставляется в виде DLL и стоит сотни тысяч долларов. Мне год назад предлагали скидку. Готов отказаться от нее в пользу любого желающего.
Приведенное соображение полностью обосновывает целесообразность работ с этими демо. Но там есть и другие, и какие! чего стоят морфемные анализаторы... Старым японским морфемным анализатором я пользовался как переводчиком - в нем была и сегментация, еже есть дробление сплошного иероглифического текста на лексемы, транскрипция + перевод. Новый варант это упразднил. И вообще, там ЛЮДИ работают.
Приносячие человекам Пользу. Даже в онлайновом демо-варианте.

Ответить
quaxter
18 years ago
Здесь предлагаю делиться...

Сначала http://www.l.u-tokyo.ac.jp/GT/ALLGTLST2.DOC (сразу закачка)
Потом
http://ms326.ms.u-tokyo.ac.jp/otobe/hobby/files/gtcode.lzh
имитирует TRONную кодировку GT под виндой.
Офис должен быть не ниже 2000.
Открываете вордой файл ALLGTLST2.DOC, и вам являются 67548 иероглифов в этой кодировке. Тыркнув курсором по иероглифу вы в том окошке ворда, где обычно отображается название фонта, видите название подсемейства GT (от GT2000-1 до GT2000-11j). Если у вас установлена поддержка азиатских языков в офисе 😆 , попытка узнать чтение иероглифа и некоторые другие действия неминуемо обвалят ворд :-/ . 47 страниц мелких 10-пунктовых иероглифов.

Ответить
quaxter
18 years ago

http://www.praxagora.com/lunde/cjkv-ip.html
это американский норвежец Кен Лунде, егоже аз с перепугу принял за азиата. А в Азии он 剣小林 (ken kobayashi, jian xiaolin)
Ведущий специалист Adobe по CJKV-типографике. С его сайта можно выйти еще на кучу урлов, на которые он ссылается в своей книге. Есть ряд скриптов и конверторов кодировок, которые я по причине отсутствия нужды пока не опробовал.

Ответить
Sat_Abhava
18 years ago

А у меня есть скромное предложение к администрации форума... :🙂

Тем и проблем по компьютерной тематике может быть очень много... причем связанных не только с китайским языком, а с восточными языками вообще...

По-моему, такая тематика достойна отдельного специального раздела на Вашем форуме!!! 😁

Ответить
quaxter
18 years ago

И у меня вопрос есть 🙄
Когда я в MS Word 2000 с дефолтовым русским вклёпываю через клипборд цзыры, они какого-то нечистого идентифицируются как КОРЕЙСКИЕ. 😞 Вручную приходится это безобразие перекрашивать в нужный язык. >😞
У кого-нибудь из бордян была такая лажа? Если залавили - поведайте как. 😁) .
Ежели кто знает ответ - свистните, pls

Ответить
Prokhor
18 years ago

Ежли я правильно понял Квакстера, то хочу немного уклонившись от сабжа поведать такую историю...

По статистике, в день, хотя бы у одного из счасливых юзеров вИНДЫ отказывает мышка... Не обошла такая участь и меня... И вот я стал очередным обладателем трупика под правой рукой. 😢 Пришлось через клаву покорять могучий КОД, созданный дядей Биллом и его свитой - Мелкософтом.

Наткнувшись в вордЕ на пунктик Формат/Шрифт я увидел не простенькое окошечко с возможностью изменения шрифта, но и (!) его размера, цвета видоизменения и многа всякой другой х**ни (пардон)

Дык вот там же под менюшкой "Шрифт (Латиница)" есть ещё и "Шрифт (Вост-азиатское письмо)"... Если там вместо Батанга (туды его налево!) прописать до боли знакомый Симсуньчик трабл должОн ликвидироваться. Прошу - терзайте дальше Могучий Код! 🙂

Ответить
Prokhor
18 years ago

А я вот ещё такую феньку для вордА придумал:
Большинству известно, что вводить шибко специфические буковки пиньиня в вордЕ дело неблагодарное - 2 и 4 тоны вроде бы попроще (Ctrl+'(или `),буковка) а вот комбинации 3 и 1 тонов, а также буковку u: я прописал в горячих клавишах, в нормал.доте сохранил и стал юзать :🙂

Трабл всплыл дальше... все буковки, которые есть в наборе "Латиница-1" пишутся нормально, а вот буковки, которых там нет, а есть в "доп. латинице" пишутся Симсуньчиком и вдобавок язык переключается на китайский, что вообще-то не предусматривалось.... (🙄) Чё делать?.....

Ответить
Prokhor
18 years ago

😢 😢 :-/ 😷 🙄 :🙂 :*) :*) :*) 😁) 😁) 😁)

После рёва неумеренного (то бишь revus neumerennus %) у меня настал смех истерический, с небольшими проявлениями безбашенности и садизма:

А может бахнем?

К х*ям собачьим вордину, и норамл.дот, и иже с ними!!! (анкор пардон)

Да здравствует Сетуп.егзе всегда радующий нас своей девственностью :*)

Ответить
Prokhor
18 years ago

А вот мне ответит хто-нють?
Почему в вин2000+ворд2000 есть такая штучка:
Язык текста - Китайский(КНР), я нажимаю Формат, Разметка для В-А языков, Фонетич. комментарий, и что бы вы думали? По дефолту устанавливается пиньиньньые чтения ВСЕХ иерогов... Если язык Китайский(Тайвань), то такая же хрень, но с БоПоМоФо (будь она неладна)....

А Вот в винХР+вордХР, Бопомофо осталось, а пиньинь спёрли!!! Как его можно вернуть?... 😢

Ответить
MiR
18 years ago
А Вот в винХР+вордХР, Бопомофо осталось, а пиньинь спёрли!!! Как его можно вернуть?... 😢

Кажется, кто-то недавно на это жаловался... Не помню, может быть, и на форуме... Решалось установкой Office XP MUI for Simplified Chinese с полной поддержкой proofing tools. Как говорится, ставьте лицензионный или хотя бы хорошо сворованный софт!🙂

Ответить
Prokhor
18 years ago
или хотя бы хорошо сворованный софт!🙂

Кхм..... :*)
Уж сколько раз твердили миру, что быть СЛЕГКА БЕРЕМЕННЫМНЕЛЬЗЯ!

А вот за совет дуо се!

Ответить
Prokhor
18 years ago

Кстати, а ссылочкой на сию заманчивую софтину г-н МиР не поделится? 😉

Ответить
Fozzie
18 years ago
Кстати, а ссылочкой на сию заманчивую софтину г-н МиР не поделится? 😉

За полгода поисков ни одной живой ссылы оттопырить не получилось - пришлось прогнуться под самовывоз из первопрестольной. На осле периодически проскакивают, но закачиваться не торопятся.

А не тяжко-то будет полугиговую образину до Томска тянуть? 😉

Ответить
MiR
18 years ago
Уж сколько раз твердили миру, что быть СЛЕГКА БЕРЕМЕННЫМ НЕЛЬЗЯ!

Совершенно не в этом дело... Если народ тырит софт, особливо винды или офисы, то почему-то считают, что поддержки восточных языков можно обрубать... Но потом приходят они - те, которые, как слоны, никогда не платят - востоковеды... И выясняется, что поддержка все-таки нужна. Поэтому я и говорю, воровать надо умело, или не воровать совсем.
Что касается ссылочки, в сети пока не встречал, а сам не выложу, целый компакт - это много.

Ответить
quaxter
18 years ago
Если народ тырит софт, особливо винды или офисы, то почему-то считают, что поддержки восточных языков можно обрубать...

А манера наших ломателей известна: половина пиратского софта глючная, половина с неполной функциональностью. К счастью пересечение их непусто, а то вообще брать в руки эти сидюки було б брыдко та гыдко.
Да вообще-то дело такое... Есть же клевая штукенция, OpenOffice называется. Качаете на законных основаниях, ставите, работаете. Там все есть, даже поддержка восточных языков и восточные же варианты интерфейса. Вопрос с офисом может быть закрыт без участия мелкософта и без попрания копирайта и копилефта. А вот с виндой плохо дело. По любому причем плохо. Увы...

Ответить
Fozzie
18 years ago
А Вот в винХР+вордХР, Бопомофо осталось, а пиньинь спёрли!!! Как его можно вернуть?... 😢

Глянул чуть выше и понял, что немного тормознул. :*)

Попробуй установить Office XP Tool: Global IME (Simplified Chinese) (http://office.microsoft.com/downloads/2002/imechs.aspx). Проблему с пиньинем это должно решить.

Ответить
Prokhor
18 years ago
Попробуй установить Office XP Tool: Global IME (Simplified Chinese) (http://office.microsoft.com/downloads/2002/imechs.aspx). Проблему с пиньинем это должно решить.

Спасибо, добрый человек! Съедено ещё 22 метра но,.............. блин

Я торчу, люди!!! :*)

Тааакс... как бы ещё сделать, чтобы транскрипции комментарии давались не дурацкой латиницей симсуня, а таймсом, который нью роман?

ЗЫ. умный народ может ещё подскажет тупому, что там в этих 22 метрах такое творится? неужели одна транскрипция для ворда? 🙄

Ответить
quaxter
18 years ago
Тааакс... как бы ещё сделать, чтобы транскрипции комментарии давались не дурацкой латиницей симсуня, а таймсом, который нью роман?

Не ленись - напиши макрос САМ. Это делается в три движения кисти (в которой мыша зажата), а не той, которой шуфень на плетень наводят.

ЗЫ. умный народ может ещё подскажет тупому, что там в этих 22 метрах такое творится? неужели одна транскрипция для ворда? 🙄

Чувак, у тебя механистическое представление о программе. Это ж не просто на штаны латка - нацепил, прошил по краям - и готово.
Там должны быть коды всех иерогов, все комбинации пиньиня и таблица соответствия слогов пиньиня одному или нескольким омонимичным иерогам. Это несколько больших файлов типа простой таблицы перекодировок. К этому должен быть прицеплен скрытый движок, который управляет этими базами данных - сортирует, производит выборку и окончательную идентификацию. А потом, конечно же, надо латать дыры в донельзя горбатой выньХРен. То есть что-то вставить, а что-то и убрать. Это все программа делает, которая место занимает. А потом там еще инсталлятор должен быть, который проверит куда ты свой выньХРен вкатил, какие проги у тебя есть, требующие поддержки азиятских языков, как и куда впаять ее туда, ну и просто запустит программу установки этой программы. Ну, и в самой WinXP что-то меняет этот патч. В твоем случае - дает возможность пиньинем набирать китайский текст, давая на выходе цзыры.

Ответить
Prokhor
18 years ago
Не ленись - напиши макрос САМ.

😳 😳 😳

Shifu, научИте меня драться..... 😢

Ответить
Fozzie
18 years ago
Только окончательный ответ от Юникода не за горами... смотрите http://www.unicode.org/charts/ Там почти все ясно.

А в особенности ежели обратить на указанной страничке особливое внимание на пятую снизу строку в правой колонке (CJK Unified Ideographs Extension B) и догадацца что это вовсе не план и не проект, а уже почти два года существующий СТАНДАРТ...

Ответить
quaxter
18 years ago
А в особенности ежели обратить на указанной страничке особливое внимание на пятую снизу строку в правой колонке (CJK Unified Ideographs Extension B) и догадацца что это вовсе не план и не проект, а уже почти два года существующий СТАНДАРТ...

Замечательно. Вы смотрели документы действующего стандарта 3.2, я-тоже. Но я говорил кроме того и о другом. Я хорошо помню обе эти колонки, и некоторые из документов у меня лежат на диске в соответствующих папках. Часть, относящуюся к CJK Unified Ideographs, арабскому и армянскому алфавитам и деванагари я не поленился распечатать. Есть, однако же, у консорциума рабочие документы. Их передают только пользователям определенного рода - например, фирмам, производящим "большие" юникодовские шрифты. Типа Arial Uniode MS, Bitstream Cyberbit или CyberCJK и прочим конторам, напрямую связанным с разработкой операционных систем, мощных офисных пакетов и проч. До утверждения оных в качестве стандарта. Главным образом для того, чтобы выпускаемый продукт соответствовал нормам не только существующего, но и готовящегося стандарта. А так возраст версии 3.1 (если не ошибаюсь) три года, а нынешняя 3.2 не имеет и двух лет отроду.

Ответить
Fozzie
18 years ago
Замечательно. Вы смотрели документы действующего стандарта 3.2, я-тоже.

В "тоже" - весьма сильно сомневаюсь.

И возвращаясь к началу: так сколько же всего иероглифов содержится в ныне действующем стандарте Unicode 3.2.0?

Ответить
york
18 years ago
В "тоже" - весьма сильно сомневаюсь.

И возвращаясь к началу: так сколько же всего иероглифов содержится в ныне действующем стандарте Unicode 3.2.0?

Врать не буду, но вродеоколо 6800.

Ответить