• Welcome to Восточное Полушарие.

News:

Друзья! Форум перенесен на новый сервер, обновлено программное обеспечение, конвертированы данные. Изменений очень много, что-то могло сломаться, что-то не заработать, что-то пропасть. Если вы обнаружили проблему на форуме, пожалуйста, напишите на admin[собака]polusharie.com — постараемся исправить! 02.01.2026

Main Menu

Японские электронные словари

Started by Palmbv, 02 July 2004 16:28:39

Previous topic - Next topic

0 Members and 1 Guest are viewing this topic.

Sapporo

Уточнение:  
Вопрос, который я имел в виду в предыдущем посте был насчет копирайта.

Frod

Quote from: Sapporo on 28 October 2004 07:41:44Уточнение:  
Вопрос, который я имел в виду в предыдущем посте был насчет копирайта.
все понятно. тогда другой вопрос? разработка словаря ведется именно своими силами? в одиночку? или группой? можно ли принять участие в проекте?
life's game

Sapporo

Quote from: Frod on 28 October 2004 07:20:50а насчет того, чтобы положить в карман и пойти... в большинстве случаев хватить и простого разговорника слов на 1000 - 10 000.
для everyday use словарь на 100 000 слов, а тем более 1 милион - просто не нужен.
даже основываясь на твоем примере. вот ты скажи, зачем твоей жене такое слово как РМС? она его сколько раз в день употребляет?

Надо признать, что слово РМС она использует нечасто. В отличие от моего приятеля - директора рыболовной компании.

Гораздо чаще моя жена использует слова 玉巻き器, かせ繰り器, 捻り目.... Редко кто из японцев эти слова знает. (Кстати, 8 ноября в Саппоро откроется выставка, где будут выставлены вязаные вещи ее дизайна.)

Это я к чему. Я согласен со многими критическими замечаниями, высказанными участниками форума. Но за одну идею я буду держаться изо всех сил. Объем словаря должен быть как можно больше!

Неужели Вы никогда не сталкивались с ситуацией, когда не находили нужное слово в словаре? Меня лично это всегда раздражает.

Кстати, японские производители электронных словарей со мной согласны и увеличивают словарные базы. Вот выдержка из статьи, на которую я ссылался в одном из предыдущих постов:
—————————-
One type of dictionary that has emerged boasts of packing information equivalent to about 50 volumes, including a book on medical science.
—————————-

Quote from: Frod on 28 October 2004 07:20:50к чему я говорю об объеме словаря? к тому, что это все имеет прямое отношение к инвестициям! т.к. разработать словарь объемом 1000 слов - это одно, а 1 мил - совершенно другое. на 1000 слов, ну грубо говоря, неделя-две уйдет, а вот 1 мил - это да. это уже несколько лет.

Вот с этим утверждением соглашусь. Разработать словарь большого объема сложнее. Но это уже проблема разработчика и инвестора.

А потребитель должен получить качественный продукт. Не хилых 10 000 слов. А полновесные 80-100 тыс. слов минимум.  Это один из тех случаев, когда количество переходит в качество.

jardic

Правильно ли я понял, что карманный словарь должен появиться раньше словаря для IBM PC и других ПК?

Sapporo

Да, Виталий, Вы поняли правильно.

Однако, все еще будет зависить от того, как решится вопрос с финансированием на этапе реализации словаря "в железе". Там предостоят очень большие затраты - разработка схемы, тестирование элементов, программирование микропроцессора, изготовление и тестирование пилотных экземпляров...

Однако, как только база достигнет приличной цифры (где-то 50 000 слов), то я планирую выложить ее в свободном доступе на сайте.

Вот тогда-то очень будет кстати сторонняя помощь. На сайте можно будет зарегистрироваться и вводить в базу свои термины. Это к вопросу "можно ли принять участие в проекте?".

Но это все дело будущего... Хотя и скорого :)

Sapporo

Quote from: Frod on 28 October 2004 07:56:32
все понятно. тогда другой вопрос? разработка словаря ведется именно своими силами? в одиночку? или группой? можно ли принять участие в проекте?


Разработка словаря до пока ведется своими силами - в одиночку. Однако уже сейчас находятся энтузиасты, которые помогают проекту - главным образом путем предоставления пользовательских глоссариев.

Obake

QuoteВот свежий пример. На днях подошла ко мне жена и спрашивает, а что такое "майя" и показывает каталог товаров для дома. Откройте последний каталог NISSEN, номер каталога 2806, страница 327, раздел одеял. Там это слово - マイヤー встречается часто: ぽかぽかマイヤー、マイヤー敷パッド、マイヤーカバー
Ну и как нуждалось это слово в переводе?
Или же просто название брэнда Meyer? :)

А как предполагается вводить слова для поиска?
Вижу я, например, незнакомое слово записанное иероглифами.
И что? Как вводить-то будем? Ромадзи? А не знаю(не помню) я чтений.
Ну скажем, как японист я могу предположить возможное чтение, что не
всегда прокатывает.  Если человек слабо знает иероглифику, то
словарик становится почти бесполезным (например один мой знакомый, часто
на занятиях спрашивает у меня как читается то или иное сочетание, чтобы найти слово в JE
электронном словарике). На своем Palme я просто могу нарисовать иероглиф и получить ответ

Sapporo

Quote from: Obake on 30 October 2004 10:03:44Ну и как нуждалось это слово в переводе?
Или же просто название брэнда Meyer? :)


Вероятно, Вы правы в том, что происхождение данного слова действительно имеет отношение к названию компании.

Однако, чтобы перевести смысл, пришлось копнуть глубже...

マイヤー  =  ニューマイヤー  =  新合繊  = синтетический материал на основе микроволокон полиэстера

———————————

Quote from: Obake on 30 October 2004 10:03:44А как предполагается вводить слова для поиска?

Русские слова - русскими буквами.
Японские слова - латиницей.
Незнакомые иероглифы - пока никак. : )

Но, как я уже говорил, в дальнейшем планируется реализовать рукописный ввод иероглифов.

jardic

Я бы, все-таки, предположил, что Meyer и Newmeyer - две разные фамилии. (Это к вопросу о сложности составления словарных статей.)

Sapporo

Quote from: jardic on 01 November 2004 11:50:36Я бы, все-таки, предположил, что Meyer и Newmeyer - две разные фамилии. (Это к вопросу о сложности составления словарных статей.)

Ваше предположение вполне резонно. Это два разных слова и логично предположить, что означают они два разных понятия.

Однако, в данном контексте речь идет все же про ткани, а не про фамилии. Даже быстрый поиск в гугле выдаст вам огромное количество ссылок, где речь будет идти об одеялах и т.п. вещах.

Раз уж об этом зашла речь, я только что позвонил в головной офис фирмы Meyer (http://www.meyer.co.jp/) в Японии и спросил в лоб - имеет ли отношение это слово (マイヤー) к названию их фирмы - 日本マイヤー. Как они мне объяснили - нет, не имеет.

Дальше я позвонил в службу поддержки NISSEN, которая выпускает каталоги. И вот что я выяснил:

1) Слова マイヤー и ニューマイヤー (применительно к ткани) означают особую технологию производства, которая придает ткани мягкость и бархатистость.

Это не расходится с информацией, которую я получил из других источников. Иногда этими словами называют саму ткань, полученную по данной технологии. В основе этой технологии - применение синтетических микроволокон.

2) Чем отличаются слова マイヤー и ニューマイヤー  друг от друга мне не смогли объяснить даже в службе поддержки.

Вопрос далек от закрытия.

Буд рад, если кто-нибудь из участников форума сможет что-либо добавить по существу вопроса.

zenzen

Весьма приятная новость.

Пока мы изобретаем велосипед в стремлении заработать миллион :), на FTP университета Монаш появился сконвертированный в формат Epwing Hannes Loeffler`ом JR-EDICT (© Олег Волков <= © Jim Breen).

http://ftp.cc.monash.edu.au/pub/nihongo/edict_ru-fpw2.1.tar.gz

Сам по себе файл содержит около семи тысяч простых статей по схеме кандзи-кана-перевод, и навряд ли может рассматриваться как «серьезный» словарь. Но я не о файле, а об идее.

Идея проста, как все гениальное - ведь в JIS X 4081 есть русские буквы, и никакие гайдзи для их отображения не требуются.

Думал, что русский текст будет опят отображаться «в разрядочку», но загрузил файл и поэксперементировал немного. При удачном выборе вьювера и шрифта все смотрится совсем неплохо. И не только смотрится. Например, файл можно искать в обратном направлении, вводя слова на русском, а результаты поиска копировать в любой редактор и везде русский текст будет нормально отображаться. Не в каждом вьювере удастся подставить юникодовский шрифт, но EBWin и EBPocket это позволяют. Прикладываю скриншоты из EBPocket`а (они просто меньше, чем десктоповские).

Я, конечно же, желаю удачи и терпения (хотя сам жду с нетерпением) всем разработчикам оригинального формата и софта для я-р словарей, но Epwing уже сейчас позволяет составить хороший словарь с развернутыми статьями, линками, богатыми возможностями поиска (по кане, кандзи, внутри статьи и пр.). Еще один плюс формата – наличие бесплатных и коммерческих вьюверов для различных платформ.

Sapporo

Рус-яп. электронные словари уже есть. И под Лингво,  и jardic, и вот теперь уже в формате EPWING.

Проблема не в том, какую оболочку или формат выбрать. Проблема в другом - как получить словарь с большим количеством словарных статей. Т.е. такой словарь, который реально можно использовать. На сегодняшний день, насколько мне известно, рус-яп электронного словаря с объемом выше 10-12 тыс. слов просто нет.

Создатель словаря jardic уже не раз объяснял почему. Если кратко - то очень сложно вводить японо-рус. словарные статьи. Нужно много человеко-месяцев. Точнее, японисто-человеко-месяцев, которые дороже обычных. : )

Вот именно в этом и заключается пробема, на мой взгляд. Первая компания, которая сможет вывести на рынок словарь с объемом хотя бы 60-80 тыс. статей, тут же обеспечит спрос на такой продукт и необходимость в самодеятельных поделках отпадет. Это всего лишь мое мнение, которое не претендует на непогрешимость. К тому же, всегда будут энтузиасты, которые готовы работать за идею.

А что касается форматов, то я так скажу. Была бы словарная база, а оболочка и формат может быть любым.

zenzen

А мне кажется, что как раз те, кто что-то реально предпринимают в направлении создания словарей, теряют много времени именно на разработке своего формата данных, своих оболочек, защите от взлома, удовлетворении запросов людей, которые еще кану не выучили и пр. А количеству статей можно в некотором смысле противопоставить их качество, т.е. развернутость. Тут-то и пригодился бы Epwing, изначально разработанный как формат именно японских словарей.

Вот мое краткое мнение по остальным форматам.

Лингво позволяет составлять развернутые статьи, но Лингво ориентирован главным образом на западные языки. Основные минусы Лингво относительно яп. языка:
1) невозможность определения границ слова – целый абзац будет считаться за одно длинное слово;
2) отсутствие настоящей поддержки пользовательских (в том числе японского) языков – в теге language name внутри тела карточки нельзя задать Japanese, а можно только подставить language id, подсмотрев его в регистре, и у разных пользователей оно может отличаться;
3) невозможность создания двойных индексов поиска по кандзи и кане.

Jardic же по сею пору не позволяет создавать развернутых статей с примерами и ссылками, и предназначен лишь для одной платформы. Надеюсь, Виталию удастся преодолеть подобные затруднения.

И на счет спроса сомневаюсь. Действительно ли спрос на яп-рус. словари будет на столько велик, что сможет окупить затраты на создание «жесткой» заводской версии?

Печально и то, что каждый создает втихаря свою базу, нет чтобы объединить усилия.

Sapporo

Quote from: Zenzen on 15 November 2004 21:36:36А мне кажется, что как раз те, кто что-то реально предпринимают в направлении создания словарей, теряют много времени именно на разработке своего формата данных, своих оболочек, защите от взлома, удовлетворении запросов людей, которые еще кану не выучили и пр.

Я вам не отвечу за всю Одессу, но отвечу за себя. Я лично не ставил во главу угла формат данных и практически не тратил на это время. На что действительно ушло много времени - так это на разработку инструментария, который помогает создавать базу данных.

Как я уже неоднократно упоминал - уже имеющуюся базу можно перевести в любой необходимый формат.

Вообще-то, к электронным словарям нельзя подходить так же, как к бумажным. В бумажном словаре словарная статья на одно слово может занимать целую страницу. Найти нужную информацию при этом довольно затруднительно...

Мне ближе подход Владимира Селегея к компьютерной лексикографии(http://www.lingvoda.ru/transforum/articles/selegey_a1.asp).

Quote from: Zenzen on 15 November 2004 21:36:36И на счет спроса сомневаюсь. Действительно ли спрос на яп-рус. словари будет на столько велик, что сможет окупить затраты на создание «жесткой» заводской версии?

Печально и то, что каждый создает втихаря свою базу, нет чтобы объединить усилия.

По моим оценкам минимальный спрос на карманный эл. словарь где-то в  районе 1000-2000 шт. в год.

А что касается объединения усилий.... На самом деле, не все готовы работать бесплатно. Если бы к Вам обратились с предложением "поработайте годик-другой бесплатно ради общего блага", то, думаю, Вы бы вряд ли согласились...

А ведь речь идет именно об этом. В разработку вкладываются значительные усилия, и, как любая работа, она должна быть в конце концов оплачена. Думаю, Виталий (создатель jardic) со мной согласится.

zenzen

Quote from: Sapporo on 16 November 2004 19:46:26Я вам не отвечу за всю Одессу, но отвечу за себя.
Спасибо за ответ, Sapporo. Я же прекрасно понимаю, что занимаюсь тут в основном трепом и людей от дела отвлекаю. :)

Тем не менее, не вижу особых противоречий между моим призывом к развернутости статей в эл. варианте и взглядом В. Селегея. Он не ведет речь о сокращении словарной статьи, а лишь подчеркивает «более изощренные возможности показа содержания словарной статьи», т. е. можно показывать всю статью целиком, а можно лишь какие-то необходимые ее фрагменты. Эта же возможность уже осуществлена в Лингво. А «полнотекстовый поиск» как раз и предназначен для развернутых статей.

Конечно же, словари составлять сложно, а когда этим занят один человек, учитывая время и компетентность данного человека, практически невозможно. Все мы в чем-то компетентны, а в чем-то нет. Составление же хорошего словаря требует поистине энциклопедических знаний. Именно поэтому было бы проще перевести хороший бумажный словарь в эл. форму, чем заниматься непосильным трудом по составлению «своего» словаря на многие тысячи слов. Если посмотреть на те же словари Лингво, то наибольшую пользу и интерес из них представляют именно эл. аналоги бумажных.

Действительно, не хочется тут разводить пространные разговоры, мало кому интересные кроме нас с Вами.

В общем, как Вам, так и Виталию желаю успехов в этом нелегком труде. Лишь бы были хорошие результаты.

К Вам же есть несколько вопросов и предложений, с которыми намерен обратиться недельки через две по возвращении из Росси.

jardic

Полностью согласен двумя последними сообщениями Sapporo и Zenzen.

Ya.Da.

Privetstvuyu vseh, kogo ne znayu(a ne znayu nikogo). Proshu vas viruchit` menya! Gde mojno kupit`elektronniy karmanniy slovar` ru/jp-jp/ru? I est` li oni voobsche na svete? Ya seichas v Yaponii, nujen pozarez. Mne zdes` eschyo 10 mesyatsev kolbasit`sya. E-mail: yamatodamashii_no_igor@docomo.ne.jp (Eto sotoviy.Pishite latinitsey, pojaluista,a to zdes` russkiy ne razbiraet) OCHEN` JDU OTVETA! SPASIBO! igor

Sapporo

Написал Игорю, чтобы не искал понапрасну - такого словоря еще нет. Можно пока только анг-яп. пользоваться.

А вообще, такие вот сообщения ясно дают понять, что на рынке наблюдается спрос. Людям объективно нужен электронный яп-рус. словарик.

А это значит, что скоро должно появиться предложение. И оно появится. :)


osh

Поскорей  бы ! 
Хотелось  бы  пожелать  удачи  всем ,  имеющим  отношение  к  этой  разработке !

Frod

Нужно то нужно, но нужен именно хороший словарь, а не разговорник с набором из пары тысяч фраз... :(

Да и к тому же желательно, чтобы еще была возможность вводить канджи стилусом, как в пальмах...
life's game

Sapporo

Обновил сайт и выложил бету-версию JARCi для свободного скачивания. 11 тыс. слов по спец. тематикам.

Скачивайте, пробуйте. Комментарии и предложения приветствуются.

www.jarci.com



Frod

все хорошо, вот только трояна бы в нем еще не было, а так все замечательно :)
life's game

Sapporo

Трояна там нет, в чем специалисты могут легко убедиться.

Посылается ТОЛЬКО информация о внесенных изменениях. Вот что реально посылается (получено при отладке):

Added:
<DocumentElement>
  <main>
    <ID>11702</ID>
    <japword>ねこ</japword>
    <yomikata>ねこ</yomikata>
    <rusword>кот</rusword>
    <subj>1</subj>
    <author>204</author>
  </main>
</DocumentElement>

Modified:
<DocumentElement>
  <main>
    <ID>11702</ID>
    <japword>ねこ</japword>
    <yomikata>ねこ</yomikata>
    <rusword>кот1</rusword>
    <subj>1</subj>
    <author>204</author>
  </main>
</DocumentElement>

————————- 

Впрочем программу я разместил на сайте больше для своих знакомых. Некоторым из них по работе приходится составлять словники (списки слов) по какой-либо тематике и моя программа для этих целей очень подходит - все лучше, чем на бумажке писать или в Excel.

Кстати, я пока нигде в инете (кроме этого форума) не давал ссылку на сайт, поскольку проект еще недостаточно готов для широкой публики.

Сейчас я хочу на некоторое время оторваться от работы над оболочкой и сосредоточиться на словарной базе - т.е . на вводе общей лексики.

zenzen

Да, хорошая идея! Программа, конечно, сыровата, но на то она и бэтка для друзей. Надеюсь, что все это разовьется в нечто большое и полезное. :)
Критиковать особо не буду, но вот что сразу в глаза бросается:
По базе:
1) Как и во всех сходных разработках, ужасно недостает поля для примеров употребления слова. Думаю, это станет ясно при пополнении базы общей лексикой. Есть слова (грамматические конструкции и прочее) для которых отсутствуют точные эквиваленты в обоих языках и смысл может быть постигнут именно из примеров. Не говорю уже о том, что даже для слов с точным переводом необходимы примеры употребления.
3) Обязательное навязывание тематики каждому слову, не есть хорошо. Например, сейчасアース относится к автомобилям и судовому оборудованию. Но ведь заземление, оно где угодно – заземление.
2) Почему-то сама база засунута аж в COMMON FILES. Не знаю, есть ли смысл отделять базу от программы.
По программе:
1) Хотелось бы все-таки решать на стороне пользователя, загружать ли программу в трей при каждом старте Windows или не загружать.
1) Программка предназначена по сути всего лишь для чтения и пополнения базы данных, и хотелось бы видеть более простое программное решение, без дополнительной загрузки и установки Net Framework.

Хочется еще много чего добавить, и по программе, и по базе. Но отнесемся с нежностью и терпением к сему молодому ростку. :)

Sapporo

Большое спасибо Zenzen за комментарии.  А критика - это хорошо. Именно она позволяет сделать программу лучше.

Quote from: Zenzen on 25 February 2005 22:05:44
Критиковать особо не буду, но вот что сразу в глаза бросается:
По базе:
1) Как и во всех сходных разработках, ужасно недостает поля для примеров употребления слова. Думаю, это станет ясно при пополнении базы общей лексикой. Есть слова (грамматические конструкции и прочее) для которых отсутствуют точные эквиваленты в обоих языках и смысл может быть постигнут именно из примеров. Не говорю уже о том, что даже для слов с точным переводом необходимы примеры употребления.
Тут нужно немного объяснить о том, как строится словарная база. Вся база состоит из пар "слово-перевод". Т.е. примеры должны являться как бы отдельными статьями.

Я согласен с тем, что примеров, т.е. фраз и предложений, иллюстрирующих использование конкретного слова, должно быть как можно больше. И их будет больше - со временем. Однако все они будут являться самостоятельными статьями.

Кстати, именно по такой схеме (слово-перевод) построен, пожалуй, самый полный англо-русский словарь www.multitran.ru.

Quote from: Zenzen on 25 February 2005 22:05:44
3) Обязательное навязывание тематики каждому слову, не есть хорошо. Например, сейчасアース относится к автомобилям и судовому оборудованию. Но ведь заземление, оно где угодно – заземление.

Насчет "заземления" - вполне справедливо. Все подобные слова будут в единой тематике - "общая лексика". Т.е. тематика "общая лексика" будет иметь приоритет над всеми другими тематиками. Другими словами, в спец. тематиках (вроде того же "судового оборудования") останутся только те термины, которых нет в "общей лексике".

Quote from: Zenzen on 25 February 2005 22:05:44
2) Почему-то сама база засунута аж в COMMON FILES. Не знаю, есть ли смысл отделять базу от программы.

Это рудимент периода отладки. Будет исправлено.

Quote from: Zenzen on 25 February 2005 22:05:44
По программе:
1) Хотелось бы все-таки решать на стороне пользователя, загружать ли программу в трей при каждом старте Windows или не загружать.

Согласен. Нужно будет добавить пункт об отключении автозагрузки в Настройках.

Quote from: Zenzen on 25 February 2005 22:05:44
1) Программка предназначена по сути всего лишь для чтения и пополнения базы данных, и хотелось бы видеть более простое программное решение, без дополнительной загрузки и установки Net Framework.

Просто под .Net довольно удобно и быстро программировать и изначально вообще не ставилась задача превращать оболочку в доступную широкому пользователю программу. Я эту оболочку с самого начала только для себя делал - наряду с другими инструментами для работы со словарной базой.

По хорошему, конечно, надо бы переписать JARCi на другой язык программирования, не требующий Net Framework. Но это уж как будет время.