Восточное Полушарие

Китайский форум => Китайский язык: письменность, изучение, диалекты, вэньянь => Китайский Язык: компьютеры, программы, шрифты => Тема начата: pnkv от 11 Января 2006 17:42:12

Название: Препарация и грабинг сайта
Отправлено: pnkv от 11 Января 2006 17:42:12
Есть такой сайт, хитро сделанный
http://210.32.137.91/

На нем хранится некоторое количество книг в формате DJVU, но то ли они на другом сайте расположены, то ли еще где, но скачать телепортом их не удается. И найти ссылки, где эти страницы DJVU расположены также не получается.

Есть ли способ скачать книги целиком, а не сохраняя их по отдельной странице?

Вот, например, эту книгу:
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/oebbrowser.html
Название: Re: Препарация и грабинг сайта
Отправлено: Echter от 11 Января 2006 19:52:55
...Вот, например, эту книгу:
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/oebbrowser.html

   Книга лежит на сервере в таком формате:
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/00000001.djvu
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/00000002.djvu
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/00000003.djvu
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/...............djvu
Название: Re: Препарация и грабинг сайта
Отправлено: pnkv от 11 Января 2006 20:51:42
   Книга лежит на сервере в таком формате:
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/00000001.djvu
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/00000002.djvu
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/00000003.djvu
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/...............djvu

Спасибо, но опять таки возникает вопрос, а как это скачать за раз? Если в телепорт вставлять ссылку
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/
то он не видит файлы, находящиеся в папке ptiff, а возможности закачки по шаблону там нет.
Название: Re: Препарация и грабинг сайта
Отправлено: Fozzie от 11 Января 2006 21:10:13
Элементарно, Ватсон!  ;D
Ставишь себе FlashGet, а в нём есть такая фишка как "Пакетное задание" (см. рисунок). Я таким образом вытянул все картинки иероглифов с Mojikyo (правда за это они, похоже, забанили мой рабочий IP).
Название: Re: Препарация и грабинг сайта
Отправлено: pnkv от 11 Января 2006 21:24:44
Здорово!
Теперь я даже и не знаю, а есть ли необходимость в создании библиотеки при форуме.
 ;D
Название: Re: Препарация и грабинг сайта
Отправлено: Fozzie от 11 Января 2006 21:35:42
Теперь я даже и не знаю....
(C) "Особенности национальной охоты"  ;D ;D ;D
Название: Re: Препарация и грабинг сайта
Отправлено: Fozzie от 11 Января 2006 23:10:58
А сайт-то вкусненький! ::)
Я с ходу нашёл там пару очень нужных мне книг по 山海經. Теперь пойду разбираться, что же это конкретно я скачал...  ;D
Название: Re: Препарация и грабинг сайта
Отправлено: groovy_merchant от 12 Января 2006 00:40:23
Сайт прекрасный. Вот только некоторые книжки не дает - или на айпи ругается, или говорит, что кто-то там читает. Можно ли по идентификатору книжки найти ее фиксированый сетевой адрес?
Название: Re: Препарация и грабинг сайта
Отправлено: pnkv от 12 Января 2006 00:48:32
Да, интересно было бы узнать, какой ай-пи его устроит. А что кто-то там читает – похоже на отмазку. Был ли у кого случай, когда «читающая» книга потом становилась доступной?

Кроме того ряд книг доступен только партнерам, что тоже печально.

Название: Re: Препарация и грабинг сайта
Отправлено: pnkv от 12 Января 2006 01:03:56
Еще такой вопрос, а как отдельные DJVU соединить в целый файл. В LizardTech Document Express Editor такой функции не нашел.
Название: Re: Препарация и грабинг сайта
Отправлено: Fozzie от 12 Января 2006 02:53:26
Еще такой вопрос, а как отдельные DJVU соединить в целый файл. В LizardTech Document Express Editor такой функции не нашел.
Э-э-э... А "Вещий", случаем, не от слова "чемоданы"?  ;D
Это можно сделать в Workflow Manager (у меня, как и у всех, Document Express Enterprise 5.1).
Название: Re: Препарация и грабинг сайта
Отправлено: pnkv от 12 Января 2006 03:13:09
Ааа, ну понял. У меня с помощью Insert Page.
Название: Re: Препарация и грабинг сайта
Отправлено: Fozzie от 12 Января 2006 03:28:00
Ааа, ну понял. У меня с помощью Insert Page.
900 раз Insert Page? Важковато буде...
Название: Re: Препарация и грабинг сайта
Отправлено: pnkv от 12 Января 2006 03:35:10
Ааа, ну понял. У меня с помощью Insert Page.
900 раз Insert Page? Важковато буде...

нет, там можно пакетно добавлять. Хотя, стоит перейти на Enterprise.
Название: Re: Препарация и грабинг сайта
Отправлено: Fozzie от 12 Января 2006 03:53:09
Хотя, стоит перейти на Enterprise.
Коль пошли такие сайты - ставь, Олежка, Enterprise!  ;D
Название: Re: Препарация и грабинг сайта
Отправлено: Glasha от 12 Января 2006 21:25:22
Только расстраивают. Книжек десять нужных сразу подряд - то айпи, то только партнёрам, то читают. У меня и охота пропала искать, что там вообще откроется. Пока ничего не выходит
Название: Re: Препарация и грабинг сайта
Отправлено: Glasha от 12 Января 2006 21:38:56
Или у меня айпи какой-то особенный? Например, захотела ещё про Лян Шумина прочитать - и все 32 книги не получилось.
Название: Re: Препарация и грабинг сайта
Отправлено: pnkv от 12 Января 2006 21:50:52
Или у меня айпи какой-то особенный? Например, захотела ещё про Лян Шумина прочитать - и все 32 книги не получилось.

а ссылка какая?

Название: Re: Препарация и грабинг сайта
Отправлено: Glasha от 12 Января 2006 21:53:38
Э-э-э... http://www.cadal.zju.edu.cn/root_english/metaquery/metaquery_brief2.jsp?basefield=title-sub-des&basevalue=%C1%BA%CA%FE%E4%E9&pattern=0&searcharea=all&order=Title&perPage=25&ad=asc#
Вот
Это всё оттуда же
Название: Re: Препарация и грабинг сайта
Отправлено: pnkv от 12 Января 2006 22:28:01
Э-э-э... http://www.cadal.zju.edu.cn/root_english/metaquery/metaquery_brief2.jsp?basefield=title-sub-des&basevalue=%C1%BA%CA%FE%E4%E9&pattern=0&searcharea=all&order=Title&perPage=25&ad=asc#
Вот
Это всё оттуда же

у меня тоже облом.
Название: Re: Препарация и грабинг сайта
Отправлено: Echter от 13 Января 2006 00:57:29
Только расстраивают. Книжек десять нужных сразу подряд - то айпи, то только партнёрам, то читают...

   Судя по всему, не читают, а "проверяют качество". Вполне возможно, эти книги ещё даже не отсканированы.
   А IP, наверное, нужен китайский. Можно попробовать китайский прокси.
Название: Re: Препарация и грабинг сайта
Отправлено: pnkv от 13 Января 2006 01:09:59
Небольшое наблюдение.

Если в поиске файл отмечен словом Read (c большой буквы), то он недоступен.
Если с маленькой – read – то:
1.   если имеет в пути /anc/ - то доступен
2.   все прочие недоступны.

Насколько я понимаю – anc от ancient, т.е. доступны файлы не имеющие проблем с копирайтом. Все книги с древними текстами, но современными комментариями также недоступны.

Название: Re: Препарация и грабинг сайта
Отправлено: pnkv от 13 Января 2006 01:15:35
Ага, вот у них в поиске есть опция – Ancient, тогда будут отбираться только доступные книги.

==========

Попробовал выставлять - вообще ничего не ищет. Бредовая система.
Название: Re: Препарация и грабинг сайта
Отправлено: Glasha от 13 Января 2006 02:20:43
Ну, утешительней думать, что читают. Вычитывают то есть. А если они ещё не отсканировали книги, а просто дразнят окружающих, то как-то совсем грустно.
Название: Re: Препарация и грабинг сайта
Отправлено: Fozzie от 13 Января 2006 02:31:45
Да, сайт непростой (хотя лично мне он дал две весьма ценные для меня книги).
Почитал их FAQ. Очень понравилась фраза:
Цитировать
4. If a publisher requests removal of a title from the database, what fee would they have to pay for its removal?

The current cost is $200.
В обязательном порядке включить подобный пункт в устав английского клуба!!!  ;D
Название: Re: Препарация и грабинг сайта
Отправлено: pnkv от 13 Января 2006 03:38:30
Кстати в открытый доступ они предлагают 28.962 книги, что тоже не мало. Если пройти по ссылке на первой странице на Acient, то до 1159-й страницы все книги доступны.

Интересно столько они занимают места?

Название: Re: Препарация и грабинг сайта
Отправлено: pnkv от 13 Января 2006 03:51:28
А смотри, деньги-то смешные  – 7 миллионов, а такой объем в цифру перевели. Только я так и не понял, доступ к закрытым материалам для кого сделан?

Название: Re: Препарация и грабинг сайта
Отправлено: pnkv от 14 Января 2006 18:25:35
Для Фоззи. Кстати там есть и 續修四庫全書 . Наверное, оттуда и содрали. Весь вопрос в том, с каким качеством в ослиный пдф перевели. Посмотрел 22 том, что под рукой был, на глаз явных различий нет.

Название: Re: Препарация и грабинг сайта
Отправлено: Fozzie от 14 Января 2006 19:29:18
Для Фоззи. Кстати там есть и 續修四庫全書 . Наверное, оттуда и содрали. Весь вопрос в том, с каким качеством в ослиный пдф перевели. Посмотрел 22 том, что под рукой был, на глаз явных различий нет.
Да, спасибо, глянул - только там, похоже все тома (и ещё много чего лишнего  ;D - вроде бы должно быть 1800 томов, а поиск даёт 2584 результата).
Плюс некоторые книги из этого сборника лежат отдельно - я скачал, сообразно текущим интересам, 尔雅一切註音, сравнил со 188 томом, разница есть (см. картинки).
Название: Re: Препарация и грабинг сайта
Отправлено: pnkv от 14 Января 2006 19:53:56
Вроде на cadal получше будет.

По количеству. Некоторые почему-то по два раза прописаны. Один линк доступен, а другой нет.

2528 續修四庫全書一一○九 •子部•譜錄類
2529 續修四庫全書一一○九子部譜錄類

Название: Re: Препарация и грабинг сайта
Отправлено: Fozzie от 14 Января 2006 20:25:17
Вроде на cadal получше будет.
Нет - это из-за разницы в изданиях: тот же 188 том, что тут, что в emule - качество практически одно и то же.
Цитировать

По количеству. Некоторые почему-то по два раза прописаны. Один линк доступен, а другой нет.
2528 續修四庫全書一一○九 •子部•譜錄類
2529 續修四庫全書一一○九子部譜錄類
Не знаю из-за чего... Может разные издания? Мне подробности смотреть сложно - Firefox отображает этот сайт с большими искажениями.
Да, и вверху я немного ошибся - там всего должно быть 1800 томов.
Название: Re: Препарация и грабинг сайта
Отправлено: pnkv от 14 Января 2006 20:37:10
А там никаких подробностей нет. Указано одно издательство上海古籍出版社, больше ничего.
Название: Re: Препарация и грабинг сайта
Отправлено: Fozzie от 14 Января 2006 20:59:12
А там никаких подробностей нет. Указано одно издательство上海古籍出版社, больше ничего.
Если кликнуть на название у меня вылезает страница с кашей в которой проглядывают цифры 1758-01-01. Имею мысль, что это дата публикации оригинального текста. :)

Название: Re: Препарация и грабинг сайта
Отправлено: pnkv от 16 Января 2006 20:56:46
Это можно сделать в Workflow Manager (у меня, как и у всех, Document Express Enterprise 5.1).

что-то не пойму, а как?  :)
Название: Re: Препарация и грабинг сайта
Отправлено: Fozzie от 16 Января 2006 21:12:12
что-то не пойму, а как?  :)
Запускаешь WM. В закладке "Input" выбираешь файлы через "Choose files..." (очень много за раз он почему-то не любит, но 300 хавает).
Потом в закладке "Output" выставляешь "Separate Document(s) by" на "One document only". Далее в меню "Job" -> "Start all jobs" И будет тебе счастье...
Если в документе более 300 страниц, то делаешь частями, а потом объединяешь результаты. Пока так.

Кстати, у меня нет Document Express Editor'а... :(
Название: Re: Препарация и грабинг сайта
Отправлено: pnkv от 16 Января 2006 21:26:11
Кстати, у меня нет Document Express Editor'а... :(

Зайди на сервер Б - пятый диск.  :)