Восточное Полушарие

Китайский форум => Китайский язык: письменность, изучение, диалекты, вэньянь => Китайский Язык: компьютеры, программы, шрифты => Topic started by: pnkv on 11 January 2006 10:42:12

Title: Препарация и грабинг сайта
Post by: pnkv on 11 January 2006 10:42:12
Есть такой сайт, хитро сделанный
http://210.32.137.91/

На нем хранится некоторое количество книг в формате DJVU, но то ли они на другом сайте расположены, то ли еще где, но скачать телепортом их не удается. И найти ссылки, где эти страницы DJVU расположены также не получается.

Есть ли способ скачать книги целиком, а не сохраняя их по отдельной странице?

Вот, например, эту книгу:
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/oebbrowser.html
Title: Re: Препарация и грабинг сайта
Post by: Echter on 11 January 2006 12:52:55
Quote from: Олег on 11 January 2006 10:42:12
...Вот, например, эту книгу:
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/oebbrowser.html

   Книга лежит на сервере в таком формате:
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/00000001.djvu
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/00000002.djvu
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/00000003.djvu
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/...............djvu
Title: Re: Препарация и грабинг сайта
Post by: pnkv on 11 January 2006 13:51:42
Quote from: Echter on 11 January 2006 12:52:55   Книга лежит на сервере в таком формате:
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/00000001.djvu
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/00000002.djvu
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/00000003.djvu
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/...............djvu

Спасибо, но опять таки возникает вопрос, а как это скачать за раз? Если в телепорт вставлять ссылку
http://210.32.137.91/dlib/ebooks/anc/06/010000/06009270/ptiff/
то он не видит файлы, находящиеся в папке ptiff, а возможности закачки по шаблону там нет.
Title: Re: Препарация и грабинг сайта
Post by: Fozzie on 11 January 2006 14:10:13
Элементарно, Ватсон!  ;D
Ставишь себе FlashGet, а в нём есть такая фишка как "Пакетное задание" (см. рисунок). Я таким образом вытянул все картинки иероглифов с Mojikyo (правда за это они, похоже, забанили мой рабочий IP).
Title: Re: Препарация и грабинг сайта
Post by: pnkv on 11 January 2006 14:24:44
Здорово!
Теперь я даже и не знаю, а есть ли необходимость в создании библиотеки при форуме.
;D
Title: Re: Препарация и грабинг сайта
Post by: Fozzie on 11 January 2006 14:35:42
Quote from: Олег on 11 January 2006 14:24:44
Теперь я даже и не знаю....
(C) "Особенности национальной охоты"  ;D ;D ;D
Title: Re: Препарация и грабинг сайта
Post by: Fozzie on 11 January 2006 16:10:58
А сайт-то вкусненький! ::)
Я с ходу нашёл там пару очень нужных мне книг по 山海經. Теперь пойду разбираться, что же это конкретно я скачал...  ;D
Title: Re: Препарация и грабинг сайта
Post by: groovy_merchant on 11 January 2006 17:40:23
Сайт прекрасный. Вот только некоторые книжки не дает - или на айпи ругается, или говорит, что кто-то там читает. Можно ли по идентификатору книжки найти ее фиксированый сетевой адрес?
Title: Re: Препарация и грабинг сайта
Post by: pnkv on 11 January 2006 17:48:32
Да, интересно было бы узнать, какой ай-пи его устроит. А что кто-то там читает – похоже на отмазку. Был ли у кого случай, когда «читающая» книга потом становилась доступной?

Кроме того ряд книг доступен только партнерам, что тоже печально.

Title: Re: Препарация и грабинг сайта
Post by: pnkv on 11 January 2006 18:03:56
Еще такой вопрос, а как отдельные DJVU соединить в целый файл. В LizardTech Document Express Editor такой функции не нашел.
Title: Re: Препарация и грабинг сайта
Post by: Fozzie on 11 January 2006 19:53:26
Quote from: Олег on 11 January 2006 18:03:56
Еще такой вопрос, а как отдельные DJVU соединить в целый файл. В LizardTech Document Express Editor такой функции не нашел.
Э-э-э... А "Вещий", случаем, не от слова "чемоданы"?  ;D
Это можно сделать в Workflow Manager (у меня, как и у всех, Document Express Enterprise 5.1).
Title: Re: Препарация и грабинг сайта
Post by: pnkv on 11 January 2006 20:13:09
Ааа, ну понял. У меня с помощью Insert Page.
Title: Re: Препарация и грабинг сайта
Post by: Fozzie on 11 January 2006 20:28:00
Quote from: Олег on 11 January 2006 20:13:09
Ааа, ну понял. У меня с помощью Insert Page.
900 раз Insert Page? Важковато буде...
Title: Re: Препарация и грабинг сайта
Post by: pnkv on 11 January 2006 20:35:10
Quote from: Fozzie on 11 January 2006 20:28:00
Quote from: Олег on 11 January 2006 20:13:09
Ааа, ну понял. У меня с помощью Insert Page.
900 раз Insert Page? Важковато буде...

нет, там можно пакетно добавлять. Хотя, стоит перейти на Enterprise.
Title: Re: Препарация и грабинг сайта
Post by: Fozzie on 11 January 2006 20:53:09
Quote from: Олег on 11 January 2006 20:35:10
Хотя, стоит перейти на Enterprise.
Коль пошли такие сайты - ставь, Олежка, Enterprise!  ;D
Title: Re: Препарация и грабинг сайта
Post by: Glasha on 12 January 2006 14:25:22
Только расстраивают. Книжек десять нужных сразу подряд - то айпи, то только партнёрам, то читают. У меня и охота пропала искать, что там вообще откроется. Пока ничего не выходит
Title: Re: Препарация и грабинг сайта
Post by: Glasha on 12 January 2006 14:38:56
Или у меня айпи какой-то особенный? Например, захотела ещё про Лян Шумина прочитать - и все 32 книги не получилось.
Title: Re: Препарация и грабинг сайта
Post by: pnkv on 12 January 2006 14:50:52
Quote from: Glasha on 12 January 2006 14:38:56
Или у меня айпи какой-то особенный? Например, захотела ещё про Лян Шумина прочитать - и все 32 книги не получилось.

а ссылка какая?

Title: Re: Препарация и грабинг сайта
Post by: Glasha on 12 January 2006 14:53:38
Э-э-э... http://www.cadal.zju.edu.cn/root_english/metaquery/metaquery_brief2.jsp?basefield=title-sub-des&basevalue=%C1%BA%CA%FE%E4%E9&pattern=0&searcharea=all&order=Title&perPage=25&ad=asc#
Вот
Это всё оттуда же
Title: Re: Препарация и грабинг сайта
Post by: pnkv on 12 January 2006 15:28:01
Quote from: Glasha on 12 January 2006 14:53:38
Э-э-э... http://www.cadal.zju.edu.cn/root_english/metaquery/metaquery_brief2.jsp?basefield=title-sub-des&basevalue=%C1%BA%CA%FE%E4%E9&pattern=0&searcharea=all&order=Title&perPage=25&ad=asc#
Вот
Это всё оттуда же

у меня тоже облом.
Title: Re: Препарация и грабинг сайта
Post by: Echter on 12 January 2006 17:57:29
Quote from: Glasha on 12 January 2006 14:25:22
Только расстраивают. Книжек десять нужных сразу подряд - то айпи, то только партнёрам, то читают...

   Судя по всему, не читают, а "проверяют качество". Вполне возможно, эти книги ещё даже не отсканированы.
   А IP, наверное, нужен китайский. Можно попробовать китайский прокси.
Title: Re: Препарация и грабинг сайта
Post by: pnkv on 12 January 2006 18:09:59
Небольшое наблюдение.

Если в поиске файл отмечен словом Read (c большой буквы), то он недоступен.
Если с маленькой – read – то:
1.   если имеет в пути /anc/ - то доступен
2.   все прочие недоступны.

Насколько я понимаю – anc от ancient, т.е. доступны файлы не имеющие проблем с копирайтом. Все книги с древними текстами, но современными комментариями также недоступны.

Title: Re: Препарация и грабинг сайта
Post by: pnkv on 12 January 2006 18:15:35
Ага, вот у них в поиске есть опция – Ancient, тогда будут отбираться только доступные книги.

==========

Попробовал выставлять - вообще ничего не ищет. Бредовая система.
Title: Re: Препарация и грабинг сайта
Post by: Glasha on 12 January 2006 19:20:43
Ну, утешительней думать, что читают. Вычитывают то есть. А если они ещё не отсканировали книги, а просто дразнят окружающих, то как-то совсем грустно.
Title: Re: Препарация и грабинг сайта
Post by: Fozzie on 12 January 2006 19:31:45
Да, сайт непростой (хотя лично мне он дал две весьма ценные для меня книги).
Почитал их FAQ. Очень понравилась фраза:
Quote4. If a publisher requests removal of a title from the database, what fee would they have to pay for its removal?

The current cost is $200.
В обязательном порядке включить подобный пункт в устав английского клуба!!!  ;D
Title: Re: Препарация и грабинг сайта
Post by: pnkv on 12 January 2006 20:38:30
Кстати в открытый доступ они предлагают 28.962 книги, что тоже не мало. Если пройти по ссылке на первой странице на Acient, то до 1159-й страницы все книги доступны.

Интересно столько они занимают места?

Title: Re: Препарация и грабинг сайта
Post by: pnkv on 12 January 2006 20:51:28
А смотри, деньги-то смешные  – 7 миллионов, а такой объем в цифру перевели. Только я так и не понял, доступ к закрытым материалам для кого сделан?

Title: Re: Препарация и грабинг сайта
Post by: pnkv on 14 January 2006 11:25:35
Для Фоззи. Кстати там есть и 續修四庫全書 . Наверное, оттуда и содрали. Весь вопрос в том, с каким качеством в ослиный пдф перевели. Посмотрел 22 том, что под рукой был, на глаз явных различий нет.

Title: Re: Препарация и грабинг сайта
Post by: Fozzie on 14 January 2006 12:29:18
Quote from: Олег on 14 January 2006 11:25:35
Для Фоззи. Кстати там есть и 續修四庫全書 . Наверное, оттуда и содрали. Весь вопрос в том, с каким качеством в ослиный пдф перевели. Посмотрел 22 том, что под рукой был, на глаз явных различий нет.
Да, спасибо, глянул - только там, похоже все тома (и ещё много чего лишнего  ;D - вроде бы должно быть 1800 томов, а поиск даёт 2584 результата).
Плюс некоторые книги из этого сборника лежат отдельно - я скачал, сообразно текущим интересам, 尔雅一切註音, сравнил со 188 томом, разница есть (см. картинки).
Title: Re: Препарация и грабинг сайта
Post by: pnkv on 14 January 2006 12:53:56
Вроде на cadal получше будет.

По количеству. Некоторые почему-то по два раза прописаны. Один линк доступен, а другой нет.

2528 續修四庫全書一一○九 •子部•譜錄類
2529 續修四庫全書一一○九子部譜錄類

Title: Re: Препарация и грабинг сайта
Post by: Fozzie on 14 January 2006 13:25:17
Quote from: Олег on 14 January 2006 12:53:56
Вроде на cadal получше будет.
Нет - это из-за разницы в изданиях: тот же 188 том, что тут, что в emule - качество практически одно и то же.
Quote
По количеству. Некоторые почему-то по два раза прописаны. Один линк доступен, а другой нет.
2528 續修四庫全書一一○九 •子部•譜錄類
2529 續修四庫全書一一○九子部譜錄類
Не знаю из-за чего... Может разные издания? Мне подробности смотреть сложно - Firefox отображает этот сайт с большими искажениями.
Да, и вверху я немного ошибся - там всего должно быть 1800 томов.
Title: Re: Препарация и грабинг сайта
Post by: pnkv on 14 January 2006 13:37:10
А там никаких подробностей нет. Указано одно издательство上海古籍出版社, больше ничего.
Title: Re: Препарация и грабинг сайта
Post by: Fozzie on 14 January 2006 13:59:12
Quote from: Олег on 14 January 2006 13:37:10
А там никаких подробностей нет. Указано одно издательство上海古籍出版社, больше ничего.
Если кликнуть на название у меня вылезает страница с кашей в которой проглядывают цифры 1758-01-01. Имею мысль, что это дата публикации оригинального текста. :)

Title: Re: Препарация и грабинг сайта
Post by: pnkv on 16 January 2006 13:56:46
Quote from: Fozzie on 11 January 2006 19:53:26Это можно сделать в Workflow Manager (у меня, как и у всех, Document Express Enterprise 5.1).

что-то не пойму, а как?  :)
Title: Re: Препарация и грабинг сайта
Post by: Fozzie on 16 January 2006 14:12:12
Quote from: Олег on 16 January 2006 13:56:46что-то не пойму, а как?  :)
Запускаешь WM. В закладке "Input" выбираешь файлы через "Choose files..." (очень много за раз он почему-то не любит, но 300 хавает).
Потом в закладке "Output" выставляешь "Separate Document(s) by" на "One document only". Далее в меню "Job" -> "Start all jobs" И будет тебе счастье...
Если в документе более 300 страниц, то делаешь частями, а потом объединяешь результаты. Пока так.

Кстати, у меня нет Document Express Editor'а... :(
Title: Re: Препарация и грабинг сайта
Post by: pnkv on 16 January 2006 14:26:11
Quote from: Fozzie on 16 January 2006 14:12:12Кстати, у меня нет Document Express Editor'а... :(

Зайди на сервер Б - пятый диск.  :)