Loading...
Error

Фантазии на тему базы данных по аниме на нашем портале

Страницы:  1, 2  След.

Ответить на тему
 
Автор Сообщение

Тема была выделена из Список связанных торрентов...

Ionian.Wind
 

Mear

Стаж: 16 лет

Сообщений: 2513

Откуда: НиНо

Провайдер: Дом.ru

Пол: Otoko (M)

Он-лайн: Нет

Карма: +0.10

Цитата:

Хе... а чую модераторам больше делать нечего, как темки по World-Art'у проверять )))
Может тогда уж сразу в релиз-визарде сделать пунктик "ссылка на страницу аниме на world-art" и пусть скрипт сам всё заполнит cool
Profile PM

Ionian.Wind

Стаж: 16 лет

Сообщений: 892

Провайдер: Не определен

Пол: Otoko (M)

Он-лайн: Нет

Карма: +0.01

post 25-Янв-2008 20:07 (спустя 3 минуты)
Mear
но-но! насчет работы для модеров - другой вопрос!

насчет реализации - скрипты торрентпира у меня есть но я в них еще не глядел и не разбирался. Логичнее всего группировку тегов использовать.

Mear писал(а):

Может тогда уж сразу в релиз-визарде сделать пунктик "ссылка на страницу аниме на world-art" и пусть скрипт сам всё заполнит
об этом я тоже думал - минус в лишнем времени обработки. Плюс - во всем остальном :)

_________________
Profile PM

Mear

Стаж: 16 лет

Сообщений: 2513

Откуда: НиНо

Провайдер: Дом.ru

Пол: Otoko (M)

Он-лайн: Нет

Карма: +0.10

post 25-Янв-2008 20:09 (спустя 1 минута)

Цитата:

об этом я тоже думал - минус в лишнем времени обработки. Плюс - во всем остальном Smile
А еще при частом обращении World-Art обещался банить по IP ))) так что тут тоже есть свои подводные камни)))
Profile PM

Ionian.Wind

Стаж: 16 лет

Сообщений: 892

Провайдер: Не определен

Пол: Otoko (M)

Он-лайн: Нет

Карма: +0.01

post 25-Янв-2008 20:12 (спустя 3 минуты)
Mear
раз уж отдельный серв ставить собираемся, мысль была насчет того, что скопировать с того же ворлд-арта всю базу по аниме к себе. Долго и полуфантастично, но если реализовать - будет круто.

_________________
Profile PM

Mear

Стаж: 16 лет

Сообщений: 2513

Откуда: НиНо

Провайдер: Дом.ru

Пол: Otoko (M)

Он-лайн: Нет

Карма: +0.10

post 25-Янв-2008 20:16 (спустя 3 минуты)
Ionian.Wind
Согласен... у меня тоже есть один проектик с подобной задачкой... тока вот придумать как базу у ворлд-арта скопировать я еще не придумал!
Profile PM

Ionian.Wind

Стаж: 16 лет

Сообщений: 892

Провайдер: Не определен

Пол: Otoko (M)

Он-лайн: Нет

Карма: +0.01

post 25-Янв-2008 20:20 (спустя 4 минуты)
также как скрипты воруют инфу с посторонних сайтов - тупо по шаблону из текста

_________________
Profile PM

Mear

Стаж: 16 лет

Сообщений: 2513

Откуда: НиНо

Провайдер: Дом.ru

Пол: Otoko (M)

Он-лайн: Нет

Карма: +0.10

post 25-Янв-2008 20:22 (спустя 1 минута)
Ionian.Wind
Это то понятно... но вопрос в том, что при частом обращении World-Art банит по IP... либо через анонимные прокси туда соваться, либо еще как...
Profile PM

Ionian.Wind

Стаж: 16 лет

Сообщений: 892

Провайдер: Не определен

Пол: Otoko (M)

Он-лайн: Нет

Карма: +0.01

post 25-Янв-2008 20:26 (спустя 4 минуты)
Mear
Допустим, раз в день по 10 анимешек тырить, причем начиная с самых новых.... Или прогу написать, которую можно запустить на обычном компе, и она потихоньку подворовывать будет Mad

_________________
Profile PM

Mear

Стаж: 16 лет

Сообщений: 2513

Откуда: НиНо

Провайдер: Дом.ru

Пол: Otoko (M)

Он-лайн: Нет

Карма: +0.10

post 25-Янв-2008 20:29 (спустя 3 минуты)
Ionian.Wind
По моему там номерки уже на 2-3 тысячи... это сколько же месяцев тыриться будет... лучше уж через анонимные прокси... одна программа, порядка сотни проксей, и пару дней )))
Profile PM

Mear

Стаж: 16 лет

Сообщений: 2513

Откуда: НиНо

Провайдер: Дом.ru

Пол: Otoko (M)

Он-лайн: Нет

Карма: +0.10

post 25-Янв-2008 20:30 (спустя 58 секунд)
Ionian.Wind
И по моему мы уже занимаемся откровенным флудом ))) надо тогда уж отдельную темку забацать "Как стырить с ворлд-арта описание анимешек" Mad
Profile PM

Ionian.Wind

Стаж: 16 лет

Сообщений: 892

Провайдер: Не определен

Пол: Otoko (M)

Он-лайн: Нет

Карма: +0.01

post 25-Янв-2008 20:32 (спустя 1 минута)
блин, опередил с замечанием об оффтопе Razz

интересно бы узнать, что DarkSavant думает о тегах и смежных темах Mad

_________________
Profile PM

batyrmastyr

Стаж: 16 лет

Сообщений: 6588

Откуда: Sekai

Провайдер: Не определен

Пол: Otoko (M)

Он-лайн: Нет

Карма: +35.90

post 26-Янв-2008 13:27 (спустя 16 часов)
Mear
Ionian.Wind
Не забываем:
1. кроме world-art.ru есть и другие базы
2. нет гарантии что все анимешки мира есть в какой-то одной базе.
3. опять таки название - бывает, что человек знает не полное имя, а аббревиатуру. + очепятки = база выдает кукиш. пример: world-art нормально выдает GITS, GITS SAC, но GITS SSS (также как SSS, GITS SAC SSS) - найти не может.

Хотя по ссылке на описание первой Mad серии (на том же world-art) вполне можно связанные темы определять.

_________________
pic
я несу глупость во имя бака-тим
Gundam Team
Yuri TEAM
Термины
Profile PM

Ionian.Wind

Стаж: 16 лет

Сообщений: 892

Провайдер: Не определен

Пол: Otoko (M)

Он-лайн: Нет

Карма: +0.01

post 26-Янв-2008 22:24 (спустя 8 часов)
Вообще, если базу все-таки сформируем, можно будет, допустим, выбрать нужное аниме, нажать на кнопку "создать раздачу", прикрепить торрент-файл, добавить примечания и скрины, и раздача сама оформится в нужном разделе.

_________________
Profile PM

Mear

Стаж: 16 лет

Сообщений: 2513

Откуда: НиНо

Провайдер: Дом.ru

Пол: Otoko (M)

Он-лайн: Нет

Карма: +0.10

post 26-Янв-2008 22:58 (спустя 34 минуты)
Ionian.Wind
В общем да... осталось только стырить...

batyrmastyr
А ты какие еще базы знаешь? А то может я тут тырить потихоньку начну, как я говорил, мне для моего одного проектика тоже не помешает... потом поделюсь ежели что)))
Profile PM

Ionian.Wind

Стаж: 16 лет

Сообщений: 892

Провайдер: Не определен

Пол: Otoko (M)

Он-лайн: Нет

Карма: +0.01

post 26-Янв-2008 23:02 (спустя 4 минуты)
http://anidb.net/perl-bin/animedb.pl?show=main

_________________
Profile PM

batyrmastyr

Стаж: 16 лет

Сообщений: 6588

Откуда: Sekai

Провайдер: Не определен

Пол: Otoko (M)

Он-лайн: Нет

Карма: +35.90

post 27-Янв-2008 00:27 (спустя 1 час 24 минуты)
Mear
Русскоязычных и с настолько полным описанием вроде не видел, хотя Википедия может и поможет, только вот автоматизации не поддается.

В качестве примеров - то, что нашел про GITS SAC Individual Eleven. anidb.net - есть немного русских буковок и полезной доп. инфы, например, список рип-групп и мест их обитания.
myanimelist.net, - русского нет вообще, зато есть линки альтернативных описаний
animenewsnetwork.com - описание, в общем, намного хуже, в качестве компенсации - ??полный?? список работавших над аниме людей. "официальный вестник"
imdb.com -немного получше предыдущего варианта, есть сопоставление актер<->персонаж и "мы советуем посмотреть также..."
en.wikipedia.org - сам понимаешь - как повезет
en.wikipedia.org - в этот раз, есть про весь GITS, кроме нужного куска.

_________________
pic
я несу глупость во имя бака-тим
Gundam Team
Yuri TEAM
Термины
Profile PM

Mear

Стаж: 16 лет

Сообщений: 2513

Откуда: НиНо

Провайдер: Дом.ru

Пол: Otoko (M)

Он-лайн: Нет

Карма: +0.10

post 27-Янв-2008 00:45 (спустя 18 минут)
Ionian.Wind, batyrmastyr
Фенькс... я наверное с анидб пока поворую... по крайней мере основную инфу (без описаний, комментариев и всяких излишеств)... посмотрим, что получится!
Profile PM

Ionian.Wind

Стаж: 16 лет

Сообщений: 892

Провайдер: Не определен

Пол: Otoko (M)

Он-лайн: Нет

Карма: +0.01

post 27-Янв-2008 22:13 (спустя 21 час)
собственно, накидал скриптик-ворюгу:

листинг файла grab.php

Код:

<?//функция-грабитель
function grabPage ($id,$link){
 $link.=$id;
 $file = fopen($link, "r")or die("Извините, запрошенная страница временно не доступна!");
 $rf="";
 if ($file) {
  while (!feof($file)){
   $rf .=fgets($file);
   if (strpos($rf, "Проголосовало")) {break;}
  }
  fclose($file);
 }
 $s = strpos($rf, "<table><tr><td Valign=top align=right><img src='img/1000/".$id."/1.jpg'");
 $rf = substr($rf, $s);
 $rf.="</td></tr></table>";
 return trim(chop($rf));
}
?> 


листинг файла index.php
старый

Код:

<?
define("START_TIME", microtime(true));
require_once "grab.php";
echo grabPage(78, "http://world-art.ru/animation/animation.php?id=");
printf("<br>Время работы скрипта: %.5f c", microtime(true)-START_TIME);
?>
Индекс страницы (78) взят произвольно и для примера.
Новый

Код:

<?
define("START_TIME", microtime(true));
require_once "grab.php";
$id = fopen ("id.txt","r+");
$i=fgets($id);
$i++;
echo "текущий индекс: ".$i;
$fDB = fopen ("animeDB.html","a+");
fputs($fDB,grabPage($i, "http://world-art.ru/animation/animation.php?id=")."\n<hr>\n");
rewind($id);
fwrite($id,$i);
fclose ($id);
fclose ($fDB);
printf("<br>Время работы скрипта: %.5f c", microtime(true)-START_TIME);
?>
Теперь после "утыра" инфа аккуратненько складывается в отдельный файл - для добавления инфы достаточно обновить страницу.
Процесс можно автоматизировать, но так как-то надежнее Cool
Кроме того, индекс последней "утыреной" страницы сохраняется отдельно, что позволяет продолжить там, где закончили.
Скрипт работает идеально - инфу тырит на раз (не учитывая графику), остается только по шаблону разбить и в БД засунуть.
Проблема в том, что работает от 2-х до 20-и секунд Sad

Скорее всего, это от нагрузки на сервер ворлд-арта и оттого, что у меня траффик закончился Cool

зы
подсчитал: чтобы полностью копирнуть базу ворлд-арта по анимации, затрачивая по 20 секунд на страницу, необходимо 38 часов.
Цифра немного пугает, но выглядит в целом реальной.
хе, надо с АниДБ поэксперементировать Mad

ззы
файлик с результатами 13-и операций Confused надеюсь, меня за это не посадят? Smile

_________________
Profile PM

SnakeMFK

Стаж: 16 лет

Сообщений: 1268

Откуда: от верблюда

Провайдер: ВТ (IXNN)

Пол: Otoko (M)

Он-лайн: Нет

Карма: 0.00

post 27-Янв-2008 22:32 (спустя 18 минут)
прокси и бан по айпи эт ладна, а вот как на счет

Цитата:

Авторские права на дизайн и оригинальные тексты, а также на подбор и расположение материалов принадлежат OOO «Уорлд Арт»
спокойно прикрыть могут ресурс... ессна сухие данные(год, жанр и т.п.) не тянет на оригинал тескты, но на подбор - легко... а вы на готовенькое... ай-яй-яй может получится =)

зы запустите скрипт на сендевике и max_execution_time влепите по-больше... при 256кбит граблю страницу с сайта целиком(!!!) прогружая ее за 2-5 сек Razz

ззы да и по-стриптагсить в стянутом не помешало бы, парсить потом легче будет =)


Последний раз редактировалось: SnakeMFK (2008-01-27 22:43), всего редактировалось 1 раз
Profile PM

Ionian.Wind

Стаж: 16 лет

Сообщений: 892

Провайдер: Не определен

Пол: Otoko (M)

Он-лайн: Нет

Карма: +0.01

post 27-Янв-2008 22:36 (спустя 4 минуты)
SnakeMFK
тогда за это все трекеры позакрывать надо
кроме того, можно инфу и с аниДБ брать - там права не качают. Источник не играет роли

зы
я в коде поставил загрузку до голосования - дальше обрубается. На сенди думаю около секунды потребуется

_________________
Profile PM

SnakeMFK

Стаж: 16 лет

Сообщений: 1268

Откуда: от верблюда

Провайдер: ВТ (IXNN)

Пол: Otoko (M)

Он-лайн: Нет

Карма: 0.00

post 27-Янв-2008 22:50 (спустя 13 минут)

Ionian.Wind писал(а):

SnakeMFK
тогда за это все трекеры позакрывать надо
кроме того, можно инфу и с аниДБ брать - там права не качают. Источник не играет роли
трекеры не претендуют на базу данных по тематике, на них народ качать ходит... но если трекер сам пользует стянутую базу, а не юзвери контент наполняют... ну хз... я бы не стал у себя на проекте без согласия источника инфы такое использовать, тем более копирайт явный присутствует =)

Цитата:

зы
я в коде поставил загрузку до голосования - дальше обрубается. На сенди думаю около секунды потребуется
именно поэтому я и выделил про целиком ;-)

зы я, кстати, получал перманентный бан айпи просто активно ища и открывая рез-ты поиска... так что все равно придется задержки в исполнении ставить =)
Profile PM

Ionian.Wind

Стаж: 16 лет

Сообщений: 892

Провайдер: Не определен

Пол: Otoko (M)

Он-лайн: Нет

Карма: +0.01

post 27-Янв-2008 22:57 (спустя 7 минут)
SnakeMFK

SnakeMFK писал(а):

все равно придется задержки в исполнении ставить
знаю, поэтому автоматику и не вводил - ручками обновлял.
там ведь строчку кода добавить, а все равно лень ^_^

SnakeMFK писал(а):

но если трекер сам пользует стянутую базу, а не юзвери контент наполняют... ну хз...
самый главный запасной вариант: https://forum.touki.ru/viewtopic.php?p=39227#39227 + копирайт источника.

SnakeMFK писал(а):

бы не стал у себя на проекте без согласия источника инфы такое использовать
к ворлд-арту когда официальную базу делать будем, соваться все-таки не будем :), а у аниДБ-шников и разрешения незазорно спросить - вроде не "зажравшиеся на народной кровушке бюрократы" %)

в крайнем случае - инглишная вики

_________________
Profile PM

batyrmastyr

Стаж: 16 лет

Сообщений: 6588

Откуда: Sekai

Провайдер: Не определен

Пол: Otoko (M)

Он-лайн: Нет

Карма: +35.90

post 28-Янв-2008 10:18 (спустя 11 часов)

SnakeMFK писал(а):

прокси и бан по айпи эт ладна, а вот как на счет

Цитата:

Авторские права на дизайн и оригинальные тексты, а также на подбор и расположение материалов принадлежат OOO «Уорлд Арт»
спокойно прикрыть могут ресурс... ессна сухие данные(год, жанр и т.п.) не тянет на оригинал тескты, но на подбор - легко... а вы на готовенькое... ай-яй-яй может получится =)
Ну "расположение материалов" мы тырить и не будем. Mad
Ну а если приписки вставлять : "этот кусок принадлежит ворлд арту, полное описание мона посмотреть тут <url>", или этого маловато будит?
На крайняк - права на "избранные рецензии" - а авторов рецензий, которые на трекер катить бочку не станут (главное - указать автора Very Happy

_________________
pic
я несу глупость во имя бака-тим
Gundam Team
Yuri TEAM
Термины
Profile PM

DarkSavant

Карма: 0.00

post 28-Янв-2008 21:36 (спустя 11 часов)
Да штука конечно интересная, осталось придумать как это все получше реализовать... Надо сделать нормальный грабер, потом выдернуть нужную инфу засунуть в базу, а потом сделать в релизке поиск на AJAX'e который будет при вводе названия подбирать варианты... и усе...
 
Показать сообщения:    
Ответить на тему

Текущее время: 19-Май 03:42

Часовой пояс: GMT + 3



Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
[  Execution time: 0.838 sec  |  MySQL: 1.645 sec (196%) in 12 queries  |  Mem: 420.01 KB / 1.27 MB / 1.23 MB  |  Load: 1.4 1.4 1.3  ]