Прочитав сегодня эту тему
Статистика Shutterstock - анализируем базу, вспомнил, что когда-то тоже писал что-то похожее, но не столь глобальное. Программа была найдена и немного допилена до удобоваримого вида. Выкладываю сюда, может кому пригодится.
Итак, программа показывает список портфолио авторов с первой по N-ю страницу (по 150 шт, сортировка по популярности) по заданной категории или заданному списку ключевых слов.
-Каждому найденному автору соответствует ссылка на портфолио, количество работ в портфолио (вектора отдельно), с какой страницы в запросе начинаются найденные работы и сколько этих работ на этих с 1й по N страницах.
-Количество работ считал по количеству страниц в портфолио (по 50, по новизне), поэтому там число приблизительное с точностью +0/-49.
-Для подсчета количества векторов в портфолио сделал чекбокс, т.к. это лишний запрос к серверу, медленнее работает и не всем нужно.
-Ищется или по категориям или по ключевым словам (если это поле не пустое). Ключевые слова, если их несколько, разделять знаком + без пробелов.
Программа представляет собой один exe-файл - SSAnalysis.exe
При работе создает рядом еще 3 файла: temp.html,temp2.html и log.txt
В последнем сохраняется то, что вы видите в основном окне программы.
Данные выводятся в простейшем виде, построчно, блоками, разделенными знаком ;
Для дальнейшего анализа рекомендую скопировать данные с экрана в ворд или открыть в нем файл log.txt, выделить строки с html-ссылками и преобразовать в таблицу (число столбцов 7, автоподбор ширины по содержимому, разделитель другой ; ) Это позволит нормально сортировать данные по столбцам.
Чтобы из вордов можно было перейти по ссылкам, нужно выделить поле с сылками и выбрать меню Формат-Автоформат.
В эксель переносить не пробовал, наверное и туда как-то можно.
Скрин программы:
больший размер
ссылка на программу