Вопрос: Если бы Шаттер хотел разобраться со спамом, то неужели он бы не смог 1-го программера из этих 300 айтишников напрячь на недельку, чтобы он написал скрипт по обнаружению повторов слов и автоматической рассылке ругательных писем стокерам-спамерам?
Так они так и сделали. В итоге, в спамеры попали все, кроме редких счастливчиков.
Разве Вы не получили пару месяцев назад персональное ругательное письмо, отправленное автоматической рассылкой, после того как скрипт нашёл у Вас что-нибудь вроде "White egg over white backgound"?
Заметьте, что "White egg over white backgound" содержит всего 2 повтора. Если компания хочет решить проблему, то скрипт поручают тому программисту, который умеет считать.
Я уверен, что на стоках хватает и совершенно корректных описаний с тремя повторами одного и того же слова. И мы оба понимаем, что это - не спамеры.
Поэтому, собственно, и разбираются "case by case".
Странно, что такие вопиющие случаи, как обсуждаемые здесь, неделями остаются без внимания или явной реакции. Но, вероятно, "не хватает рук". Либо идут по алфавиту.
Я уверен, что на стоках хватает и совершенно корректных описаний с тремя повторами одного и того же слова.
А с четырьмя? А с пятью? А с 10-ю?
У программера есть все необходимые данные для анализа и автоматизации процесса. Делается выборка, анализируется. Программер обнаруживает, что более 5-ти (например) повторов - это явный спам. Всем авторам таких работ делается рассылка. Затем повторная рассылка через 2 недели. Затем автоматическая деактивация таких работ скриптом, если стокер не убрал повторы.
Остались работы с 5-ю и менее повторами, допустим. В них смотрим % повторяющихся слов. Если слов всего 5 и все повторяются - спам. Если, допустим, слов 7, но 5 повторяются - спам. И т.п. Это тоже вычищается на автомате.
И когда останутся только более тонкие моменты - их уже вручную просматривать. Вернее, в полу-автоматическом режиме.
И это я еще не думал над поставленной задачей (мне не платят за это). Вы верите, что Шаттеровские программеры такие тупые, что не могут придумать нечто подобное?
Я верю, что проверка "case by case" гораздо лучше, чем "автоматическая деактивация".
Возможно, если бы Вам, как многим другим неспамящим авторам, тоже пришло персонально адресованное "письмо счастья", в котором содержались бы довольно серьёзные угрозы, то Вы бы несколько иначе относились к идее любого автоматического зачисления в злодеи.
Я довольно подробно расписал алгоритм и даже согласился с вами, что "White egg over white backgound" считать спамом некорректно. И сказал, что скрипт, который считает эту фразу спамом, написан некорректно. Учитывая вышесказанное: Что конкретно означает ваша фраза "Вы бы несколько иначе относились к идее любого автоматического зачисления в злодеи"?
Я верю, что проверка "case by case" гораздо лучше,...............
ключевоое*N>1 (где - N количестве повторов) всё равно будет иметь преимущество перед ключевое*N=1.
Ну почистят злостных спамеров и все сведется к тому, кто сумел без явного спама впихнуть наибольшее количество повторов. Даже 1 повтор это уже преимущество. Такие дела
Kalev,
Что конкретно означает ваша фраза "Вы бы несколько иначе относились к идее любого автоматического зачисления в злодеи"?
Я попробую сказать то же самое более простыми словами:
Если бы по Вашему аккаунту уже один раз отработала несправедливо "автоматика", зачислив Вас в спамеры - Вы бы осторожнее относились к идее о том, чтобы автоматика что-то сама деактивировала.
По-моему я предельно ясно выразил свои мысли. Но попробую снова:
Бывает "автоматика" быстро сделанная на коленке программером-двоечником на основании ложной идеи о том, что "повтор любых двух слов в любом заголовке - это спам" и не протестированная тестировщиками. Это тупо, криво и однозначно плохо с любой точки зрения - это и позор программисту, и позор Шаттерстоку, и неприятности для стокеров.
Но так это реализовано сейчас.
И мне, Kalev, это не нравится. Уже сейчас. Даже без пришедшего мне "письма счастья". Так что я не понимаю - в чём вы пытаетесь меня убедить.
Я также указал на тот факт, что автоматику можно было бы сделать качественной, если бы у Шаттера было желание. Но желания у них явно нет. Алгоритмы простые. У меня студенты-стажёры решают гораздо более сложные задачи.
Итак, моей целью было показать, что, при наличии на Шатре 300 айтишников, на борьбу со спамом был выделен примерно 1 день самого неумелого из них. А потом напрягли инспекторов на имитацию борьбы в ручном режиме.
Может у них 1 айтишник получает зарплату в 100 раз больше, чем инспектор, и поэтому они считают такой способ эффективным (с точки зрения затрат), но он неэффективен с точки зрения решения проблемы. Значит её решение не особо и нужно.