Alex Miller wrote:
> Вот некоторое кол-во новых признаков, наковырянных из спам-коллекций с
> нескольких хостов, заслуживающие увековечивания в раздаваемых правилах:
>> - Subject, начинающийся с [КИЕВ] или {КИЕВ} (возможно, имеет смысл просто
> ловить регэкспом слово в скобках в верхнем регистре -- тогда охватим и другие
> города (нашлось пару [КРЫМ])
я так понимаю, что названия городов указаны в windows-1251, а весь сабж
закодирован в quoted-printable или base64?
> - Subject, заканчивающийся на несколько (больше двух) пробелов и слово
> (пример: Инвестиции в землю: практические схемы и механизмы cbivzhuuc)
> (пример: Инвестиции в землю: практические схемы и механизмы xplywx)
а false positives не будет?
можно пока чуть-чуть накидывать за это
хотя, просто кучку букв сейчас редко ставят. есть всякие приколы с
диезами, восклицательными знаками, etc
пока повешу 0.2 балла за такое до выяснения
после трех пробелов будем ловить слово из латинских букв? только маленьких?
> - SUBJ_HAS_UNIQ_ID заслуживает как минимум 1.0 балла, а то и полтора
пока поставлю 1.0
> - куча цифр подряд в Subject'е (больше 10-ти) заслуживает 1-го балла
> (пример: Re: ПІДВОДНЕ КАМІННЯ ЄДИНОГО ПОДАТКУ #8604829431769#)
и всякие номера р/с, идентификационных кодов и т. д. пойдут нафиг...
> - Subject содержит #word -- плюс 1.0 балл
> (пример: ПОСОБИЕ ДЛЯ ПРОВЕДЕНИЯ ОПЕРАЦИЙ С ЗЕМЛЕЙ #hvamm)
> (пример: пpaктикa #oocsnq)
тут я думаю, нужно пойти дальше. есть у меня заготовки регекспов на
отлов вот таких вот uniq_id в конце сабжей
пока на этот набор регекспов (правило будет называться
BListed_Subject_suffix) повешу 0.5 балла, посмотрим, чем это закончится
--
Best wishes Victor Ustugov mailto:victor на corvax.kiev.ua
public GnuPG/PGP key: http://victor.corvax.kiev.ua/corvax.asc
ICQ: 77186900, 32418694 CRV2-RIPE, CRV-UANIC