[sa-conf] верные признаки

Victor Ustugov victor на corvax.kiev.ua
Пт Июн 9 18:00:01 EEST 2006


Alex Miller wrote:

> 	Вот некоторое кол-во новых признаков, наковырянных из спам-коллекций с
> нескольких хостов, заслуживающие увековечивания в раздаваемых правилах:
> 
> 	- Subject, начинающийся с [КИЕВ] или {КИЕВ} (возможно, имеет смысл просто
> ловить регэкспом слово в скобках в верхнем регистре -- тогда охватим и другие
> города (нашлось пару [КРЫМ])

я так понимаю, что названия городов указаны в windows-1251, а весь сабж
закодирован в quoted-printable или base64?

> 	- Subject, заканчивающийся на несколько (больше двух) пробелов и слово
> (пример: Инвестиции в землю: практические схемы и механизмы    cbivzhuuc)
> (пример: Инвестиции в землю: практические схемы и механизмы    xplywx)

а false positives не будет?
можно пока чуть-чуть накидывать за это
хотя, просто кучку букв сейчас редко ставят. есть всякие приколы с
диезами, восклицательными знаками, etc
пока повешу 0.2 балла за такое до выяснения
после трех пробелов будем ловить слово из латинских букв? только маленьких?

> 	- SUBJ_HAS_UNIQ_ID заслуживает как минимум 1.0 балла, а то и полтора

пока поставлю 1.0

> 	- куча цифр подряд в Subject'е (больше 10-ти) заслуживает 1-го балла
> (пример: Re: ПІДВОДНЕ КАМІННЯ ЄДИНОГО ПОДАТКУ #8604829431769#)

и всякие номера р/с, идентификационных кодов и т. д. пойдут нафиг...

> 	- Subject содержит #word -- плюс 1.0 балл
> (пример: ПОСОБИЕ ДЛЯ ПРОВЕДЕНИЯ ОПЕРАЦИЙ С ЗЕМЛЕЙ #hvamm)
> (пример: пpaктикa  #oocsnq)

тут я думаю, нужно пойти дальше. есть у меня заготовки регекспов на
отлов вот таких вот uniq_id в конце сабжей
пока на этот набор регекспов (правило будет называться
BListed_Subject_suffix) повешу 0.5 балла, посмотрим, чем это закончится

-- 
Best wishes Victor Ustugov   mailto:victor на corvax.kiev.ua
public GnuPG/PGP key:        http://victor.corvax.kiev.ua/corvax.asc
ICQ: 77186900, 32418694      CRV2-RIPE, CRV-UANIC




Подробная информация о списке рассылки sa-conf