Приветствую!
Копаясь с искодниках Bayes, обнаружил следующую интересную вещь:
sub _tokenize_line {
my $self = $_[0];
my $tokprefix = $_[2];
my $region = $_[3];
local ($_) = $_[1];
my @rettokens;
# include quotes, .'s and -'s for URIs, and [$,]'s for Nigerian-scam strings,
# and ISO-8859-15 alphas. Do not split on @'s; better results keeping it.
# Some useful tokens: "$31,000,000" "www.clock-speed.net" "f*ck" "Hits!"
tr/-A-Za-z0-9,\@\*\!_'"\$.\241-\377 / /cs;
[...]
Получается, что если включена опция normalize_charset и кодировка письма
преобразовывается в utf-8, то tr//-оператор просто уничтожает весь текст,
оставляя только
"quotes, .'s and -'s for URIs, and [$,]'s for Nigerian-scam strings,
and ISO-8859-15 alphas",
следовательно Bayes не учит кириллические письма.
Кто-то пытался это победить? Спасибо.
--
MINO-RIPE