|
ru.unix.bsd- RU.UNIX.BSD ------------------------------------------------------------------ From : Auster 2:5020/400 13 Aug 2006 16:01:53 To : Sergey Skvortsov Subject : Re: bsdtar & symlinks -------------------------------------------------------------------------------- Sergey Skvortsov <skv@protey.ru> wrote: [порезано] >>>>>> смотрим теперь нп в статистику идущую с SA для URIBL_SBL рулесета >>>>>> - 98.6% правильных срабатываний, 1.4% - ложных. >>>>> Такие "рулесеты" - типичная апофения. >>>>> Все эвристические фильтры спама следует запретить. > > Под эвристикой в данном контексте подразумевается типичный для SA подход: > 1. человек (это важно!) смотрит набор спам-писем, и выдвигает гипотезу, > скажем "если в письме есть <font color=0> - то это вероятно спам" > 2. далее эта гипотеза проверяется на большом объеме тестовой выборки. > 3. если гипотеза имеет "хороший" процент срабатываний - ей назначается > вес, и она добавляется в правила. > > Порочность этого подхода достаточно очевидна: тестовая выборка отражает > состояние данных по некоему историческому периоду, она прозрачна для > спаммером (при появлении нового правила они быстро его обходят), плохая > реактивность динамическу именения процента срабатываний. Грубо говоря, > все правила надо постоянно валидировать на актуальность. > все, здесь точка, считаем что ты мне наконецто обьяснил, а я наконецто понял. > Добавлять же насколько далекие и косвенные данные, как ns-server домена > отправителя - дело очень сомнительное именно в силу низкой корреляции и > слабой релевантности (т.е. imho данные по ns-server'ам равносильны > критерию "является ли третий октет ip-address'а четным"). Hа вход > bayesian можно добавить и такие данные, главное не делать внешние > данныхе материалом для эвристических правил. > > Более развернутое сравнение есть тут: > http://dspam.nuclearelephant.com/faq.shtml#1.7 > очень похоже на саморекламу, и не более того. >>> "если в регионе отправителя температура 18+-2 градуса (с учетом >>> сезонности) - то это спамер". >> интересная аналогия :), но >> - если это даст постоянный исчезающе малый процент ложных срабатываний, >> почемубы тогда данный критерий и не использовать, какбы его там при этом и >> не обозвали. > Хм, я надеялся что эта аналогия покажет именно бредовость подхода к > использованию таких правил. > Остаётся лишь снова отослать к описанию dspam'а: > http://dspam.nuclearelephant.com/resources.shtml > http://wiki.apache.org/spamassassin/WhyUseRules -- Auster Vl. --- ifmail v.2.15dev5.3 * Origin: Demos online service (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.unix.bsd/3293caadc4a0.html, оценка из 5, голосов 10
|