singlepost

Алгоритм Байеса << На главную или назад  

Кто-то использовал этот алгоритм на практике? Не важно, в области обнаружения спама или в какой-либо другой.
Сколько приблизительно писем нужно проанализировать, чтобы обученный алгоритм давал скажем 90%-ый результат?
Заранее спасибо.

16 ответов в теме “Алгоритм Байеса”

  1. 10
    Евгений Тюкавкин ответил:

    Просто текст и письмо со спамом сильно разные вещи. В обычном же тексте никто не будет менять символы на похожие или идентичные внешне, но с другим кодом в utf. Соответственно для обыного текста может хватить 100 писем на обучение всей системы. А со спамом этого хватит только на распознование различных вариантов одного и того же спамового письма. Это если не учитывать варианты с картинками, вложениями или хитрым html-кодом в письме.
    Если работать с чистым текстом без извратов, то количество требуемых писем придется определять самостоятельно. Так как это все сильно зависит от набора писем, на которых будет проходить обучение и набора писем, которые потом будут проверяться.
    Алгоритм основан на подсчете вероятности появления слова в спаме и обычном тексте. Соответсвенно количество писем, требуемых для обученя будет зависеть от количества различных слов. А количество различных слов уже зависит от области применения

  2. 9
    Quizful Team ответил:

    Мне не для спама надо, просто упомянул о примере, который всем знаком.
    #7: почти так и думал. Может даже больше 1000 надо будет.
    Интересно было, может где-то есть конкретные данные.
    Текст он ведь и есть текст. По идее для любой области применения результат должен быть приблизительно одинаковый.

  3. 8
    Пашка Джиоев ответил:

    #7 а что искать? Создаешь несколько ящиков, и регишь их везде где попало, особенно на xxx сайтах и т.д. Через месяц спама будет достаточно )

  4. 7
    Евгений Гаврин ответил:

    Что-то мне подсказывает, что это как торсионные поля.

  5. 6
    Пашка Джиоев ответил:

    #3 – ну это супер наивный классификатор, у спамеров адреса меняются постоянно, однако гугл например, их палит все равно,
    судя по моему ящику вероятность ошибки меньше процента.

  6. 5
    Пашка Джиоев ответил:

    #1, просто возьми экзаменационную выборку и учебную. Обучай по учебной, пока на экзаменационной алгоритм не станет показывать требуемую результативность.

  7. 4
    Николай Митропольский ответил:

    Я не очень знаю в чем состоит "классическая фильтрация спама" но думаю меньшим чем несколько сотен писем вы всеравно не отделаетесь.
    Вообще наверное можно гденить поискать готовые базы обучающих выборок.

  8. 3
    Quizful Team ответил:

    #2, #3: В том-то и дело, что вероятности не знаю.
    Ладно, допустим рассматриваем использование алгоритма для классической фильтрации спама. Без учета знания спаммеров о таких алгоритмах и без использования всяких черных списков.
    Может кто-то знает сколько нужно обработать данных для какого-то конкретного результата?

  9. 2
    Евгений Тюкавкин ответил:

    Я сильно подозреваю, что спамеры учитывают подобные алгоритмы. Так что задача обучения системы сведется к составлению черного списка адресов и почтовых серверов.

  10. 1
    Николай Митропольский ответил:

    Имеется ввиду наивный байесовский классификатор?

    Ну вообще все зависит от используемых признаков (features, descriptors )… Да и если знаете заранее вероятность всего то можете вообще его не обучать)

Клуб программистов работает уже ой-ой-ой сколько, а если поточнее, то с 2007 года.