Кто-то использовал этот алгоритм на практике? Не важно, в области обнаружения спама или в какой-либо другой.
Сколько приблизительно писем нужно проанализировать, чтобы обученный алгоритм давал скажем 90%-ый результат?
Заранее спасибо.
Кто-то использовал этот алгоритм на практике? Не важно, в области обнаружения спама или в какой-либо другой.
Сколько приблизительно писем нужно проанализировать, чтобы обученный алгоритм давал скажем 90%-ый результат?
Заранее спасибо.
Клуб программистов работает уже ой-ой-ой сколько, а если поточнее, то с 2007 года.
16 ноября 2009 в 19:05
Просто текст и письмо со спамом сильно разные вещи. В обычном же тексте никто не будет менять символы на похожие или идентичные внешне, но с другим кодом в utf. Соответственно для обыного текста может хватить 100 писем на обучение всей системы. А со спамом этого хватит только на распознование различных вариантов одного и того же спамового письма. Это если не учитывать варианты с картинками, вложениями или хитрым html-кодом в письме.
Если работать с чистым текстом без извратов, то количество требуемых писем придется определять самостоятельно. Так как это все сильно зависит от набора писем, на которых будет проходить обучение и набора писем, которые потом будут проверяться.
Алгоритм основан на подсчете вероятности появления слова в спаме и обычном тексте. Соответсвенно количество писем, требуемых для обученя будет зависеть от количества различных слов. А количество различных слов уже зависит от области применения
16 ноября 2009 в 18:01
Мне не для спама надо, просто упомянул о примере, который всем знаком.
#7: почти так и думал. Может даже больше 1000 надо будет.
Интересно было, может где-то есть конкретные данные.
Текст он ведь и есть текст. По идее для любой области применения результат должен быть приблизительно одинаковый.
16 ноября 2009 в 14:04
#7 а что искать? Создаешь несколько ящиков, и регишь их везде где попало, особенно на xxx сайтах и т.д. Через месяц спама будет достаточно )
16 ноября 2009 в 14:02
Что-то мне подсказывает, что это как торсионные поля.
16 ноября 2009 в 13:03
#3 – ну это супер наивный классификатор, у спамеров адреса меняются постоянно, однако гугл например, их палит все равно,
судя по моему ящику вероятность ошибки меньше процента.
16 ноября 2009 в 13:03
#1, просто возьми экзаменационную выборку и учебную. Обучай по учебной, пока на экзаменационной алгоритм не станет показывать требуемую результативность.
16 ноября 2009 в 13:03
Я не очень знаю в чем состоит "классическая фильтрация спама" но думаю меньшим чем несколько сотен писем вы всеравно не отделаетесь.
Вообще наверное можно гденить поискать готовые базы обучающих выборок.
16 ноября 2009 в 11:01
#2, #3: В том-то и дело, что вероятности не знаю.
Ладно, допустим рассматриваем использование алгоритма для классической фильтрации спама. Без учета знания спаммеров о таких алгоритмах и без использования всяких черных списков.
Может кто-то знает сколько нужно обработать данных для какого-то конкретного результата?
16 ноября 2009 в 8:00
Я сильно подозреваю, что спамеры учитывают подобные алгоритмы. Так что задача обучения системы сведется к составлению черного списка адресов и почтовых серверов.
16 ноября 2009 в 2:02
Имеется ввиду наивный байесовский классификатор?
Ну вообще все зависит от используемых признаков (features, descriptors )… Да и если знаете заранее вероятность всего то можете вообще его не обучать)