поиск по сайту
Методы фильтрации "спама" во входящих электронных документах

Методы фильтрации "спама" во входящих электронных документах

А. В. Киселев, Аспирант ВНИИПВТИ

Непрошеные рекламные рассылки по электронной почте являются одной из наиболее серьезных проблем Интернета. Прибывающий в почтовые ящики "спам", может иметь серьезные финансовые последствия для предприятий и представляет возможную угрозу безопасности ее компьютерам и информации, размещенной на них. [6]

Убытки от "спама", на первый взгляд незначительные для отдельного пользователя, в масштабах всей индустрии и даже отдельной крупной компании выглядят впечатляюще. По разным оценкам, на "спаме" компании теряют от $50 до $200 в год в расчете на одного офисного сотрудника. В результате в прошедшем 2003 году ущерб от "спама" по порядку величины стал сравним с потерями, которые нанесли мировому сообществу компьютерные вирусы и хакеры. В Российской Федерации этот ущерб оценивается в 150-200 миллионов евро, а консервативная оценка ущерба во всем мире близка к 10 миллиардам долларов.

По данным исследования Ferris Research "электронная макулатура", получаемая в течение года американскими компаниями, обходится им примерно в 8,9 биллионов долларов, европейскими фирмами - в 2,5 биллиона долларов. Поставщики услуг Internet, работающие в Соединенных Штатах и Европе, ежегодно теряют до 500 миллионов долларов. В результате исследования выяснилось также, что на удаление одного нежелательного сообщения уходит в среднем 4,4 секунды. В США этот показатель снижает производительность труда в целом на 4 биллиона долларов ежегодно. [5]

Угроза безопасности, связанная с рассылкой нежелательной почты, заключается в виде текстовых сообщений, пытающихся склонить пользователя к раскрытию конфиденциальной информации, и HTML-писем со вложенными скриптами, способными загружать вредоносный код на компьютер пользователя. [7]

Для предприятия это представляет серьезную проблему - каналы приема входящих электронных документов забиваются ненужными документами и усложняется процесс обработки входящих электронных документов. На сегодняшний день нет четкого определения понятия "спам". Вот только несколько вариантов определений [3]:

  • это анонимная массовая непрошеная рассылка;
  • это массовая не запрошенная рекламная рассылка;
  • это безадресная рассылка.

В любом случае такие рассылки представляют собой "шум" из-за которого усложняется обработка входящих электронных документов. Как показали исследования, основная причина такого "шума" - несовершенство протоколов передачи электронных документов, а так же изначальная открытость серверов приема электронных документов. [4] Далее будут рассмотрены методы фильтрации "спама" на почтовых серверах и факсовых серверах, так как они оказываются наиболее уязвленными из-за способности в автоматическом режиме принимать входящие электронные документы от любого источника.

В Российской Федерации нет законодательных актов, ограничивающих распространение "спама", именно поэтому с каждым месяцем в общем трафике электронных документов доля "спама" неуклонно растет. По разным оценкам сегодня эта доля составляет свыше 50%. Это породило новый рынок услуг - антиспам решения для автоматической фильтрации нежелательной корреспонденции. Наиболее развитые решения на данном рынке являются решения для фильтрации нежелательной корреспонденции на почтовых серверах, так как здесь объем "спама" растет большими темпами по сравнению с факс-серверами. Это связано с тем, что:

  • в сети Internet проще всего скрыть компьютер-источник "спама";
  • наличие канала доступа с большой пропускной способностью позволяет за 1 минуту рассылать одновременно несколько десятков тысяч сообщений;
  • создание и распространение специализированных вирусов, позволило рассылать "спам" одновременно с нескольких компьютеров, подключенных к сети Internet, без ведома их владельцев.

Под менее пристальным вниманием, при организации системы защиты электронного документооборота, сегодня остаются факсовые сервера. Как правило, в ночное время они остаются бесконтрольными со стороны обслуживающего персонала, что позволяет загружать их не запрошенными рассылками одновременно с нескольких телефонных аппаратов.

Одним из первых способов рассылки нежелательной корреспонденции через почтовые сервера был способ рассылки с фиксированных IP-адресов. Часто это были почтовые open relay сервера (открытые к транзитной пересылке почты сервера). Для того чтобы решить основную массу проблем защиты электронного документооборота достаточно было вести постоянно обновляемый список IP-адресов, почту с которых принимать не следует. За исключением рассылок с новых IP-адресов, еще не появившихся в "черном списке". Сейчас эта схема борьбы с факсовыми рассылками вполне действенна. Из-за отставания в модернизации городских телефонных сетей, и в частности АТС, не так просто изменить телефонный номер для выполнения рассылки. Однако при вводе в эксплуатацию электронных АТС и неправильной их настройке может стать вполне возможными несанкционированная смена телефонного номера абонентом.

После того как системные администраторы почтовых серверов Internet стали перенастраивать open relay сервера, запрещая не прошенные рассылки, спамеры перешли к другим способам рассылок. Стали использоваться Dial-up доступы провайдеров и динамически изменяемые IP адреса. Эффективность поддержки "черных списков" IP адресов резко сократилась. Поэтому стал использоваться механизм фильтрации документов на основе характерных признаков его содержимого.

В настоящий момент эта же ситуация возможна и с факсовыми рассылками. Сегодня не так сложно купить контракт мобильной связи с индивидуальным телефонным номером, без оформления необходимых документов. Поэтому наиболее целесообразным способом борьбы со "спамом" становится способ фильтрации документов на основе характерных признаков его содержимого.

Как известно, электронный документ через факс передается путем преобразования документа в картинку, а затем в виде последовательности цветов каждой точки картинки отправляется получателю. На принимающей стороне, для автоматической фильтрации "спама" необходимы механизмы распознавания полученного документа (перевод изображения обратно в текст). В настоящее время современные технологии распознавания таковы, что компьютер может распознать только образ шрифта печатного текста, да и то - иногда ошибаясь из-за зашумленности изображения. В связи с этим в алгоритмы анализа распознанного текста необходимо ввести поправки, связанные с вероятностью нечеткого распознавания отдельных символов текста.

Очень часто не прошенные почтовые рассылки содержат в себе картинки, в которых с применением некоторых алгоритмов зашумления изображения содержится основная часть электронного письма. Однако в настоящее время имеются ряд технологий, позволяющих обрабатывать и такие изображения для выявления характерных признаков. Эта же технология с некоторыми доработками может быть применена для случаев, когда полученный факс содержит рукописный текст или ряд графических изображений.

После такого предварительного распознавания становится возможным автоматическая обработка полученной информации с целью отсеивания нежелательных электронных рассылок.

Как в случае почтовых серверов, так и в случае факсовых серверов любой входящий электронный документ состоит из двух частей:

  • служебная информация об отправителе и маршруте движения электронного документа;
  • содержательная часть электронного документа.

Для принятия решения о фильтрации электронного документа системе защиты необходимо проводить анализ его обеих частей, потому что служебная часть также может быть подделана отправителем. И только при совокупности ряда признаков, позволяющих определять наличие "спама", она принимает решение о фильтрации электронного документа [2].

Решение о фильтрации принимается на основе значения вычисляемого в ходе анализа содержания текста некоторого коэффициента. Способ вычисления данного коэффициента зависит от конкретной реализации алгоритма фильтрации. Обычно этот коэффициент выражает вероятность отнесения полученного электронного документа к "спаму" или "не спаму". Пороговые значения определяются исходя из алгоритма вычисления такого коэффициента, а так же практики использования данного фильтра. Для тонкой настройки алгоритма фильтрации требуется достаточно большой опыт и знание предмета системным администратором. В противном случае неправильная настройка грозит ложными срабатываниями фильтра или наоборот - не достаточной эффективностью использования самого фильтра.

Так же стоит отметить, что сами спамеры активно следят за тенденциями на антиспам рынке, а так же за реакцией на "спам" наиболее крупных серверов (например Mail.ru, Yandex.ru). Это значит, что в новые рассылки вносятся такие изменения в текст "спама", что становится крайне затруднительным автоматический анализ письма и выявление характерных признаков "спама", но при этом пользователь такое сообщение прочитает без особых проблем.

Если письмо отвергается сервером еще на стадии получения, то это же письмо многократно повторяется с других доступных спамеру IP адресов до тех пор, пока письмо не будет принято почтовым сервером. В некоторых случаях это можно рассматривать как DoS (Denial of Service) атаку на сервер. Поэтому становится наиболее целесообразным имитация успешной доставки письма. Тем самым у спамера складывается впечатление, что текст письма составлен достаточно грамотно для преодоления антиспам системы. Данный подход может использоваться как один из методов борьбы со "спамом".

Таким образом, несмотря на то, что себестоимость рассылок через факсовые сервера выше, чем у рассылок через почтовые сервера Internet, необходимо быть готовым к тому, что в ближайшем будущем рекламодатели могут обратить более пристальное внимание на факсовые рекламные рассылки. Поэтому при организации системы защиты электронного документооборота предприятия необходимо одновременно предусматривать введение механизмов защиты входящего электронного документооборота через факс-сервера и почтовые сервера [1]. Это позволит не только предупредить, но и уменьшить вероятность реализации угрозы безопасности электронному документообороту предприятия.

Литература:

  1. Федеральный закон Российской Федерации от 1 января 2002 г. №1-ФЗ "Об электронной цифровой подписи".
  2. Калинин А.В. Применимость Байесовского классификатора для задачи определения спама. Материалы конференции "Проблема спама и ее решения" за 2004 г.
  3. Электронный журнал "Спамтест - все о борьбе со спамом" (http://subscribe.ru/catalog/inet.safety.spamtest)
  4. Колмановская Е.С. Спам - болезнь роста Сети. "Управление защитой информации" том 7 №3, 2003 г.
  5. В.А. Гадасин, В.А. Конявский "От документа - к электронному документу. Системные основы" - М.: "РФК-Имидж Лаб", 2001 -190 с.
  6. "Сборник научных трудов ВНИИПВТИ" - М.: "РФК-Имидж Лаб", 2001 -192 с.
  7. Слепов О.И. Борьба со спамом. Информационный бюллетень "Jet Info" №9 от 2004 года. - М.: "Джет Инфо Паблишер", 2004.

Метки статьи:
другое
ФорумФорум
Форум ОКБ САПР
ОбучениеОбучение
Кафедра «Защита информации» ФРТК МФТИ и собственные курсы стажировок по нашей продукции.