поиск по сайту
ВЫБОР СПОСОБ ВИЗУАЛИЗАЦИИ СОБЫТИЙ БЕЗОПАСНОСТИ

ВЫБОР СПОСОБ ВИЗУАЛИЗАЦИИ СОБЫТИЙ БЕЗОПАСНОСТИ

А.В. ПИСКУНОВ

ФГБОУ ВПО Московский Физико-Технический Институт (НИУ),

г. Долгопрудный, 141701, Россия

С растущим объемом информации, которая обрабатывается и передается между различными информационными системами (ИС), организации и отдельные пользователи все больше зависят от непрерывности и корректности выполнения данных процессов. Очевидно, что угрозы безопасности могут нарушить это состояние. Для реагирования на угрозы безопасности в ИС необходимо иметь инструменты, позволяющие анализировать в реальном времени происходящие события, число которых только растет.

Как правило, события безопасности фиксируются в журналах в текстовом виде. Огромный объем текстовой информации существенно затрудняет анализ и обнаружение в этом объеме событий, являющихся инцидентами безопасности.

Для исследования защищенности ИС необходимо анализировать журналы и конфигурационные файлы различных СЗИ, например, системы обнаружения вторжений атак, антивирусы, межсетевые экраны. Организации обращаются к аналитикам безопасности для защиты от киберугроз, поскольку использования автоматизированных систем недостаточно [1]. Аналитики безопасности исследуют состояние сетей, хостов, приложений и бизнес-процессов с помощью анализа событий безопасности. Задачи аналитиков зачастую касаются огромного количества текстовых данных, которые необходимо проанализировать. Для решения этих задач может использоваться визуализация, так как она эффективна при работе с большим объемом текстовых данных [2-4].

Визуализация позволяет работать с увеличивающимся объемом анализируемой информации, так как при использовании различных графических атрибутов, в том числе, формы, цвета, размера или относительного расположения на изображении, можно сегментировать и выделять наиболее значимые параметры анализируемых данных [5].

Ниже приведен краткий перечень преимуществ визуализации журналов безопасности по сравнению с их анализом в текстовом виде [6]:

  • Визуализация позволяет искать ответы на вопросы аналитиков безопасности, возникающие в отношении набора данных событий безопасности. Изображение позволяет отобразить необходимые данные вместе с взаимосвязями между ними в сжатой форме.
  • Аналитик безопасности может наблюдать различные закономерности в визуальном представлении данных, на основании которых возникнут новые гипотезы, способные помочь в раннем выявлении инцидентов безопасности.
  • Визуализация помогает эффективно анализировать большой объем данных, поэтому принимаемые решения могут основываться на большом количестве данных.
  • Время, необходимое для анализа данных, резко сокращается. Это позволяет аналитикам сосредоточиться на найденных зависимостях и отношениях в данных. Это также ускоряет обнаружение инцидентов безопасности и реагирование на нештатные ситуации.
  • Визуализация часто позволяет выявить проблемы с самими данными: обычно раскрывает не только информацию о самих данных, но и о том, как она собирается. При соответствующей визуализации ошибки и артефакты в данных становятся очевидными. По этой причине визуализация может быть полезной при контроле качества формирования журналов.
  • Визуализация облегчает понимание как масштабных, так и мелкомасштабных характеристик данных. Это может быть особенно ценно для понимания локальных взаимосвязей в данных.

Рассмотрим различные способы представления данных:

1. Простые графики

1.1 Круговая диаграмма

Круговые диаграммы, в основном, используются для представления значений как пропорций или процентов от целого. Данные должны быть категориальными. Недостаток круговых диаграмм заключается в том, что они могут визуализировать только небольшое количество различных значений, иначе диаграмма становится неразборчивой. Добавление меток к круговой диаграмме повышает ее читаемость. [6, c. 71]

1.2 Столбчатая диаграмма

Столбчатые диаграммы используются для отображения частоты появления определенных значений. Они интуитивно понятны и очевидны, что позволяет легко сравнивать количество случаев или записей по каждому значению, просто глядя на высоту столбцов. В основном, столбчатую диаграмму используют для представления категориальных данных. Она не предназначена для отображения данных, имеющих непрерывные значения или принадлежащие многим категориям [6, c.72].

1.3 Линейная диаграмма

Если данные, подлежащие визуализации, относятся к какому-то интервалу (например, временному), то возможно использовать линейную диаграмму, а не столбчатую диаграмму.

Как и столбчатые диаграммы, линейные диаграммы часто используются для отображения частоты появления определенных значений. Как и другие типы диаграмм, вместо использования частоты можно использовать любую другую функцию агрегации, такую ​​как средняя или сумма. Линейные диаграммы полезны для отображения тенденций [6, c.72].

1.4 Трехмерные столбчатые диаграммы

Если необходимо одновременно представить два параметра категориальных данных, можно использовать трехмерную столбчатую диаграмму. Трехмерные гистограммы обладают рядом проблем, свойственных трехмерным графикам. Одной из них является окклюзия. Она случается, когда некоторые из столбцов спереди скрывают те, что расположены сзади, что делает невозможным прочесть эти значения [6, c.72]. 

2. Графики с накоплением

2.1 Круговая диаграмма

Дополнительную размерность данных также можно отобразить на круговой диаграмме. С помощью сегментации секторов, представленных на диаграмме, можно отобразить еще одну размерность данных. Внешние части круговой диаграммы кажутся большими, чем внутренние, даже если они соответствуют одинаковым значениям. Маркировка отдельных сегментов секторов соответствующими процентными отношениями позволит правильно интерпретировать значения [6, c.76]. 

2.2 Столбчатая диаграмма с накоплением

По сравнению с обычной столбчатой диаграммой, столбцы с накоплением используют дополнительное измерение для сегментирования данных в определенных столбцах. Изображение нескольких столбцов с накоплением на одном графике делает эти диаграммы инструментом для сравнения данных. При этом трудно судить о точной высоте столбца в столбчатой диаграмме. Если точность имеет первостепенное значение, вместо этого стоит рассматривать линейную диаграмму [6, c.77].

2.3 Линейная диаграмма с накоплением

Дополнительная размерность данных может быть представлена таким же образом, как и в случае с гистограммой. На график могут быть добавлены линии разных цветов, каждая из которых отвечает за некоторый параметр данных [6, c.78].

3. Гистограммы

Гистограммы показывают распределение данных. Они очень похожи на столбчатые диаграммы, но используются для непрерывных данных. Когда размер данных равен сотням или даже тысячам значений, они могут быть сгруппированы, а частотные значения в этих группах могут быть представлены на гистограмме. Гистограммы отлично подходят для обнаружения таких особенностей, как всплески или пробелы в отображаемых событиях [6, c.79].

4. Диаграммы размаха

Для оценки распределения данных используются диаграммы размаха. Верхняя и нижняя черты диаграммы указывают максимальное и минимальное значения для конкретного диапазона данных. Линия внутри прямоугольника соответствует медианому значению. Прямоугольник показывает, какие значения попадают в 50 процентов центральных значений [6, c.80].

5. Точечная диаграмма

Точечные диаграммы используются для визуализации либо порядковых, либо непрерывных данных. Точечные диаграммы могут использоваться для изучения взаимосвязи двух параметров данных или для обнаружения трендов в данных. Для двумерной точечной диаграммы выбираются два параметра входных данных, которые присваиваются осям x и y соответственно. Чтобы отобразить более двух параметров на двухмерной диаграмме рассеяния, можно использовать цвет, форму и размер для представления дополнительных параметров [6, c.82].

6. Параллельные координаты

Оси на графике представляют отдельные параметры данных. Значения различных параметров нанесены вдоль каждой из вертикальных осей. Каждая строка данных представляется в виде линии слева направо, соединяющей каждое из значений в смежных осях. Параллельные координаты в основном используются для изучения того, как несколько параметров связаны друг с другом. Если много данных отображается в параллельном отображении координат, перестановка осей может помочь уменьшить визуальный беспорядок [6, c.85].

7. Графы связей

Граф связей состоит из узлов и ребер, соединяющих узлы. Для определения направления взаимодействий между двумя узлами могут быть использованы ориентированные графы. Дополнительные параметры данных могут быть также представлены с использованием различных цветов, форм и толщины ребер [6, c.87].

8. Карты

Некоторые параметры данных тесно связаны с физическим местоположением, например, IP-адреса. Для отображения таких параметров могут применяться различные степени детализации. Визуализация местоположения часто является эффективным способом анализа данных. Можно использовать карты мира, карты городов, планы зданий и т.д. Карты полезны для изучения пространственно-распределенных данных [6, c.93].

9. Деревья

Деревья являются еще одной альтернативой для визуализации многомерных, иерархических данных. Иерархические или древовидные структуры создаются путем объединения нескольких параметров данных. Первое преимущество состоит в том, что деревья могут показывать отношения, основанные на иерархиях. Легко сравнить конкретные параметры данных друг с другом. Во-вторых, деревья позволяют визуализировать несколько измерений данных одновременно с помощью цвета и размера. Третье преимущество заключается в том, что среди данных легко обнаруживаются кластеры [6, c.96].

Каждый график имеет свои особенности и подходит для решения определенных задач. Некоторые графики подходят для визуализации больших объемов данных, другие лучше подходят для выявления небольших изменений и закономерностей.

Исходя из оценок аналитиков, стоит отдать предпочтение системам визуализации, использующим для отображения информации двумерную плоскость перед системами, использующими трехмерную, так как последние в большей степени подвержены проблеме окклюзии и более сложны для анализа событий безопасности.

Для определения наиболее подходящего для конкретного случая типа графика необходимо обратить внимание на тип данных, которые планируется анализировать. Обычно речь идет о следующих типах данных: категориальный, порядковый, интервальный или относительный [6].

Категориальные данные - это данные, множество значений которых содержит 2 или более элемента. 

Категориальные данные называются порядковыми, если они могут быть ранжированы в убывающем или восходящем порядке (дни недели, месяцы).

Другой тип данных называется интервальным. Интервальные данные могут быть измерены по шкале.

Вещественнозначные данные – это те, которые выразимы в вещественных числах.

При использовании данных с числом параметров больше единицы различают независимые и зависимые переменные. Зависимая переменная – переменная, за которой наблюдают, чтобы увидеть, как она изменяется в зависимости от изменения независимой.

Цвет может использоваться в графическом представлении как дополнительное измерение в пространстве представления данных. Как правило, в визуализации используют контрастные цвета, так как различные оттенки порой трудно различимы между собой. Поэтому цвет используется, в основном, для отображения небольшого набора категориальных значений. Для выбора наиболее различимых цветовых схем для графика можно воспользоваться специальными инструментами [8].

Отобразить дополнительные измерения можно и с помощью размера, формы и ориентации. Использование размера имеет свои недостатки: невозможно определить точный размер определенного объекта при взгляде на него. Однако отношения размеров нескольких объектов определяются очень хорошо. Различные формы обычно используются для представления небольшого количества категориальных значений, таких как транспортный протокол или тип операционной системы. Ориентация обычно не используется, но может быть еще одним способом добавления дополнительного измерения в пространство представления данных. 

При определении параметров графического представления необходимо решить, какой параметр данных будет являться основным. Это параметр, который необходимо проанализировать, или по которому нужно сравнить распределение других параметров данных. Если таких параметров окажется несколько, то это повлияет на выбор способа визуализации.

Некоторые графики безразличны к выбору основного параметра данных: графы связей, точечные графики и параллельные координаты.

Далее необходимо определить, нужно ли явно отображать все параметры данных или есть некоторые, которые стоит отображать с помощью параметров графика, таких как размер, цвет и форма. [6, c.132].

В зависимости от типа графика, использование размера для отображения определенных параметров данных различается. Например, для столбчатых и круговых диаграмм использование элементов различных размеров и так является неотъемлемой частью.

В точечных диаграммах и графах связей точки или узлы на графике могут иметь различные размеры, пропорциональные соответствующему параметру данных.

Использование цвета наиболее уместно, если отображаемый с его помощью параметр данных принимает только несколько значений. Если данные не категориальные, а непрерывные, для отображения значений можно использовать градиент цвета. Назначение цвета отдельным компонентам осуществляется на основе четырех принципов [9]:

  1. Отождествление цвета с определенным параметром данных
  2. Использование контрастных цветов для различных групп параметров данных
  3. Использование различных оттенков одного цвета для того, чтобы показать принадлежность данных к определенной группе
  4. Использование красного цвета для привлечения внимания

Для упрощения задачи выбора графического представления можно воспользоваться алгоритмом, который исходя из поставленной цели (оценка распределения параметров, поиск взаимосвязи в данных, сравнение параметров или поиск закономерностей) и типа используемых данных определяет наиболее подходящий способ визуализации данных (рис. 2)

Рисунок 2 – алгоритм выбора способа визуализации данных

После выбора параметров графического представления наступает итеративный процесс улучшения визуализации путем варьирования значения параметров и агрегации данных для упрощения графика.

На последнем этапе в общем случае уже имеется несколько вариантов графического представления данных. Необходимо выбрать наиболее подходящий для решения задачи вариант.

Поскольку число событий, связанных с безопасностью и генерируемых в современных сетях, растет, потребность в системах визуализации безопасности сейчас также увеличивается.

В статье был рассмотрен процесс создания визуализации данных, а также способы графического представления информации о событиях безопасности.

Выбор способов визуализации, позволяющих выявлять инциденты безопасности в ИС, должен в первую очередь основываться на актуальных угрозах и уязвимостях, параметрах самой ИС, таких как размер сети, характер происходящих в ней процессов, а также опыта использования подобных систем аналитиками безопасности.

Список литературы

  1. S. Gutzwiller, S. M. Hunt, D. S. Lange, "A task analysis toward characterizing cyber-cognitive situation awareness (CCSA) in cyber defense analysts", Proc. CogSIMA, pp. 14-20, March 2016.
  2. Новикова Е.С., Котенко И.В. Механизмы визуализации в SIEM-системах // Системы высокой доступности, № 2, 2012. С.91-99.
  3. Новикова Е.С., Чечулин А.А., Котенко И.В. Технологии визуализации для противодействия компьютерным атакам в системах управления информационной безопасностью // Санкт-Петербургский научный форум «Наука и общество». 7-ая Петербургская встреча нобелевских лауреатов. Тезисы докладов. Санкт-Петербург. 2012.
  4. Чечулин А.А., Котенко И.В., Новикова Е.С., Дойникова Е.В. Моделирование атак и механизмов защиты в системах управления информацией и событиями безопасности // Международная конференция “Информационные технологии в управлении” (ИТУ–2012). 09–11 октября 2012 г., Труды конференции. Санкт-Петербург, 2012.
  5. C. Information Visualization. Perception for Design 2nd Edition, Elsevier Morgan Kaufman, 2004
  6. Marty R. Applied Security Visualization. NY:Addison Wesley Professional, 2008
  7. Graphviz [Электронный ресурс]. URL: https://www.infovis.net:5201/?num=187&lang=2 (дата обращения: 20.05.2019)
  8. Stone M. Choosing Colors for Data Visualization January 17, 2006 [Электронный ресурс]. URL: http://www.perceptualedge.com/articles/b-eye/choosing_colors.pdf (дата обращения: 20.05.2019)
  9. Card S. K., Mackinlay J., Shneiderman B. Readings in Information Visualization: Using Vision to Think (Interactive Technologies). Morgan Kaufmann, 1999.