Статистические оценки характеристик сети

Очевидно, что множество отдельных значений времени передачи каждого пакета в узел назначения дают исчерпывающую характеристику качества передачи трафика сетью в течение определенного промежутка времени. Однако это слишком громоздкая и, более того, избыточная характеристика производительности сети. Для того чтобы представить характеристики качества передачи последовательности пакетов через сеть в компактной форме, применяются статистические методы.

Статистические методы служат для оценки характеристик случайных процессов, а именно такой характер имеют процессы передачи пакетов сетью. Сами характеристики производительности сети, такие как, например, задержка пакета, являются случайными величинами.

Статистические характеристики выявляют закономерности в поведении сети, которые устойчиво проявляются только на длительных периодах времени. Когда мы говорим о длительном периоде времени, то мы понимаем под этим интервал, в миллионы раз больший, чем время передачи одного пакета, которое в современной сети измеряется микросекундами. Так, время передачи пакета Fast Ethernet составляет около 100 мкс, Gigabit Ethernet — около 10 мкс, ячейки ATM — от долей микросекунды до 3 мкс (в зависимости от скорости передачи). Поэтому для получения устойчивых результатов нужно наблюдать поведение сети, по крайней мере, в течение минут, а лучше — нескольких часов.

Основным инструментом статистики является так называемая гистограмма распределения оцениваемой случайной величины. Рассмотрим этот инструмент на примере такой характеристики сети, как задержка пакета.

Будем считать, что нам удалось измерить задержку доставки каждого из 2600 пакетов, переданных между двумя узлами сети, и сохранить полученные результаты. Эти результаты называются выборкой случайной величины.

Для того чтобы получить гистограмму распределения, мы должны разбить весь диапазон измеренных значений задержек на несколько интервалов и подсчитать, сколько пакетов из нашей выборки попало в каждый интервал. Пусть все значения задержек укладываются в диапазон 20-90 мс. Разобьем его на семь интервалов по 10 мс. В каждый из этих интервалов, начиная с интервала 20-30 мс и т. д., попало 100 (n1) , 200 (п2), 300 (nЗ), 300 (n4), 400 (n5), 800 (n6) и 500 (n7) пакетов соответственно. Отобразив эти числа в виде горизонтальных уровней для каждого интервала, мы получим гистограмму, показанную на рис.1, которая, основываясь всего на семи числах п1, п2,..., п7, дает нам компактную статистическую характеристику задержек 2600 пакетов.

Гистограмма задержек дает хорошее представление о производительности сети. По ней можно судить, какие уровни задержек более вероятны, а какие — менее. Чем больше период времени, в течение которого собираются данные для построения гистограммы, тем с более высокой степенью достоверности можно предсказать поведение сети в будущем.

Например, пользуясь гистограммой на рис. 1, можно сказать, что и в будущем при измерениях задержек пакетов у 65 % пакетов задержка не превысит 60 мс. Для получения такой оценки мы сложили общее количество пакетов, задержки которых попали во все интервалы, большие 60 мс (1700 замеров), и разделили эту величину на общее количество пакетов (2600 замеров). Другими словами, мы нашли долю пакетов, задержки которых в выборке превышают 60 мс, и считаем, что наша выборка позволяет судить о поведении сети в будущем.

Насколько точен такой прогноз? Собрали ли мы достаточно экспериментальных данных, чтобы делать более-менее достоверные прогнозы? Статистика позволяет судить и об этом, однако мы не будем рассматривать здесь эту увлекательную проблему и оставим ее специальным книгам по статистике.

При увеличении количества интервалов и времени наблюдения мы в пределе получаем непрерывную функцию, которая называется плотностью распределения задержки доставки пакета (показана пунктиром). В соответствии с теорией, вероятность того, что значение случайной величины окажется в определенном диапазоне, равна интегралу плотности распределения случайной величины от нижней до верхней границ данного диапазона. Таким образом, может быть вычислено вероятностное значение задержки пакета.

Гистограмма дает хорошее детальное описание соответствующей характеристики, но чаще всего используются еще более компактные статистические оценки характеристик, которые позволяют представить характеристику одним числом на основе некоторой математической обработки имеющейся выборки.

Наиболее часто для описания характеристик производительности сети используются следующие статистические оценки.

  • Среднее значение (D) вычисляется как сумма всех значений оцениваемой величины d, деленная на количество всех измерений N:

Для примера, приведенного на рис. 6.3, среднее значение равно: (100 х 25 + 200 х 35 + 300 х 45 + 300 х 55 + 400 х 65 + 800 х 75 + 500 х 85)/2600 - 64,6 мс (для вычисления использованы средние значения интервалов).

  • Медиана представляет такое значение оцениваемой величины, которое делит ранжированную (упорядоченную) выборку пополам, то есть таким образом, чтобы количество замеров, значения которых меньше или равны значению медианы, равнялось количеству замеров, значения которых больше или равны значению медианы. В нашем примере медианой выборки является значение 70 мс, так как число замеров, значения которых меньше или равны 70 мс, составляет 1300, а число замеров, значения которых  больше или равны 70 мс, равно 1300.
  • Стандартное отклонение (J) представляет собой среднее отклонение каждого отдельного замера от среднего значения оцениваемой величины:

Очевидно, что если все задержки d1, равны между собой, то вариация отсутствует, что подтверждают приведенные формулы — в этом случае D = d1 и J = 0.

  • Коэффициент вариации — это безразмерная величина, которая равна отношению стандартного отклонения к среднему значению оцениваемой величины:

Коэффициент вариации характеризует оцениваемую величину без привязки к ее абсолютным значениям. Так, идеальный равномерный поток пакетов всегда будет обладать нулевым значением коэффициента вариации задержки пакета. Коэффициент вариации задержки пакета, равный 1, означает достаточно пульсирующий трафик, так как средние отклонения интервалов от некоторого среднего периода следования пакетов равны этому периоду.

  • Квантиль (процентиль) — это такое значение оцениваемой величины, которое делит ранжированную выборку на две части так, что процент замеров, значения которых меньше или равно значению квантиля, равен некоторому заданному уровню. В этом определении фигурируют два числа: заранее заданный процент и найденное по нему и замерам выборки значение квантиля. Рассмотрим для примера выборку задержек пакетов, показанную на рис. 1, и найдем для нее значение 80-процентного квантиля.  Ответом будет 80 мс, так как ровно 80 % замеров выборки (то есть 2100 замеров из всех интервалов кроме последнего) имеют значения, меньшие или равные 80 мс. Медиана является частным случаем квантиля — это 50-процентный квантиль. Для оценки характеристик сети обычно используют квантили с достаточно большим значением процента, например 90-, 95- или 99-процентные квантили. Это понятно, так как если пользователю скажут, что сеть будет обеспечивать уровень задержек в 100 мс с вероятностью 0,5, то это его не очень обрадует, так как он ничего не будет знать об уровне задержек половины своих пакетов.