Оценка надежностных характеристик отказоустойчивой ВС

Разработка отказоустойчивой операционной системы реального времени для вычислительных систем с максимальным рангом отказоустойчивости
Найти, подготовить и загрузить затребованную задачу; Управление взаимодействием частей системы (например, менеджеров процессов и файлов) Поддержка отказоустойчивости вычислительных систем средствами операционных систем реального времени ОС представляет собой совокупность информационно взаимосвязанных и согласовано функционирующих операционных систем каждого отдельного узла сети ВС Описание системных таблиц Модуль маршрутизатора Процедура голосования Инициализация Недостоверность переданной информации была вызвана кратковременным сбоем, при этом ПЭ1 получил достоверные результаты счета, а ПЭ3 – недостоверные Методика анализа отказов Оценка надежностных характеристик отказоустойчивой ВС Программное обеспечение модели отказоустойчивой ВС Программное обеспечение подсистемы проверки Обзор базовых ОСРВ для платформы TMS320C30 Проверка содержимого памяти Системные исследования Разработка алгоритмов Метод сквозного структурного контроля
148576
знаков
34
таблицы
0
изображений

2.6. Оценка надежностных характеристик отказоустойчивой ВС

Выбранная концепция построения специализированной распределенной операционной системы реального времени позволит однородной системе функционировать при возникновении N -1 отказа ПЭ в системе.

Если не учитывать вероятность отключения работоспособных процессорных модулей, то можно провести оптимистическую оценку вероятности отказа всей системы за определенный период функционирования и среднего времени наработки на отказ системы.

Будем предполагать, что поток отказов в каждом узле системы является простейшим, т.е. стационарным, ординарным и без последствия, с показательным законом распределения длины интервала между соседними событиями (отказами):

(1)

где: - вероятность того, что за время t произойдет ровно “K” событий (отказов);

l - параметр потока, интенсивность потока отказов;

T0 – математическое ожидание длины интервала между соседними событиями – среднее время наработки на отказ;

P0(t) – вероятность того, что за время t не произойдет ни одного события (отказа), вероятность безотказной работы.

Обозначим через – среднее время наработки на отказ одного узла системы. Для отказоустойчивых систем под состоянием отказа будем понимать состояние фатального отказа, т.е. для ОС-N(m), это состояние, при котором произошел отказ более чем “m” узлов системы (m+1, m+2, …).

В произвольный момент времени t мы можем застать систему в одном из двух состояний:

работоспособном, с вероятностью R(t),

в состоянии фатального отказа, с вероятностью P(t).

Если взглянуть на систему с учетом состояний работоспособности каждого из N ее элементов (узлов), то в произвольный момент времени t мы можем застать систему в одном из 2N состояний (см. рис. 2.10).

Рис 2.10. Состояния N-узловой системы


Если поставить в соответствие каждому узлу системы разряд двоичного N разрядного числа (0 – узел работает, 1 – узел отказал), то каждому такому состоянию системы можно поставить в соответствие свой номер, равный значению введенного двоичного N разрядного числа и каждому такому состоянию соответствует некоторая вероятность нахождения системы в момент времени t в этом состоянии.

Все 2N состояний системы можно разбить на несколько групп состояний, каждое из которых отличается от других количеством отказавших узлов. Нулевая группа (группа с номером 0) содержит одно состояние (= 1), в котором все узлы системы находятся в состоянии работоспособности, т.е. имеется ровно 0 отказавших элементов. Первая группа включает в себя все состояния, в которых отказал ровно один узел (двоичные номера этих состояний содержат лишь одну единицу в N разрядном двоичном коде). Количество состояний, входящих в первую группу равно =N – числу сочетаний из N по 1 ().

Вторую группу составляют состояния, в которых в системе имеется два отказавших элемента, таких состояний ровно и т.д.

В i-ю группу включаются все состояния, в которых в системе отказало ровно i узлов, таких состояний .

Предпоследняя (N-1) –я группа включает в себя состояний, т.е. N состояний.

Последняя N-я группа содержит одно состояние (=1), в котором отказали все N узлов системы.

Т.к. в произвольный момент времени система может находится только в одном из всех 2N состояний, то эти события являются несовместными. Поэтому вероятность нахождения системы в любом из состояний, относящихся к одной из упомянутых выше групп можно получить как сумму вероятностей нахождения системы во всех состояниях данной группы. А если учесть, что внутри каждой i-й группы все состояния характеризуются наличием ровно i отказавших узлов, то вероятности для всех состояний одной группы равны между собой, поэтому:

(2)

где: Pi – вероятность нахождения системы (в произвольный момент времени t) в любом из состояний, отнесенных к i-й группе;

- вероятность нахождения системы в одном конкретном состоянии, отнесенном к i-й группе.

Все состояния, отнесенные к i-й группе характеризуются наличием в системе (в произвольный момент времени t) ровно i отказавших узлов и ровно (N-i) исправных узлов.

В соответствии с введенным выше предположением о простейшем потоке отказов (1) вероятность можно оценить следующим образом:

(3)

где первая скобка соответствует тому, что (N-i) элементов находятся в работоспособном состоянии, а вторая тому, что i элементов отказали. Подставляя (3) в (2) можно получить выражение для вычисления вероятностей Pi.

Очевидно, что для системы ОС-N(m) (N узловой системы с рангом отказоустойчивости m) все состояния системы, входящие в группы 0,1,2,…m относятся к тем состояниям, в которых система нормально функционирует. В этой связи вероятность R(t) можно оценить следующим образом:

(4)

Вероятность фатального отказа системы ОС – N(m) можно оценить как сумму вероятностей нахождения системы в состояниях, отнесенных к группам m+1, m+2, … N-1, N:

(5)

Критерием правильности предложенной методики является выполнение условия R(t)+P(t)=1 для любых систем и любых значений t.

Объединяя выражения (2) (3) (4) и (5), получим окончательные формулы для вычисления вероятностей безотказной работы – RN(m)(t) и фатального отказа –PN(m)(t) систем ОС-N(m) для произвольного момента времени t:

(6)

Для практических расчетов целесообразно использовать одну из этих формул, а именно ту, у которой (в зависимости от значений N и m) меньше суммируемых членов, т.е. при целесообразно использовать формулу PN(m)(t) в противном случае – формулу RN(m)(t). При этом второй параметр получается из соотношения RN(m)(t)+PN(m)(t)=1.

Таким образом для систем типа N(N-1) выражения (6) принимают вид:

(6а)

Рассмотрим теперь определение среднего времени наработки на отказ T0N(m) отказоустойчивых систем ОС-N(m).

Невосстанавливаемая N-узловая отказоустойчивая система m-го ранга (ОС-N(m)) может быть представлена марковской моделью с количеством состояний (N+1):


где: 0 – состояние, в котором ни один узел системы не отказал;

1 – состояние (объединяющее группу из состояний системы – см. рис. 2.4), в котором отказал ровно 1 узел;

2 – состояние (объединяющее группу из состояний системы), в котором отказали ровно 2 узла;

m – состояние (объединяющее группу из состояний системы), в котором отказало ровно m узлов и т.д.

Переход из одного состояния в другое (по мере постепенной деградации системы) определяется интенсивностью потока отказов, воздействующих на систему, находящуюся в соответствующем состоянии. Интенсивность потока отказов, воздействующих на систему, находящуюся в i-м состоянии, определяется количеством работоспособных узлов (N-i). Т.о. среднее время нахождения системы в i-м состоянии определяется следующим образом:

(7)

где: - интенсивность потока отказов одного узла системы.

Фатальный отказ системы ОС-N(m) произойдет только при переходе системы из состояния m в состояние m+1, поэтому среднее время наработки системы ОС-N(m) на отказ равно среднему времени последовательного нахождения системы в состояниях 0,1,2….m:

(8)

Выражение (8) получено на основании одного фундаментального свойства показательного закона распределения: «если промежуток времени, распределенный по показательному закону, уже длился некоторое время t, то это никак не влияет на закон распределения оставшейся части промежутка: он будет таким же, как и закон распределения всего промежутка»[12]. Это свойство показательного закона представляет собой, по существу, одну из формулировок для «отсутствия последействия», которое является основным свойством простейшего потока, принятого нами в качестве модели потока отказов.

Если ввести обозначение:

(8а)

то этот «коэффициент надежности» в соответствии с (8) представляет собой отношение T0N(m) к T0y:

,

и показывает, во сколько раз по сравнению с T0y – средним временем наработки на отказ одного узла, изменилось среднее время наработки на отказ системы ОС-N(m) в целом.

Используя формулы (6а) и (8а) можно производить оценку надежностных характеристик отказоустойчивых систем типа N(N-1). Примем среднее время наработки на отказ узла =105 часов. В таблице 2.26 приведены характеристики, рассчитанные по формулам (6а) и (8а).


Таблица 2.26

Харктиристики отказоустойчивых систем типа N(N-1)


№№ п/п

N(N-1) – тип системы / Характеристика

1(0)

3(2)

4(3)

5(4)

6(5)

7(6)

8(7)

9(8)

10(9)

1


4 часа

4∙10-5

6,4∙10-14

2,56∙10-18

1,0∙10-22

4,1∙10-27

1,6∙10-31

6,5∙10-36

2,62∙10-40

1,05∙10-44

2

24 часа

2.4∙10-4

1,38∙10-11

3,31∙10-15

8,0∙10-19

1,9∙10-22

4,6∙10-26

1,1∙10-29

2,64∙10-33

6,3∙10-37

3

1год=

0.084

5,91∙10-4

4,96∙10-5

4,2∙10-6

3,5∙10-7

2,9∙10-8

2,46∙10-9

2∙10-10

1,7∙10-11

8766 час


4

5лет=

0.355

0,047

1,586∙10-2

5,6∙10-3

2∙10-3

7,1∙10-4

2,5∙10-4

8,9∙10-5

3,16∙10-5

43830 час


5

10лет=

0.584

0,2

0,116

0,068

0,04

0,023

0,0135

7,9∙10-3

4,6∙10-3

87660час


6

11,4г.=

0.632

0,252

0,16

0,1

0,064

0,04

0,025

0,016

0,01

105час


7

15лет=

0.73

0,391

0,286

0,21

0,153

0,11

0,082

0,06

0,044

131490час


8

KN(N-1)

1

1,83

2,08

2,28

2,45

2,59

2,72

2,82

2,92

Для упрощения анализа таблицы построим два графика, отражающих увеличение надежности системы с наращиванием аппаратной части (рис. 2.10 и рис. 2.11).


Рис. 2.10. Коэффициент надежности.


Рис 2.11. Вероятность отказа ВС типа N(N-1) за 10 лет.


Анализ кривых показывает, что среднее время безотказной работы увеличивается в 2-3 раза по сравнению со средним временем безотказной работы одного ПЭ при наращивании вычислительных ресурсов в 5-7 раз и далее стабилизируется и возрастает незначительно. Вероятность отказа систем с рангом отказоустойчивости N(N-1) резко уменьшается при рассмотрении ВС типа 5(4) – 7(6) и далее ее снижение незначительно.

Таким образом, при построении отказоустойчивых вычислительных систем рекомендуется выбирать системы с характеристиками 5(4) – 7(6), с учетом ограничения массы, энергопотребления и др. характеристик.


2.7. Выводы к главе 2

Подводя итог, стоит еще раз отметить, что надежность ВС в процессе эксплуатации складывается из надежности аппаратной и программной компонент системы. В связи с этим были рассмотрены виды и причины отказов при работе ВС, причем особое внимание уделялось возникновению ошибок вследствие неисправностей аппаратных компонент системы, так как ошибки программного обеспечения означают, что они не были выявлены на этапе тестирования.

Для обеспечения надежного решения задач в условиях отказов применяются два подхода – восстановление и предотвращение отказа системы (отказоустойчивость). При создании специализированной ОСРВ, предпочтение отдано второму подходу, поскольку восстановление в ряде случаев может быть связано со значительными затратами процессорного времени и (или) прерыванием вычислительного процесса. В связи с этим рассмотрены механизмы обеспечения отказоустойчивости, основными из которых являются протоколы голосования и принятия коллективного решения.

Введено понятие ранга отказоустойчивости, описана структура ОСРВ и концепция работы системы с рангом отказоустойчивости N(N-1). Дано описание системных таблиц, структуры и взаимодействия модулей ОСРВ таких как маршрутиатор, реконфигуратор, модуль коммункации, голосования и анализа отказов.

Рассмотрен пример организации отказоустойчивых вычислений на примере пятиузловой полносвязной ВС в условиях постоянной деградации, приведена логика анализа отказа в условиях ординарного потока отказов.

В заключении произведена оценка надежностных характеристик ВС с рангом отказоустйчивости N(N-1) и рассчитаны характеристики систем 1(0) – 10(9). Анализ характеристик выявил значительне увеличение времени безотказной работы системы с увеличением числа ПЭ и уменьшение вероятности отказа всей системы. Например, вроятность отказа системы 5(4) за 10 лет с временем безотказной работы одного ПЭ 10000 часов составила 0,068, что меньше вероятности отказа одного ПЭ за тот же период в 8,5 раз. Исходя из этих результатов были сделаны рекомендации по выбору типа ВС при ее проектировании.



Информация о работе «Разработка отказоустойчивой операционной системы реального времени для вычислительных систем с максимальным рангом отказоустойчивости»
Раздел: Информатика, программирование
Количество знаков с пробелами: 148576
Количество таблиц: 34
Количество изображений: 0

Похожие работы

Скачать
172056
0
5

... первичной или первичной вместе со вторичной или только вторичной И. Если это - итог обработки информации, решения задачи, то такая информация называется результативной, результирующей. В процессе решения задач возникает промежуточная информация, которая часто в автоматизированных системах играет самостоятельную роль, определения направления путей завершения решения задачи. Результатная информация ...

Скачать
200314
8
2

... , практически, не используются. Проблема информатизации Минторга может быть решена путем создания Автоматизированной Информационной системы Министерства Торговли РФ (АИС МТ РФ) в соответствии с настоящим Техническим предложением.   ГЛАВА 2. МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ КОМПЛЕКСА ЗАДАЧ "СИСТЕМА ДОКУМЕНТООБОРОТА УЧЕРЕЖДЕНИЯ”. функции поиска и архивации 2.1. Постановка задачи и её спецификация ...

Скачать
152655
7
3

... дейст­вий одной из них; • обращение к внешним устройствам только через операционную систему, что по­зволяет программистам использовать уже написанные драйверы, и не заниматься проблемами обеспечения совместимости с ними вновь разработанных программ; • возможность использования звуковых и видеоприложений. В отличие от Windows З.х новая операционная система не нуждается в установке на компьютере ...

Скачать
214673
1
8

... Системы обработки информации. Защита криптографическая. Алгоритм криптографического преобразования. М.: Госстандарт СССР. ГОСТ 31078-2002. Защита информации. Испытания программных средств на наличие компьютерных вирусов. Типовое руководство. СТБ ИСО/МЭК 9126-2003. Информационные технологии. Оценка программной продукции. Характеристики качества и руководства по их применению. СТБ ИСО/МЭК ТО ...

0 комментариев


Наверх