Міністерство освіти і науки України

Дніпропетровський національний університет

ДИПЛОМНА РОБОТА

СТАТИСТИЧНИЙ АНАЛІЗ ТЕНДЕНЦІЙ ЗАХВОРЮВАНОСТІ В УКРАЇНІ

Виконавець: студентка групи МС-02-1

Власова В.М.

Дніпропетровськ

2007


РЕФЕРАТ

Дипломна робота: 177 с., 10 джерел, 239 рисунків, 1 додаток.

Перелік ключових слів: регресія, МНК-оцінка, паралельність лінійних регресій, збіг лінійних регресій, гіпотеза, рівень значущості, критерій, захворюваність, рік спостереження, довірчий інтервал.

Об’єкт дослідження: захворюваності на туберкульоз, рак, СНІД, гепатити А та Б в України з 1990 по 2005 роки.

Мета роботи: дослідження тенденцій захворюваності на туберкульоз, рак, СНІД, гепатити А та Б в двадцяти чотирьох областях України, А.Р.Крим, містах Київ та Севастополь та Україні в цілому у період з 1990 по 2005 роки.


Annotation

The graduation research of the fifth year student Vlasova Violetta (Dnipropetrovsk national university, mathematics and mechanics faculty, department of probability theory and statistics) deals with statistical analysis of tendencies of morbidity on tuberculosis, cancer, AIDS, hepatitis A and B in Ukraine with 1990 for 2005 years.


ЗМІСТ

ВСТУП

РОЗДІЛ 1. ЛІНІЙНА РЕГРЕСІЯ

1.1 Метод найменших квадратів. Властивості оцінок найменших квадратів. Оцінювання . Теорія розподілів. Оцінювання при наявності лінійних обмежень

1.2 F-критерій

1.3 Лінійна одновимірна регресія

1.4 Порівняння прямих регресії. Критерій паралельності прямих. Критерій збігу прямих

РОЗДІЛ 2. ДОСЛІДЖЕННЯ ЗАХВОРЮВАНОСТІ НА ТУБЕРКУЛЬОЗ, РАК, СНІД, ГЕПАТИТ А, ГЕПАТИТ Б

2.1 Дослідження захворюваності на туберкульоз (всі форми), туберкульоз легенів

2.2 Дослідження захворюваності на рак

2.3 Дослідження захворюваності на СНІД

2.4 Дослідження захворюваності на гепатит А

2.5 Дослідження захворюваності на гепатит Б

РОЗДІЛ 3. ПОРІВНЯННЯ ЗАХВОРЮВАННОСТІ СЕРЕД ОБЛАСТЕЙ УКРАЇНИ, А.Р. КРИМ, МІСТАХ КИЇВ ТА СЕВАСТОПОЛЬ

3.1 Порівняння тенденцій росту захворюваності на туберкульоз серед областей України, А.Р. Крим, м. Київ та Севастополь

3.2 Порівняння тенденцій росту захворюваності на рак серед областей України, А.Р. Крим, м. Київ та Севастополь

3.3 Порівняння тенденцій росту захворюваності на СНІД серед областей України, А.Р. Крим, м. Київ та Севастополь

3.4 Порівняння тенденцій зменшення захворюваності на гепатит А серед областей України, А.Р. Крим, м. Київ та Севастополь

3.5 Порівняння тенденцій зменшення захворюваності на гепатит Б серед областей України, А.Р. Крим, м. Київ та Севастополь

ВИСНОВКИ

СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ

ДОДАТОК


ВСТУП

Актуальність теми. У дипломній роботі досліджується захворюваність на туберкульоз, рак, СНІД, гепатити А та Б. На сучасний момент по цим захворюванням в Україні склалась наступна ситуація.

Епідемію туберкульозу в Україні було оголошено ВООЗ в 1995 році. Щоденно в країні виявляють приблизно 82 нових випадки захворювання на туберкульоз і 30 хворих помирає від нього. За офіційними даними, кількість хворих на туберкульоз в Україні складає 1,4% населення, тобто 700 тисяч чоловік, а за експертними оцінками – близько 1,5 мільйона. З них близько 120 тисяч – з активною, найбільш заразною формою туберкульозу. Основними причинами, що призвели до масштабного поширення туберкульозу в Україні, є, в першу чергу, поглиблення соціально-економічної кризи в країні, різке зниження життєвого рівня та добробуту переважної більшості населення, безробіття, незбалансоване, недостатнє і неякісне харчування значних прошарків населення, збільшення числа соціально-дезадаптованих осіб в країні (бідних, жебраків, бродяг, мігрантів, переселенців, алкоголіків, наркоманів та інших), тих, що мають незадовільні житлові умови, занепад системи охорони здоров'я та низька санітарна культура населення. Чимало недоліків мають місце в організації та координації протитуберкульозних заходів, а також у роботі органів і закладів охорони здоров'я.

Погіршенню епідеміологічної ситуації також сприяє епідемія ВІЛ/СНІДу в Україні. Понад 30% ВІЛ-інфікованих хворіє на туберкульоз і близько 40% з них помирає від нього. Наявність ВІЛ-інфекції є потужним чинником, який сприяє розвитку активної форми туберкульозу в носіїв латентної інфекції та підвищує ймовірність розвитку рецидивуючого туберкульозу.

Україна займає одне з перших місць в Європі за темпами поширення ВІЛ-інфекції/СНІДу. За період з 1987 по 2006 роки офіційно було зареєстровано 104 645 випадків ВІЛ-інфекції, в тому числі 17 851 випадок захворювання на СНІД та 9 983 випадків смертей від захворювань, обумовлених СНІДом. Високі показники захворюваності відзначаються у Миколаївській області (86,3), Донецькій - (78,4), Дніпропетровській - (71,8), Одеській – (61,3), у м. Севастополь – (70,9) на 100 тисяч населення.

Як вважають експерти, якщо епідемію СНІДу в Україні не зупинити, зовсім незабаром країна зможе зайняти місце поряд з африканськими країнами. Також як і на африканському континенті, для більшості українців вартість противірусного лікування занадто висока. У лікарнях не вистачає навіть найнеобхідніших ліків, тому на лікування можуть розраховувати лише діти.

На початок 2006 року в онкологічних закладах системи МОЗ України на обліку перебувало 864 273 хворих, що на 3,7% більше, ніж в попередньому році.

Щорічно в Україні реєструються понад 150 тис. нововиявлень злоякісних захворювань. Найвищі показники захворюваності за останні 5 років спостерігаються у південних областях, а також Кіровоградській, Полтавській областях, АР Крим.

Майже 90 тисяч жителів України щорічно помирають від раку, при цьому 35 відсотків померлих - особи працездатного віку. Онкопатологія є причиною понад 15% усіх випадків смерті і поступається лише серцево-судинним захворюванням. У 2005 році смертність від злоякісних новоутворень в Україні склала 90 997 випадків. 38-40% онкологічних хворих помирають протягом першого року після встановлення діагнозу, що свідчить про запізнілу діагностику. У розвинених країнах світу цей показник не перевищує 30 %.

Вірусний гепатит А залишається однією з найпоширеніших інфекцій в Україні. З 1995 року має місце тенденція до зниження захворюваності на вірусний гепатит А, однак за даними ВООЗ (Всесвітня організація охорони здоров’я) щорічно за медичною допомогою звертаються від 70 до 150 тисяч осіб. В Україні за останні 5 років гепатитом перехворіло понад 375 тисяч осіб, кожний третій хворий - дитина до 15 років.

За мірою шкідливості для здоров’я населення та масштабами захворюваності вірусні гепатити в Україні займають домінуюче становище в структурі інфекційної патології. На цю групу інфекційних хвороб щорічно припадає до 20-30% захворювань, за винятком грипу та гострих інфекційних захворювань верхніх дихальних шляхів.

Погіршення технічного стану водоочисних споруд, водогінної мережі, перебої у водопостачанні, які пов’язані з аварійними ситуаціями та іншими причинами, неефективні засоби знезараження води призводять до виникнення епідемічних ускладнень, обумовлених водним фактором передачі інфекції.

Профілактику гепатиту A та гепатиту В шляхом вакцинації в Україні розпочали нещодавно. Разом з тим усім відомо, що такий метод профілактики є найбільш ефективним.

З метою забезпечення епідемічного благополуччя населення України та попередження інфекцій, щеплення з метою запобігання захворюванню на гепатит В включене в календар обов’язкових профілактичних щеплень за віком, а вакцинація з метою профілактики гепатиту А рекомендована на ендемічних територіях та за епідемічними показаннями.

Туберкульоз - це повітряно-крапельна, а точніше повітряно-пилова інфекція. Збудником туберкульозу є мікобактерія туберкульозу. Вона відкрита у 1882 році німецьким вченим Робертом Кохом. Однак, туберкульоз може бути спричинений і мікобактеріями африканською, бичачою, мишачою, пташиною та іншими.

До туберкульозу сприйнятливі приблизно 55 видів домашніх і диких тварин, риб та біля 25 видів птахів, поміж ними та людиною можливе перехресне зараження. Зараження туберкульозом відбувається від хворих на туберкульоз людей і можливе від великої рогатої худоби, свиней, овець, кіз, коней, кролів, птиці та інших. Немає такого органу людини чи тварини, який би не уражався туберкульозом. Залежно від того, який орган уражений мікобактерії можуть виділятися від хворого на туберкульоз з харкотинням, калом, сечею, спермою, із нориць тощо. У 95 % випадків мікобактерія туберкульозу потрапляє в організм людини при вдиханні запорошеного повітря. Заразитися при вживанні заражених продуктів харчування, зокрема сирого молока, погано провареного м'яса від хворих на туберкульоз тварин. Рознощиками туберкульозу можуть бути мухи, таргани, деякі кліщі; зараження можливе також при поцілунках, допалюванні чужих цигарок, через книжки, пошкоджену шкіру і т. ін.

Мікобактерії дуже стійкі в навколишньому середовищі. Так, мікобактерії туберкульозу в молочних продуктах живуть до 240-300 днів, в пилу, в тому числі вуличному, до 3 місяців. Вони добре витримують нагрівання до 85о С і охолодження до мінус 200о С. При температурі мінус 23о С мікобактерії туберкульозу зберігають життєздатність протягом 7 років, а прямі сонячні промені їх вбивають через 2 - 6 годин. Збудники туберкульозу зберігаються у річній воді до 5 місяців, у ґрунті - 1 - 2 роки, у приміщеннях при розсіяному світлі - до 1,5 місяців, у фекаліях і на пасовищах - до 1 року. Вегетативні, або бактеріальні, форми мікобактерій можуть трансформуватися у вірусні, ультрадрібні фільтруючі чи L-форми, і навпаки.

Мікобактерії туберкульозу (органи дихання, харчовий канал, шкіра тощо) спричиняють туберкульозне запальне вогнище (первинний афект). Туберкульозне запалення розвивається і водночас у запальний процес залучаються довколишні лімфатичні судини, найближчі до вогнища запалення лімфатичні вузли. Потім мікобактерії туберкульозу потрапляють в кров (бактеріємія). Мікобактерії туберкульозу розносяться лімфою і кров'ю в різні здорові органи і тканини і осідають там і спричиняють там туберкульозне запалення. Це явище називають лімфогенною й гематогенною дисемінацією туберкульозного процесу. Ця дисемінація характеризується утворенням первинних туберкульозних вогнищ у різних органах (легені, кістки, нирки тощо). Ці вогнища можуть загоюватися при сприятливій імунній опірності організму. Тоді організм набуває імунітету до туберкульозу

Рак. В останній час чітко простежується зростання захворюваності населення в зв'язку забрудненням навколишнього середовища. Особливо явно ця тенденція простежується в зростанні онкологічних захворювань на територіях, що постраждали від впливу аварії на Чорнобильській АЕС.

Ріст захворюваності злоякісними пухлинами обумовлює високу долю останніх у структурі інвалідності й смертності, а збільшення кількості осіб молодого віку і дітей серед хворих притягає до цієї проблеми все більшу увагу спеціалістів. Захворюваність, взагалі, й ураження злоякісними пухлинами особливо залежить, в першу чергу, від толерантності організму. Тому головною метою протиракової боротьби варто вважати організацію моніторингу стану здоров'я населення на основі методів раннього виявлення онкологічних захворювань.

СНІД. ВІЛ-інфекція - захворювання, яке послаблює імунітет людини - вражає переважно молодих людей віком від 18 до 27 років. Головними чинниками розповсюдження ВІЛ серед молоді є вживання ін'єкційних наркотиків і незахищені статеві стосунки.

Гепатит А. Вірус гепатиту А має кислотостійку оболонку. Це допомагає вірусам, які потрапили до організму із забрудненими продуктами і водою, пройти кислий захисний бар'єр шлунку. Вірус гепатиту А стійкий у водному середовищі, тому епідемії гепатиту А часто мають водний шлях передачі. Вірус гепатиту А відрізняється високою імуногенністю, після перенесеного захворювання формується стійкий довічний імунітет.

Гепатит А є однією з найпоширеніших інфекцій людини. У країнах з теплим кліматом і незадовільними санітарними умовами гепатитом А хворіє дуже багато людей.

Джерелом інфекції є хвора на гепатит А людина, яка з фекаліями виділяє в навколишнє середовище мільярди вірусів. При вживанні зараженої вірусом гепатиту А води або харчових продуктів (особливо погано термічно оброблених морепродуктів) віруси проникають в кишечник, потім, всмоктуючись, з потоком крові потрапляють в печінку і упроваджуються в її клітки - гепатоцити. Вірусні частинки-віріони розмножуються в цитоплазмі кліток печінки. Після виходу з кліток печінки вони потрапляють в жовчні протоки і виділяються з жовчю в кишечник.

Запальний процес в печінці, що приводить до пошкодження гепатоцитов, має імунологічну основу. Клітки імунної системи людини, Т-лімфоцити розпізнають уражені вірусом гепатоцити і атакують їх. Це приводить до загибелі інфікованих гепатоцитів, розвитку запалення (гепатит) і порушенню функції печінки.

Гепатит Б. Вірусний гепатит Б - це інфекційне захворювання печінки, обумовлене вірусом. Інфекція, обумовлена вірусом гепатиту Б, поширена повсюдно і кожен може піддатися зараженню.

Вірус гепатиту Б передається, в основному, через кров. Хронічний вірусний гепатит Б - небезпечне захворювання, яке може призвести до важких наслідків і загибелі хворого. Тому важливо своєчасно розпізнати і почати лікування гепатиту Б. Існують вакцини проти вірусу гепатиту Б, що дають надійний захист від розвитку захворювання.

Гепатит Б зустрічається найчастіше у дорослих людей (пік захворюваності доводиться на вікові групи 20-49 років). Зниження захворюваності у дітей і підлітків в розвинених країнах вдалося добитися за допомогою регулярної вакцинації.

Перенесення вірусу здійснюється з кров'ю або іншими біологічними рідинами хворої людини, які потрапляють безпосередньо в кров людини, яка інфікується. Це відбувається при спільному використовуванні колючо - ріжучих предметів (манікюрний набір, верстати для гоління), одного шприца для введення наркотиків, при пірсинге, татуаже з використанням погано обробленого інструментарію, при проведенні медичних маніпуляцій, статевим шляхом і від інфікованої матері дитині під час проходження його через родові шляхи.

Вихідні дані. Вихідними даними дослідження є офіційні дані центра медичної статистики Міністерства охорони здоров’я України.

Постановка задачі. На основі вихідних даних необхідно провести дослідження тенденцій захворюваності на туберкульоз, рак, СНІД, гепатит А та гепатит Б в Україні на протязі останніх 15 років.

В роботі необхідно розв’язати наступні задачі.

І. Методами лінійного регресійного аналізу дослідити

1)  залежність захворюваності на туберкульоз (всі форми) та туберкульоз легенів від року спостереження,

2)  залежність захворюваності на рак від року спостереження,

3)  залежність захворюваності на СНІД від року спостереження,

4)  залежність захворюваності на гепатит А від року спостереження,

5)  залежність захворюваності на гепатит Б від року спостереження

(спостереження захворюваності відбувалося з 1990 по 2005 роки в кожній з 24 областей України, А.Р. Крим, м. Київ, м. Севастополь та Україні в цілому). Зробити висновки.

ІІ. Методами лінійного регресійного аналізу провести порівняння захворюваності на туберкульоз (всі форми), туберкульоз легенів, рак, СНІД, гепатит А, гепатит Б серед областей України, А.Р. Крим, м. Київ та Севастополь з метою виявлення регіонів України, в яких темпи росту або спадання захворюваності однакові або захворюваність кількісно однокова. Зробити висновки.

Методи дослідження. В роботі використовуються методи лінійного регресійного аналізу.


РОЗДІЛ 1. ЛІНІЙНА РЕГРЕСІЯ

1.1 Метод найменших квадратів. Властивості оцінок найменших квадратів. Оцінювання σ2. Теорія розподілів. Оцінювання при наявності лінійних обмежень

Нехай Y - випадкова величина, яка флуктуює навколо деякого невідомого параметра η, тобто Y = η + ε, де ε - флюктуація або „помилка". Наприклад, ε може бути „природною" флуктуацією, яка властива самому експерименту, або може бути помилкою у вимірюванні значення η.

Припустимо, що η можна подати у вигляді

η = β0 + β1x1 + … + βp-1xp-1,

де х1, х2, ..., xp-1 - відомі постійні величини, а βj (j = 0, 1, .., p - 1) - невідомі параметри, які підлягають оцінюванню. Якщо значення хj, j = 0, 1, .., p – 1 змінюються і при цьому спостерігається n значень Y1, Y2, ...,Yn змінною Y, то

Yi = β0 + β1xi1 + … + βp-1x i,p-1 + εi, i = 1, 2, ..., n, (1.1.1)

де xij i-те значенням для хj. В матричному вигляді (1.1.1) запишеться

або

Y = Xβ + ε, (1.1.2)

де x10 = x20 = ... = xn0 = 1.

Означення. Матриця X = Х(n p) називається регресійною матрицею. При цьому значення xij зазвичай вибираються так, щоб стовпці цієї матриці були лінійно незалежними, тобто ранг матриці X дорівнював р. Проте в деяких випадках при плануванні експерименту елементи матриці X обираються рівними тільки нулю і одиниці, і її стовпці можуть виявитися лінійно залежними. В цьому випадку матрицю X називають матрицею плану.

Далі хj називатимемо регресором, а Y – відкликом.

Модель (1.1.1) або (1.1.2) лінійна по відношенню до невідомих параметрів βj, тому її називають лінійною моделлю.

Одним з методів знаходження оцінки вектора β є метод найменших квадратів. Цей метод полягає в мінімізації суми  по відношенню до вектора β. Точніше, вважаючи θ = Xβ, мінімізуємо величину ε'ε = ||Y- θ||2 по відношенню до θ [Х] = Ω, де Ω - образ оператора X, тобто Ω = {у: у = Хх} для деякого х. Якщо змінювати значення вектора θ в межах Ω, то ||Y- θ||2 (квадрат довжини вектора Y- θ) досягає мінімуму при тому значенні θ = , для якого (Y - )  Ω (рис.1.1.1). Тому

X'(Y - ) = 0,

Або

Х' = Х'Y.(1.1.3)

Вектор  визначається однозначно, оскільки він є ортогональною проекцією вектора Y на Ω. Якщо тепер стовпці матриці X лінійно незалежні, то існує


Рис. 1.1.1 Метод найменших квадратів полягає у знаходженні такої точки А, для якої відстань АВ мінімальна

єдиний вектор , для якого  = X. Підставлячи  в (1.1.3), одержуємо нормальне рівняння

Х'Х = Х'Y. (1.1.4)

Оскільки ми припускаємо, що матриця X має ранг р, то матриця Х'Х додатньо визначена і, отже, не вироджена. Тому рівняння (1.1.4) має єдиний розв’язок, а саме

 = ( Х'Х)-1 Х'Y

Цей розв’язок називається оцінкою найменших квадратів вектора β.

Оцінку для β можна одержати й в інший спосіб.

ε'ε = (Y-Хβ)'(Y-Хβ) = Y'Y - 2β'Х'Y+ β'Х'Хβ

(використовуємо той факт, що β'Х'Y = (β'Х'Y)' = Y'Хβ). Продиференцюємо ε'ε по β. Прирівнюючи одержану похідну ε'ε/β нулю, приходимо до рівняння

- 2Х'Y +2Х'Хβ = 0, (1.1.5)

Або

Х'Хβ = Х'Y.

Звідки

 = ( Х'Х)-1 Х'Y

Покажемо, що знайдена стаціонарна точка  є мінімумом функції ε’ε. Перепишемо (Y-Хβ)’(Y-Хβ) у вигляді

(Y-Хβ)'(Y-Хβ) = (Y-Х)'(Y-Х) + ( - β)'Х'Х( - β). (1.1.6)

Розпишемо

(Y-Х)'(Y-Х) + ( - β)'Х'Х( - β) = (Y'-Х'')(Y-Х) +

+ (' - β')(Х'Х - Х'Хβ) = Y'Y - Y'X - 'X'Y + 'X'X +

+ 'X'X - 'X'X - 'X'X + 'X'X =

= {X'X = X'Y, оскільки  - розв’язок нормального рівняння} =

= Y'Y - Y'X - 'X'Y + 'X'Y + 'X'Y - 'X'X β – β'X'Y + β'X'Xβ =

= Y'Y - Y'Xβ – β'X'Y + β'X'X β = (Y - Xβ)'(Y - Xβ)

Ліва частина в (1.1.6) досягає мінімуму при β = .

Далі позначимо = Х. Елементи вектора

e = Y –  = Y – Х = (In- Х(Х'Х)-1Х')Y = (In - Р)Y (1.1.7)

називаються залишками (ми позначили тут скорочено Х(Х'Х)-1Х' через Р). Мінімальне значення ε'ε називається залишковою сумою квадратів (RSS)).

RSS = (Y - Х)'(Y - Х)= Y'Y - 2Х' Y + 'Х'Х =

= Y’Y - 'Х' Y + '[Х'Х - Х'Y] =

= Y'Y -'Х'Y (1.1.8)

Або

RSS = Y'Y - 'Х'Х (1.1.9)

Відмітимо, що  і е єдині.

Оскільки  = Х = Х(Х'Х)-1Х'Y = РY, то Р є матрицею лінійного перетворення, яке є ортогональним проектуванням n-мірного евклідова простору Еn на Ω. Аналогічно In - Р є матрицею ортогонального проектування Еn на  - ортогональне доповнення до Ω в Еn. Тому вираз Y = РY + (In - Р)Y є єдиним ортогональним розкладом вектора Y на дві складові, одна з яких лежить в Ω, а інша - в . Деякі основні властивості матриць Р і (In - Р) наведено в теоремі 1.1.1. Спочатку сформулюємо деякі означення.

Означення. Слідом trX матриці Х називають суму її діагональних елементів

trX = 1 + x21 + x32 + … + xnp-1

Означення. Матриця Р називається ідемпотентною, якщо Р2 = Р. Симетрична ідемпотентна матриця називається проекційною. Якщо Р – проекційна матриця, то trР = rankР.

Теорема 1.1.1.

(I) Матриці Р і In - Р симетричні та ідемпотентнi.

(II) rank[In - Р] = tr[In - Р] = n - р.

(III) (In - Р)Х = 0.

Доведення.

(I) Р' = (X(X'X)-1X')' = X((X'X)-1)'X' = X(X'X)-1X' = P

Отже, матриця Р є симетричною і (In - Р)' = In - Р' = In - Р. Крім того,

Р2 = X(Х'Х)-1Х'Х(Х'Х) -1X' = XIp (Х'Х)-1X' = Р,

і (In – Р)2 = In - 2Р + P2 = In – Р.

(II) Оскільки матриця In - Р симетрична та ідемпотентна, то вона проекційна і tr(In – Р) = rank(In – Р). Тоді

rank[In - Р] = tr[In - Р] = n - trР,

де

trР = tr[X (Х'Х)-1X'] = tr[Х'Х (Х'Х)-1] = trIp = р.

(III)  (In - Р)Х = Х - Х(Х'Х)-1Х'Х = Х - Х = 0.

Теорема доведена.

Теорема 1.1.2.

Нехай Р = X(Х'Х)-1X', тоді R(P) = R(X), тобто простір, породжений стовпцями матриці P є простором, породженим стовпцями матриці Х.

Доведення.

R(P) = {z: z = Pα} для деякого α, R(X) = {Y: Y = Xγ} для деякого γ.

Вибираємо zR(P), тоді z = Pα. Отже,

z = Pα = X(X'X)-1X'α = Xβ,


отже zR(X).

Вибираємо YR(X), тоді Y = Xγ

Y = Xγ = X(X'X)-1X'Xγ = X(X'X)-1X'Xγ = PY,

отже YR(P).

Теорема доведена.

Теорема 1.1.3.

(Y - ) = 0 або

Доведення.

(Y - ) = { = X = X(X'X)-1X'Y = PY} = (PY)'(Y – PY) = Y'P'(1 – P)Y = = Y'P(1 – P)Y = Y'(P – P2)Y = Y'(P – P)Y = 0.

Теорема доведена.

Якщо припустити, що помилки ε такі, що , то

M[] = (X’X)-1X’M[Y] = (X’X)-1X’X β = β (1.1.9)

тобто  є незміщеною оцінкою вектора β. Якщо, окрім того, припустити, що всi εi, і = 1, …, n - некорельовані і мають однакову дисперсію, тобто

соv[εi, εj] = ,

то D[ε] = σ2In,

D[Y] = D[Y - Xβ] = D[ε], отже D[Y] = σ2In.

Звідси одержуємо

D[] = D[(Х'Х)-1Х'Y] = сov((Х'Х)-1X'Y, (Х'Х)-1X'Y) =

= (X'X)-1X'cov(Y,Y)((X'X)-1X')' = (X'X)-1X'DYX(X'X)-1 =

= (X'X)-1X'σ2IX(X'X)-1 = σ2(X'X)-1(X'X) (X'X)-1 = σ2(X'X)-1 (1.1.10)

Виникає таке питання: чому за оцінку вектора β ми вибираємо саме  (оцінку найменших квадратів), а не будь – яку іншу оцінку? Далі покажемо, що в деякому розумному класі оцінок j, є оцінкою параметра βj з найменшою дисперсією. Цю оцінку j можна „виділити" з вектора = (0, 1, ..., p-1)' множенням зліва на вектор-рядок c', у якого (j +1)-й елемент рівний одиниці, а всі інші елементи дорівнюють нулю. Таку специфічну властивість оцінки j, можна узагальнити на випадок довільної лінійної комбінації а'. Для цього використовуємо наступну теорему.

Теорема 1.1.4.

Нехай  - оцінка найменших квадратів вектора  = Хβ. Тоді в класі всіх лінійних незміщених оцінок лінійної комбінації c'θ оцінка c' є єдиною оцінкою, яка має мінімальну дисперсію. (Будемо говорити, що c' є найкращою лінійною незміщеною оцінкою (НЛНО) для c'θ)

Доведення.

Оцінку найменших квадратів  вектора  = Хβ представимо у вигляді

= X = X(Х'Х)-1X'Y = X(Х'Х)-1X'Y = PY,

при цьому


PX = X(Х'Х)-1X'X = X(Х'Х)-1X'X = XI = X .

Перевіримо, що c' - лінійна незміщена оцінка для c'θ. Дійсно,

M[c'] = Mc'РY = c'P MY = c'Pθ = c'PXβ = c'Xβ = c'θ

для всіх θΩ = [Х] і c' = c'PY = (P'c)'Y = (Рс)'Y. Розглянемо іншу лінійну незміщену оцінку для c'θ. Тоді M[d'Y] = c'θ з одного боку, а з іншого

M[d'Y] = d'MY = d'θ,

Тоді

c'θ = d'θ  (с' - d')θ = 0  (с- d)'θ = 0, тобто (c - d)  Ω = R(X).

Оскільки R(X) = R(P) в силу теореми 1.1.2, то

(c – d) R(P), (c – d)'P = 0  ((c – d)'P)' = 0' P(c – d) = 0

Pc = Pd

Порахуємо дисперсію оцінки c':

Dc' = D[(Рd)'Y] = D[(Рd)'Y] = Dd'P'Y = cov(d'P'Y, d'P'Y) =

= d'P'cov(Y, Y)(d'P')' = d'PDYPd = d'Pσ2IPd = σ2d'Р2d = σ2 d'Рd,

Тоді

D[d'Y] - D[c'] = D[d'Y] - D[(Рd)' Y] =

= d'DYd - σ2d'Pd = σ2d'd - σ2d'Pd =

= σ2(d'd - d'Рd) = σ2d'(In- Р)d = {In – P = (In – P)2} =

= σ2 d'(In- Р)(In- Р)d = {In – P = (In – P)'} =

= σ2 d'(In- Р)'(In- Р)d = σ2 [(In- Р)d]'[(In- Р)d] ≥ 0

Рівність нулю досягається тоді й тільки тоді, коли

(In- Р)d = 0

d – Pd = 0

d = Рd = Рс

Тоді D(d'Y) ≥ D(c'), при цьому c'θ = d'θ. Це і означає, що c' має мінімальну дисперсію і є єдиною оцінкою з такою властивістю в класі всіх лінійних незміщених оцінок лінійних комбінацій c'θ.

Теорема доведена.

Теорема доведена в припущенні, що матриця X має ранг p, так що Р = X (Х'Х)-1X', і θ =Хβ випливає, що β = (Х'Х)-1Х'θ.

Нехай с' = а'(Х'Х)-1X', тоді звідси оцінка а'β = a'(X’X)-1X' = с' є НЛНО з мінімальною дисперсією для а'β при кожному а.

Зауваження. Якщо похибки εі незалежні й однаково розподілені ε ~  або, в еквівалентній формі, Y ~  , то a' має мінімальну дисперсію серед усіх незміщених оцінок, а не тільки в класі лінійних незміщених оцінок.

Зокрема, МНК – оцінка і, і = 0, …, p – 1 є також оцінкою максимальної правдоподібності, і вона ефективна оцінка для βі.

Якщо ж розподіл εi не є нормальним, то МНК – оцінка і відрізняється від оцінки максимальної правдоподібності. В цьому випадку МНК – оцінка і асимптотично ефективна для βі.

Оцінимо параметр σ2 = Dεi, але спочатку сформулюємо низку лем.

Лема 1.1.1. Нехай Y = Y(n×1) – випадковий вектор, А(n×n) = A – симетрична матриця. Якщо MY = θ, DY = ∑, тоді математичне сподівання квадратичної форми Y'AY дорівнює

M(Y'AY) = tr(A∑) + θ'Aθ

.Наслідок

Якщо ∑ = σ2I, то tr(A∑) = σ2trA.

Лема 1.1.2.

Нехай маємо n незалежних випадкових величин Y1, Y2, …, Yn з середніми θ1, θ2, …, θn, однаковими дисперсіями μ2 та однаковими третіми та четвертими центральними моментами μ3 та μ4 відповідно (μr= M(Yi– θi)r). Якщо A = = А(n×n) – симетрична матриця, а a – вектор – стовпець, утворений її діагональними елементами, тоді дисперсія квадратичної форми Y'AY дорівнює

D(Y'AY) = (μ4 – 3(μ2)2)a'a + 2(μ2)2trA2 + 4(μ2)2θ'A2θ + 4μ3θ'Aa

Теорема 1.1.4.

Якщо

М[Y] = Xβ, де Х = X(n×p), rangX = p, D[Y] = σ2 In,

тоді оцінка

є незміщеною оцінкою для σ2.

Доведення.

Похибку ε запишемо у вигляді:

ε = Y -  = Y - Х = { = (X'X)-1X'Y } = Y – X(X'X)-1X'Y =

= (In – X(X'X)-1X')Y = (In - Р)Y.

Тоді

(n - p)S2 = (Y - X)'(Y - X) = ((In – P)Y)'((In – P)Y) = Y'(In – P)'(In – P)Y = {(In – P)' = In – P – симетрична} =Y'(In – P)2Y = Y'(In – P)Y.

Виразимо Y'(In – P)Y з рівності:

(Y – Xβ)'(In – P)(Y – Xβ) = Y'(In – P)Y – Y'(In – P)Xβ – (Xβ)'(In – P)Y + (Xβ)'(In – P)Xβ;

Y'(In – P)Y = (Y – Xβ)'(In – P)(Y – Xβ) + Y'(In – P)Xβ + (Xβ)'(In – P)Y - (Xβ)'(In – P)Xβ.

Порахуємо M(n – p)S2

M(n – p)S2 = MY'(In – P)Y = {лема 1.1.1} = M(Y – Xβ)'(In – P)(Y – Xβ) +

+ MY'(In – P)Xβ + M(Xβ)'(In – P)Y – M(Xβ)'(In – P)Xβ =

= M(Y – Xβ)'(In – P)(Y – Xβ) + (Xβ)'(In – P)Xβ + (Xβ)'(In – P)Xβ –

- (Xβ)'(In – P)Xβ = M(Y – MY)'(In – P)(Y – MY) =

=  + (Xβ)'(In – P)Xβ =

= + (Xβ)'(In – P)Xβ =

= + (Xβ)'(In – P)Xβ =

= σ2(p11 + p22 + … + pnn) + β'X'(In – P)Xβ =

= σ2tr(In – P) + β'X'(In – P)Xβ =  =

= σ2(n – p) + 0 = σ2(n – p)

Отже,

M(n – p)S2 = σ2(n – p)  MS2 = σ2.

Теорема доведена.

Виявляється, що S2, подібно до , має певні властивості оптимальності, які наведено в наступній теоремі.

Теорема 1.1.5.

Нехай Y1, Y2, …, Yn– незалежні випадкові величини, які мають однакові дисперсії μ2 = 3σ2 і однакові треті та четверті моменти μ3 і μ4. Якщо M[Y] = Xβ, де матриця Х = Х(n × p), rangX = p, то DY = σ2I і (n – p)S2 є єдиною невід’ємною квадратичною незміщеною оцінкою для (n – p)σ2, яка має мінімальну дисперсію при μ4 = 3σ4 або при рівності всіх діагональних елементів матриці P.

Доведення.

Оскільки σ2 > 0, то будемо розглядати тільки невід’ємні оцінки.

Нехай Y'АY незміщена квадратична оцінка для (n - р)σ2. Порахуємо математичне сподівання та дисперсію оцінки Y'АY

(n - р)σ2 = M[Y'АY] = σ2 trА + β'Х'АХβ

для всіх β, тоді trА = n - р і β'Х'АХβ = 0 для всіх β. Отже, Х'АХ = 0 А- додатньо напіввизначена симетрична матриця  з Х'АХ = 0 випливає, що АХ = 0.

Позначимо а – вектор, утворений діагональними елементами матриці А і γ2 = (μ4 - 3σ4)/σ4, тоді згідно з лемою 1.1.2,

D[Y'АY] = (μ4 – 3(μ2)2)a'a + 2(μ2)2trA2 + 4(μ2)2(Xβ)'A2(Xβ) + 4μ3(Xβ)'Aa =

=  = (μ4 – 3(μ2)2)a'a + 2(σ2)2trA2 + 4(σ2)2β'X'AXβ +

+ 4μ3β'(AX)'a = σ4 γ2 а'а + 2σ4 trА2 .(1.1.11)

Далі розглянемо оцінку (n - р)S2, яка належить класу незміщених квадратичних оцінок для (n - р)σ2 згідно з теоремою 1.1.4

(n - р)S2 = (Y - X)’(Y - X) = Y(In - Р)Y = Y'RY

(де для стислості, введене позначення In - Р = R), trR2 = trR = n - р.

Розглянемо D[Y'RY]:

D[Y'RY] = σ4 γ2 r'r + 2σ4trR2 = σ4 γ2 r'r + 2σ4 (n - р). (1.1.12)

де r – вектор, утворений діагональними елементами матриці R.

Для того, щоб знайти достатні умови для мінімальності дисперсії оцінки Y'АY, покладемо А = R + D. Оскільки A та R симетричні, то матриця D також симетрична і trА = trR + trD.

Підставляємо: (n – p) = (n – p) + 0 таким чином, trD = 0. Оскільки АХ = 0, то АР = АХ(Х'Х)-1X' = 0, тоді

A = R + D

AP = RP + DP

AP = P – P2 + DP

0 = P – P + DP

DP = 0

Тоді


DR = D – DP = D – 0 = D

(останнє рівне також D = D' = RD, так як D симетрична).

Позначимо a = r + d, r – вектор діагональних елементів матриці R, d– вектор діагональних елементів матриці D.

A2 = (R + D)2 = R2 + DR + RD + D2 = R + 2D + D2

tr A2 = trR + 2trD + trD2 = (n - р) + trD2.

Підставляючи а = r + d і tr A2 в (1.1.11), одержуємо

D[Y'АY] = σ4 γ2 a'а + 2σ4trA2 = σ4 γ2(r + d)'(r + d) + 2σ4(n – p + trD2) =

= σ4 γ2(r' + d')(r + d) + 2σ4(n – p + trD2) =

= σ4 γ2(d'r + d'd + r'r + r'd) + 2σ4(n – p + trD2) =

= σ4γ2 r'r + 2σ4(n – p) + 2σ4 =

= D[Y'RY] + 2σ4 .

Щоб знайти оцінку з мінімальною дисперсією, потрібно мінімізувати D[Y'АY] за умов tr D = 0 і DR = D. У загальному випадку виконати таку мінімізацію досить важкою. Проте в двох важливих окремих випадках ця мінімізація виконується не важко. Перший випадок - це ситуація, коли γ2 = 0 При цьому

D[Y'AY] = D[Y'RY] + 2σ2

Остання ж величина досягає мінімуму, коли dij = 0 для всіх i, j, тобто коли D = 0 і А = R. Другий випадок - це випадок рівності всіх діагональних елементів матриці Р. При цьому всі вони рівні р11 = p22 = … = pnn

trR = trI – trP = n – p  tr Р = р.

Тому

р11 + p22 + … + pnn rii = p

npii = p  pii = p/n

Тоді діагональні елементи матриці R = (I – P) дорівнюють rii = 1 – pii = 1 – p/n = (n - р)/n для кожного і

D[Y'AY] = D[Y'RY] + 2σ4(=

=  =

= D(Y'RY) + 2σ4 =

= D[Y'RY] + 2σ4, (1.1.13)

Далі для будь–якої випадкової величини ξ виконується нерівність γ2 ≥-2. Дійсно,

0 ≤ D(ξ – Mξ)2 = M(ξ – Mξ)4 – (M(ξ - Mξ)2)2 = μ4 – (μ2)2 =

= μ4 – 3(μ2)2 + 2(μ2)2 = (μ2)24 /(μ2)2 – 3 + 2) =

= = (μ2)22 + 2), отже γ2 ≥ -2

отже D[Y'АY] досягає мінімуму, коли dij = 0 для всіх i, j. Таким чином, в обох випадках дисперсія виявляється мінімальною тоді і тільки тоді, коли А = R. Теорема доведена. Доведена теорема говорить про те, що незміщена квадратична оцінка для σ2, з мінімальною дисперсією існує тільки при певних обмеженнях, наведених в теоремі. У припущенні нормальності, тобто при γ2 = 0, оцінка S2 є незміщеною оцінкою для σ2, яка має мінімальну дисперсією в класі всіх незміщених оцінок, а не тільки в класі квадратичних незміщених оцінок. Раніше ми припускали відносно похибок εi, що M[ε] = 0 і D[ε] = σ2In. Якщо додатково припустити, що похибки εi розподілені нормально, тобто ε~ Nn(0, σ2In) (отже Y ~ Nn(Xβ, σ2In)), то можна одержати низку наступних результатів, пов'язаних з розподілами.

Теорема 1.1.6. Якщо Y ~ Nn(Xβ, σ2In), де Х = Х(n×p), rangX = p, тоді

(I)   ~ Np(β, σ2(X'X)-1);

(II)  ( - β)'X'X( - β)/σ2 ~ ;

(III)   не залежить від S2;

(IV)  RSS/σ2= (n – p)S22 ~ .

Доведення. (I) МНК – оцінка вектора β має вигляд  = (Х'Х)-1Х'Y, тоді  = СY, де C = (Х'Х)-1Х' - матриця розміру р×n, для якої rangС = rang(Х'Х)-1Х' = rangХ-1(Х')-1X' = rangХ-1 = p. Вектор Y ~ Nn(Xβ, σ2In). Генератриса моментів для вектора  дорівнює

M = M.

M(t) = M= M=  = M=  =  =

- генератриса моментів , де cXβ = (X’X)-1β = β,


2Ic’ = (X'X)-1X'σ2I((X'X)-1X')' = σ2(X'X)-1X'X(X'X)-1 = σ2(X'X)-1.

Генератриса функції моментів нормального розподілу ξ ~ N(a; σ2):

M(t) = Me = ,

Генератриса моментів для вектора  однозначно визначає щільність розподілу вектора  і дорівнює M(t) = Met', , t = (t1, t2, …, tp)'

(II) ( - β)'Х'Х( - β)/σ2 =  =

= ( - β)'(D)-1( - β) = (1 – β1, …, p – βp)(D)-1 =

= (D)-1

 ~ N(β; σ2(X'X)-1),

 - β ~ N(0; σ2(X'X)-1),

, тоді . Отже, .

(III) Необхідно довести,  не залежить від S2. Порахуємо cov(,Y-X)

cov(, Y - X) = cov((X'X)-1X'Y, Y – X(X'X)-1X'Y) =

= cov((X'X)-1X'Y, Y - PY) = cov((X'X)-1X'Y, (I – P)Y) =

= (X'X)-1X'cov(Y, Y)(I – P)' = {(I – P)' = I – P} =

= (X'X)-1X'DY(I – P) = {DY = σ2} = (X'X)-1X'σ2I(I – P) =

= σ2(X'X)-1X'(I – P) =  = 0

Залишилось скористатись наступною теоремою:

Нехай Y ~ N(Xβ; σ2I), U = AY, V = BY, матриця А1 складена з лінійно незалежних рядків матриці А, U1 = A1Y. Якщо cov(U, V) = 0, то

1) випадковий вектор U1 не залежить від V'V;

2) випадкові величини U'U та V'V незалежні.

Позначимо

U1 = , V = Y - X, U = U1 =

U1 = (X'X)-1X'Y, V = Y - X = (I – P)Y.

Оскільки cov(U1, V) = 0, тоді U1 = не залежить від V'V=(Y - X)'(Y - X) = = (n – p)S2.

(IV) Розглянемо

Q1 = (Y – Xβ)'(Y – Xβ) = (Y - X + Х( - β))'(Y - X + X( - β)) =

= (Y – X)'(Y – X) + (Y – X)'X ( - β) + ( - β)'X'(Y - X) +

+ ( - β)'X'X ( - β) =

=  =

= (Y – X)'(Y – X) + ( - β)'X'X ( - β) = Q + Q2. (1.1.15)

Тут ми позначили

(Y - X)'(Y - Х) = Q, (- β)'Х'Х( - β) = Q2.


При цьому відношення

Q12 =  =  (εi ~ N(0; σ2), εi /σ ~ N(0; 1)), Q22 ~ .

Отже, Q= Q1 + Q2, Q1 ~ , Q2 ~  (n > p). Тому Q/σ2 = Q12 – Q2/σ ~ ~.

Теорема доведена.

Нехай лінійна модель регресії має вигляд Y = Xβ + ε, X = X(n × p), rangX = p, ε ~ N(0; σ2I).

Необхідно оцінити параметр β, при лінійних обмеженнях H: Aβ = c,

де А = А(q ×p) – відома матриця, c = c(q×1) – відомий вектор. (1.1.16)

Обмеження (1.1.16) можна переписати у вигляді:

H: Aβ = c

H: β = ,

де a'i – i-тий рядок матриці А

H: a'i β = ci, i = 1, 2, …, q.

Використаємо метод множників Лагранжа для розв’язання цієї задачі.

В подальшому будемо використовувати такий вираз:

λ1(a'1β – с1) + λ2(a'2β – с2) + … + λq(a'qβ – сq) =

= (λ1, λ2, …, λq) = λ'(Aβ – c) = (λ'(Aβ – c))' =

= (Aβ – c)'λ = (β'A' - c')λ (1.1.17)

Мінімізуємо суму квадратів залишків ε'ε при лінійних обмеженнях H:

Aβ = c.

r = ε'ε + λ1(a'1β – с1) + … + λq(a'qβ – сq) = ε'ε + (β'A' - c')λ = (Y – Xβ)'(Y – Xβ) + (β'A' - c')λ = (Y' – X'β') (Y – Xβ) + (β'A' - c')λ = Y'Y - Y'Xβ - β'X'Y + β'X'Xβ + (β'A' - c')λ = Y'Y - 2β'X'Y + β'X'Xβ + β'A'λ - c'λ

З (1.1.18) випливає, що

X'Xβ = X'Y - A'λ

 = (X'X)-1X'Y - (X'X)-1A' (1.1.20)

 = - (X'X)-1A' (1.1.21)

Формулу (1.1.21) підставляємо в (1.1.19)

c = A = A- (X'X)-1A' 

c - A= - (X'X)-1A'

(A(X'X)-1A')-1(c - A) = -

Останнє підставляємо в (1.1.21)

 = + (X'X)-1A'(A(X'X)-1A')-1(c - A)

 мінімізує ε'ε при обмеженнях Aβ = c.


Информация о работе «Статистичний аналіз тенденцій захворюваності в Україні»
Раздел: Математика
Количество знаков с пробелами: 179723
Количество таблиц: 6
Количество изображений: 246

Похожие работы

Скачать
138713
9
0

... притягають до себе різних кримінальних особистостей. І не випадково саме повії нерідко стають жертвами рекетирів, використовуються організованою злочинністю. Розділ 3. Соціологічний аналіз молодіжної наркоманії в Україні Сьогодні соціологи фіксують вагоме помолодіння різних форм девіантної поведінки. Тому виникає необхідність більш розгорнуто обдивиться проблему молодіжної наркоманії. ...

Скачать
49793
18
5

... навантаження поділяються на показники антро­погенного та природного навантаження. Щоб оцінити антропо­генне навантаження на довкілля, застосовують показники: ·  видобутку (збору врожаю) окремих природних ресурсів; ·  що характеризують кiлькiсть викидів і скидів забруднюючих речовин та вiдходiв у атмосферне повітря, водні ресурси та в землю; ·  що характеризують кiлькiсть використовуваних ...

Скачать
56321
2
4

... інгових тестів) та спільно з психотерапевтами коригувати тривожно-депресивні стани. СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ 1. Малацківська О.В. Динаміка профілю ризику серцево-судинних захворювань в жіночій популяції за 25-річний період // Кровообіг та гемостаз.– № 3. – 2006. – С. 49-52. 2. Малацківська О.В., Горбась І.М. Зв’язок традиційних факторів ризику серцево-судинних ...

Скачать
51422
0
0

... А. В. Борисенко, О. О. Шекера // Матеріали ІІІ (Х) з’їзду Асоціації стоматологів України. – Полтава, 2008. – С. 136 АНОТАЦІЯ   Шекера О. О. Особливості клініки, діагностики, профілактики та лікування захворювань пародонта у вагітних із акушерською патологією. – Рукопис. Дисертація на здобуття наукового ступеня кандидата медичних наук за спеціальністю 14.01.22 – стоматологія. – Національний ...

0 комментариев


Наверх