3. Канонічна кореляція в аналізі таблиць спряженості

 

Один з напрямів аналізу таблиці спряженості пов'язаний з «оцифруванням» якісних ознак – з приписуванням градаціям якісних змінних числових міток. Такий підхід дозволяє розповсюдити на якісні дані методи багатовимірного статистичного аналізу, розроблені відносно кількісних змінних.

Іноді необхідно побудувати систему міток, що забезпечує максимум коефіцієнта кореляції між двома змінними (оптимальні мітки). Ця система міток і відповідна їй матриця кореляції використовується потім для факторного і регресійного аналізу. Знаходження оптимальних міток пов'язане з перетворенням частот таблиці в частоти двовимірного нормального розподілу, оскільки кореляція перетвореного розподілу не може за абсолютною величиною перевищувати кореляцію двовимірного нормального розподілу. Перетворені таким чином змінні називають канонічними змінними. Розглянемо використання оптимальних міток для аналізу структури даних – виділення в таблиці спряженості лінійних і нелінійних ефектів. Звичайно при вивченні таблиці спряженості не робиться ніяких припущень щодо характеру зв'язку змінних, тоді як в конкретних дослідженнях буває важливо зрозуміти, чи відповідає фактичний розподіл гіпотезі, що висувається, – наприклад, гіпотезі про наявність лінійного зв'язку – чи ні, чи є розузгодження фактичних і теоретичних частот випадковими чи дійсно зв'язок змінних включає ряд складних взаємозв'язків.

Дослідити це питання дозволяє критерій χ2 через адитивні компоненти, які відповідають лінійним і нелінійним ефектам в структурі зв'язку між змінними. При цьому лінійні ефекти пов’язують з першим перетворенням змінних, нелінійні – з другим і т.д. перетвореннями. Адитивність ефектів випливає з ортогональності канонічних змінних.

Покажемо, що канонічний аналіз таблиці зв'язаності відповідає розкладанню статистики χ2 на ряд доданків, число яких залежить від розмірності таблиці. Перетворимо вираз таким чином:

 (3.1)

 (3.2)

Остання формула може бути подана за допомогою суми діагональних елементів, тобто слід симетричної матриці , де N - матриця розмірності (m × p) з елементами  (m – число рядків таблиці, p – число стовпців):

 (3.3)

Якщо число рядків таблиці не дорівнює числу стовбців, то, як правило, матрицю С формують так, щоб її розмірність була мінімальною (min(m,p)). Оскільки слід матриці дорівнює сумі її власних чисел, то вираз (3.3) приймає наступний вигляд:

 (3.4)

де λk - k-е власне число матриці С.

Враховуючи, що власні числа є показниками кореляції (R2) між кожною парою канонічних змінних, виділених з вихідних наборів даних, запишемо рівність (3.4) у вигляді:

 (3.5)

З m (або p) власних чисел матриці С максимальне завжди дорівнює одиниці, йому відповідає вироджений набір міток 1 = (1,...,1). Тому вираз (3.5) доцільно переписати так :

 (3.6)

Найбільше з чисел, що залишилися (m - 1) або (p - 1) власних чисел відповідає гіпотезі лінійності зв'язку між категоризованими змінними; наступне за величиною значення λk відповідає гіпотезі про складніший характер взаємозв’язку змінних. Така інтерпретація компонент χ2 представляється можливою з причини того, що кожна подальша пара канонічних змінних є функцією першої перетвореної пари, а все розкладання χ2 є спадаючою послідовністю.

Можна показати, що традиційні методи зв'язків, засновані на критерії χ2, змішують різні за характером зв'язки і знайдена міра є середньою з різних зв'язків, що ігноруються за однією таблицею. Це випливає з виразу (3.6), який дозволяє будь-який показник щільності зв'язку подати через канонічні кореляції. Наприклад, коефіцієнт взаємної спряженості Чупрова виглядатиме так:

 (3.7)

Таблиці 2×2 виділяються два власних числа матриці С. Оскільки перше дорівнює одиниці, то квадрат канонічної кореляції дорівнює квадрату коефіцієнта спряженості Пірсону:

 (3.8)

Канонічні змінні дозволяють одержати якнайкраще, в сенсі деякого критерію, наближення коміркових частот таблиці спряженості. Як показали М. Кендалл і А. Стьюард, кожна спостережувана комірка може бути розбита на теоретичну частоту, яка відповідає гіпотезі про незалежність змінних, і адитивний внесок, пов'язаний з канонічною кореляцією:

 (3.9)

де хik – канонічна мітка для і-ого рядка к-го власного числа; yjk – канонічна мітка для j-го стовпця і к-го власного числа.

Відповідно є можливість подати вихідну таблицю спряженості у вигляді серії таблиць, кожна з яких відповідає певній гіпотезі зв'язку змінних (тобто частоти таблиці, обчислені при тому або іншому власному числі λk матриці С).

Існує ряд способів знаходження канонічних міток. Найшвидше приводить до мети наступний порядок дій: спочатку визначаються хik діленням кожної компоненти відповідного власного вектора на корінь квадратний з маргінальної частки; потім визначаються yjk – шляхом усереднювання міток рядків для кожного j - й стовпця.

 (3.10)

Набори міток хik і yjk, зважені за відповідними маргінальними частотами, мають нульові середні й одиничні дисперсії.


Информация о работе «Логарифмічно-лінійний аналіз»
Раздел: Математика
Количество знаков с пробелами: 19542
Количество таблиц: 0
Количество изображений: 2

Похожие работы

Скачать
15067
2
0

... дисперсія складається з двох частин. Перша характеризує внутрішньогрупову, друга — міжгрупову варіацію. Взаємозв'язок дисперсій називається правилом розкладання (декомпозиції) варіації: . 40 Види статистичних графіків і способи їх побудови   Статистичні графіки і правила їх побудови Внаслідок опрацювання даних різних видів спостережень дістають багато цифрового матеріалу, який розмішують у ...

Скачать
67232
3
0

... допомогою цієї програми учень може сам перевіряти набуті знання, і вчитель може перевіряти знання певного учня. Вступ. МЕТА РОБОТИ - системазувати відомості про показникові та логарифмічні рівняння й нерівності та їх системи в шкільному курсі алгебри старшої школи і розкрити роль і місце вивчення показникових та логарифмічних рівняньта нерівностей в школі та вибрати методику подання цієї теми. ...

Скачать
91282
13
6

... є відрахування до резервного (страхового) фонду підприємницьких структур, який регулюється в Україні діючим законодавством і має суто цільове призначення. Так, за звітними даними підприємств нафтопереробної промисловості, ми спостерігаємо відрахування до резервного фонду у 2003 році 0,5%(127,8: 25410,5) на підприємстві "Нафтохімік Прикарпаття" і на "Херсонському нафтопереробному комплексі" у 2001 ...

Скачать
86959
7
4

... інних; ·       у результаті застосування даного методу значення і структура попиту визначається як результат сукупного впливу різних факторів. Таким чином, можна зробити висновок, що основними особливостями прогнозування попиту на зарубіжному ринку є більша його розвиненість і більша його передбачуваність у порівнянні з вітчизняним. На практиці існує лише декілька методів прогнозування попиту, ...

0 комментариев


Наверх