Корреляция, свойство коэффициента корреляции. Линейная корреляция

Основные понятия статистики
86945
знаков
23
таблицы
25
изображений

4. Корреляция, свойство коэффициента корреляции. Линейная корреляция

Определение. Корреляционным моментом mxy случайных величин Х и Y называется математическое ожидание произведения отклонений этих величин.

Практически используются формулы:

Для дискретных случайных величин:

Для непрерывных случайных величин:

Корреляционный момент служит для того, чтобы охарактеризовать связь между случайными величинами. Если случайные величины независимы, то их корреляционный момент равен нулю.

Корреляционный момент имеет размерность, равную произведению размерностей случайных величин Х и Y. Этот факт является недостатком этой числовой характеристики, т.к. при различных единицах измерения получаются различные корреляционные моменты, что затрудняет сравнение корреляционных моментов различных случайных величин.

Для того, чтобы устранить этот недостаток применятся другая характеристика – коэффициент корреляции.

Определение. Коэффициентом корреляции rxy случайных величин Х и Y называется отношение корреляционного момента к произведению средних квадратических отклонений этих величин.

Коэффициент корреляции является безразмерной величиной. Коэффициент корреляции независимых случайных величин равен нулю.

Свойство: Абсолютная величина корреляционного момента двух случайных величин Х и Y не превышает среднего геометрического их дисперсий.

Свойство: Абсолютная величина коэффициента корреляции не превышает единицы.

Случайные величины называются коррелированными, если их корреляционный момент отличен от нуля, и некоррелированными, если их корреляционный момент равен нулю.

Если случайные величины независимы, то они и некоррелированы, но из некоррелированности нельзя сделать вывод о их независимости.

Если две величины зависимы, то они могут быть как коррелированными, так и некоррелированными.

Часто по заданной плотности распределения системы случайных величин можно определить зависимость или независимость этих величин.

Наряду с коэффициентом корреляции степень зависимости случайных величин можно охарактеризовать и другой величиной, которая называется коэффициентом ковариации. Коэффициент ковариации определяется формулой:

Пример. Задана плотность распределения системы случайных величин Х и Y.

Выяснить являются ли независимыми случайные величины Х и Y.

Для решения этой задачи преобразуем плотность распределения:

Таким образом, плотность распределения удалось представить в виде произведения двух функций, одна из которых зависит только от х, а другая – только от у. Т.е. случайные величины Х и Y независимы. Разумеется, они также будут и некоррелированы.

Линейная регрессия.

Рассмотрим двумерную случайную величину (X, Y), где X и Y – зависимые случайные величины.

Представим приближенно одну случайную величину как функцию другой. Точное соответствие невозможно. Будем считать, что эта функция линейная.


Для определения этой функции остается только найти постоянные величины a и b.

Определение. Функция g(X) называется наилучшим приближением случайной величины Y в смысле метода наименьших квадратов, если математическое ожидание

 принимает наименьшее возможное значение. Также функция g(x) называется среднеквадратической регрессией Y на X.

Теорема. Линейная средняя квадратическая регрессия Y на Х вычисляется по формуле:

в этой формуле

mx=M(X), my=M(Y),  коэффициент корреляции величин Х и Y.

Величина  называется коэффициентом регрессии Y на Х.

Прямая, уравнение которой

,

называется прямой сренеквадратической регрессии Y на Х.

Величина  называется остаточной дисперсией случайной величины Y относительно случайной величины Х. Эта величина характеризует величину ошибки, образующейся при замене случайной величины Y линейной функцией g(X)=aХ + b.

Видно, что если r=±1, то остаточная дисперсия равна нулю, и, следовательно, ошибка равна нулю и случайная величина Y точно представляется линейной функцией от случайной величины Х.

Прямая среднеквадратичной регрессии Х на Y определяется аналогично по формуле:

Прямые среднеквадратичной регрессии пересекаются в точке (тх, ту), которую называют центром совместного распределения случайных величин Х и Y.

Линейная корреляция.

Если две случайные величины Х и Y имеют в отношении друг друга линейные функции регрессии, то говорят, что величины Х и Y связаны линейной корреляционной зависимостью.

Теорема. Если двумерная случайная величина (X, Y) распределена нормально, то Х и Y связаны линейной корреляционной зависимостью.

Контрольные вопросы:

1. Дайте определение закона распределения, функцией распределения системы случайных величин.

2. Что такое условные законы распределения, условные числовые характеристики системы случайных величин?

3. Что такое функция регрессия между случайными величинами ?

4. Что такое корреляционная связь между случайными величинами?

5. Найти условное математическое ожидание составляющей Y при

X= x2=3 и Х= х3=4 для дискретной двумерной случайной величины, заданной таблицей:


Y X
x1=1 x2=3 x3=4 x4=8
y1=3 0,15 0,06 0,25 0,04
y2=6 0,30 0,10 0,03 0,07

6. Задана плотность распределения системы случайных величин Х и Y.

Выяснить являются ли независимыми случайные величины Х и Y.


Тема 1.6. Предельные теоремы теории вероятностей

1.  Неравенства Чебышева.

2.  Закон больших чисел и его следствия.

3.  Предельные теоремы теории вероятностей.

1.Неравенство Чебышева

величина распределение вероятность корреляция

На практике сложно сказать какое конкретное значение примет случайная величина, однако, при воздействии большого числа различных факторов поведение большого числа случайных величин практически утрачивает случайный характер и становится закономерным.

Этот факт очень важен на практике, т.к. позволяет предвидеть результат опыта при воздействии большого числа случайных факторов.

Однако, это возможно только при выполнении некоторых условий, которые определяются законом больших чисел. К законам больших чисел относятся теоремы Чебышева (наиболее общий случай) и теорема Бернулли (простейший случай), которые будут рассмотрены далее.

Рассмотрим дискретную случайную величину Х (хотя все сказанное ниже будет справедливо и для непрерывных случайных величин), заданную таблицей распределения:

X x1 x2 xn
p p1 p2 pn

Требуется определить вероятность того, что отклонение значения случайной величины от ее математического ожидания будет не больше, чем заданное число e.

Теорема. (Неравенство Чебышева) Вероятность того, что отклонение случайной величины Х от ее математического ожидания по абсолютной величине меньше положительного числа e, не меньше чем .

Доказательство этой теоремы не приводим, т.к. оно имеется в литературе ОЛ [ 3], [4].

2.Закон больших чисел и его следствия

Теорема. (Теорема Чебышева) Если Х1, Х2, …, Хn- попарно независимые случайные величины, причем дисперсии их равномерно ограничены (не превышаю постоянного числа С), то, как бы мало не было положительное число e, вероятность неравенства

 

будет сколь угодно близка к единице, если число случайных величин достаточно велико.

Т.е. можно записать:

Часто бывает, что случайные величины имеют одно и то же математическое ожидание. В этом случае теорема Чебышева несколько упрощается:


Дробь, входящая в записанное выше выражение есть не что иное как среднее арифметическое возможных значений случайной величины.

Теорема утверждает, что хотя каждое отдельное значение случайной величины может достаточно сильно отличаться от своего математического ожидания, но среднее арифметическое этих значений будет неограниченно приближаться к среднему арифметическому математических ожиданий. Отклоняясь от математического ожидания как в положительную так и в отрицательную сторону, от своего математического ожидания, в среднем арифметическом отклонения взаимно элиминируют.

Таким образом, величина среднего арифметического значений случайной величины уже теряет характер случайности.

Переходим к следующей теореме закона больших чисел.

Пусть производится п независимых испытаний, в каждом из которых вероятность появления события А равно р.

Теорема (Теорема Бернулли). Если в каждом из п независимых испытаний вероятность р появления события А постоянно, то сколь угодно близка к единице вероятность того, что отклонение относительной частоты от вероятности р по абсолютной величине будет сколь угодно малым, если число испытаний р достаточно велико.

Здесь т – число появлений события А. Из всего сказанного выше не следует, что с увеличением число испытаний относительная частота неуклонно стремится к вероятности р, т.е.  (сходимость поточечная). В теореме имеется в виду только сходимость по вероятности, т.е. приближения относительной частоты к вероятности появления события А в каждом испытании.

В случае, если вероятности появления события А в каждом опыте различны, то справедлива следующая теорема, известная как теорема Пуассона.

Теорема (Теорема Пуассона). Если производится п независимых опытов и вероятность появления события А в каждом опыте различна и равна рi, то при увеличении п частота события А сходится по вероятности к среднему арифметическому вероятностей рi.

Теорема даёт возможность определить примерно относительную частоту появления события А.


Информация о работе «Основные понятия статистики»
Раздел: Экономика
Количество знаков с пробелами: 86945
Количество таблиц: 23
Количество изображений: 25

Похожие работы

Скачать
33403
0
2

... , что все это рассуждение основано на предположении о нормальности распределения этих повторных выборок (т.е. нормальности выборочного распределения). Это предположение обсуждается в следующем разделе. Все ли статистики критериев нормально распределены? Не все, но большинство из них либо имеют нормальное распределение, либо имеют распределение, связанное с нормальным и вычисляемое на основе ...

Скачать
9328
0
0

... признак. Классификация. Для изучения общей теории статистики необходимо рассмотреть основные понятия на которых будет основываться все дальнейшее изложение материала. Т.к. статистика имеет дело с массовыми явлениями, то основным понятием является статистическая совокупность. Статистическая совокупность – это множество объектов или явлений изучаемых статистикой, которые имеют один или несколько ...

Скачать
95260
0
0

... пер- вичных статистических материалов, и вторичные, характеризуемые в процессе обработки и анализа данных. ПОКАЗАТЕЛЬ - одно из основных понятий статистики, под которым имеется в виду обобщенная колличественная характеристика социально-экономических явлений и процессов в их качественной определенности в условиях конкрет- ного места и времени. Примерами конкретных социально-экономических показате ...

Скачать
123983
17
0

... . Совокупность заведений, занимающихся однородным видом деятельности, представляет собой отрасль. Для количественного описания состояния и функционирования экономики в системе национальных счетов используются понятия запасов и потоков. Запасы отражают все виды активов и пассивов в экономике и отражаются в учете на определенную дату. Потоки отражают любые действия по созданию, преобразованию, ...

0 комментариев


Наверх