Строительство и ремонт

Уровень статистической значимости (р). Уровень значимости

Уровень значимости – вероятность ошибочного отклонения (отвержения) гипотезы, в то время как она на самом деле верна. Речь идет об отклонении нулевой гипотезы.

1. 1-й уровень значимости: α ≤ 0,05.

Это 5%-ный уровень значимости. До 5% составляет вероятность того, что мы ошибочно сделали вывод о том, что различия достоверны, в то время как они недостоверны на самом деле. Можно сказать и по-другому: мы лишь на 95% уверены в том, что различия действительно достоверны.

2. 2-й уровень значимости: α ≤ 0,01.

Это 1%-ный уровень значимости. Вероятность ошибочного вывода о том, что различия достоверны, составляет не более 1%. Можно сказать и по-другому: мы на 99% уверены в том, что различия действительно достоверны.

3. 3-й уровень значимости: α ≤ 0,001.

Это 0,1%-ный уровень значимости. Всего 0,1% составляет вероятность того, что мы сделали ошибочный вывод о том, что различия достоверны. Это - самый надёжный вариант вывода о достоверности различий. Можно сказать и по-другому: мы на 99,9% уверены в том, что различия действительно достоверны.

В области ФК и спорта достаточен уровень значимости α = 0,05, более серьезные выводы рекомендуется давать, используя уровень значимости α = 0,01 или α = 0,001.

7.2. F- критерий Фишера

Оценка генеральных параметров с помощью выборочных данных производится с помощью F - критерия Фишера. Данный критерий указывает о наличии или отсутствии достоверного различия в двух дисперсиях. Критерий Фишера - показатель достоверности влияния изучаемых факторов на полученный результат.

Пример 4. В экспериментальной группе школьников средний прирост результатов в прыжках в длину с разбега, после применения новой методики обучения, составил 10 см ( 10 см). В контрольной группе, где применялось традиционная методика, 4 см ( 4 см). Исходные данные:

Экспериментальная группа (x i): 17; 11; 3; 8; 9; 12; 10; 13; 10; 7.

Контрольная группа (y i): 8; 1; 6; 2; 3; 0; 4; 7; 5; 4.

Можно ли утверждать, что нововведения эффективнее повлияли на процесс формирования изучаемого двигательного действия по сравнению с традиционной методикой?

Для ответа на поставленный вопрос воспользуемся F - критерием Фишера:

1) Задаемся уровнем значимости α = 0,05.

2) Вычисляем исправленные выборочные дисперсии из нашего примера по формуле:

3) Вычисляем значение F - критерия по формуле, причем, в числитель ставится большая дисперсия, в знаменатель – меньшая:

4) Из таблицы 3 приложения при α =0,05; df 1 = n 1 – 1 = 9; df 2 = n 2 – 1 = 9; находим F 0,05 = 3,18

5) Сравниваем между собой значения F и F 0,05 .

Вывод. Поскольку F < F 0.05 (2,1 < 3,18), то на уровне значимости α = 0,05 различие дисперсий статистически недостоверно, т.е. можно сказать, что школьники при обеих системах подготовки не отличаются по признаку вариативности результатов.

7.3. t - критерий Стьюдента

Общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках. t -статистика строится обычно по следующему общему принципу: в числителе случайная величина с нулевым математическим ожиданием (при выполнении нулевой гипотезы), а в знаменателе - выборочное стандартное отклонение этой случайной величины, получаемое как квадратный корень из несмещенной оценки дисперсии.

Устанавливает доказательство достоверного различия или, наоборот, отсутствие различия в двух выборочных средних значениях для независимых выборок. Рассмотрим последовательность вычислений, используя пример 4 :

1) Принимаем предположение о нормальности распределения генеральных совокупностей, из которых получены данные. Формулируем гипотезы:

Нулевая гипотеза H o: = .

Альтернативная гипотеза: H 1: ≠ .

Задаемся уровнем значимости α = 0,05.

2) В результате предварительной проверки при использовании критерия Фишера установлено, что различие дисперсий статистически недостоверно: D(x) = D(y).

3) Так как генеральные дисперсии D(x) и D(y) одинаковы, а n 1 и n 2 – объёмы малых независимых выборок, то наблюдаемое значение критерия равно:

Вычисляем число степеней свободы по формуле

Нулевая гипотеза отвергается, если │ │ ˃ , Из таблицы 1 приложения находим критическое значение t – критерия при α = 0,05; =18: = 2,101

Вывод: поскольку > (4,18 ˃ 2,101), то на уровне значимости 0,05 мы отвергаем гипотезу Н 0 и принимаем альтернативную гипотезу Н 1 .

Таким образом, нововведения успешнее решают задачу обучения школьников прыжкам в длину с разбега, чем традиционная методика.

Условия применения – разность связанных пар результатов измерения. Делается предположение о нормальном распределении этих разностей в генеральной совокупности с параметрами .

Пример 5 . Группа 10 школьников в течение летних каникул находилась в летнем оздоровительном лагере. До и после сезона у них измеряли жизненную емкость легких (ЖЕЛ). По результатам измерений нужно определить, достоверно ли изменился этот показатель под влиянием физических упражнений на свежем воздухе.

Исходные данные до эксперимента (x i ; мл) 3400; 3600; 3000; 3500; 2900; 3100; 3200; 3400; 3200; 3400, т.е. объем выборки n = 10.

После эксперимента (y i ; мл): 3800; 3700; 3300; 3600; 3100; 3200; 3200; 3300; 3500; 3600.

Порядок вычислений:

1) Находим разность связанных пар результатов измерения d i :

;

2) Формулируем гипотезы:

Нулевая гипотеза H o: =

Альтернативная гипотеза: H 1: ≠ 0.

3) Задаемся уровнем значимости α = 0,05

4) Вычисляем - (среднее арифметическое), s d - (стандартное отклонение). = 160(мл); s d = 150,6 (мл)

5) Значение t- критерия определяем по формуле для связанных пар:

Из таблицы 1 приложения находим критическое значение t – критерия при α = 0,05; = n – 1 = 9: = 2,262

Вывод: Поскольку t > t кр (3,36 > 2,262)наблюдаемое различие по показателю ЖЕЛ является статистически достоверным на уровне значимости α=0,05.

1. Афанасьев В.В. Основы отбора, за и контроля в спорте / В.В. Афанасьев, А.В. Муравьев, И.А. Осетров. – Ярославль: Изд-во ЯГПУ, 2008. − 278 с.

2. Биленко, А.Г. Основы спортивной метрологии: Учебное пособие /А.Г. Биленко, Л.П. Говорков; СПб ГУФК им. П.Ф. Лесгафта. – СПб., 2005. – 138 с.

3. Губа В.П. Измерения и вычисления в спортивно- педагогической практике: учебное пособие для студентов высших учебных заведений/ В.П. Губа, М.П.Шестаков, Н.Б. Бубнов, М.П. Борисенков. – М.: ФиС, 2006. – 220 с.

4. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике. - М: Высшая школа, 2004. – 404 с.

5. Коренберг, В.Б. Спортивная метрология: учебник / В.Б. Коренберг – М.: Физическая культура, 2008. – 368 с.

6. Начинская, С. В. Спортивная метрология. Учебное пособие для студ. высш. учеб. заведений / С. В. Начинская.– М.: Издательский центр «Академия», 2005. – 240 с.

7. Начинская С.В. Применение статистических методов в сфере физической культуры / Начинская С.В – СПб., 2000. – 260 с.

8. Смирнов, Ю. И. Спортивная метрология: учеб. для студ. пед. вузов / Ю. И Смирнов, М. М. Полевщиков. – М.: Издат. центр «Академия», 2000. – 232 с.

ПРИЛОЖЕНИЕ

4. Объяснить, что такое уровень статистической значимости.

Уровень значимости – это вероятность того, что мы сочли различия существенными, а они на самом деле случайны.

Когда мы указываем, что различия достоверны на 5%-ом уровне значимости, или при p≤0,05. то мы имеем виду, что вероятность того, что они все-таки недостоверны, составляет 0,05. Когда мы указываем, что различия достоверны на 1%-ом уровне значимости, или при p≤0,01, то мы имеем в виду, что вероятность того, что они все-таки недостоверны, составляет 0,01.

Если перевести все это на более формализованный язык, то уровень значимости - это вероятность отклонения нулевой гипотезы, в то время как она верна.

В статистике величину называют статисти́чески зна́чимой, если мала вероятность чисто случайного возникновения её или ещё более крайних величин. Здесь под крайностью понимается степень отклонения от нуль-гипотезы. Разница называется «статистически значимой», если имеются данные, появление которых было бы маловероятно, если предположить, что эта разница отсутствует; это выражение не означает, что данная разница должна быть велика, важна, или значима в общем смысле этого слова.

Уровень значимости обыкновенно обозначают греческой буквой α (альфа). Популярными уровнями значимости являются 5%, 1%, и 0.1%. Если тест выдаёт p-величину меньше α-уровня, то нуль-гипотеза отклоняется. Такие результаты неформально называют «статистически значимыми». Например, если кто-то говорит что «шансы того, что случившееся является совпадением, равны одному из тысячи», то имеется в виду 0.1 % уровень значимости.

5. Как интерпретировать моду, медиану и среднее?

Мода - точка, в которой плотность распределения имеет локальный максимум. Распределение может иметь несколько мод.

МЕДИАНА - один из показателей центра распределения для порядковых и количественных переменных; обозначается Ме. Представляет собой значение переменной, которое делит выборку пополам таким образом, чтобы для 50% объектов из выборки значения переменной не превосходили Ме, а для других 50% объектов - были не меньше, чем Ме.

Математи́ческое ожида́ние - понятие среднего значения случайной величины в теории вероятностей. Все рассмотренные характеристики: мода, медиана, средняя арифметическая, среднее взвешенное ѕ являются средними. Они характеризуют центральные тенденции одномерного распределения.

6. Квантильная шкала – это шкала, условием для построения которой является возможность ранжирования испытуемых по величине у.

Квантильные ранги имеют прямоугольное распределение, то есть в каждом интервале квантильнои шкалы содержится одинаковая доля обследованных лиц. Стандартизация тестовых оценок путем их перевода в квантильную шкалу стирает различия в особенностях распределения психодиагностических показателей, так как сводит любое распределение к прямоугольному. Поэтому с позиции теории измерений квантильные шкалы относятся к шкалам порядка: они дают информацию, у кого из испытуемых сильнее выражено тестируемое свойство, но ничего не позволяют сказать о том, насколько или во сколько раз сильнее.

7. Если коэффициент корреляции по модулю оказывается близким к единице, то исследуемые величины линейно зависимы.

8. Решить задачу, используя критерий Фридмана.

Шести респондентам предъявлялся тест Равенна. Фиксируется время решения каждого задания. Экспериментатор предполагает, что будут найдены статистически значимые различия между временем решения первых трёх заданий. Результаты замеров представлены в таблице.

Время решения второго задания теста, в сек.

Время решения третьего задания теста в сек.

1 8 3 5
2 4 15 12
3 6 23 15
4 3 6 6
5 7 12 3
6 15 24 12
Суммы 43 83 53
Средние 7,2 13,8 8,8

Критерий χ 2 r Фридмана

Назначение критерия

Критерий χ 2 r применяется для сопоставления показателей, измеренных в трех или более условиях на одной и той же выборке испытуемых.

Критерий позволяет установить, что величины показателей от условия к условию изменяются, но при этом не указывает на направленность изменений.

Гипотезы

H 0: Между показателями, полученными (измеренными) в разных условиях, существуют лишь случайные различия.

H 1: Между показателями, полученными в разных условиях, существуют неслучайные различия.

Проранжируем значения, полученные по трем тестам каждым испытуемым.

Сумма рангов по каждому испытуемому должна составлять 6. Расчетная общая сумма рангов в критерии определяется по формуле:

где n - количество испытуемых

с - количество условий измерения (замеров).

В данном случае,

6*3*(3+1)/2 = 36

Показатели времени решения тестов 1, 2, 3 и их ранги (n=6)

Время решения 1-ого задания теста, сек.

Время решения 2-ого задания теста, в сек.

Время решения 3-его задания теста в сек.

1 8 3 3 1 5 2
2 4 1 15 3 12 2
3 6 1 23 3 15 2
4 3 1 6 3 6 2
5 7 2 12 3 3 1
6 15 2 24 3 12 1
Суммы 43 10 83 16 53 10
Средние 7,2 13,8 8,8

Общая сумма рангов составляет: 10+16+10=36, что совпадает с расчетной величиной.

Сформулируем гипотезы.

Н 0: Различия во времени, которое испытуемые проводят над решением трех различных тестов, являются случайными.

H 1: Различия во времени, которое испытуемые проводят над решением трех различных тестов, не являются случайными.

Теперь нам нужно определить эмпирическое значение χ 2 r , по формуле:

где с - количество условий;

n - Количество испытуемых;

T 2 j - суммы рангов по каждому из условий.

Определим χ 2 r для данного случая:

χ 2 r = ((12/6*3*(3+1))*(100 +256 + 100)) – 3*6*(3+1) = 4

Поскольку в данном примере рассматриваются три задачи, то есть 3 условия, с=3. Количество испытуемых n=6. Это позволяет нам воспользоваться специальной таблицей χ 2 r , а именно табл. VII-A Приложения I. Эмпирическое значение χ 2 r =4 при с=3, n=6 точно соответствует уровню значимости р=0,184.

Ответ: Н 0 отклоняется. Принимается Н 1 . Различия во времени, которое испытуемые проводят над решением трех различных тестов, неслучайны (р=0,184).


...) или неположительным (второе решение). Задачу поиска параметра при налагаемых граничных условиях поможет решить специальная надстройка Microsoft Excel Поиск решения. 2 Практическая часть 2.1 Пример решения задач с использованием функции “подбор параметра” Как известно, формулы в Microsoft Excel позволяют определить значение функции по ее аргументам. Однако может возникнуть ситуация, ...

Его увеличением для целей инфор­мационного обеспечения исполнительных местных органов . 3 ОПЫТ УПРАВЛЕНИЯ И ОБОЩЕНИЕ ДАННЫХ НА ПРИМЕРЕ АЛМАТИНСКОГО ОБЛАСТНОГО УПРАВЛЕНИЯ СТАТИСТИКИ3.1 Алматинское областное управление статистики как субъект сбора и обобщения статистической информации В своей деятельности Алматинское областное управление статистики (АОУС) руководствуется...

Проверить знания студента из первой части курса, которая излагается в первых четырёх модулях. Во вторых вопросах билета проверяются знания классической предельной проблемы теории вероятностей и математической статистики, которые излагаются в следующих пяти модулях. 1. Вероятностная модель с не более чем счётным числом элементарных исходов. Пример: испытания с равновозможными исходами. 2. ...

Лекция 4.

Общие принципы проверки статистических гипотез

Подчеркнем еще раз, что полученные в результате экспери­мента на какой-либо выборке данные служат основанием для суждения о генеральной совокупности. Однако в силу действия случайных вероятностных причин оценка параметров генераль­ной совокупности, сделанная на основании экспериментальных (выборочных) данных, всегда будет сопровождаться погрешнос­тью, и поэтому подобного рода оценки должны рассматриваться как предположительные, а не как окончательные утверждения. Подобные предположения о свойствах и параметрах генеральной совокупности получили название статистических гипотез .

Сущность проверки статистической гипотезы заключается в том, чтобы установить, согласуются ли экспериментальные дан­ные и выдвинутая гипотеза, допустимо ли отнести расхождение между гипотезой и результатом статистического анализа экспе­риментальных данных за счет случайных причин? Таким обра­зом, статистическая гипотеза это научная гипотеза, допускаю­щая статистическую проверку, а математическая статистика это научная дисциплина задачей которой является научно обосно­ванная проверка статистических гипотез.

Статистические гипотезы

При проверке статистических гипотез используются два по­нятия: так называемая нулевая (обозначение Н 0) и альтернатив­ная гипотеза (обозначение Н 1).

Нулевая гипотеза – это гипотеза об отсутствии различий. Она обозначается как и называется нулевой потому, что содержит число 0: , где - сопоставляемые значения признаков.

Нулевая гипотеза – это то, что мы хотим опровергнуть, если перед нами стоит задача доказать значимость различий.

Альтернативная гипотеза – это гипотеза о значимости различий. Она обозначается как . Альтернативная гипотеза – это то, что мы хотим доказать, поэтому иногда ее называют экспериментальной гипотезой.

Бывают задачи, когда требуется доказать как раз незначимость различий, т.е. подтвердить нулевую гипотезу. Однако чаще все-таки требуется доказать значимость различий , так как они более информативны в поиске нового.

Нулевая и альтернативная гипотезы могут быть направленными и ненаправленными.

Направленные гипотезы

: не превышает

: превышает

Ненаправленные гипотезы

: не отличается

: отличается

Если в ходе эксперимента было замечено, что водной группе индивидуальные значения испытуемых по какому-либо признаку, например, по социальной смелости, выше, а в другой ниже, то для проверки значимости этих различий необходимо сформулировать направленные гипотезы.

Если же необходимо доказать, что первой группе под влиянием каких-то экспериментальных воздействий произошли более выраженные изменения, чем во второй группе, то в этом случае тоже необходимо сформулировать направленные гипотезы.

Если же требуется доказать, что различаются формы распределения признака в первой и во второй группах, то формулируются ненаправленные гипотезы.

Замечание. При описании каждого критерия даются формулировки гипотез, которые он помогает проверить.

Вообще говоря, при принятии или отвержении гипотез воз­можны различные варианты.

Например, психолог провел выборочное тестирование пока­зателей интеллекта у группы подростков из полных и неполных семей. В результате обработки экспериментальных данных уста­новлено, что у подростков из неполных семей показатели интел­лекта в среднем ниже, чем у их ровесников из полных семей. Может ли психолог на основе полученных результатов сделать вывод о том, что неполная семья ведет к снижению интеллекта у подростков? Принимаемый в таких случаях вывод носит назы­вание статистического решения. Подчеркнем, что такое решение всегда вероятностно.

При проверке гипотезы экспериментальные данные могут противоречить гипотезе , тогда эта гипотеза отклоняется. В противном случае, т.е. если экспериментальные данные согласу­ются с гипотезой ,она не отклоняется. Часто в таких случаях говорят, что гипотеза принимается (хотя такая формулировка не совсем точна, однако она широко распространена и мы ею будем пользоваться в дальнейшем). Отсюда видно, что статисти­ческая проверка гипотез, основанная на экспериментальных, выборочных данных, неизбежно связана с риском (вероятнос­тью) принять ложное решение. При этом возможны ошибки двух родов.

Ошибка первого рода произойдет, когда будет принято решение отклонить гипотезу ,хотя в действительности она оказывается верной.

Ошибка второго рода произойдет, когда бу­дет принято решение не отклонять гипотезу , хотя в действи­тельности она будет неверна. Очевидно, что и правильные выво­ды могут быть приняты также в двух случаях. Вышесказанное лучше представить в виде таблицы 1:

Таблица 1

Не исключено, что психолог может ошибиться в своем ста­тистическом решении; как видим из таблицы 1, эти ошибки могут быть только двух родов. Поскольку исключить ошибки при принятии статистических гипотез невозможно, то необходимо минимизировать возможные последствия, т.е. принятие неверной статистической гипотезы. В большинстве случаев единственный путь минимизации ошибок заключается в увеличении объема выборки.

Понятие уровня статистической значимости

При обосновании статистического вывода следует решить вопрос, где же проходит линия между принятием и отвержени­ем нулевой гипотезы? В силу наличия в эксперименте случайных влияний эта граница не может быть проведена абсолютно точно. Она базируется на понятии уровня значимости.

Опр. Уровнем значимо­сти называется вероятность ошибочного отклонения нулевой гипотезы. Или, иными словами, уровень значимости это вероят­ность ошибки первого рода при принятии решения.

Для обозна­чения этой вероятности, как правило, употребляют либо гречес­кую букву , либо латинскую букву Р. В дальнейшем мы будем употреблять букву Р.

Исторически сложилось так, что в прикладных науках, ис­пользующих статистику, и в частности в психологии, считается, что низшим уровнем статистической значимости является уровень ; достаточным - уровень и высшим уровень . Поэтому в статистических таблицах, которые приводятся в приложении к учебникам по статистике, обычно даются таблич­ные значения для уровней: ; ; . Иногда даются табличные значения для уровней и . Величины 0,05, 0,01 и 0,001 - это так называемые стандартные уровни статистической значимости . При статистическом анализе экспериментальных данных психолог в зависимости от задач и гипотез исследования должен выбрать необходимый уро­вень значимости. Как видим, здесь наибольшая величина, или нижняя граница уровня статистической значимости, равняется 0,05 - это означает, что допускается пять ошибок в выборке из ста элементов (случаев, испытуемых) или одна ошибка из двад­цати элементов (случаев, испытуемых). Считается, что ни шесть, ни семь, ни большее количество раз из ста мы ошибиться не можем. Цена таких ошибок будет слишком велика.

Заметим, что в современных статистических пакетах на ЭВМ используются не стандартные уровни значимости, а уровни, подсчитываемые непосредственно в процессе работы с соответ­ствующим статистическим методом. Эти уровни, обозначаемые буквой Р, могут иметь различное числовое выражение в интер­вале от 0 до 1, например, Р = 0,7, Р = 0,23 или Р = 0,012. Понятно, что в первых двух случаях, полученные уровни значимос­ти слишком велики и говорить о том, что результат значим нельзя. В то же время в последнем случае результаты значимы на уровне 12 тысячных, это достоверный уровень.

Правило принятия статистического вывода таково: на осно­вании полученных экспериментальных данных психолог подсчи­тывает по выбранному им статистическому методу так называе­мую эмпирическую статистику, или эмпирическое значение. Эту величину удобно обозначить как Ч эмп. Затем эмпирическая стати­стика Ч эмп сравнивается с двумя критическими величинами, ко­торые соответствуют уровням значимости в 5% и в 1% для выб­ранного статистического метода и которые, обозначаются как . Величины находятся для данного статистического метода по соответствующим таблицам, приведенным в приложении к лю­бому учебнику по статистике. Эти величины, как правило, все­гда различны и их в дальнейшем для удобства можно назвать, как и . Найденные по таблицам величины критических значе­ний и удобно представлять в следующей стандартной форме записи:

Подчеркнем, однако, что мы использовали обозначения и как сокращение слова «число». Во всех статистических ме­тодах приняты свои символические обозначения всех этих вели­чин: как подсчитанной по соответствующему статистическому методу эмпирической величины, так и найденных по соответ­ствующим таблицам критических величин. Например, при под­счете рангового коэффициента корреляции Спирмена по таблице 21 Приложения были найдены сле­дующие величины критических значений, которые для этого мето­да обозначаются греческой буквой (ро).

Принято найденные значения записывать следующим образом:

Теперь нам необходимо сравнить наше эмпирическое значе­ние с двумя найденными по таблицам критическими значения­ми. Лучше всего это сделать, расположив все три числа на так называемой «оси значимости ». «Ось значимости » представляет собой прямую, на левом конце которой располагается 0, хотя он, как правило, не отмечается на самой этой прямой, и слева направо идет увеличение числового ряда. По сути дела это при­вычная школьная ось абсцисс ОХ декартовой системы координат. Однако особенность этой оси в том, что на ней выделено три участка, «зоны ». Левая зона называется зоной незначимости , правая - зоной значимости , а промежуточная зоной неопреде­ленности . Границами всех трех зон являются Ч кр1 для Р = 0,05 и для Р = 0,01, как это показано ниже.

Проверка гипотез проводится с помощью статистического анализа. Статистическую значимость находят с помощью Р-значения, которое соответствует вероятности данного события при предположении, что некоторое утверждение (нулевая гипотеза) истинно. Если Р-значение меньше заданного уровня статистической значимости (обычно это 0,05), экспериментатор может смело заключить, что нулевая гипотеза неверна, и перейти к рассмотрению альтернативной гипотезы. С помощью t-критерия Стьюдента можно вычислить Р-значение и определить значимость для двух наборов данных.

Шаги

Часть 1

Постановка эксперимента

    Определите свою гипотезу. Первый шаг при оценке статистической значимости состоит в том, чтобы выбрать вопрос, ответ на который вы хотите получить, и сформулировать гипотезу. Гипотеза - это утверждение об экспериментальных данных, их распределении и свойствах. Для любого эксперимента существует как нулевая, так и альтернативная гипотеза. Вообще говоря, вам придется сравнивать два набора данных, чтобы определить, схожи они или различны.

    • Нулевая гипотеза (H 0) обычно утверждает, что между двумя наборами данных нет разницы. Например: те ученики, которые читают материал перед занятиями, не получают более высокие оценки.
    • Альтернативная гипотеза (H a) противоположна нулевой гипотезе и представляет собой утверждение, которое нужно подтвердить с помощью экспериментальных данных. Например: те ученики, которые читают материал перед занятиями, получают более высокие оценки.
  1. Установите уровень значимости, чтобы определить, насколько распределение данных должно отличаться от обычного, чтобы это можно было считать значимым результатом. Уровень значимости (его называют также α {\displaystyle \alpha } -уровнем) - это порог, который вы определяете для статистической значимости. Если Р-значение меньше уровня значимости или равно ему, данные считаются статистически значимыми.

    Решите, какой критерий вы будете использовать: односторонний или двусторонний. Одно из предположений в t-критерии Стьюдента гласит, что данные распределены нормальным образом. Нормальное распределение представляет собой колоколообразную кривую с максимальным количеством результатов посередине кривой. t-критерий Стьюдента - это математический метод проверки данных, который позволяет установить, выпадают ли данные за пределы нормального распределения (больше, меньше, либо в “хвостах” кривой).

    • Если вы не уверены, находятся ли данные выше или ниже контрольной группы значений, используйте двусторонний критерий. Это позволит вам определить значимость в обоих направлениях.
    • Если вы знаете, в каком направлении данные могут выйти за пределы нормального распределения, используйте односторонний критерий. В приведенном выше примере мы ожидаем, что оценки студентов повысятся, поэтому можно использовать односторонний критерий.
  2. Определите объем выборки с помощью статистической мощности. Статистическая мощность исследования - это вероятность того, что при данном объеме выборки получится ожидаемый результат. Распространенный порог мощности (или β) составляет 80%. Анализ статистической мощности без каких-либо предварительных данных может представлять определенные сложности, поскольку требуется некоторая информация об ожидаемых средних значениях в каждой группе данных и об их стандартных отклонениях. Используйте для анализа статистической мощности онлайн-калькулятор, чтобы определить оптимальный объем выборки для ваших данных.

    • Обычно ученые проводят небольшое пробное исследование, которое позволяет получить данные для анализа статистической мощности и определить объем выборки, необходимый для более расширенного и полного исследования.
    • Если у вас нет возможности провести пробное исследование, постарайтесь на основании литературных данных и результатов других людей оценить возможные средние значения. Возможно, это поможет вам определить оптимальный объем выборки.

    Часть 2

    Вычислите стандартное отклонение
    1. Запишите формулу для стандартного отклонения. Стандартное отклонение показывает, насколько велик разброс данных. Оно позволяет заключить, насколько близки данные, полученные на определенной выборке. На первый взгляд формула кажется довольно сложной, но приведенные ниже объяснения помогут понять ее. Формула имеет следующий вид: s = √∑((x i – µ) 2 /(N – 1)).

      • s - стандартное отклонение;
      • знак ∑ указывает на то, что следует сложить все полученные на выборке данные;
      • x i соответствует i-му значению, то есть отдельному полученному результату;
      • µ - это среднее значение для данной группы;
      • N - общее число данных в выборке.
    2. Найдите среднее значение в каждой группе. Чтобы вычислить стандартное отклонение, необходимо сначала найти среднее значение для каждой исследуемой группы. Среднее значение обозначается греческой буквой µ (мю). Чтобы найти среднее, просто сложите все полученные значения и поделите их на количество данных (объем выборки).

      • Например, чтобы найти среднюю оценку в группе тех учеников, которые изучают материал перед занятиями, рассмотрим небольшой набор данных. Для простоты используем набор из пяти точек: 90, 91, 85, 83 и 94.
      • Сложим вместе все значения: 90 + 91 + 85 + 83 + 94 = 443.
      • Поделим сумму на число значений, N = 5: 443/5 = 88,6.
      • Таким образом, среднее значение для данной группы составляет 88,6.
    3. Вычтите из среднего каждое полученное значение. Следующий шаг заключается в вычислении разницы (x i – µ). Для этого следует вычесть из найденной средней величины каждое полученное значение. В нашем примере необходимо найти пять разностей:

      • (90 – 88,6), (91- 88,6), (85 – 88,6), (83 – 88,6) и (94 – 88,6).
      • В результате получаем следующие значения: 1,4, 2,4, -3,6, -5,6 и 5,4.
    4. Возведите в квадрат каждую полученную величину и сложите их вместе. Каждую из только что найденных величин следует возвести в квадрат. На этом шаге исчезнут все отрицательные значения. Если после данного шага у вас останутся отрицательные числа, значит, вы забыли возвести их в квадрат.

      • Для нашего примера получаем 1,96, 5,76, 12,96, 31,36 и 29,16.
      • Складываем полученные значения: 1,96 + 5,76 + 12,96 + 31,36 + 29,16 = 81,2.
    5. Поделите на объем выборки минус 1. В формуле сумма делится на N – 1 из-за того, что мы не учитываем генеральную совокупность, а берем для оценки выборку из числа всех студентов.

      • Вычитаем: N – 1 = 5 – 1 = 4
      • Делим: 81,2/4 = 20,3
    6. Извлеките квадратный корень. После того как вы поделите сумму на объем выборки минус один, извлеките из найденного значения квадратный корень. Это последний шаг в вычислении стандартного отклонения. Есть статистические программы, которые после введения начальных данных производят все необходимые вычисления.

      • В нашем примере стандартное отклонение оценок тех учеников, которые читают материал перед занятиями, составляет s =√20,3 = 4,51.

    Часть 3

    Определите значимость
    1. Рассчитайте дисперсию между двумя группами данных. До этого шага мы рассматривали пример лишь для одной группы данных. Если вы хотите сравнить две группы, очевидно, следует взять данные для обеих групп. Вычислите стандартное отклонение для второй группы данных, а затем найдите дисперсию между двумя экспериментальными группами. Дисперсия вычисляется по следующей формуле: s d = √((s 1 /N 1) + (s 2 /N 2)).

Уровень значимости - это вероятность того, что мы сочли различия существенными, а они на самом деле случайны.

Когда мы указываем, что различия достоверны на 5%-ом уровне значимости, или при р < 0,05 , то мы имеем виду, что вероятность того, что они все-таки недостоверны, составляет 0,05.

Когда мы указываем, что различия достоверны на 1%-ом уровне значимости, или при р < 0,01 , то мы имеем в виду, что вероятность того, что они все-таки недостоверны, составляет 0,01.

Если перевести все это на более формализованный язык, то уровень значимости - это вероятность отклонения нулевой гипотезы, в то время как она верна.

Ошибка, состоящая в той, что мы отклонили нулевую гипотезу, в то время как она верна, называется ошибкой 1 рода. (См. Табл. 1)

Табл. 1. Нулевая и альтернативные гипотезы и возможные состояния проверки.

Вероятность такой ошибки обычно обозначается как α. В сущности, мы должны были бы указывать в скобках не р< 0,05 или р< 0,01, а α< 0,05 или α< 0,01.

Если вероятность ошибки - это α , то вероятность правильного решения: 1-α. Чем меньше α, тем больше вероятность правильного решения.

Исторически сложилось так, что в психологии принято считать низшим уровнем статистической значимости 5%-ый уровень (р≤0,05): достаточным – 1%-ый уровень (р≤0,01) и высшим 0,1%-ый уровень (р≤0,001), поэтому в таблицах критических значений обычно приводятся значения критериев, соответствующих уровням статистической значимости р≤0,05 и р≤0,01, иногда - р≤0,001. Для некоторых критериев в таблицах указан точный уровень значимости их разных эмпирических значений. Например, для φ*=1,56 р=О,06.

До тех пор, однако, пока уровень статистической значимости не достигнет р=0,05, мы еще не имеем права отклонить нулевую гипотезу. Мы будем придерживаться следующего правила отклонения гипотезы об отсутствии различий (Но) и принятия гипотезы о статистической достоверности различий (Н 1).

Правило отклонения Hо и принятия h1

Если эмпирическое значение критерия равняется критическому значению, соответствующему р≤0,05 или превышает его, то H 0 отклоняется, но мы еще не можем определенно принять H 1 .

Если эмпирическое значение критерия равняется критическому значению, соответствующему р≤0,01 или превышает его, то H 0 отклоняется и принимается Н 1 .

Исключения : критерий знаков G, критерий Т Вилкоксона и критерий U Манна-Уитни. Для них устанавливаются обратные соотношения.

Рис. 4. Пример «оси значимости» для критерия Q Розенбаума.

Критические значения критерия обозначены как Q о,о5 и Q 0,01, эмпирическое значение критерия как Q эмп. Оно заключено в эллипс.

Вправо от критического значения Q 0,01 простирается "зона значимости" - сюда попадают эмпирические значения, превышающие Q 0 , 01 и, следовательно, безусловно, значимые.

Влево от критического значения Q 0,05, простирается "зона незначимости", - сюда попадают эмпирические значения Q, которые ниже Q 0,05, и, следовательно, безусловно незначимы.

Мы видим, что Q 0,05 =6; Q 0,01 =9; Q эмп. =8;

Эмпирическое значение критерия попадает в область между Q 0,05 и Q 0,01. Это зона "неопределенности": мы уже можем отклонить гипотезу о недостоверности различий (Н 0), но еще не можем принять гипотезы об их достоверности (H 1).

Практически, однако, исследователь может считать достоверными уже те различия, которые не попадают в зону незначимости, заявив, что они достоверны при р< 0,05, или указав точный уровень значимости полученного эмпирического значения критерия, например: р=0,02. С помощью стандартных таблиц, которые есть во всех учебниках по математическим методам это можно сделать по отношению к критериям Н Крускала-Уоллиса, χ 2 r Фридмана, L Пейджа, φ* Фишера.

Уровень статистической значимости или критические значения критериев определяются по-разному при проверке направленных и ненаправленных статистических гипотез.

При направленной статистической гипотезе используется односторонний критерий, при ненаправленной гипотезе - двусторонний критерий. Двусторонний критерий более строг, поскольку он проверяет различия в обе стороны, и поэтому то эмпирическое значение критерия, которое ранее соответствовало уровню значимости р< 0,05, теперь соответствует лишь уровню р< 0,10.

Нам не придется всякий раз самостоятельно решать, использует ли он односторонний или двухсторонний критерий. Таблицы критических значений критериев подобраны таким образом, что направленным гипотезам соответствует односторонний, а ненаправленным - двусторонний критерий, и приведенные значения удовлетворяют тем требованиям, которые предъявляются к каждому из них. Исследователю необходимо лишь следить за тем, чтобы его гипотезы совпадали по смыслу и по форме с гипотезами, предлагаемыми в описании каждого из критериев.