Меню

Как рассчитать критерий мощности



Нежное введение в статистический анализ мощности и мощности в Python

Дата публикации 2018-07-13

Статистическая сила теста гипотезы — это вероятность обнаружения эффекта, если для обнаружения присутствует настоящий эффект.

Мощность может быть рассчитана и сообщена для завершенного эксперимента, чтобы прокомментировать уверенность, которую можно было бы получить в выводах, сделанных по результатам исследования. Он также может использоваться в качестве инструмента для оценки количества наблюдений или размера выборки, необходимых для обнаружения эффекта в эксперименте.

В этом руководстве вы откроете для себя важность статистической мощности теста гипотезы, а теперь вычисляете анализ мощности и кривые мощности как часть экспериментального проекта.

После завершения этого урока вы узнаете:

  • Статистическая мощность — это вероятность проверки гипотезы о том, что эффект найден, если эффект найден.
  • Анализ мощности может использоваться для оценки минимального размера выборки, необходимого для эксперимента, с учетом желаемого уровня значимости, размера эффекта и статистической мощности.
  • Как рассчитать и построить анализ мощности для t-теста Стьюдента в Python, чтобы эффективно спланировать эксперимент.

Обзор учебника

Этот урок разделен на четыре части; они есть:

  1. Статистическая проверка гипотез
  2. Что такое статистическая сила?
  3. Анализ мощности
  4. Анализ силы t-критерия Стьюдента

Статистическая проверка гипотез

Тест статистической гипотезы делает предположение о результате, называемом нулевой гипотезой.

Например, нулевая гипотеза для корреляционного теста Пирсона состоит в том, что нет никакой связи между двумя переменными. Нулевая гипотеза для критерия Стьюдента состоит в том, что нет разницы между средствами двух групп населения.

Тест часто интерпретируется с использованием p-значения, которое представляет собой вероятность наблюдения результата, учитывая, что нулевая гипотеза верна, а не обратная, как это часто бывает с неправильными интерпретациями.

  • р-значение (р): Вероятность получения результата, равного или более экстремального, чем наблюдалось в данных.

При интерпретации p-значения критерия значимости необходимо указать уровень значимости, часто называемый греческой строчной буквой alpha (a). Общим значением для уровня значимости является 5%, записанное как 0,05.

Значение p интересует контекст выбранного уровня значимости. Результатом теста значимости считается «статистически значимый”Если значение p меньше уровня значимости. Это означает, что нулевая гипотеза (что нет результата) отклоняется.

  • p & lt; = альфа: отклонить H0, другое распределение.
  • p & gt; альфа: не удается отклонить H0, то же распределение.
  • Уровень значимости (альфа): Граница для определения статистически значимого результата при интерпретации значения p.

Мы можем видеть, что значение p является просто вероятностью и что в действительности результат может быть другим. Тест может быть неверным. Учитывая р-значение, мы могли бы сделать ошибку в нашей интерпретации.

Есть два типа ошибок; они есть:

  • Ошибка типа I, Отклонить нулевую гипотезу, когда на самом деле нет значительного эффекта (ложное срабатывание). Значение р оптимистично мало.
  • Ошибка типа II, Не отвергайте нулевую гипотезу, когда есть значительный эффект (ложноотрицательный). Значение p пессимистически велико.

В этом контексте мы можем думать об уровне значимости как о вероятности отклонения нулевой гипотезы, если бы она была верной. Это вероятность ошибки типа I или ложного срабатывания.

Что такое статистическая сила?

Статистическая сила или сила проверки гипотезы — это вероятность того, что проверка правильно отклоняет нулевую гипотезу.

То есть вероятность истинно положительного результата. Это полезно только тогда, когда нулевая гипотеза отвергается.

… Статистическая сила — это вероятность того, что тест правильно отклонит ложную нулевую гипотезу. Статистическая сила имеет значение только тогда, когда ноль ложен.

Чем выше статистическая мощность для данного эксперимента, тем ниже вероятность ошибки типа II (ложноотрицательная). Это выше вероятность обнаружения эффекта, когда есть эффект. На самом деле, мощность точно обратна вероятности ошибки типа II.

Более интуитивно, статистическая сила может рассматриваться как вероятность принятия альтернативной гипотезы, когда альтернативная гипотеза верна.

При интерпретации статистической мощности мы ищем экспериментальные установки, которые имеют высокую статистическую мощность.

  • Низкая статистическая мощность: Большой риск совершения ошибок типа II, например, ложный минус.
  • Высокая статистическая мощность: Небольшой риск совершения ошибок типа II
Читайте также:  Мощность усилителя электрон 104

Экспериментальные результаты со слишком низкой статистической мощностью приведут к неверным выводам о значении результатов. Поэтому необходимо искать минимальный уровень статистической мощности.

Обычно планируют эксперименты со статистической мощностью 80% или лучше, например 0,80. Это означает 20% вероятности столкновения с областью типа II. Это отличается от 5% вероятности возникновения ошибки типа I для стандартного значения уровня значимости.

Анализ мощности

Статистическая сила — это одна часть головоломки, которая состоит из четырех взаимосвязанных частей; они есть:

  • Размер эффекта, Количественная величина результата, присутствующего в популяции. Размер эффекта рассчитывается с использованием определенной статистической меры, такой как коэффициент корреляции Пирсона для взаимосвязи между переменными или d Коэна для разницы между группами.
  • Размер образца, Количество наблюдений в выборке.
  • Значимость, Уровень значимости, используемый в статистическом тесте, например, альфа. Часто устанавливается на 5% или 0,05.
  • Статистическая мощность, Вероятность принятия альтернативной гипотезы, если она верна.

Все четыре переменные связаны между собой. Например, больший размер выборки может облегчить обнаружение эффекта, а статистическая мощность в тесте может быть увеличена путем уменьшения уровня значимости.

Анализ мощности включает в себя оценку одного из этих четырех параметров с заданными значениями для трех других параметров. Это мощный инструмент как при разработке, так и при анализе экспериментов, который мы хотим интерпретировать с помощью статистических тестов гипотез.

Например, статистическая мощность может быть оценена с учетом размера эффекта, размера выборки и уровня значимости. Альтернативно, размер выборки может быть оценен с учетом различных желаемых уровней значимости.

Анализ силы отвечает на такие вопросы, как «какая статистическая мощность у моего исследования?» И «какой объем выборки мне нужен?».

Возможно, наиболее распространенное использование энергетического анализа заключается в оценке минимального размера выборки, необходимого для эксперимента.

Анализ мощности обычно проводится перед проведением исследования. Предполагаемый или априорный анализ мощности может использоваться для оценки любого из четырех параметров мощности, но чаще всего используется для оценки требуемых размеров выборки.

Как практик, мы можем начать с разумных значений по умолчанию для некоторых параметров, таких как уровень значимости 0,05 и уровень мощности 0,80. Затем мы можем оценить желаемый минимальный размер эффекта, характерный для проводимого эксперимента. Затем можно использовать анализ мощности для оценки минимального требуемого размера выборки.

Кроме того, можно провести многократный анализ мощности, чтобы получить кривую зависимости одного параметра от другого, такого как изменение размера эффекта в эксперименте с учетом изменения размера выборки. Могут быть созданы более сложные графики, варьирующиеся по трем параметрам. Это полезный инструмент для экспериментального дизайна.

Анализ силы t-критерия Стьюдента

Мы можем конкретизировать идею статистической мощности и анализа мощности на проработанном примере.

В этом разделе мы рассмотрим t-критерий Стьюдента, который является статистическим тестом гипотезы для сравнения средних значений двух выборок гауссовых переменных. Предположение или нулевая гипотеза теста состоит в том, что выборочные популяции имеют одинаковое среднее значение, например что нет никакой разницы между выборками или что образцы взяты из одной и той же популяции.

Тест вычислит p-значение, которое может быть интерпретировано относительно того, являются ли выборки одинаковыми (не в состоянии отклонить нулевую гипотезу), или существует статистически значимая разница между выборками (отклонить нулевую гипотезу). Общий уровень значимости для интерпретации значения p составляет 5% или 0,05.

  • Уровень значимости (альфа): 5% или 0,05.

Размер эффекта сравнения двух групп можно определить количественно с помощью меры размера эффекта. Распространенной мерой для сравнения разницы в среднем по двум группам является мера Коэна. Он рассчитывает стандартную оценку, которая описывает разницу с точки зрения количества стандартных отклонений, что средства разные. Большой размер эффекта для d Коэна составляет 0,80 или выше, что обычно принимается при использовании меры.

  • Размер эффекта: D Коэна не менее 0,80.

Мы можем использовать значение по умолчанию и принять минимальную статистическую мощность в 80% или 0,8.

  • Статистическая мощность: 80% или 0,80.
Читайте также:  Автомобильный двухканальный усилитель мощности

Для данного эксперимента с этими значениями по умолчанию нас может заинтересовать оценка подходящего размера выборки. То есть сколько наблюдений требуется от каждой выборки, чтобы по крайней мере обнаружить эффект 0 80 с вероятностью 80% обнаружения эффекта, если он истинный (20% ошибки типа II), и вероятностью 5% обнаружения эффекта, если такого эффекта нет (ошибка типа I).

Мы можем решить это с помощью анализа мощности.

Библиотека statsmodels предоставляетTTestIndPowerкласс для расчета энергетического анализа для теста Стьюдента с независимыми образцами. Следует отметить, чтоTTestPowerкласс, который может выполнить тот же анализ для парного теста Стьюдента.

Функцияsolve_power ()может быть использован для расчета одного из четырех параметров в анализе мощности. В нашем случае мы заинтересованы в расчете размера выборки. Мы можем использовать функцию, предоставив три части информации, которую мы знаем (альфа,эффект, а такжемощность) и установить размер аргумента, который мы хотим вычислить ответ (nobs1) к «Никто«. Это говорит функции, что рассчитать.

Примечание о размере выборки: у функции есть аргумент под названием ratio, который представляет собой отношение количества выборок в одной выборке к другой. Если ожидается, что обе выборки будут иметь одинаковое количество наблюдений, тогда коэффициент будет равен 1,0. Если, например, ожидается, что вторая выборка будет иметь вдвое меньше наблюдений, то отношение будет 0,5.

Экземпляр TTestIndPower должен быть создан, тогда мы можем вызватьsolve_power ()с нашими аргументами, чтобы оценить размер выборки для эксперимента.

Полный пример приведен ниже.

При выполнении примера вычисляется и печатается примерное количество образцов для эксперимента как 25. Это будет рекомендуемое минимальное количество образцов, необходимое для получения эффекта желаемого размера.

Мы можем пойти еще дальше и рассчитать кривые мощности.

Кривые мощности — это линейные графики, которые показывают, как изменение переменных, таких как размер эффекта и размер выборки, влияет на мощность статистического теста.

функция plot_power ()может быть использован для создания кривых мощности. Зависимая переменная (ось x) должна быть указана по имени в ‘dep_var‘Аргумент. Массивы значений могут быть указаны для размера выборки (Nobs), размер эффекта (effect_size) и значение (альфа) параметры. Затем будет построена одна или несколько кривых, показывающих влияние на статистическую мощность.

Например, мы можем принять значение 0,05 (значение по умолчанию для функции) и исследовать изменение размера выборки между 5 и 100 при низких, средних и высоких эффектах.

Полный пример приведен ниже.

При выполнении примера создается график, показывающий влияние на статистическую мощность (ось Y) для трех разных размеров эффекта (эс), поскольку размер выборки (ось X) увеличивается.

Мы можем видеть, что, если мы заинтересованы в большом эффекте, точка снижения доходности с точки зрения статистической мощности возникает в пределах 40-50 наблюдений.

Полезно, statsmodels имеетклассы для выполнения анализа мощностис другими статистическими тестами, такими как F-тест, Z-тест и критерий хи-квадрат.

расширения

В этом разделе перечислены некоторые идеи по расширению учебника, которые вы, возможно, захотите изучить.

  • Постройте кривые мощности различных стандартных уровней значимости в зависимости от размера выборки.
  • Найдите пример исследования, которое сообщает статистическую силу эксперимента.
  • Подготовьте примеры анализа производительности для других статистических тестов, предоставляемых statsmodels.

Если вы исследуете какое-либо из этих расширений, я хотел бы знать.

Дальнейшее чтение

Этот раздел предоставляет больше ресурсов по теме, если вы хотите углубиться.

документы

книги

  • Основное руководство по размерам эффектов: статистическая мощность, мета-анализ и интерпретация результатов исследований, 2010.
  • Понимание новой статистики: размеры эффектов, доверительные интервалы и метаанализ2011
  • Статистический анализ мощности для поведенческих наук1988
  • Прикладной анализ мощности для поведенческих наук, 2010.
  • Statsmodels Расчет мощности и размера выборки
  • statsmodels.stats.power.TTestPower API
  • statsmodels.stats.power.TTestIndPower
  • API statsmodels.stats.power.TTestIndPower.solve_power ()
    API statsmodels.stats.power.TTestIndPower.plot_power ()
  • Статистическая мощность в Statsmodels, 2013.
  • Графики власти в стат-моделях, 2013.

статьи

  • Статистическая мощность в Википедии
  • Статистическая проверка гипотез в Википедии
  • Статистическая значимость в Википедии
  • Определение размера выборки в Википедии
  • Размер эффекта в Википедии
  • Ошибки типа I и типа II в Википедии
Читайте также:  Аксиально поршневые насосы с регулятором мощности

Резюме

В этом уроке вы обнаружили статистическую мощность теста гипотез и способы расчета анализа мощности и кривых мощности как части экспериментального проекта.

В частности, вы узнали:

  • Статистическая мощность — это вероятность проверки гипотезы о том, что эффект найден, если эффект найден.
  • Анализ мощности может использоваться для оценки минимального размера выборки, необходимого для эксперимента, с учетом желаемого уровня значимости, размера эффекта и статистической мощности.
  • Как рассчитать и построить анализ мощности для t-теста Стьюдента в Python, чтобы эффективно спланировать эксперимент.

У вас есть вопросы?
Задайте свои вопросы в комментариях ниже, и я сделаю все возможное, чтобы ответить.

Источник

Оценка статистической мощности t-критерия Стьюдента

  • Ошибка первого типа (= «первого рода»): отклонениеверной нулевой гипотезы. Риск совершить такую ошибку равен выбранному уровню значимости (например, \(\alpha = 0.05\)).
  • Ошибка второго типа (= «второго рода»): сохранение неверной нулевой гипотезы. Вероятность ошибочно сохранить неверную нулевую гипотезу обозначают буквой \(\beta\).

Допустим, что минимальная разница в среднем весе жуков, которую мы хотим выявить в ходе эксперимента, составляет 3 мг. При уровне значимости \(\alpha = 0.05\) желаемая мощность теста должна составить 80%. Вопрос заключается в том, сколько животных мы должны задействовать в эксперименте для того, чтобы перечисленные условия были выполнены. Как следует из приведенного выше списка, для определения оптимального размера выборки нам необходимо знать стандартное отклонение веса изучаемого вида жуков. К сожалению, до проведения эксперимента мы не можем точно оценить этот параметр. Вариантов решения этой проблемы два: 1) основываясь на своем экспертном мнении, исследователь может дать примерную оценку стандартного отклонения; 2) можно попытаться найти соответствующие литературные данные. Предположим, что мы воспользовались вторым вариантом и выяснили, что стандартное отклонение веса для изучаемого вида жуков составляет 1.8 мг.

Теперь у нас есть вся необходимая информация для расчета минимального объема выборки. В R соответствующие вычисления можно выполнить при помощи базовой функции power.t.test() :

В приведенной выше команде delta — минимальная величина эффекта, которую мы хотим обнаружить в ходе эксперимента, sd — стандартное отклонение веса жуков (по литературным данным), sig.level — уровень значимости, а power — мощность t-критерия. В результатах вычислений программа еще раз перечисляет имеющиеся исходные параметры, а также сообщает n — рассчитанный минимальный размер каждой выборки для обнаружения желаемого эффекта при этих параметрах (округлив, получаем 7 жуков в каждой экспериментальной группе). Кроме того, программа напоминает нам, что вычисления были выполнены для двустроннего критерия Стьюдента ( alternative = two.sided ) и что параметр n соответствует числу наблюдений в каждой группе ( n is number in *each* group ).

Зная число наблюдений, величину эффекта, стандартное отклонение и уровень значимости мы можем рассчитать мощность теста. Например:

Как видим, при n = 15 , delta = 3 , sd = 1.8 и sig.level = 0.05 мощность критерия составит 99%.

При необходимости выполнить вычисления для парного критерия Стьюдента, в вызов функции power.t.test() достаточно добавить аргумент type = «paired» :

Как видим, в случае с зависимыми выборками минимальный размер выборок, необходимый для выявления заданной величины эффекта, несколько меньше, чем в случае с независимыми выборками (в рассматриваемом примере — 5 против 7 жуков в каждой группе).

Наконец, при необходимости выполнить одновыборочный t-тест аргументу type следует присвоить значение «one.sample» :

В заключение следует еще раз подчеркнуть, что если в ходе выполнения t-теста проверяемая нулевая гипотеза не отклонена, это не значит, что эффект в действительности остутствует. Возможно, объемы выборок были просто недостаточно велики для этого. Поэтому рекомендуется приводить в отчетах (статьях, презентациях, и т.п.) не только результаты статистического теста как такового, но еще и информацию о его мощности. Это позволит читателям отчета сформировать четкое представление о том, носколько полученные данные поддерживают сделанные по результатам анализа выводы.

Источник