Как избежать «недоразумений» при проведении статистического анализа данных и представлении результатов
Совет первый и самый главный: при применении статистики всегда следуйте совету Винни Пуха: «Нужно делать то, что нужно, а что не нужно — делать не нужно». Все остальное вытекает из этого мудрого правила.
Совет второй: читайте хорошие учебники по анализу данных:
Афифи А., Эйзен С. Статистический анализ: подход с использованием ЭВМ. Пер. англ. — М.:Мир, 1982.— 488 с.
Гланц С. Медико-биологическая статистика. Пер. англ. — М., Практика, 1998. —459 с. Животовский Л.А. Попупяционная биометрия. — М: Наука, 1991. — 271 с.
Sokal R. R., Rohlf F. G. Biometry: the principles and practice of statistics in biological research. 3-ed. — N.Y.: Freman & Co., 1995. — 850 p.
StatSoft, Inc. (2001). Электронный учебник по статистике. Москва, StatSoft.
Совет третий: помните о проблеме мнимых повторностей:
Козлов М. В. Мнимые повторности (Pseudoreplication) в экологических исследованиях: проблема, не замеченная российскими учеными // Журн. общ. биологии. — 2003. — Т. 64, № 4, С. 292-307.
Совет четвертый: прочитайте внимательно текст этого раздела и, может быть, это позволит Вам избежать «недоразумений», а иногда и нелепостей при представлении результатов статистического анализа в Ваших публикациях. Не стесняйтесь обращаться за консультациями к специалистам.
Корректно проведенный и описанный статистический анализ данных эксперимента или наблюдений влияет на достоверность выводов и является обязательным элементом научной публикации. Поэтому авторам работ, содержащих обобщение результатов экспериментов и наблюдений, необходимо обратить особое внимание на правильное использование статистических методов и описание результатов анализа такого рода данных.
Наиболее типичные ошибки при представлении результатов следующие:
— не приведены размеры выборок;
— не приведены единицы измерения переменных;
— не приведены проверяемые гипотезы;
— не указан используемый статистический критерий;
— не указано число степеней свободы критерия;
— отсутствует проверка предположений статистической модели;
— некорректно использован /- критерий для случая множественных сравнений;
— не дана расшифровка приводимых параметров;
— отсутствует легенда или расшифровка обозначений в подписи к рисунку;
— нет округления приводимых величин;
— приведены лишь точечные оценки центральной тенденции, без оценки доверительного интервала и характеристики рассеивания.
При проверке гипотез (используйте двухсторонние критерии!) обязательно укажите уровень значимости (вероятность отклонения справедливой нулевой гипотезы), выбранный в качестве критического — с которым сравнивали <ф-уровень» использованных статистических критериев. Например: «При проверке статистических гипотез использован 5% уровень значимости». Недопустимы выражения типа «…достоверность различий с контролем р<0.05». Некорректны фразы: «при статистической обработке полученных данных был использован /-критерий Стьюдента» (критерии применяются для проверки гипотез!) или «статистический анализ проводился по Лакину (Плохинскому и т.п.)» или «математическая обработка проводилась в программах MS EXCEL и Statistica». В книгах и статистических пакетах приводится обычно очень много вариантов разных методов. Если анализ данных производился с использованием конкретного пакета программ, то укажите название этого пакета, версию и разработчика. Например: «Анализ данных выполнен в ПСП STATISTICA 5.5. (StatSoft, Inc. 2001)».
Указывайте, какую статистическую модель (метод, критерий) использовали для статистического вывода. Для параметрических статистических критериев, хотя и относительно устойчивых к отклонению от исходных предположений, существуют ограничения по применению (например, предположения для t и F статистик — нормальность распределения, независимость ошибок и равенство дисперсий). Поэтому укажите, с помощью каких критериев Вы проверяли эти предположения и каковы результаты теста. Например: «для проверки предположения однородности дисперсий использован критерий Бартлета: с J2(3)=3.75, р=0Л5».
Опишите процедуру проверки характера распределения (например, критерии %2,
^-критерий Колмогорова-Смирнова с критическими уровнями Лиллиефорса) и ее результаты. Если использовали преобразования переменных для стабилизации дисперсии и нормализации распределения, укажите их. Например: «…использовали угловое преобразование долей», или логарифмирование, или Бокс-Кокс преобразование (Я=0.14) и др.
В разделе «Материалы…» (до подраздела статистического анализа) опишите массив данных: число наблюдений и переменных, в каких единицах измерены переменные. Помните, что для зависимых переменных, измеренных в ранговых (порядковых) шкалах, использование параметрических методов не является корректной процедурой.
В тексте или таблицах раздела «Результаты…» следует приводить фактическую величину достигнутого ^-уровня. Не забудьте (!) указать число степеней свободы (dj) используемого статистического критерия (степени свободы — это параметры теоретических распределений; приведение статистики критериев без указания параметров бессмысленно). Например, при использовании /-критерия: /(36)=3.25 (или /36=3.25), /><0.005, где цифра в скобках или нижний индекс — число степеней свободы
(df=36). He применяйте /-критерий для множественных сравнений без корректировки полученных /^-значений, а используйте модель дисперсионного анализа и методы множественных сравнений или вводите поправку (Бонферрони или Данна-Шидака и др.). F-статистика имеет два (!) параметра — степени свободы числителя и знаменателя (например, F(2;28)=15.6,/><0.0001).
Не забывайте расшифровать используемые сокращения и символические обозначения. Например, М— выборочное среднее, т (s.e.) — ошибка среднего, s.d. — выборочное стандартное отклонение и т.д. Если используется выражение М±т, укажите значение каждого символа, а также обязательно (!) укажите объем выборки — п.
Для иллюстраций вместо столбиковых диаграмм лучше использовать диаграммы размаха, которые дают информацию не только о точечной оценке центральной тенденции, но и обеспечивают характеристику изменчивости признака или точности оценки параметра или его доверительный интервал. Не забудьте убрать линии сетки с приводимых графиков (часто они затрудняют восприятие) и привести легенду или расшифровку обозначений, использованных на диаграмме. Используйте область диаграммы рационально.
Результаты вычислений как описательных статистик, так и критериев, должны быть разумно округлены. Средние значения не следует приводить точнее, чем на один десятичный знак по сравнению с данными измерения, s.e. ns.d. — еще на один знак точнее.
Помните, что статистический вывод имеет вероятностный характер и могут быть допущены ошибки I и II рода. Не пишите «…статистически достоверно различаются», используйте корректный термин «статистически значимо». Избегайте голословных (не статистических) выводов, не подкрепленных проверкой соответствующих гипотез, например: «выявлено значительное…» и далее никаких критериев; или «из рисунка легко видно, что…», или «оценка доли … показала наличие обратной корреляции с…» и далее никаких оценок коэффициента корреляции.
Подробный анализ типичных ошибок применения статистического анализа и описания результатов в биомедицинских исследованиях доступен в Интернете .
Примечание:
По материалам методического пособия – «Советы молодому ученому:методическое пособие для студентов, аспирантов, младших научных сотрудников и, может быть, не только для них». Издание 2-е. переработанное и дополненное. Екатеринбург: ИЭРиЖ УрО РАН, 2005.