Авторизация
Логин:
Пароль:
Регистрация
Забыли свой пароль?

Модель анализа совпадений при расчете непараметрических ранговых статистик


DOI: 10.26896/1028-6861-2017-83-11-66-72

А. И. Орлов; № 11 (83), 11.2017

Аннотация:

Непараметрическая статистика — одна из точек роста современных математико-статистических методов исследования. В непараметрической статистике важное место занимают ранговые критерии, основанные на использовании рангов элементов выборок (результатов наблюдений), а не самих числовых значений элементов выборок. Ранги — это номера элементов выборок в соответствующих вариационных рядах, построенных путем перестановки результатов наблюдений в порядке неубывания. Распределения ранговых критериев получены в предположении, что функции распределения результатов наблюдений непрерывны. Из этого предположения следует, что вероятность совпадения значений случайных величин, образующих анализируемые выборки, равна нулю. Однако в реальных данных встречаются совпадения. Следовательно, неверно предположение, что функции распределения результатов наблюдений непрерывны, а потому известными теоремами о распределениях ранговых статистик, строго говоря, пользоваться нельзя. Тем не менее при небольшом числе совпадений обычно рекомендуют применять ранговые статистики, иногда вводя те или иные поправки. Таким образом, над классической математико-статистической теорией устанавливают дополнительную надстройку в целях учета совпадения данных. Естественно, возникает вопрос о степени обоснованности тех или иных методов учета совпадения данных расчета. Предлагаем вероятностно-статистическую модель, объясняющую появление совпадений и дающую алгоритмы анализа совпадений. Эта модель основана на предположении о появлении совпадений данных в результате «слипания» мало различающихся результатов наблюдений. Поэтому добавляем малую поправку к каждому элементу совпадающей группы результатов наблюдений и в результате получаем выборку без совпадений, для которой рассчитываем значение ранговой статистики. Рассмотрев различные варианты поправок, получаем «облако» значений ранговой статистики. Анализ этого «облака» позволяет получить статистические выводы. В качестве примера рассмотрен двухвыборочный критерий Вилкоксона.

Ключевые слова: непараметрическая статистика; ранговые критерии; совпадение данных; вероятностно-статистическая модель; алгоритм анализа совпадений; двухвыборочный критерий Вилкоксона.

The Model of Coincidence Analysis in the Calculation of Nonparametric Rank Statistics

A. I. Orlov

Nonparametric statistic is one of the points of growth of modern mathematical and statistical methods of research. In nonparametric statistics, rank criteria based on the use of the ranks of the sample elements (observation results), rather than numerical values of the sample elements themselves, take an important place. Ranks are the numbers of sample elements in the corresponding variation series, constructed by rearranging the results of observations in the order of nondecreasing. Distributions of rank criteria are obtained on the assumption of continuity of the distribution functions of the observation results, hence, the probability of coincidence of the values of the random variables forming the analyzed samples should be equal to zero. However, in actual data, there are coincidences. Consequently, the assumption of the continuity of the distribution functions of the observation results is incorrect and known theorems on the distribution of rank statistics, strictly speaking, are not applicable. However, with a small number of coincidences, ranks statistics can be recommended for use, albeit with some corrections. Thus, an additional superstructure is mounted on the classical mathematical-statistical theory to take into account the coincidence of the data. Naturally, the validity of different methods used for accounting the coincidence of calculation data should be considered. We propose a probabilistic-statistical model that explains the occurrence of the coincidences and provides algorithms for their analysis. This model is based on the assumption that data coincidences appears as a result of «sticking together» of the slightly different observation results. We propose to introduce small corrections into each elements of the coincident group of observation results and thus to obtain a sample without coincidences and calculate the value of rank statistics. Having considered various variants of amendments, we obtain a «cloud» of values of rank statistics. Analysis of this «cloud» allows us to obtain statistical conclusions. Two-sample Wilcoxon test is considered as an example.

Keywords: nonparametric statistics; rank criteria; data coincidence; probabilistic-statistical model; coincidence analysis algorithm; Wilcoxon two-sample test.

1. Orlov A. I. The growth points of statistical methods / Politem. Set. Élektron. Nauch. Zh. Kuban. Gos. Agrarn. Univ. 2014. N 103. P. 136 – 162 [in Russian].

2. Orlov A. I. Structure of nonparametric statistics (generalizing paper) / Zavod. Lab. Diagn. Mater. 2015. Vol. 81. N 7. P. 62 – 72 [in Russian].

3. Orlov A. I. Nonparametric goodness-of-fit Kolmogorov, Smirnov, omega-square tests and the errors in their application / Politem. Set. Élektron. Nauch. Zh. Kuban. Gos. Agrarn. Univ. 2014. N 97. P. 32 – 45 [in Russian].

4. Orlov A. I. What hypothesis can be verified using the two-sample Wilcoxon test? / Zavod. Lab. Diagn. Mater. 1999. Vol. 65. N 1. P. 51 – 55 [in Russian].

5. Orlov A. I. Two-sample Wilcoxon test — analysis of two myths / Politem. Set. Élektron. Nauch. Zh. Kuban. Gos. Agrarn. Univ. 2014. N 104. P. 91 – 111 [in Russian].

6. Orlov A. I. Consistent tests of absolute homogeneity for independent samples / Zavod. Lab. Diagn. Mater. 2012. Vol. 78. N 11. P. 66 – 70 [in Russian].

7. Orlov A. I. Methods for testing the homogeneity of the paired samples / Zavod. Lab. Diagn. Mater. 2004. Vol. 70. N 7. P. 57 – 61 [in Russian].

8. Orlov A. I. Testing of homogeneity of the paired samples / Politem. Set. Élektron. Nauch. Zh. Kuban. Gos. Agrarn. Univ. 2016. N 123. P. 708 – 726 [in Russian].

9. Hollander M., Wolfe D. A., Chicken E. Nonparametric Statistical Methods. Third Edition. — Hoboken, New Jersey: John Wiley & Sons, Inc., 2014. — 828 p.

10. Orlov A. I. About the methodology of statistical methods / Politem. Set. Élektron. Nauch. Zh. Kuban. Gos. Agrarn. Univ. 2014. N 104. P. 53 – 80 [in Russian].

11. Orlov A. I. Statistics of interval data (generalizing paper) / Zavod. Lab. Diagn. Mater. 2015. Vol. 81. N 3. P. 61 – 69 [in Russian].

12. Orlov A. I. Stable mathematical methods and models / Zavod. Lab. Diagn. Mater. 2010. Vol. 76. N 3. P. 59 – 67 [in Russian].

13. Hajek Ja., Sidak Zb. Theory of rank tests. — Prague: Academia. Publishing house of the Czechoslovak academy of sciences, 1967. — 376 p.

14. Orlov A. I. Applied statistics. — Moscow: Ékzamen, 2006. — 671 p. [in Russian].