Visita Encydia.com

Coefficient de corrélation de Spearman

De Wikipédia, l'encyclopédie libre

En statistique, le coefficient de corrélation de Spearman, ρ (rho), est une mesure de la corrélation (l'association ou interdependencia) entre deux variables aléatoires continues. Pour calculer ρ, les données sont rangées et remplacées par son respectif ordre.

Le statistique ρ vient donné par l'expression:

 \rho = 1- {\frac {6 \sum D^2}{N(N^2 - 1)}}

D est la différence entre les correspondantes valeurs de x - et. N Est le nombre de couples.

Il se doit envisager l'existence de données identiques à l'heure de les ordonner, bien que si ceux-ci sont peu de, il se peut ignorer telle circonstance

Pour des échantillons majeurs de 20 observations, nous pouvons utiliser la suivante approximation à la distribution t de Student

T = \frac{\rho}{\sqrt{(1-\rho^2)/(n-2)}}


L'interprétation de coefficient de Spearman est pareil que la de le coefficient de corrélation de Pearson. Il oscille entre -1 et +1, en nous indiquant associations négatives ou positives respectivement, 0 zéro, il signifie ne corrélation mais n'indépendance. La tau de Kendall est un coefficient de corrélation par des rangs, investissements entre deux ordres d'une distribution normale bivariante.


Sommaire

Exemple

Les données brutes usés dans cet exemple ils se voient en dessous.

CI Heures de TV à la semaine
106 7
86 0
100 28
100 50
99 28
103 28
97 20
113 12
113 7
110 17

Le premier pas est ordonner les données de la première colonne. Après, ils se créent deux colonnes plus. Toutes les deux sont pour ordonner (établir un lieu dans la liste) des deux premières colonnes. il après se crée une colonne "d" qu'il montre les différences entre les deux colonnes de mandat. Enfin, il se crée une autre colonne "d2". Cette dernière est seulement la colonne "d" au cadré.

Après réaliser tout ceci avec les données de l'exemple, se devrait finir avec quelque chose comme le suivant:


CI (I) Heures de TV à la semaine (t) mandat(i) mandat(t) d d2
86 0 1 1 0 0
97 20 2 6 4 16
99 28 3 8 5 25
100 50 4.5 10 5.5 30.25
100 28 4.5 8 3.5 12.25
103 28 6 8 2 4
106 7 7 2.5 4.5 20.25
110 17 8 5 3 9
113 7 9.5 2.5 7 49
113 12 9.5 4 5.5 30.25

Remarquez-vous comme le nombre d'ordre des valeurs qu'ils sont identiques il est la moyenne des nombres de mandat que leur correspondraient sinon ils l'allassent.

Les valeurs de la colonne d2 peuvent être ajoutés pour découvrir \sum d_i^2 = 196. La valeur de n est 10. Donc ces valeurs peuvent être sustituídos dans la formule.

 \rho = 1- {\frac {6\times196}{10(10^2 - 1)}}

De ce que résulte ρ = − 0.187878787879.

En déterminant la signification statistique

L'approximation moderne au problème de découvrir si une valeur remarquée de ρ est significativement différente de zéro (nous toujours aurons 1 ≥ ρ ≥ −1) il est calculer la probabilité de que il soit majeure ou pareil que le ρ attendu, donnée la hypothèse nula, en utilisant un permutation test. Cette approximation est la plupart du temps supérieure aux méthodes traditionnels, à moins que le il date manche il soit tellement grand que la puissance informatique ne soit pas suffisante pour générer permutaciones (peu probable avec l'informaticienne moderne), ou à moins que soit difficile créer un algoritmo pour créer permutaciones que soient des logiques sous l'hypothèse nula dans le cas particulier de que se traite (bien que normalement ces algoritmos n'offrent pas difficulté).

Bien que le test de permutación est souvent trivial pour n'importe qui avec des ressources informatiques et expérience en programmation, ils encore s'usent largement les méthodes traditionnels pour obtenir signification. L'approximation la plus basique est comparer le ρ remarqué avec des tables publiées pour divers niveaux de signification. Il est une solution simple si la signification seulement précise se savoir dedans de vrai de rang, ou être moindre d'une déterminée valeur, tandis qu'y ait des tables disponibles qu'especifiquen les rangs appropriés. Plus il en bas y a une référence à une table semblable. Pourtant, générer ces tables il est computacionalmente intensif et tout au long des ans se sont usé compliqués trucs mathématiques pour générer tables pour des tailles d'échantillon chaque fois majeurs, de sorte que n'est pas pratique pour la plupart étendre les tables existantes.

Une approximation alternative pour des tailles d'échantillon suffisamment grands est une approximation à la distribution t de Student. Pour des tailles d'échantillon plus grands que quelques 20 individus, la variable

t = \frac{\rho}{\sqrt{(1-\rho^2)/(n-2)}}

a une distribution t de Student dans le cas nulo (corrélation zéro). Dans le cas ne nulo (ej: pour découvrir si un ρ remarqué est significativement différent à une valeur théorique ou si deux ρs remarqués ils diffèrent significativement, les tests sont beaucoup moins puissants, mais il peut s'utiliser de nouveau la distribution t.

Une généralisation du coefficient de Spearman est utile dans la situation en laquelle y a trois ou plus conditions, divers individus sont remarqués en chacune d'elles, et predecimos que les observations auront un ordre en particulier. Par exemple, un ensemble d'individus ils peuvent avoir trois occasions pour essayer certaine tâche, et predecimos que son habilité améliorera de tentative en tentative. Un test de la signification de la tendance entre les conditions dans cette situation a été développé par Et. B. Page Et normalement a l'habitude de se connaître comme Page's trend test pour des alternatives rangées.

Voyez-vous aussi

Tu raccordes externes

Source

Wikipédia. Traduction de l'anglais.ai:מתאם ספירמן