Accueil > Méthodes d'analyse de données > T-tests et test du chi carré

T-tests et test du chi carré

27 juillet 2011 par joegh »Message

Longtemps aucune mise à jour blog aujourd'hui mettre à jour un article sur les méthodes d'analyse des données est principalement basée sur un test d'hypothèse statistique de principe, si elle est T-test ou test khi-carré peut être utilisé dans le travail réel, mais aussi combiné avec Excel très facile à utiliser, basée sur le type de test de signification statistique peut rendre les données plus convaincante. Ou, pour maintenir un principe constant sur la méthodologie et sur les exemples d'application, cet article présente la méthode, alors il y aura un autre article consacré à l'application pratique de l'affaire.

Le test d'hypothèse

Le test d'hypothèse (Test d'hypothèse Humaniy), ou appelé un test de signification (test de signification) est déduit par l'échantillon reposent sur certaines hypothèses dans les statistiques mathématiques globale a. Le principe de base est de faire certaines hypothèses sur les caractéristiques générales, et ensuite à travers une enquête par sondage de l'inférence statistique, cette hypothèse doit être rejetée ou acceptée pour extrapoler. Depuis fondée sur l'hypothèse, puis lors de l'inspection avant que les hypothèses correspondantes:

H0: l'hypothèse nulle ou l'hypothèse nulle (hypothèse nulle), la nécessité de vérifier les hypothèses, généralement d'abord identifié l'hypothèse de départ est correct, alors le niveau de signification pour sélectionner d'accepter ou de rejeter l'hypothèse nulle.

H1: L'hypothèse alternative (hypothèse alternative) est généralement l'hypothèse nulle de savoir si la proposition;, par défaut d'accepter l'hypothèse alternative lorsque l'hypothèse nulle est rejetée.

Si l'hypothèse nulle est basé sur l'hypothèse que le μ moyenne de la population = μ 0, alors l'hypothèse alternative pour la moyenne de la population μ ≠ μ 0, le processus d'inspection est de calculer la probabilité statistique correspondante importance, afin de vérifier l'hypothèse nulle doit être acceptée ou rejetée.

T-test

T-test (T-Test) est le type le plus commun d'un test d'hypothèse, surtout pour vérifier s'il y avait une différence significative entre la moyenne de population. T-tester un test d'hypothèse paramétrique, de sorte qu'il s'applique à l'ensemble des données numériques, le nombre de visites sur l'analyse du site, le nombre de visiteurs uniques, temps de séjour et le nombre de commandes, les ventes de e-commerce. T-test a également besoin de se conformer à une condition - l'ajustement global de la distribution normale.

Ne Ici pas introduire statistique t est de savoir comment le calcul, basées sur la statistique t est remarquable probabiliste est de savoir comment la requête de fait, ces outils de calcul peut nous aider à compléter, s'il ya intéressée peut accéder aux livres de statistiques de la classe, qui seront la présentation correspondante. Voici le T-test à l'aide d'outils d'Excel d'analyse des données:

Par défaut Excel ne charge pas l'outil d'analyse de données, donc nous ajoutons leur propre add-ins, fichiers - Options - Modules - cochez la case "Utilitaire d'analyse" Fin de l'Add, puis dans le onglet "Données" à l'extrême droite pour trouver des données pour analyser ce bouton, vous pouvez alors commencer à faire le test T, où les échantillons les plus communs test t apparié, par exemple, comparer un site e-commerce a produit une différence significative dans le nombre de commandes à l'avant révisée et à l'arrière dans jour, 10 jours des données avant et après la révision de l'échantillon pour la comparaison:

  Avant le numéro de révision des commandes Les commandes révisées
Une 1032 1187
2 1178 1245
3 1098 1379
4 1045 1094
5 976 1173
6 1101 1364
7 1276 1119
8 1215 1268
9 987 1303
10 1065 1274

Premières hypothèses établies:

H0: μ 1 = μ 2, avant et après la révision des ordres quotidiens correspondant à deux le nombre de dire;
H1: μ 1 ≠ μ 2, on entend ne correspond pas à des ordres du jour avant et après la révision.

Pour entrer des données dans Excel, utilisez les outils d'Excel d'analyse des données, des T-test: la moyenne des jumelé à deux échantillons d'analyse, la sortie des résultats des tests:

t-test-sample

Voir le côté droit de l'écran est un peu étourdi, et l'air un peu professionnel, en fait, pas difficile, aussi longtemps que la préoccupation d'une importance numérique - P-valeur bilatérale est 0,00565, si vous avez besoin de vérifier que la confiance de 95% niveau significatif, puis 0,00565 évidemment inférieur à 0,05 (1-95%) rejeter l'hypothèse nulle que le numéro de révision des commandes avant et après il y avait une différence significative. Il suffit de mettre Pourquoi choisir unilatéral probabilité P signification, plutôt que d'un à deux queues, pour la plupart de l'environnement applicatif web analytics, nous avons généralement besoin de vérifier les changements avant et après la valeur si il sont significativement augmenté ou diminué, donc en général, il y aura une seule classe peut - ou à augmenter ou diminuer, tant que l'inspection de la probabilité de ne peut unilatérale, comme le nombre moyen de commandes dans l'exemple ci-dessus, la 1240.6 révisé qu'avant la révision 1097.3, nous avons besoin de vérifier cette «supérieur à» est une importante , est laissé test unilatéral, auquel cas la préoccupation du P unilatéral importance probabilité peut être.

Test du chi carré

Chi-carré de test (test khi-carré), qui est, χ 2 test, un ratio entre les deux populations utilisées pour vérifier l'existence de différences significatives entre les Chi-carré de test est le test d'hypothèse non-paramétrique, des données booléennes ou binôme, basé sur les premiers pour la production des entreprises entre le taux de deux la probabilité de produits qualifiés, tels que l'analyse du site peuvent être utilisés pour le taux de conversion, Taux de rebond en tous les ratios mesurent l'analyse comparative, en fait, dans l'article précédent - Taux d'abandon influence de facteurs liés à des applications. Ici aussi, de ne pas introduire le χ 2 est la façon de calculer, ainsi que d'une probabilité significative d'enquête sur la base du χ 2 statistique, ici directement le taux de conversion, par exemple pour comparer le taux de conversion du site Web avant et après l'apparition d'une différence significative, une révision de l'échantillon avant et après trois jours des données d'analyse Web - le nombre de visites du nombre total de visites et de conversion, la «conversion du nombre de visites et le nombre total de visites pour calculer le taux de conversion:

  Avant la révision La version révisée du
Nombre total de visites 30567 33651
Conversion de numéro d'accès 2976 3698
Le taux de conversion 9,74% 10,99%

Premières hypothèses établies:

H0: r 1 = r 2, avant révisé et taux de conversion égal arrière;
H1: R 1 ≠ R 2, avant révisé et taux de conversion arrière n'est pas égale.

En fait, c'est un des exemples les plus simples de quatre essais de la Niyitegeka carré, sans l'utilisation de SPSS (bien sûr, être suffisamment familiers avec SPSS pouvez également utiliser un des outils similaires d'analyse statistique) afin de simplifier les étapes de calcul de la moyenne, j'utilise Excel directement produit un simple, test khi-carré du modèle, aussi longtemps que les statistiques correspondantes entrée dans la cellule sera en mesure d'afficher automatiquement les résultats des tests:

chi-square-test-sample

Cliquez ici pour télécharger: échantillon test du chi carré

Excel cellules bleu clair de soutenir l'entrée, le nombre total de visites et de programmes de conversion et des programmes de test, y compris le nombre initial de visites, le niveau de confiance de 95% est le soutien des amendements, si vous avez besoin du niveau de confiance de 99%, aussi longtemps que de modifier le La cellule peut être.

Comment voir les résultats des tests? En fait, très simple, il suffit de regarder le rouge "existence" de la cellule pour afficher les résultats dans le cas ci-dessus, le taux de conversion entre les deux «il ya» de différence significative, si elle n'existe pas, alors la cellule affichera " n'existe pas "Avec ce modèle pour les essais A / B et d'autres données similaires est très simple et facile, ou que fait, ce modèle Excel à l'A / B, les essais et sur mesure personnalisé. ;)

Bon ici, en fait, cet article ne cherche pas à présenter les T-tests et test khi-carré du point de vue statistique du professionnel, je veux juste vous faire comprendre les principes et les conditions applicables de ces deux méthodes, avec le plus simple façon d'utiliser ces méthodes pour rendre les données plus convaincant, s'il vous plaît continuer à prêter attention à joindre l'instance d'application.


»Dans cet article, la BY-NC-SA accord, reproduit s'il vous plaît préciser la source: Le l'analyse des données » T-test et test du chi carré

Articles connexes:

  1. Configuration de test de comparaison et d'analyse
  2. Améliorer la satisfaction du client
  3. Secret derrière les indicateurs clés
  4. Contrôle de la qualité Le site Web des KPI
  5. Taux d'abandon influence de facteurs

20 commentaires

  1. zitan dit:

    Très professionnelle, l'application directe de la théorie statistique. Pour compléter le propos de la charge EXCEL "fichier - Option - Add-ons - cochez la case" Utilitaire d'analyse "ajouter" les faibles et faible demande, «document» dans lequel à trouver?

    Répondre Répondre
  2. joegh dit:

    Zitan : Excusez-moi, pour mon propre usage Excel2010 directement en conformité avec l'interface 2010 à écrire, il suffit de lire l'édition 2007 est le coin supérieur gauche du logo dans les "Options Excel", après les étapes sont similaires.

    Répondre Répondre
  3. Justin a dit:

    Apprendre à préparer la collection de sites principale, apprentissage à long terme.

    Répondre Répondre
  4. janessi dit:

    Il ya un problème, les résultats des tests en fait expliquer la couverture révisée et à l'arrière, les valeurs xx existent de manière significative avec la différence, mais la valeur xx à l'existence de manière significative avec la différence et ne peut pas expliquer les raisons est révisé, l'utilisation de test khi-carré du principe du blogueur ne peut comprendre que: variable dans le temps et la conversion à taux variable est significativement liée, selon le principe de causalité chronologique pense que le temps changer le taux de conversion de changement. Le taux de conversion du temps d'un changement important peut comprendre: des activités de marketing, des changements dans le cycle saisonnier, la révision, etc ... A ce point, comment l'exclusion d'autres raisons pour confirmer la révision a conduit à ce changement?

    Répondre Répondre
  5. joegh dit:

    _AT_ janessi : Enfin quelqu'un a soulevé cette question, en fait, les exemples dans cet article l'existence de ce problème, dans lequel la non-ingérence facteurs sur les résultats de la comparaison, le texte de l'affaire après une explication détaillée des attendre quelques jours est le temps d'organiser et d'écrire ;)

    Répondre Répondre
  6. zitan dit:

    Merci ......

    Répondre Répondre
  7. justin est Lee a déclaré:

    Bonjour blogueurs, j'ai utilisé votre méthode d'analyse des données avant et après un événement, mais a constaté certains problèmes, le niveau de confiance de 95% est évidemment très importantes modifications de données à travers le T-test montre que significative. Je pense donc que la rationalité niveau de confiance choisi, j'ai appris des statistiques, à savoir l'écart-type et taille de l'échantillon est étroitement liée à la taille de l'intervalle de confiance et de données globales. Je voudrais demander aux blogueurs d'étudier comment les dernières données historiques pour arriver à un niveau raisonnable de confiance de l'être? Merci ~

    Répondre Répondre
  8. joegh dit:

    Justin est lee : Bonjour, "le niveau de confiance de 95% est évidemment très importantes modifications de données à travers le spectacle T-test significatif" n'est pas très significative la compréhension, à l'origine issus de tests d'hypothèses basées sur un certain niveau de confiance , si ce n'est par la vérification d'hypothèses pour déterminer la façon dont "manifestement pas très important. En outre, le niveau de confiance de 95% est le choix dans les circonstances actuelles, est généralement utilisé pour déterminer si elles ont critique significative; rejeter l'hypothèse nulle à ce niveau s'engager Tapez probabilité d'erreur I de 5%, si la taille de l'échantillon est fixé à réduire Type I erreur se produit, l'correspondant à améliorer la possibilité de la deuxième type d'erreur se produit, afin de réduire l'apparition du premier type et deuxième erreur, la nécessité d'augmenter la capacité de l'échantillon.

    Répondre Répondre
  9. justin est Lee a déclaré:

    Joegh : Haha, je comprends. Avant les indicateurs d'événements pour les sept jours de données: 110,110,134,123,123,111,109,; pendant sept jours après l'événement: 130,123,181,158,117,128,112, de test de valeur T = P 0,018 <0,05 changement de manière significative, mais l'œil nu seulement, "181158" Ces deux modifications de données de façon significative, d'autres données n'ont pas changé significativement. Je prends la taille de l'échantillon est trop petit pour conduire à des valeurs aberrantes individuelles grande influence sur la précision du test de signification. Je devrais avoir d'analyser ce qui provoque les changements anormaux des données derniers jours deux. Merci Bo principale ~

    Répondre Répondre
  10. Plume a dit:

    T-test à ceux qui ne comprennent pas les statistiques de bien comprendre, d'un expert. Espérons avoir plus de bonnes œuvres, grâce au dévouement désintéressé de l'auteur.

    Répondre Répondre
  11. Don a dit:

    T-test devrait être en utilisant le mauvais outil. Selon les conditions de la signification des questions et des hypothèses, doivent appartenir à la différence de deux en moyenne normale globale entre le test, vous devez utiliser l'EXCEL t-test: deux échantillons supposant des variances égales ", le résultat n'est pas le même, comme" t Stat "doit être -3,29, la valeur critique n'est pas le même.
    En outre, la formulation de la test du chi-carré est des tests non paramétriques ne sont pas tout à fait correct.

    Répondre Répondre
  12. joegh dit:

    Don : Je vous remercie beaucoup de vos commentaires et corrections. Il peut être révisé avant et après que "échantillons appariés" est un peu inapproprié, car l'utilisateur du site est toujours en évolution, «l'hypothèse de la variance" sera le bon âge; test khi-carré est généralement admis que la répartition globale et les paramètres sont inconnus, lors de la finale test non paramétrique pas un gros problème.

    Répondre Répondre
  13. Don a dit:

    Joegh : test du chi carré pour la situation suivante: une variance de la population normale unique pour l'inspection de la quantité connue, un test paramétrique.

    Répondre Répondre
  14. joegh dit:

    Don : enseigne :)

    Répondre Répondre

Laisser un commentaire