Théorie de la décision de mesure


Original: http://echo.edres.org:8080/mdt/

 

Lawrence M. Rudner
Conseil de Graduate Management Admission et LMP Associés

Développé par Wald (1947), d’abord appliqué à la mesure de Cronbach et Gleser (1957), et maintenant largement utilisé dans l’industrie, l’agriculture, et de l’informatique, théorie de la décision fournit un modèle simple pour l’analyse des données catégoriques. Il n’est plus applicable dans la mesure où l’objectif est de classer les sujets examinés dans l’une des deux catégories, par exemple, réussite / échec ou maître / non-maître.

De l’essai pilote, on estime

  1.         La proportion de maître et non maîtres dans la population, et
  2.         Les probabilités conditionnelles de sujets examinés dans chaque Etat la maîtrise répondu correctement à chaque élément.

Après le test est administré, on peut calculer (en fonction des réponses de la candidate et les données de pilotes):

  1.         La probabilité de modèle de réponse d’un candidat pour maîtres et pour les non-maîtres
  2.         La probabilité que le candidat est un maître et la probabilité que le candidat est un non-maître.

Ce tutoriel donne un aperçu de la théorie de la décision de mesure. Les concepts clés sont présentés et illustrés à l’aide d’une classification binaire (réussite / échec) test et un échantillon test en trois point. Le didacticiel interactif vous permet de varier les résultats du projet pilote, le modèle de réponse de la candidate, et la structure des coûts. Diverses règles de classification d’un candidat sont ensuite présentées avec les calculs sous-jacents. Un accès rapide à l’outil interactif est en haut de cette page. L’outil interactif fournit également des questions et des réponses proposées pour vous aider à mieux comprendre ce que vous examinez. L’outil utilise Java, Javascript et Cascade Style Sheets et a été conçue en utilisant Internet Explorer. Il fonctionne bien avec AOL 7.0.
Besoin

Théorie de la réponse de la théorie classique de mesure et le point sont préoccupés principalement avec le rang de commander sujets examinés à travers un continuum de capacité. Ces modèles sont concernés, par exemple, avec la différenciation sujets examinés au 90e centile et 92e. Mais on est souvent intéressé à classer sujets examinés dans l’un d’un nombre fini de catégories distinctes, comme de réussite / échec ou compétent / base / base-dessous. Il s’agit d’un résultat plus simple et d’un modèle de mesure simple devrait suffire. Théorie de la décision de mesure est un tel outil simple.

théorie de la décision de mesure ne nécessite qu’une hypothèse clé – que les éléments sont indépendants. Ainsi, le domaine testé n’a pas besoin d’être unidimensionnel, la capacité de candidat n’a pas besoin d’être distribuées normalement, et on n’a pas besoin de se préoccuper de l’ajustement des données à un modèle théorique que dans la théorie de la réponse d’item (TRI) ou dans la plupart des modèles de structure latente. Le modèle est attrayant que le mécanisme de routage pour les systèmes tutoriels intelligents, pour les examens de fin d’unité, pour les essais d’adaptation, et comme un moyen d’obtenir rapidement les proportions de classification sur d’autres examens. Très peu de sujets examinés de test pilote sont nécessaires et, avec très peu d’éléments, la précision de la classification peut excéder celle de la théorie de la réponse à l’item. Compte tenu de ces caractéristiques intéressantes, il est surprenant que le modèle n’a pas attiré l’attention plus large au sein de la communauté de mesure.

Éléments isolés de la théorie de la décision sont apparus sporadiquement dans la littérature de mesure. Articles essentiels dans la littérature de test de maîtrise des 1970 employés théorie de la décision (Hambleton et Novick, 1973; Huynh, 1976; van der Linden et Mellenbergh, 1977) et devraient être réexaminées à la lumière des problèmes de mesure d’aujourd’hui. Lewis et Sheehan (1990) et d’autres ont utilisé la théorie de la décision pour sélectionner de manière adaptative articles. Kingsbury et Weiss (1983), Reckase (1983), et de pulvérisation et Reckase (1996) ont utilisé la théorie de la décision pour déterminer quand arrêter les essais. La plupart des recherches à ce jour ont appliqué la théorie de la décision de testlets ou des batteries de tests ou comme un complément à la théorie de la réponse à l’item et des modèles spécifiques de classes latentes. Articles remarquables par Macready et Dayton (1992), Vos (1997), et Welch et Frick (1993) illustrent l’application élément de niveau moins répandue de la théorie de la décision examinée dans ce tutoriel.
La théorie
Présentation et notation

L’objectif est de former la meilleure estimation quant à l’état de la maîtrise (classification) d’un candidat individuel basé sur l’article les réponses du candidat, une information a priori de l’article, et a priori proportions de classification de la population. Ainsi, le modèle comporte quatre volets: 1) les états possibles de maîtrise pour un candidat, 2) articles calibrés, 3) modèle de réponse d’un individu, et 4) les décisions qui peuvent être formés sur le candidat.

Il n’y a K états de maîtrise possibles, qui prennent des valeurs mk. Dans le cas de test passe / échec, il ya deux états possibles et K = 2. On sait généralement, a priori, les proportions approximatives pour la population de tous les sujets examinés dans chaque état de la maîtrise.

Le deuxième élément est un ensemble d’éléments pour lesquels la probabilité de chaque observation possible, habituellement de bonne ou mauvaise, de chaque état de la maîtrise est également connu a priori,

Les réponses à un ensemble de N éléments forment le troisième composant. Chaque élément est considéré comme une variable aléatoire discrète stochastique liée aux états de maîtrise et réalisé par les valeurs observées Zn,. Chaque personne examinée a un vecteur de réponse, z, composé de z1, z2, … Zn. Seulement des articles dichotomique marqués sont considérés dans cet article.

Le dernier composant est l’espace de décision. On peut former n’importe quel nombre de décisions de D sur la base des données. Typiquement, on veut deviner l’état de la maîtrise et il y aura des décisions D = K. Avec le test adaptatif ou séquentielle, une décision sera de poursuivre les essais sera ajoutée et donc il y aura D = K 1 décisions. Chaque décision sera notée dk.

Essais commence par la proportion de sujets examinés dans la population qui sont dans chacune des catégories K et la proportion de sujets examinés à chaque catégorie qui répond correctement. Les proportions de la population peuvent être déterminés de diverses manières, y compris par des essais précédents, les transformations de partitions existantes, les classifications existantes et le jugement. En l’absence d’informations a priori égaux peuvent être assumées. Les proportions qui répondent correctement peuvent être dérivées d’un petit essai pilote impliquant sujets examinés qui ont déjà été classées ou transformations de données existantes. Une fois ces ensembles de lois a priori sont disponibles, les articles sont administrés, les réponses (Z1, Z2, … Zn) observées, puis une décision de classement, dk, est faite sur la base des réponses à ces articles.

Proportions du test pilote sont traités comme des probabilités et la notation suivante est utilisée:

  •     Prieurs

 

  •             p (mk) – la probabilité d’un candidat choisi au hasard ayant un état mk maîtrise
  •             p (zn | mk) – la probabilité de réponse zn étant donné l’état de la maîtrise k-ème

 

  •     Observations

 

  •             z – réponse vecteur de z1 d’un individu, Z2, …, Zn où zi 0 (0,1)

Une estimation de l’état de la maîtrise d’un candidat est formé en utilisant les prieurs et observations. Par théorème de Bayes,

(1)

La probabilité postérieure P (mk | z) que la personne examinée est de l’état de la maîtrise mk donné son vecteur de réponse est égal au produit d’une constante de normalisation (c), la probabilité que le vecteur de réponse donnée mk, et la probabilité de classification préalable. Pour chaque candidat, il ya K probabilités, un pour chaque état de la maîtrise. La constante de normalisation dans (1)

assure que la somme des probabilités a posteriori est égale à 1,0.

En supposant l’indépendance locale,

(2)

Autrement dit, la probabilité que le vecteur de réponse est égal au produit des probabilités conditionnelles des réponses de l’élément. Dans ce tutoriel, chaque réponse est soit à droite (1) ou faux (0) et P (z1 = 0 | mk) = 1 – P (z1 = 1 | mk).

Trois concepts clés de la théorie de la décision sont examinées suivant:

. 1 Les règles de décision – des procédures alternatives de classification des sujets examinés en fonction de leurs modes d’intervention,

. 2 essais séquentielle – autres procédures de sélection adaptative des éléments basés sur un modèle de réponse des individus, et

. 3 décisions séquentielles – Procédures alternatives pour déterminer s’il convient de poursuivre l’essai.

Le modèle est illustré ici par un examen des deux états possibles de maîtrise m1 et m2 et deux décisions possibles D1 et D2 qui sont les bonnes décisions pour respectivement m1 et m2. Les exemples utilisent un test en trois de l’article avec les statistiques d’ouvrages présentés dans le tableau 1. Par ailleurs, également sur la base de données de test pilotes, les probabilités de classification antérieurs sont P (m1) = 0,2 et P (m2) = 1-P (m1) = 0,8 . Dans l’exemple, le vecteur de réponse de la personne interrogée est [1,1,0].

Tableau 1: Les probabilités conditionnelles d’une réponse correcte, P (zi = 1 | mk)

Les règles de décision

La tâche est de faire une meilleure estimation à la classification d’un candidat (maître, non-maître) sur la base des données du tableau 1 et le vecteur de réponse de la candidate. De (2), les probabilités du vecteur z = [1,1,0] si le candidat est un maître est 0,6 * 0,8 * 0,4 = 0,19, et 0,09 s’il est un non-maître. C’est, P (z | m1) = 0,19 et P (z | m2) = 0,09. Normalisé, P (z | m1) = 0,68 et P (z | m2) = 0,32.

Une statistique suffisante pour la prise de décision est le rapport de vraisemblance

qui est pour l’exemple L (z) = .09/.19 = 0,47. C’est une statistique suffisante, car toutes les règles de décision peuvent être considérées comme un test comparant L (z) à une valeur de critère 8.

(3)

La valeur de 8 reflète les approches et les arrêts sélectionnés sur l’importance relative des différents types d’erreurs de classification.

Critère de décision maximale de vraisemblance

C’est l’approche la plus simple de décision et se fonde uniquement sur les probabilités conditionnelles des vecteurs de réponse donnés chacun des états de maîtrise, à savoir P (z | m1) et P (z | m2). Le concept est de sélectionner l’état de la maîtrise qui est la cause la plus probable du vecteur de réponse et peut être énoncé comme:

Étant donné un ensemble de réponses aux items z, prendre des décisions dk si il est plus probable que mk généré z.

P(z|m2)=.32.     “>Sur la base de ce critère, on peut classer le candidat comme un maître – la classification la plus probable car P (z | m1) = 0,68> P (z | m2) = 0,32.

Ce critère ne tient pas compte des informations préalables sur les proportions des maîtres et des non-maîtres dans la population. Équivalente, il assume les prieurs de la population sont égaux. Avec l’exemple, quelques sujets examinés sont les maîtres, P (mk) = 0,20. Considérant que les probabilités conditionnelles des vecteurs de réponse sont assez proches, cette règle de classification ne peut aboutir à une bonne décision.

Probabilité minimum de critère de décision d’erreur

Dans la décision cas binaire, deux types d’erreurs sont possibles – décider quand d1 m2 est vrai ou décider d2 quand m1 est vrai. Si l’on pense de m1 que l’hypothèse nulle, alors en termes de théorie statistique, la probabilité de décider d’une personne est un maître, quand d1 en effet que cette personne est un non-maître m2, est le niveau familier de signification », et P ( .. d2 | m2) est la puissance du test, $ Lorsque les deux types d’erreurs sont également coûteux, il est peut-être désireux de maximiser l’exactitude ou de minimiser la probabilité d’erreur totale, Pe Ce critère peut être énoncé comme:

Étant donné un ensemble de réponses aux items z, sélectionnez les régions de décision qui minimisent la probabilité d’erreur totale.

Ce critère est parfois désigné sous le critère d’observateur idéal. Dans le cas binaire, Pe = P (d2 | m1) P (d1 | m2) et le test de rapport de vraisemblance (3) est utilisé avec

Avec l’exemple, 8 = 0,25 et la décision est d2 – non-maître.

Maximum un critère a posteriori (MAP) de la décision

Le critère de décision du maximum de vraisemblance a utilisé seulement les probabilités du vecteur de réponse. La probabilité minimum de critère d’erreur a également fait usage de l’probabilités de classification avant P (m1) et P (m2). MAP est une autre approche qui utilise les informations disponibles:

Étant donné un ensemble de réponses aux items z, décider dk si mk est l’état de la maîtrise la plus probable.

En d’autres termes,

Etant donné que l’équation (2), P (mk | z) = c P (z | mk) P (mk), MAP est équivalente à la probabilité minimale de critère de décision d’erreur.

Critère de risque de Bayes

Un avantage important du cadre de la théorie de la décision est que l’on peut incorporer des coûts de décision dans l’analyse. Par ce critère, les coûts sont affectés à chaque décision correcte et incorrecte et minimiser les coûts totaux moyens. Par exemple, les faux négatifs peuvent être deux fois plus mauvais que les faux positifs. Si cij est le coût de décider quand di mj est vrai, alors le coût moyen attendu ou B est

B = (c11 P (d1 | m1) c21 P (d2 | m1)) P (m1) (c12 P (d1 | m2) c22 P (d2 | m2)) P (m2)

et le critère peut être déclaré comme

Étant donné un ensemble de réponses aux items z et les coûts associés à chaque décision, sélectionnez dk pour minimiser le coût total prévu.

Pour deux États maîtrise, le coût total prévu peut être minimisé en utilisant le test du rapport de vraisemblance dans (2)

(4)

Il est également appelé le critère de perte minimum et le critère de décision optimale. Si les coûts c11 = c22 = 0 et c12 = c21 = 1, alors B est identique à Pe et cette approche est identique à la probabilité minimum d’erreurs et au PAM. Avec c11 = c22 = 0 et c21 = 2, c12 = 1, et les données d’échantillon, 8 = 0,50 et la décision est d2 – non-maître.

Test adaptatif

Plutôt que de prendre une décision de classement d’un individu après l’administration d’un nombre fixe d’éléments, il est possible de sélectionner séquentiellement les articles à maximiser l’information, mettre à jour les maîtrise Etat probabilités estimées de classification et d’évaluer ensuite si il ya suffisamment d’informations pour mettre fin à l’essai. Dans la mesure ceci est souvent appelé test adaptatif ou sur mesure. Dans les statistiques, c’est ce qu’on appelle le test séquentiel.

A chaque étape, le classement de probabilités a posteriori p (mk | z) sont traités comme des mises à jour les probabilités a priori p (mk) et utilisé pour aider à identifier l’élément suivant à être administré. Pour illustrer la théorie de la décision tests séquentiels, examiner à nouveau la situation pour laquelle il existe deux états possibles de maîtrise m1 et m2 et utiliser les statistiques d’élément dans le tableau 1. Supposons que le candidat a répondu correctement à la première question et la tâche est de sélectionner lequel des deux articles restant à administrer suivant.

Après avoir répondu correctement à la première question, la probabilité de mise à jour en cours d’être un maître est 0,6 * 0,2 / (0,6 * 0,2 0,3 * 0,8) = 0,33 et la probabilité d’être un non-maître est 0,66 à partir de la formule (1).

La probabilité actuelle de répondre correctement est

(5)

L’application (5), la probabilité actuelle de répondre correctement à l’article 2 est P (z2 = 1) = 0,8 * 0,33 * 0,66 = 0,6 0,66 et, pour le point 3, P (z3 = 1) = 0,53 . Ce qui suit sont quelques approches pour identifier lequel de ces deux éléments à administrer prochaine.

coût minimum prévu

Cette approche définit le point optimal destiné à être administré suivant que l’article avec au coût le plus bas prévu. L’équation (4) donne le coût de décision en fonction des probabilités de classification. Si c11 = c22 = 0 alors

B = c21 P (d2 | m1) P (m1) c12 P (d1 | m2) P (m2)                  (6)

Dans la décision cas binaire, la probabilité de faire une mauvaise décision est un moins la probabilité de faire une bonne décision et les probabilités de faire une bonne décision est, par définition, les probabilités a posteriori proposée dans (1). Ainsi, avec c12 = c21 = 1, le coût actuel de Bayes est B = 1 * (1 à 0,33) * 0,33 * 1 (1 à 0,66) * 0,66 = 0,44.

Coût attendu minimum est souvent associée à l’essai séquentiel et a été appliquée à des problèmes de mesure par Lewis et Sheehan (1980), Macready et Dayton (1992), Vos (1997), et d’autres.

Les étapes suivantes peuvent être utilisées pour calculer le coût prévu pour chaque élément.

  1.                 Supposons pour le moment que le candidat répondra correctement. Calculer les probabilités a posteriori en utilisant (1) et les coûts en utilisant (6).
  2.                 Supposons que le candidat répondra de manière incorrecte. Calculer les probabilités a posteriori en utilisant (1) et les coûts en utilisant (6).
  3.                 Multiplier le coût de l’étape 1 par la probabilité d’une réponse correcte à la question
  4.                 Multiplier le coût de l’étape 2 par la probabilité d’une réponse correcte dans le produit
  5.                 Ajouter les valeurs des étapes 3 et 4.

Ainsi, le coût attendu est la somme des coûts de chaque réponse pondérée par la probabilité de sa réponse. Si le candidat répond correctement à l’article 2, alors la probabilité a posteriori d’être un maître sera (0,8 * 0,33) / (0,8 * 0,33 * 0,6 0,66) = 0,40 et le coût associé aura 1 * (1 à 0,40) * 0,40 * 1 (1 à 0,60) * 0,60 = 0,48. Si les réponses de personne examinée de manière incorrecte, alors la probabilité a posteriori d’être un maître seront (0,2 * 0,33) / (0,2 * 0,33 * 0,4 0,66) = 0,20 et le coût associé aura 1 * (1 – 0,20) * 0,20 * 1 (1 à 0,80) * 0,80 = 0,32. Comme la probabilité d’une réponse correcte à partir de (5) est 0,66 le coût prévu pour le point 2 est 0,66 * 0,48 (1 à 0,66) * 0,32 = 0,42.

Le coût pour le point 3 est 0,47 si la réponse est correcte et 0,41 en cas d’inexactitude. Ainsi, le coût prévu pour le point 3 est 0,53 * 0,47 (1 à 0,53) * 0,41 = 0,44. Depuis article 2 a le coût le plus bas prévu, il serait administré prochaine.

Informations Gain

Cet essai complet est préoccupé par l’utilisation de l’information avant de l’article et de la distribution de candidat dans des vecteurs de réponse de décodage de faire une meilleure estimation pour les Etats de maîtrise des candidats. La mesure couramment utilisée de l’information de la théorie de l’information (voir la couverture et Thomas, 1991), Shannon (1948) entropie, est applicable ici:

(5)

où pk est la proportion de S appartenant à la classe k. Entropie peut être considérée comme une mesure de la uniformness d’une distribution et a une valeur maximale lorsque pk = 1 / K pour tout k. Le but est d’avoir une distribution pointue de P (mk) et de sélectionner l’élément suivant qui a la plus grande réduction attendue de l’entropie, c’est à dire

H (S0) – H (Si)                  (6)

où H (S0) est l’entropie actuelle et H (Si) est l’entropie attendu après l’administration de l’article I, à savoir la somme des entropies conditionnelles pondérées des probabilités de classification correspondant à une rectification et à une réponse incorrecte

(7)

Cela peut être calculé en utilisant les étapes suivantes:

1. Calculer les probabilités de classification postérieure normalisées qui résultent d’une bonne et d’une mauvaise réponse à l’article I en utilisant (1).

2. Calculer les entropies conditionnelles (sursis sur une bonne réponse et conditionnels sur une réponse incorrecte) en utilisant (5).

3. Pondérer les entropies conditionnelles par leurs probabilités en utilisant (7).

Le tableau 2 montre les calculs avec les données d’échantillon.

Tableau 2: Calcul des entropies de classification prévus pour les points 2 et 3.

Après avoir administré le premier élément, P (m1) = 0,33, P (m2) = 0,66, et H (S) = 0,91. Point 2 résultats dans le gain d’entropie plus attendus et doivent être administrés suivant.

Une variante de cette approche est l’entropie relative qui est aussi appelé le Kullback-Leibler (1951) mesure de l’information et de l’information divergence. Chang et Ying (1996), Eggen (1999), Lin et Spray (2000) ont évalué favorablement informations KL comme une stratégie de test adaptés.

Le lecteur est prié de noter que, l’entropie attendu après administration de l’article 3 serait supérieure à H (S) et se traduire par une perte d’information. Autrement dit, les probabilités de classification devraient devenir moins pointu devrait article 3 doit être administré. Par conséquent, cet élément ne doit pas être considéré comme un candidat pour l’élément suivant. On peut vouloir arrêter l’administration des articles quand il n’y a pas des objets laissés dans la piscine qui devraient entraîner un gain d’information.

Les décisions séquentielles

Cet article a discuté des procédures de prise de décision et les procédures de sélection des éléments suivants pour être administrés de manière séquentielle classification. Cette section présente les procédures pour décider quand on a suffisamment d’informations pour hasarder une hypothèse de classification. On pourrait faire cette détermination, après chaque réponse.

Peut-être la règle la plus simple est le critère de décision de Neyman-Pearson – poursuivre les tests jusqu’à ce que la probabilité d’un faux négatif, P (d2 | m1), est inférieure à une valeur présélectionnée = 0,05 a été choisi “Supposons.». Après le premier point, la probabilité d’être un non-maître est P (m1 | z) = 0,66. Si le candidat est déclaré non-maître, alors la probabilité actuelle de ce être un faux négatif est (1 à 0,33). Parce que ce n’est plus “, la décision est de poursuivre les essais.

Une variante de Neyman-Pearson est le critère de taux d’erreur fixe – établir deux seuils, “1 et” 2, et poursuivre les tests jusqu’à ce que P (d2 | m1) <“1 et P (d1 | m2) <” 2. Une autre variante est le critère de seuil de coût. Selon cette approche, les coûts sont affectés à chaque décision correcte et incorrecte et à la décision de prendre une autre observation. Les tests se poursuivent jusqu’à ce que le seuil de coût est atteinte. Une variante de cette approche consiste à modifier la structure des coûts que le nombre d’articles administrés augmente.

(1947) le test du rapport de probabilité séquentielle de Wald (ESCR, prononcé poussée) est clairement la règle de la décision séquentielle la plus connue. SPRT pour K plusieurs catégories peut être résumée comme

où P (mj) s ‘sont les probabilités a posteriori normalisées “, est le taux d’erreur acceptable, et $ est la puissance désirée. Si la condition n’est pas satisfait pour une catégorie k, alors le test continue. Dans le domaine de la mesure, il est un corps important et impressionnant de la littérature illustrant que SPRT est très efficace comme une règle de résiliation pour IRT basée essais ordinateur adaptatifs (cf Reckase, 1983; pulvérisation et Reckase, 1994, 1996; Lewis et Sheehan, 1990; Sheehan et Lewis, 1992).
Discussion

Dans leur introduction, Cronbach et Gleser (1957) font valoir que le but ultime pour les tests est d’arriver à des décisions de classification qualitative. Les décisions d’aujourd’hui sont souvent binaire, par exemple si d’embaucher quelqu’un, si une personne a maîtrisé un ensemble particulier de compétences, qu’il s’agisse de promouvoir un individu. Conditions multi-états sont communs dans les évaluations de l’État, par exemple, le pour cent des étudiants qui effectuent au niveau de base, des compétences ou avancé. Le modèle simple de mesure présentée dans cet article est applicable à ces et d’autres situations où l’on est intéressé par des informations catégorique.

Le modèle dispose d’un cadre très simple – on commence par les probabilités conditionnelles de sujets examinés dans chaque état de la maîtrise de répondre correctement à chaque question. On peut obtenir ces probabilités d’un très petit échantillon pilote. Cette recherche a démontré que la taille minimale de la cellule d’un candidat par article est un étalonnage taille raisonnable de l’échantillon. Les précisions de tests étalonnés avec une si petite taille de l’échantillon sont très proches de la précision des tests étalonnés avec des centaines de sujets examinés par cellule.

Les profils de réponse d’un individu est évalué contre ces probabilités conditionnelles. On calcule les probabilités du vecteur de réponse donné à chaque niveau de la maîtrise. En utilisant le théorème de Bayes, les probabilités conditionnelles peuvent être convertis en un probabilités a posteriori représentant la probabilité de chaque état de la maîtrise. Autres règles de décision ont été présentés.

Cet article examine deux façons de manière adaptative, ou successivement, administrer éléments à l’aide du modèle. La théorie de la décision approche traditionnelle de test séquentiel, le coût minimum, et une nouvelle approche, le gain de l’information, qui est basé sur l’entropie et vient de la théorie de l’information.

La recherche a montré que très peu de personnes examinées aux essais pilotes sont nécessaires pour calibrer le système (Rudner, sous presse). Un ou deux sujets examinés par cellule par article donnent lieu à un test qui est aussi précis que celui calibré avec des centaines de pilotes d’essai sujets examinés par cellule. Les résultats étaient les mêmes dans les piscines et les longueurs d’essai article. Les données essentielles du pilote est la proportion de sujets examinés dans chaque état de la maîtrise qui répondent correctement. On n’a pas vraiment besoin de probabilités a priori d’un candidat choisi au hasard étant dans chaque état de la maîtrise. A priori uniformes peuvent s’attendre à augmenter le nombre d’éléments nécessaires et ne pas affecter sérieusement la précision donnée bien choisi l’arrêt des règles.

Il s’agit clairement d’un modèle simple mais puissant et largement applicable. Les avantages de ce modèle sont nombreux – le modèle

  •             donne classifications des états de maîtrise précise,
  •             peut incorporer une petite piscine de l’article,
  •             est simple à mettre en œuvre,
  •             nécessite peu de pré-test,
  •             est applicable au critère des tests référencés,
  •             peut être utilisé dans les tests de diagnostic,
  •             peut être adapté pour obtenir des classifications sur des compétences multiples,
  •             peut employer le test séquentiel et une règle de décision séquentielle, et
  •             devrait être facile à expliquer aux non-statisticiens.

 

Il est l’espoir de l’auteur que cette recherche permettra de saisir l’imagination de la recherche et les communautés de mesure appliquées. L’auteur peut envisager une plus large utilisation du modèle en tant que mécanisme de routage pour les systèmes tutoriels intelligents. Articles pourrait être expérimenté avec un petit nombre de sujets examinés afin d’améliorer considérablement les examens de fin d’unité. examens de certification pourraient être créés pour les professions spécialisées avec un nombre limité de praticiens disponibles pour l’étalonnage de l’article. Courts tests pourraient être préparés pour les enseignants pour aider à prendre des décisions de placement et de promotion provisoires. Une petite collection d’objets à partir d’un essai un, dit état-NAEP, pourrait être intégré dans un autre test, dire une évaluation de l’état, pour obtenir des informations inter-régional significatif.

Les questions de recherche sont nombreux. Comment le modèle peut être étendu à plusieurs plutôt que des catégories de réponse de l’article dichotomiques? Comment biais peut être détecté? Quelle est l’efficacité des essais d’adaptation de rechange et des règles de décision séquentiels? Le modèle peut être effectivement étendue à 30 ou plusieurs catégories et fournir un ordre de classement des candidats ont? Comment pouvons-nous en faire bon usage du fait que les données sont ordinale? Comment le concept d’entropie peut être utilisé dans l’examen des essais? Y at-il de nouvelles méthodes d’analyse de l’article qui peuvent améliorer les tests de théorie de la décision de mesure? Comment le modèle le mieux servir le critère des tests référencés évaluation des compétences multiples, chacune avec un petit nombre d’articles? Pourquoi un coût minimal et d’information gagnent si semblables? Comment peuvent structures de coûts différentes être utilisées efficacement? Comment des éléments d’un essai peuvent être utilisés dans un autre? Comment peut-on assimiler ces tests? L’auteur étudie actuellement l’applicabilité du modèle de l’ordinateur notation des essais. Dans cette recherche, les caractéristiques de rédaction d’un grand pilote sont traitées comme des objets et les scores globaux que les États de maîtrise.

 

Remarque

Ce tutoriel a été développé avec des fonds de la Bibliothèque nationale de l’éducation, US Department of Education, récompense xxx et de l’Institut national pour la réussite des élèves, des programmes et de l’évaluation, ministère de l’Éducation des États-Unis, octroi d’une subvention R305T010130. Les vues et opinions exprimées dans cet article sont celles de l’auteur et ne reflètent pas nécessairement celles de l’organisme de financement.
Références

Allen, Nancy L., James E. Carlson, et Christine A. Zelenak (2000). Le rapport technique NAEP 1996. Washington, DC: National Center for Educational Statistics. Disponible en ligne: http://nces.ed.gov/nationsreportcard/pubs/main1996/1999452.asp

Baker, C. (2001). Les bases de la théorie de réponse à l’item. Deuxième édition. College Park: MD: ERIC Clearinghouse sur l’évaluation et de l’évaluation.

Birnbaum, A. (1968). Certains modèles de traits latents. En F.M. Lord & M.R. Novick, (Eds.), les théories statistiques des résultats des tests mentaux. Lecture, MA: Addison-Wesley.

Chang, H.-H., et Ying, Z. (1996). Une approche globale de l’information de tests adaptatifs informatisés. Applied psychologique mesure, 20, 213-229.

Colorado State Department of Education (2000). Programme Colorado évaluation des élèves (de CSAP), Rapport technique, 5 e année Mathématiques. Disponible en ligne: http://www.cde.state.co.us/cdeassess/download/pdf/as_csaptech5math99.pdf

Couverture, T.M. et J.A. Thomas, éléments de théorie de l’information. New York: Wiley, 1991.

Cronbach, L.J. et Gleser, C.G. (1957). Les tests psychologiques et des décisions de personnel .. Urbana: University of Illinois Press

Eggen, T. J. H. M. (1999). Point de sélection dans Adaptive Testing avec le rapport de probabilité séquentielle de test. Applied psychologique mesure, 23 (3), 249-61.

Ferguson, R.L. (1969). Le développement, la mise en œuvre et l’évaluation d’un ordinateur assistée essai ramifiés pour instruction prescrit individuellement. Thèse de doctorat. Université de Pittsburgh, Pittsburgh, PA.

Hambleton, R. et Novick, M (1973). Vers une intégration de la théorie et de la méthode pour les tests critériés. Journal of Educational Measurement, 10, 159-170.

Huyhn, H. (1976). Considérations statistiques pour les scores de maîtrise. Psychometrika., 41, 65-79.

Kingsbury, G. G., & Weiss, D. J. (1983). Une comparaison des tests de maîtrise adaptative-IRT et une procédure séquentielle de tests de maîtrise. Dans DJ Weiss (Ed.), Nouveaux horizons dans les tests: la théorie de test de caractère latent et d’essai adaptatif informatisé (pp. 257-283). New York: Academic Press.

Kullback, S. & Leibler, R.A. (1951). Sur l’information et la suffisance. Annales de statistique mathématique, 22, 79-86.

Lewis, C. et Sheehan, K. (1990). En utilisant la théorie bayésienne de la décision de concevoir un test de maîtrise informatique. Applied psychologique mesure, 14 (2), 367-86.

Lin Chuan-Ju; Spray, Judith (2000). Effets des critères de sélection Article sur la classification essais avec le rapport de probabilité séquentielle de test. Série Rapport de recherche ACT.

Macready, G. et C. M. Dayton (1977). L’utilisation de modèles probabilitistic dans l’évaluation de la maîtrise. Journal des statistiques de l’éducation. 2 (2), 99-120.

Macready, G. et Dayton C. M. (1992). L’application des modèles de classes latentes dans le test adaptatif. Psychometrika, 57 (1), 71-88.

Mislevy, J. R., & Gitomer, D. H. (1996). Le rôle de l’inférence probabiliste dans un système de tutorat intelligent. Utilisateur médiation et interaction de l’utilisateur Adapté, 5, 253-282.

Reckase, M. D. (1983). Une procédure de prise de décision à l’aide des tests adaptés. Dans DJ Weiss (Ed.), Nouveaux horizons dans les tests: la théorie de test de caractère latent et d’essai adaptatif informatisé (pp. 237-255). New York: Academic Press.

Shannon, C.E. (1948). Une théorie mathématique de la communication, Bell système Technical Journal, 27, 379-423 et 623-656, Juillet et Octobre. Disponible en ligne: http://cm.bell-labs.com/cm/ms/what/shannonday/paper.html

Sheehan, Kathleen et Lewis, Charles (1992). Test Maîtrise informatique avec antivalents testlets. Applied psychologique mesure, v16 n1 p65-76 mars 1992

Spray, Judith A. et Reckase, Mark D. (1996). Comparaison des SPRT et procédures séquentielle de Bayes pour la classification des sujets examinés dans deux catégories à l’aide d’un test informatisé. Journal de l’éducation et de la statistique du comportement, 21 (4), 405-14.

Spray, Judith A. et Reckase, Mark D. (1994). La sélection des articles d’essai pour la prise de décision avec un test informatique adaptée. Document présenté à la réunion annuelle du Conseil national sur la mesure en éducation (New Orleans, LA, Avril 5-7, 1994).

van der Linden, J. W. et Mellenbergh, G.J. (1978). Coefficients pour les essais d’un point de vue théorique décision. Applied psychologique mesure, 2, 119-134.

van der Linden, WJ et Vos, HJ (1966) Une approche compensatoire à la sélection optimale avec scores de maîtrise. Psychometrika, 61 (1), 155-72.

Vos, Hans J. (1999). Applications de la théorie de la décision bayésienne séquentielle à Test de maîtrise. Journal de l’éducation et de la statistique du comportement, 24 (3), 271-92.

Wald, A. (1947). L’analyse séquentielle. New York: Wiley.

Welch, R.E. Et Frick, T. (1993). Tests adaptatifs informatisés dans les établissements d’enseignement. Educational Technology Research & Development, 41 (3), 47-62.

Wood, R. (1976). Adaptive Testing: Une procédure bayésienne pour la mesure efficace de Capacité. Programmé apprentissage et de la technologie pour l’éducation, 13, 2, 36-48….