1章 評価の理論と種類

    評価のねらい
  • ビジネスへの影響、コストと利益の比率、プログラムのROIを測定する
  • 学習経験のデザインを改善する
  • 学習経験の目的が満たされたか、またどの程度満たされたかを測定する
  • コンテンツの適切さを測定する
  • インストラクション戦略の効果と適切さを評価する
  • 学習を強化する
  • ファシリテーターへのフィードバックを提供する
  • ペースと順序の適切さを測定する
  • 参加者に学びについてのフィードバックを提供する
  • どの参加者が学習プログラムの中で成功を経験したのかを特定する
  • 学習が仕事において用いられたことを特定する
  • 学習をサポートする仕事環境を評価する

    評価のメリット
    効果的で質の高い評価によって、
  • クライエントとの関係性を形成、維持することができる
  • 学習の結果がビジネスの機会分析やニーズアセスメントと一貫しているかどうかを知ることができる
  • トレーニングに焦点をあてることができる
  • パフォーマンスのギャップと学習者のニーズを確認することができる
  • トレーニングがパフォーマンスのギャップへの解決策であるかどうかを測定することができる
  • プラクティショナーが価値を示すことができれば、より多くのリソースを得ることができる

    測定のプロセス~評価モデルのステップ
  • 評価のゴールを特定する
  • 評価のデザインと戦略を開発する
  • 測定ツールを選び、構築する
  • データを分析する
  • データを報告する

妥当性とは
妥当性とは、プラクティショナーが測定しようとしているものを測定できている度合いを意味する


    妥当性の種類
  1. 内容的妥当性:テスト項目の内容の妥当性の程度
  2. 構成概念妥当性:テスト項目が測定しようとしている構成概念を表している程度
  3. 併存的妥当性:テスト項目が他の同様のものを測定するテスト項目と一致している程度
  4. 基準関連妥当性:調査が外部の構成概念と一致する程度
  5. 予測的妥当性:テスト項目が将来の行動や結果を予測する程度

信頼性とは
信頼性とは、何度測定しても一貫した測定結果が得られる度合いを意味する

サルカインド:N.Salkind(2005)
Tests and Measurement for People (Who Think) They Hate Tests and Measurement
もし妥当性と信頼性がダーツの的であったとすれば、妥当性は中心部である。もし測定が中心部を射れば、妥当性がある。もし毎回中心部を射れば、妥当性と信頼性がある

テストの難しさ
テストの信頼性と妥当性は、ほとんどのテスト項目について、単なる偶然で正答する可能性よりも難しく、かつ、難易度が高すぎない場合に最大になる

折半法による信頼性の検証
折半法とは、1つのテストは2つの短いテストに分割する信頼性検証法の種類である

検査‐再検査による信頼性の検証
検査‐再検査法は、同じグループの人々に対して同じテストを実施し、スコアを比較するものである。検査‐再検査信頼性においては、タイミングが非常に重要な問題となる

    タイラー:R.W.Tyler (1949)
    Basic Principles of Curriculum and Instruction
    インストラクションのゴール達成における基本概念
    タイラーのモデルは4つの質問を提示している
  1. 学習者はどのような目的を達成するべきか?
  2. これらの目的を達成するためにどのような学習アクティビティが学習者を助けるか?
  3. カリキュラムはどのように組織化されるべきか?
  4. 学習者の達成度はどのように評価されるべきか?

    マーシャルとシュライバー:V. Marchall and R. Schriver (1994)
    Using Evaluation to Improve Performance
    PBT(パフォーマンスベースドトレーニング)モデル
    5つのレベル
  1. 自己
  2. コースマテリアル
  3. コースカリキュラム
  4. コースモジュール
  5. 学習の職場への移行

    評価の2つのカテゴリー
  1. プログラムの評価では、トレーニングプログラムの学習への影響を査定する
  2. トレーニングの移行評価では、職場に戻って学習をどれだけうまく移行できたかを測定する

ホーリー、ヘイトリー、ニューカマー:J.S.Wholey, H.P.Hatry, and K.E. Newcomer(2004)
Handbook of Practical Program Evaluation

ブルーム、ヘイスティングス、マダウス:B.Bloom, T.Hastings, and G.Madaus (1971)
Handbook of Formative and Summative Evaluation of Student Learning
形成的評価とは、開発中のトレーニングプログラムの効果の査定
総括的評価とは、すでに一般的に使用可能なトレーニングプログラムの効果の査定

    形成的評価によって確認しなければならないこと
  • 理解可能である:例)学習者がコンテンツの説明を1度聞いただけで理解でき、演習できる
  • 正確である:例)マテリアルが最近のものであり正しい
  • 機能的である:例)印刷されたページがスクリーンに表示されたものと対応している

    3種類の形成的評価
  1. パイロットテスト:受講者を代表する人々にプログラムを実施してよい点と改善点を明確にする
  2. テクニカルレビュー:SMEがコンテンツの正確さを検証する
  3. プロダクションレビュー:編集者が形式やコンテンツを検証し、プロダクションの専門家がアウトプットとコンピュータースクリーンの整合性を確認する

カークパトリックの4つのレベルの評価
レベル1:反応-トレーニングへの満足度や不満に関する態度や感情を測定する
レベル2:学習-クラスルームやトレーニングの状況における観察可能な行動変容を測定する
レベル3:行動-仕事に戻ってからの新しく変化した行動やパフォーマンスを測定する
レベル4:結果-特定されたニーズに対応した適切なトレーニングによって得られた結果を測定する
     例)生産性の向上、営業の質、コストや事故や苦情の低減など

    レベル4評価では、下記のような要因やデータのタイプを考慮する
  • 統制群に影響を与えるその他の要因と目的とする影響を分けることの難しさ
  • 評価の種類
  • ベンチマークとなる生産性や生産量の測定
  • コストまたは支出の測定
  • 売り上げの結果
  • マネジメントのサポート
  • 他の財務上または直接的なアウトプットの測定
  • 質、量、プロセスに従う能力における従業員のパフォーマンス
  • 組織文化の障害と促進
  • 部門のパフォーマンス
  • 従業員の離職

    評価ワークシート
    <レベル1>
    いつ測定するか
  • プログラムの最中
  • プログラムの最後
    何を測定するか
  • 反応
  • ペースト順序
  • コンテンツの妥当性
  • 機材の戦略
  • 相互交流
  • ファシリテーターのスタイル
  • ディスカッションのレベル
  • 達成された目的
  • 環境
  • ファシリテーターの知識
  • 参加者の相互交流
  • 登録のプロセス

    どのように測定するか
  • アンケート
  • クラスでの個別の応答
  • フォローアップインタビュー
  • 観察チェックリスト

    <レベル2>
    いつ測定するか
  • プログラムの前
  • プログラムの最中
  • プログラムの後

    何を測定するか
  • 学習と学習の程度
  • コンテンツの教授
  • 参加者の知識

    どのように測定するか
  • 知識テスト:ペーパーテスト、口頭試問
  • パフォーマンステスト:評価またはフィードバックシートつきのロールプレイ、ケーススタディ
  • 観察されたスキル
  • デモンストレーション
  • チェックリスト
  • 製品テスト

    <レベル3>
    いつ測定するか
  • プログラムの数週間後から3カ月後
    何を測定するか
  • 仕事での変化
    どのように測定するか
  • パフォーマンスの記録
  • パフォーマンスの契約
  • アクションプラン
  • インタビュー
  • チェックリストを用いた直接的な観察
  • スーパバイザーによるインタビュー

    <レベル4>
    いつ測定するか
  • プログラムの3カ月後から1年後
    何を測定するか
  • 組織への影響
    どのように測定するか
  • アクションプラン
  • インタビュー
  • アンケート
  • フォーカスグループ
  • パフォーマンスの契約

    フィリップス(Phillips)は、4つのレベルの評価の枠組みに5つ目のレベルとしてROIを加えた。そのテクニックには以下が含まれる
  • 標準的な価値
  • 歴史的なコスト
  • 専門家によるインプット
  • 参加者の評価
  • 測定をすでに交換された他の測定と関連付ける
  • スーパバイザーとマネージャーの評価
  • 学習スタッフの評価

    トレーニングの効果を分離するためのいくつかのアプローチ
  • コントロールグループを用いる
  • 近似曲線の分析
  • 手法をあらかじめ計画する
  • 参加者の効果の評価(%)
  • スーパバイザーの効果の評価(%)
  • マネジメントの効果の評価(%)
  • 専門家の活用
  • 他の要因についての部下のレポート
  • 他の要因の計算または見積もり
  • 顧客によるインプット

    ROIワークシート
    <レベル5>
    いつ測定するか
  • プログラムの3カ月から1年後
    何を測定するか
  • 金銭上の効果の価値
    どのように測定するか
  • コントロールグループ
  • 近似曲線
  • 参加者の評価
  • スーパバイザーの評価
  • マネジメントの評価
  • 専門家の活用
  • 現存するデータ
  • 外部の研究

    キャプランとノートン:R. Kaplan and D. Norton(1996)
    The Balanced Scorecard
    バランストスコアカード
  1. 顧客の視点
  2. 学習と成長の視点
  3. 業務プロセスの視点
  4. 財務の視点

    バサラブとルート:D.J.Basarab and D.K.Root (1992)
    The Training Evaluation Process
    メタ評価:プロジェクトマネジメントの評価では、下記のフェーズごとに評価を行う
  • 戦略的な人的資源のパフォーマンス
  • パフォーマンスインプルーブメントのプランとプロセス
  • プログラムの効果
  • プロジェクトの監視とコントロール
  • タスク、期間、役割、制約の点からの評価の計画

    評価のツール
  • コスト分析
  • e-learningテスト
  • 評価フォーム
  • インストラクター評価
  • ニーズ、目的、コンテンツ比較
  • 意見調査
  • ペーパーテスト
  • トレーニング後の調査
  • トレーニング前の調査
  • 生産性レポート
  • 専門家の意見
  • シミュレーションと現地の観察

 のっけから、「データの分析や報告」は測定のプロセスの後半部分だということが書かれている。「測定と評価」は研修が終わってから始まるのじゃなくて、そもそも「評価のゴール」を研修前に定義しておくことから始まるのね。そう言えば、以前のマーケテンィグ研修のときも、研修前にゴールを決めて測定方法も決めてたっけ。ガンバレ私!