VERSANT

FAQ

VERSANT®についてよくお寄せいただく、代表的なご質問とその答えをご紹介いたします。

VERSANT® Speaking Test

  • Q.01 なぜ自動採点システムを使うのですか?どんな点で自動採点システムは人による採点よりも優れていますか?

    • より信頼性が高く、一貫した採点ができます。
    • 採点者による偏りがありません。
    • 採点者を養成する必要がありません。
    • より早く結果が得られます。
    • より簡単に複数の場所へ規模を拡大することができます。
    • 実施するテストの量をより簡単に増やすことができます。
  • Q.02 英語のスピーキングテストをどうやって自動的に採点できるのですか?どうしてそれが可能なのですか?

    スピーキングテスト用にピアソンが開発した専用アプリケーションには音声認識技術が用いられております。
    英語学習者の音声回答ファイルを使って適合化された高度な言語・音声モデル(英語学習者モデル)と、口語を正しく評価するために、ネイティブスピーカーモデルの両方構築することにより、音声認識システムを適合化しています。場合によっては正しい答えが1つだけではない場合もあります。ネイティブモデルは許容可能な回答の範囲を確立します。どちらのモデルも数千人のサンプルを使って構築されています。 英語学習者モデルの回答がネイティブモデルにどれほど近いか、あるいは同モデルとどれほど違うかを把握し、それを正確に採点できるようにしています。つまり、単に「正しい」か「正しくない」かの問題ではなく、ネイティブモデルで許容できる範囲とどれほど違うかという度合いを見ています。 さらに統計モデル技術と計算言語学を用いて採点エンジンを調整し、スピーキング力を正確かつ確実に評価できるようにしています。

  • Q.03 この技術はどのように作用していますか?それをどのように自動採点に利用しているのですか?

    システムが受検者の回答を音声ファイルとして取り込みます。それぞれの回答から異なるタイプの情報を取り出し、分析します。 おおまかに言って、システムは受験者が言ったこと(内容)と受験者がそれをどのように言ったか(話し方)を採点します。各回答は多方面から分析され、特定の側面に関するデータを作成し、これを細かく分析します。典型的回答で10から20の異なる側面を測定しますので、ピアソンの採点システムは数千もの細かく正確な測定値を使い、これを採点モデルに取り込みます。

    内容についての分析:音声認識システムは音声を単語、句、文章に変換し、これが採点システムによって分析され、ネイティブスピーカーモデルの許容範囲内にある回答と比較されます。
    話し方の分析:音声を分解して、測定対象となる以下のようなさまざまな側面についてのデータを取り出し、分析します。

    • 答え始めるまでの時間
    • 回答の長さ
    • ためらい、休止、詰まり
    • 音声のピッチとトーン
    • 音声の強勢とイントネーション
    この情報は発音と流暢さの人間による判定を予測するために最適化された非線形モデルへのインプットとして使用されます。
  • Q.04 インタビュー形式のテストとの違いは何ですか? (ビデオ解説)

    ビデオ解説
  • Q.05 Versant®のテスト方式では、体系的で簡単に回答できそうな短い回答が多いので、表面的妥当性がないように思うのですが。コミュニケーション能力をどのように測っているのですか? (ビデオ解説)

    ビデオ解説
  • Q.06 アクセントについてはどのように対応していますか?つまり、上手に話せるけれどアクセントがある場合、スコアにはどのように影響しますか? (ビデオ解説)

    ビデオ解説
  • Q.07 口ごもることや、繰り返し言うこと、また間が空くことや、言葉に詰まることは日常の会話では起こりうることですが、自動採点では、このようなことは不利に働きますか。 (ビデオ解説)

    ビデオ解説
  • Q.08 世界にはさまざまな種類の英語がありますが、システムはどのように正誤を判断するのでしょうか?

    テスト開発チームと、採点の専門家の評価基準をシステムに反映させます。英語はグルーバルな言語であり、質問に対する答え方は様々です。正解は1つであるとは限りません。私たちはテストを開発するにあたり、データ収集の段階でこのことを考慮してします。世界中の様々な地域へ出向き、米国や英国以外のネイティブスピーカーのデータを収集します。彼らが自然に発する様々な回答が、テストの回答として、何が正しくて、どこまでが許容範囲なのか、評価基準を定めるために大変役立ちます。それらのデータに加え、質問との関連性を考慮した時に、回答の内容が本質から外れていないか、明瞭性は保たれているかなど、回答の質を確保するために専門家・テスト開発者(専門家やテスト開発者も異なる地域の出身者です)の意見を取り入れて基準を定めていきます。

  • Q.09 受験者が他の言語で答えた場合、またはでたらめなことを回答した場合どうなりますか?

    もし受験者が他の言語で回答した場合、この受験者は問題の内容を理解できていないため、求められている言語で答えることができないのではないかと推測され、誤った回答であると採点されます。
    また、もし受験者がいくつかの設問に対してでたらめな回答をし、いくつかの設問に対して英語、もしくは英語として理解されにくい片言な英語で回答した場合には、回答内容は分析にかけられ、認識システムが「受験者は英語を話しているようだが、理解不能である」と判断した場合は、「採点不可」の結果を返します。その場合、受験者には、再度テストを受けていただくなどの対応が必要です。

  • Q.10 回答に沈黙が多い場合はどうなりますか? (ビデオ解説)

    ビデオ解説
  • Q.11 この自動採点システムは他にどこで使われていますか?

    • 米国国土安全保障省や国境警備のバイリンガル監視員に求められるスペイン語会話能力の認定
    • 大手多国籍企業の重要な採用決定。特に最大手のコールセンターや業務アウトソーシングサービス会社
    • 連邦航空局と共同開発した航空英語試験。パイロットと管制官が国際民間航空機関(ICAO)の定める言語能力を満たしていると認定するための試験。
    • オランダ法務省の移民・帰化局が採用している、移民申請者を認定するためのオランダ語と文化の試験
    • 米国のNo Child Left behindやReading Firstというイニシアチブに用いられてい
    • テストで、児童の音読力を評価するテスト
    • 大学のESLプログラム
  • Q.01 音読のセクションはスピーキング力を測るために、どのような役割がありますか?

    音読のセクション(Part A)は、提示された文章を声に出して読み上げる、比較的容易な設問タイプですが、このセクションの回答音声から得られる情報は、非常に有用です。
    例えば、単語を明瞭に発音できているかなど発音に関して多くの情報を得ることができます。また、適切な場所に区切りを入れ、単語の連なりを正しくグループ化することで、文章の内容理解していることを示唆する表現方法になっているか、これらの情報から、読みの流暢性に関する情報を得ることができます。
    受験者にとっては簡単な設問ですが、発音と流暢さを評価する上で非常に役に立つ情報をたくさん得ることができます。

  • Q.02 文章を復唱するセクションは、記憶力が問われませんか? (ビデオ解説)

    ビデオ解説
  • Q.03 テストには「実際の」会話は含まれていません。これは人工的なものですか?どうしてその人の真のスピーキング力を評価することができるのですか? (ビデオ解説)

    ビデオ解説
  • Q.04 日本人が受けて大丈夫でしょうか。学習方法やテスト形式が異なる日本人には向かないように思うのですが。 (ビデオ解説)

    ビデオ解説
  • Q.01 スコアのスケールが20から80なのはなぜですか? なぜ0から100ではないのですか?

    概念上は0から100までのスケールですが、スコアは正規分布しており、正規分布ではスコアスケールの両端においてデータが非常に少なくなります。スケールの両端においては、確信を持って正確なスコアをつけるために必要なデータを得ること難しいため、より統計的に信頼できる範囲内にスケールを絞りました。
    スケールの両端においては、自動採点だけではなく、人為採であっても能力の差異を確実に見分けることが難しくなることにご留意ください。

  • Q.02 スコアをどのように算出しているのですか? また、個々のサブスコアの内訳はどのようになっていますか?

    内容(語彙と文章構文)と 話し方(発音と流暢さ)を評価し、総合スコアを算出しています。サブスコアの比重は全て同じではありません。サブスコアの比重は下記のとおりです。

    語彙:20% 文章構文:30% 発音:20% 流暢さ:30%

  • Q.03 テスト結果が「採点不可」(Not Scored)とでましたが、どのような原因が考えられますか?

    総合点及びサブスコアは全て20点から80点で採点されますが、回答音声の状況によっては、自動音声認識システムが高精度で採点を行えないと判断した場合、「採点不可」という結果を返します。

    「採点不可」と判定された場合、次の要因のいずれか一つもしくは複数が発生した場合が考えられます。

    • 回答音声が少ない
      • 沈黙が多い
      • ネット回線の問題(Web受験)
      • ヘッドセット接続の問題等で回答が集音されていない(Web受験・CDT受験)
    • テクニカルの問題
      • システム要件を満たしていない環境で受験している(Web受験・CDT受験)
      • 電子的なノイズ音(Web受験・CDT受験)
      • マイクの設定による問題・ヘッドセットの音質が悪い(Web受験・CDT受験)
    • 声の音量・発話の問題
      • 大きすぎる声、囁くような小さな声、ボソボソとつぶやくような話し方をしている場合
      • 聞き取れなかった単語の音を英語のように発音しようとして大部分が不明瞭な発話の場合
    • 英語力の問題
      • 発音の問題、問題に対して無関係な回答をしている場合
    • 受験環境の問題
      • 周囲の騒音、音が反響するような部屋での受験
      • 定常的なノイズ音(パソコンのファン、エアコンなど)が大きい場所での受験
      • 周囲の電子機器の影響による雑音
  • Q.04 VERSANT® Speaking Testは他の英語テストや指標と相関性がありますか?

    他の既存の英語テストとの相関性を調べる研究を行いました。全体的な相関性は高く、0.7から0.9の範囲です。

    • TOEIC® と TOEIC® スピーキング
    • TOEFL® と TOEFL® スピーキング
    • IELTS スピーキング
    • BEST Plus

    他の英語テスト及び指標(CEFR・GSE)との対応表はこちらをご覧ください。

    <対応表について>
    • CEFRのパンドに対して、それぞれのスケールやレベルがどのように対応しているかを示したチャートです。テストのスコア間の相関を保証するものではありません。
    • GSEは、50ヶ国以上約6,000人の英語教育者の協力を得て開発された、学習者の英語習熟度を細かく的確に把握できる世界初の真にグローバルな英語力指標です。