METRは、最先端AIシステムが社会に与えるリスクを評価する非営利の研究組織です。リスク評価を科学的に行い、AIの開発が人類にとって安全であるかを確認することを目的としています。現在、サードパーティとしての評価体制の確立やAI能力の評価の標準化を推進しています。
総合的な能力評価の最新情報
GPT-4 と Claude のその他のタスク、人間のベースライン、および予備的な結果
Iの自律性評価に関する進捗について報告しています。サイバーセキュリティや機械学習などの幅広いタスクに取り組む評価方法の開発が進行中で、GPT-4oやClaudeなどのモデルの初期評価では一部のタスクで優れた成果が見られる一方、複雑な課題では進展が限定的とされています。多様なタスクや評価方法の改良を重ね、AIの能力とリスクの理解を深める取り組みが続いています。
コメント