GAIA(General AI Assistants)は、Meta、Hugging Face、AutoGPT、GenAIの研究者によって開発された、汎用AIエージェント・AIアシスタントの能力を評価するためのベンチマークです。このベンチマークは、AIモデルが人間のような推論力、マルチモーダル処理、ウェブブラウジング、ツールの使用能力など、実世界でのタスクにどれだけ対応できるかを測定します。
GAIAの目的と特徴
- 実世界の課題に焦点: GAIAは、法律や化学などの専門的な知識を問う従来のベンチマークとは異なり、日常的なタスクにおけるAIの汎用性と柔軟性を評価します。
- 450以上のの設問: GAIAは450以上の設問で構成されており、各設問は明確な正解を持ち、AIモデルの多様な能力を総合的に評価します。
設問の構成と難易度
GAIAの設問は3つのレベルに分かれており、各レベルで求められる能力が異なります:
- レベル1: 高度なLLMが解答可能な設問。
- レベル2: ツールの使用やウェブ検索を必要とする設問。
- レベル3: 複雑な推論やマルチステップの処理が求められる設問。
各レベルには、公開された開発用データセットと、非公開のテストセットが含まれています。
リーダーボードと評価
GAIAのリーダーボードでは、さまざまなAIモデルの性能が比較されています。

参考
- Hugging Face GAIAページ:
https://huggingface.co/gaia-benchmark - Hugging Face Datasets データセット詳細:
https://huggingface.co/datasets/gaia-benchmark/GAIA - Hugging Face Spaces リーダーボード:
https://huggingface.co/spaces/gaia-benchmark/leaderboard - 公式論文(arXiv):
https://arxiv.org/abs/2311.12983
コメント