niki-til

マルチホップ実タスクベンチ

マルチホップとは、ひとつの事実を引くだけでは解けず、複数の事実や制約を横断して初めて答えにたどり着くタスクのこと。エージェントの実力差を測るベンチマークとして使われる。

代表的なベンチマーク

なぜ「意味あるデータ」になるのか

単発の Q&A は高精度モデルでは差が出にくく飽和する。一方、条件 A・B・C をすべて満たす制度や商品を根拠リンク付きで特定させるような多段タスクは、2026 年のモデルでも差が出る。

測れるのは、完遂率・手数・どこで間違えたか・使った情報源の質。これを日本語の業種文脈で作れば、学術的な権威性とエージェント実力の可視化を同時に得られる。

参考・引用元


2026-05-22 作成。学術権威を担う観測トラックの候補として整理した。