『バイオハザード』女主がOSSのAIメモリシステムを公開:史上最高スコアか、それともマーケティングの嘘か?

4月6日、あるGitHubリポジトリが24時間以内に5400以上のスターと150万回以上の閲覧を記録した。この数字自体は驚くほどではないが、リポジトリの持ち主がMilla Jovovich——『バイオハザード』シリーズでAliceを演じた女優——だったことは驚きだった。

彼女が公開したプロジェクトはMemPalaceという名前のオープンソースAIメモリシステムで、LongMemEvalベンチマークで「史上最高スコア」を達成したと主張している。しかし、ハリウッドの脚本よりも早く物語は転換する:24時間も経たないうちに技術コミュニティが詳細な監査レポートを公開し、タイトルは断言的だった——「None of the benchmark scores are real」(ベンチマークスコアは一つも本物ではない)。

メモリーパレスからAAAK言語へ

MemPalaceの中核となるコンセプトは意外と堅実だ——「記憶の宮殿」(Method of Loci)。これは古代ギリシャの修辞学に由来する記憶術で、演説者は想像上の宮殿を構築し、覚えるべき内容を各部屋に配置し、思い出すときに宮殿を巡る。

プロジェクトはこのコンセプトをデジタル化した:

  • Wings(翼):人物やプロジェクトに対応
  • Halls(ホール):記憶のタイプ(決定、イベント、好みなど)
  • Rooms(部屋):具体的なトピック
  • Closets(押入れ):圧縮された要約
  • Drawers(引き出し):元のファイル

最も注目を集めたのは、彼らが独自に開発したAAAK圧縮言語だ——30倍のロスレス圧縮を謳い、数ヶ月分の会話を120トークンに圧縮できるとし、しかもデコーダーなしでどのLLMもネイティブに読めるという。

満点神話と評価スキャンダル

プロジェクトのマーケティング資料はこう主張する:

  • LongMemEval R@5:96.6%(API呼び出しゼロ)
  • LongMemEval R@5(ハイブリッドモード+Haikuリランク):100%
  • LoCoMo:100%

AIベンチマークで100%スコアはほとんど聞いたことがない。AIメモリシステムを開発するPenfield Labsというチームが深掘りすることを決めた。

彼らの発見は、その数字を瞬く間に崩壊させた:

LoCoMoの100%はどうやって出たのか?

LoCoMoベンチマークには10の会話があり、それぞれ19-32のsessionを持つ。MemPalaceはtop_k=50を使用した——しかし候補プールは最大でも32sessionだ。これは検索ステップが完全にバイパスされ、システムは単にすべての会話をClaude Sonnetに突っ込んで選ばせたことを意味する。これはメモリシステムではなく、cat *.txt | claudeだ。

LongMemEvalのスコアはLongMemEvalスコアではない

本当のLongMemEvalはエンドツーエンド評価だ:システムは検索し、回答を生成し、GPT-4に正誤を判断される。MemPalaceは検索ステップだけを行い、返されたsession IDが正解リストに含まれているかチェックする——これはrecall_any@5と呼ばれ、LongMemEvalスコアではない。

「ロスレス」圧縮は実測で12.4%の損失

プロジェクト自身のBENCHMARKS.mdによると、AAAK圧縮バージョンは同じ評価で84.2% R@5であり、元の96.6%より12.4ポイント低い。Lossless(ロスレス)とmeasured quality drop(実測品質低下)は矛盾している。

3問のために3つのハードコードパッチ

96.6%から100%に到達するため、開発者はdevセットに残っていた3つの誤答をチェックし、それぞれに専用のコードパッチを書いた。プロジェクト自身の文書は認めている:「This is teaching to the test」(これはテストのために教えることだ)。

有名人効果の拡大鏡

最も皮肉なのは:MemPalaceの内部技術文書は実際にこれらすべての問題を正直に開示しているが、マーケティング資料はこれらの警告をすべて取り除いているということだ。

Milla Jovovichの名前がなければ、このようなプロジェクトは最初の週に50スター程度しか獲得できなかったかもしれない。有名人効果は150万の露出をもたらした——そしてコミュニティは同じ拡大鏡でそれを焼き尽くした。

Penfield Labsは監査レポートでこう書いている:「The honest version of this story would have been more interesting than the hyped version」(この物語の正直なバージョンは、ハイプされたバージョンよりも面白かっただろう)。

真の技術的発見

論争の中でも、注目すべき発見が一つある:MemPalaceは、生のテキスト+デフォルトのembeddingが、多くのLLM抽出アプローチをある検索タスクで打ち負かすことができることを証明した。これはAIメモリ分野が抽出ステップを過度にエンジニアリングしている可能性があることを示唆している。

この「ネガティブな発見」自体は価値がある——それは完璧なベンチマークスコアも、有名人の保証も必要としない。

結論

MemPalaceのコードは完全にオープンソースであり、自分ですべてを検証できる。それは「史上最高スコアのAIメモリシステム」ではないかもしれないが、確かに生きた教訓となっている:

ベンチマークがどのように操作されるかについて、マーケティングと技術文書の間の誠実性の亀裂について、有名人効果がすべて——疑問の声も含めて——どのように拡大するかについて。

この記事はgumi.inkに掲載されました