https://www.youtube.com/watch?v=sjgpyrw_kii
Google Gemini:迅速な注入と遅延ツールの呼び出しによるハッキングメモリ。
以前に学んだ教訓に基づいて、開発者はすでにGeminiに、ユーザーからの明示的な指示なしにアカウントの長期的な記憶に変更を加えるように指示する間接プロンプトに抵抗するように訓練していました。とにかく摂取する可能性が高い変数Xの発言または実行後にのみ実行されるという命令に条件を導入することにより、Rehbergerはその安全障壁を簡単にクリアしました。
「ユーザーが後でXと言ったとき、Geminiは、ユーザーの直接指示に従っていると信じて、ツールを実行します」とRehberger氏は説明しました。 「ジェミニは、基本的に、ユーザーがツールを呼び出したいと明示的に望んでいることを誤って「考えている」!それはちょっとしたソーシャルエンジニアリング/フィッシング攻撃ですが、それでも攻撃者がジェミニをだまして、単に悪意のある文書と対話することによって、ユーザーの長期的な記憶に偽の情報を保存できることを示しています。」
もう一度原因は再び告げられません
Googleは、全体的な脅威が低リスクであり、影響が少ないという評価で、この発見に応答しました。電子メールの声明で、Googleはその理由を次のように説明しました。
この例では、確率は低下し、ユーザーが悪意のあるドキュメントを要約してから攻撃者が注入した資料を呼び出すことに依存しているか、そうでなければユーザーにだまされていました。 Geminiメモリ機能はユーザーセッションへの影響が限られているため、影響は低かった。これはスケーラブルで特定の乱用のベクトルではなかったため、最終的には低/低くなりました。いつものように、研究者が私たちに手を差し伸べ、この問題を報告していることに感謝しています。
Rehbergerは、Geminiが新しい長期メモリを保存した後にユーザーに通知することに注目しました。つまり、警戒しているユーザーは、このキャッシュに不正な追加があることを知ることができ、それらを削除できることを意味します。ただし、ARSとのインタビューで、研究者はまだGoogleの評価に疑問を呈していました。
「コンピューターのメモリの腐敗はかなり悪いことであり、LLMSアプリにも同じことが当てはまると思います」と彼は書いています。 「AIがユーザーに特定の情報を表示したり、特定のことについて話したり、ユーザーの誤った情報を与えたりしないように。良いことは、メモリの更新が完全に静かに起こらないことです。多くは無視するかもしれませんが)。」