StreamingLLM は、1 つのトークンで AI モデルを無期限にスムーズに実行し続ける方法を示します from venturebeat.com

StreamingLLM shows how one token can keep AI models running smoothly indefinitely - venturebeat.com

StreamingLLM フレームワークは、会話中に受信する最初のトークンに重点を置く LLM 向けに開発されました。
研究者らは、会話中に最も注目を集めたトークンが LLLM のパフォーマンスを回復できることを発見しました。
ただし、後続の応答にトークンを追加しても、すべてを覚えていることが保証されるわけではなく、これは継続的なアプリケーションにとって重要であると彼らは付け加えました。
「それらを最近のトークンと組み合わせるだけで、モデルのパフォーマンスが十分に固定されます」と研究者らは付け加えた。