
Nvidiaは、大規模な推論に使用できる小型言語モデルをリリースしました。
このモデルは、特定のベンチマークにおいてクラス最高の性能を示し、A10 GPUに最小限のオーバーヘッドで搭載できるように設計されています。
ユーザーは「think」と「nothink」を切り替えることができます。
また、命令追跡とロングコンテキストのベンチマークテストにおいて、オーバーヘッドなしで72%のスループット向上を達成しました。
ただし、他のLLMモデルよりもコストがかかります。
海外記事要約
コメント