Cohereの新しいビジョンモデルは2つのGPUで動作し、視覚タスクでトップクラスのVLMを上回ります。 from venturebeat.com

New vision model from Cohere runs on two GPUs, beats top-tier VLMs on visual tasks - venturebeat.com

カナダのAI企業Cohereは、Command A Modelを基盤としたビジュアルモデルをリリースしました。
1120億パラメータのこのモデルは、データドリブンな意思決定を行うDeep Research機能を活用している企業が実施した9つのベンチマークテストにおいて、グラフ、チャート、図表ベースのドキュメントといった一般的な形式のデータを読み取って分析することができました。
「Company Visionは、検索ユースケースに完全に最適化されています」とCohereは述べています。
また、Command Bのテキスト機能も継承しており、画像上の単語を読み取り、少なくとも23の言語を理解することができます。