RedPajama は LLaMA データセットを複製して、オープンソースの最先端の LLM を構築します from venturebeat.com

RedPajama replicates LLaMA dataset to build open source, state-of-the-art LLMs - venturebeat.com

Together は、今後数週間のうちに、RedPajama データセットに基づいて大規模な言語モデルと命令を調整したバージョンの完全なスイートをリリースすると述べ、今後のモデルは完全にオープンソースであり、商業的に実行可能であることを強調しました。
私たちは、寛容にライセンスされたモデルを持つことが、オープンソース AI の重要な側面であると考えています。
データセットもモデルも同一ではありませんが、開発者は商用アプリケーションで利用できる LLaMA の完全にオープンソースの複製を作成し、研究のためのより透明なパイプラインを提供することを目指しています。
それがLLaMAモデルにゲートリリースがあった理由です、と彼女は説明しました.多くの人は、完全にオープンになったことを非常に喜んでいたでしょう。
モデルがオープンであるかクローズであるかにかかわらず、データセット自体の倫理についても議論がありました。
RedPajama データセットは 5 テラバイトで、モデルは 14 GB まで小さくすることができ、モデル化する元のデータよりも 500 倍小さくなります。