Databricks と Hugging Face が Apache Spark を統合して AI モデルの構築を高速化 from venturebeat.com


ユーザーは、Spark データ フレームを Hugging Face データセットにマップして、トレーニング パイプラインに統合できるようになりました。
Databricks は、新しい統合により、Spark のコスト削減と速度の利点、Hugging Face データセットからのメモリ マッピングとスマート キャッシングの最適化という両方の長所がもたらされると述べています。
fromspark 関数を簡単に呼び出し、Spark データ フレームを提供することで、ユーザーはコードベースに完全に読み込まれた Hugging Face データセットを取得できるようになり、モデルのトレーニングやチューニングの準備が整いました。
「これら 2 つの世界をオープンソース レイヤーで連携させることで、AI の採用が加速し、誰もがアクセスできる堅牢な AI ワークフローが作成されます。この統合により、Spark から Hugging Face データセットにデータを移動して新しいモデルをトレーニングし、作業を完了するための摩擦が大幅に軽減されます。ユーザーがそれを利用するのを見るのが楽しみです。」
新しい統合では、Spark の並列化機能を利用してデータセットをダウンロードして処理し、データを再フォーマットするための余分な手順をスキップします。

コメント

タイトルとURLをコピーしました