ニュース

8TBのオープンソースデータで学習した“クリーンな”LLM「Comma v0.1」

出典元データの内訳

 AI研究団体のEleutherAIは、完全にオープンライセンスのテキストのみで構成された8TBのデータセット「The Common Pile v0.1」を発表した。

 このデータセットは、研究論文やコード、書籍、教材、音声の文字起こし、政府発行文書など30種類の出典から構成される。透明性確保の観点からデータが「オープンである」ことを最重要視し、その基準として「オープンの定義 2.1版」を採用。EleutherAIはこの基準を選んだ理由として、「多くのライセンスがAIを前提とした使用について明示的に言及していない問題の解決(許諾範囲が不明確であるという問題の解決)」と「他組織との連携促進」の2点を挙げている。

 出典元となる個別の作品やデータについては、その多くがオープンライセンスであることの識別をツールで自動化することが困難だ、そのため、オープンの定義に沿うデータの収集やキュレーションには、トロント大学やMIT、コーネル大学、Hugging Faceを含む多数の研究機関や企業の協力を得たという。

 EleutherAIは今後も新しいデータセットの公開を継続する方針を明らかにしており、直近では、パブリックドメイン化した書籍のテキストデータを新たな出典元として含める可能性に言及している。

 また、EleutherAIは同じタイミングで、The Common Pile v0.1を使って学習した言語モデル「Comma v0.1」を公開している。1兆トークン用と2兆トークンで学習させた2つのモデルを用意しており、それぞれLLaMAやDeepSeekなどに匹敵するパフォーマンスを発揮したという。

さまざまなライセンスの概要
Comma v0.1モデルのパフォーマンス比較