月曜日, 6月 9, 2025
- Advertisment -
ホームニュースPCニュース「8TBデータ活用!新“クリーンLLM”登場」

「8TBデータ活用!新“クリーンLLM”登場」

📌 ニュース:
EleutherAIは、8TBのオープンライセンスのデータセット「The Common Pile v0.1」を発表しました。

このデータセットは、研究論文や書籍など30種類の出典から生成されています。データの透明性を重視し、最新版の「オープンの定義 2.1版」に基づいています。これにより、AI利用についての許諾範囲が明確になります。データ収集にはトロント大学やMITなどが協力しました。

また、同時に「Comma v0.1」という言語モデルも公開され、1兆トークンと2兆トークンで学習が行われました。このモデルは、LLaMAやDeepSeekと同等の性能を発揮しています。

今後も新しいデータセットの公開を検討しているそうです。

  • 以下は、記事のポイントを3つまとめたものです。

    1. 8TBのオープンデータセット 📊
      AI研究団体のEleutherAIが、完全にオープンライセンスのテキストデータからなる8TBのデータセット「The Common Pile v0.1」を発表しました。このデータセットは、研究論文や教材などさまざまな出典から構成されています。

    2. 透明性と協力 🤝
      EleutherAIは、データの透明性を重視し、オープンライセンスの定義に基づいてデータを収集しました。トロント大学やMITなど、多くの研究機関との協力を得ることで、オープンであることを確保しています。

    3. 新たな言語モデル「Comma v0.1」 🤖
      そのデータセットを基にして学習した言語モデル「Comma v0.1」が公開され、1兆トークンと2兆トークンでのモデルが用意されています。これらは、LLaMAやDeepSeekに匹敵するパフォーマンスを見せているとのことです。


The Common Pile v0.1をAmazonで探す

Comma v0.1をAmazonで探す

オープンライセンスをAmazonで探す


※以下、出典元
▶ 元記事を読む

Views: 0

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -