← all datasets

The Pile

Canonical

3papers using it

2024first seen

An 825 GB diverse open text corpus (22 sources) for training large language models.

🔎 Find this dataset

Papers using The Pile (3)

Chinesewebtext 2.0: Large-scale High-quality Chinese Web Text With Multi-dimensional And Fine-grained Information2024 · 2 cites

Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better2026

UniPool: A Globally Shared Expert Pool for Mixture-of-Experts2026

The Pile — datasets — llm-papers