FineData

community

AI & ML interests

We release large pre-training datasets to accelerate open LLM development. Part of the Hugging Face Science team (hf.co/science)

Recent Activity

joelniklaus updated a bucket about 6 hours ago

HuggingFaceFW/finephrase-checkpoints

joelniklaus published a bucket 3 days ago

HuggingFaceFW/checkpoints

joelniklaus published a bucket 8 days ago

HuggingFaceFW/finephrase-checkpoints

View all activity

Papers

FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language

The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale

View all Papers

HuggingFaceFW 's datasets 35

HuggingFaceFW/finepdfs

Viewer • Updated about 1 month ago • 476M • 20.2k • 854

HuggingFaceFW/finephrase

Viewer • Updated Mar 31 • 1.02B • 474k • 107

HuggingFaceFW/finepdfs_edu_50BT-dclm_30BT-fineweb_edu_20BT-shuffled

Viewer • Updated Mar 2 • 56.1M • 3.51k

HuggingFaceFW/finepdfs_edu_50BT-dclm_30BT-fineweb_edu_20BT

Viewer • Updated Mar 2 • 56.1M • 7.82k

HuggingFaceFW/finepdfs_50BT-dclm_30BT-fineweb_edu_20BT-shuffled

Viewer • Updated Mar 2 • 62.1M • 2.99k • 3

HuggingFaceFW/finepdfs_50BT-dclm_30BT-fineweb_edu_20BT

Viewer • Updated Mar 2 • 62.1M • 17.3k • 1

HuggingFaceFW/finepdfs_edu_100BT-shuffled

Viewer • Updated Mar 2 • 17.8M • 1k

HuggingFaceFW/finepdfs_edu_100BT

Viewer • Updated Mar 2 • 17.8M • 5.11k

HuggingFaceFW/finepdfs_100BT-shuffled

Viewer • Updated Mar 2 • 14.6M • 792

HuggingFaceFW/finepdfs_100BT

Viewer • Updated Mar 2 • 29.9M • 2.1k

HuggingFaceFW/fineweb_edu_100BT-shuffled

Viewer • Updated Mar 2 • 102M • 1.73k

HuggingFaceFW/fineweb_edu_100BT

Preview • Updated Mar 2 • 12.6k • 1

HuggingFaceFW/fineweb_100BT-shuffled

Viewer • Updated Mar 2 • 161M • 1.1k

HuggingFaceFW/fineweb_100BT

Viewer • Updated Mar 2 • 161M • 2.82k • 2

HuggingFaceFW/dclm_100BT-shuffled

Viewer • Updated Mar 2 • 89.3M • 2.11k • 1

HuggingFaceFW/dclm_100BT

Viewer • Updated Mar 2 • 89.3M • 3k

HuggingFaceFW/finetranslations-edu

Viewer • Updated Jan 9 • 109M • 1.13k • 28

HuggingFaceFW/finetranslations

Viewer • Updated Jan 9 • 3.33B • 119k • 286

HuggingFaceFW/admin

Viewer • Updated Jan 9 • 18 • 16.9k • 3

HuggingFaceFW/CommonsenseQA

Viewer • Updated Dec 30, 2025 • 1k • 80 • 1

HuggingFaceFW/MMLU-Redux-2.0-Generative

Viewer • Updated Dec 30, 2025 • 5.43k • 2.14k • 2

HuggingFaceFW/ARC-Generative

Viewer • Updated Dec 30, 2025 • 7.79k • 176

HuggingFaceFW/finepdfs-edu

Viewer • Updated Nov 11, 2025 • 49.5M • 10.5k • 87

HuggingFaceFW/fineweb-2

Viewer • Updated Oct 27, 2025 • 4.48B • 124k • 791

HuggingFaceFW/finewiki

Viewer • Updated Oct 22, 2025 • 61.6M • 9.18k • 294

HuggingFaceFW/clean-wikipedia

Viewer • Updated Oct 21, 2025 • 61.2M • 14.9k • 24

HuggingFaceFW/finepdfs_lang_classification_tmp

Updated Oct 21, 2025 • 8

HuggingFaceFW/ocr-annotations

Viewer • Updated Oct 20, 2025 • 1.62k • 86 • 17

HuggingFaceFW/finepdfs_lang_classification

Viewer • Updated Oct 17, 2025 • 3.08M • 224k • 4

HuggingFaceFW/finepdfs_eng_Latn_labeled

Viewer • Updated Oct 6, 2025 • 1.3M • 403 • 3