From 489932e0aab1e38abfa1258d9ab517b26bb7a451 Mon Sep 17 00:00:00 2001
From: connerlambden <conner@connerpro.com>
Date: Thu, 4 Jun 2026 22:39:32 -0600
Subject: [PATCH] Add BGPT REFUTE benchmark (scientific critique & calibration)

---
 README.md | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/README.md b/README.md
index 2616d5d..d8b402d 100644
--- a/README.md
+++ b/README.md
@@ -131,3 +131,8 @@ Have questions, collaboration ideas, or want to discuss agent evaluation? Reach
 > Let every agent capability evaluation be evidence-based.
 
 Maintained by **DataAnswer (XuChao)** since 2025.
+
+
+## Benchmarks
+
+- [REFUTE](https://huggingface.co/datasets/BGPT-OFFICIAL/refute) — Scientific critique & epistemic calibration on recent science summaries (Apache-2.0). [Leaderboard](https://huggingface.co/spaces/BGPT-OFFICIAL/refute-leaderboard) · [Technical report](https://huggingface.co/datasets/BGPT-OFFICIAL/refute/blob/main/TECHNICAL_REPORT.md) · [Integrators](https://huggingface.co/datasets/BGPT-OFFICIAL/refute/blob/main/INTEGRATORS.md)