====== Benchmark ====== Benchmarks sind standardisierte Tests, mit denen [[glossar:model|KI-Modelle]] verglichen werden können. ==== Beispiel ==== MMLU, BigBench, HumanEval (für GPTs) {{tag>glossar benchmark vergleich}}