Benchmarks sind standardisierte Tests, mit denen KI-Modelle verglichen werden können.
MMLU, BigBench, HumanEval (für GPTs)
glossar benchmark vergleich