Benchmark

Benchmarks sind standardisierte Tests, mit denen KI-Modelle verglichen werden können.

Beispiel

MMLU, BigBench, HumanEval (für GPTs)

glossar benchmark vergleich