Multimodalität

Multimodale Modelle können verschiedene Eingabeformate gleichzeitig verarbeiten – z. B. Text, Bild oder Audio.

GPT-4o kann Bild und Sprache gleichzeitig interpretieren.

glossar multimodalität multimodal