Multimodale Modelle können verschiedene Eingabeformate gleichzeitig verarbeiten – z. B. Text, Bild oder Audio.
GPT-4o kann Bild und Sprache gleichzeitig interpretieren.
glossar multimodalität multimodal