OpenAI fortsetter å legge til nye funksjoner til sin samtale-AI som har brakt menneskeheten inn i en ny æra av ekte menneske-maskin-samarbeid. Nettforbindelse, bildeanalyse og generering, taleanalyse og syntese er nå tilgjengelig for chatboten i sin betalte versjon.

ChatGPT har vært drevet siden begynnelsen av året av LLM «GPT-4»-modellen som vi vet er multimodal, men hvis visuelle og auditive evner til nå hadde vært begrenset og blokkert.

De siste dagene har OpenAI bestemt seg for å frigjøre litt mer av potensialet til sin generative og konverserende AI. Selv om disse nye funksjonene for øyeblikket er begrenset til betalte brukere av ChatGPT Plus- og ChatGPT Enterprise-versjonene. Som en påminnelse, for de som ønsker å holde seg gratis, tilbyr Microsofts Bing Chat de fleste av disse funksjonene.

Retur av WEB-forbindelsen

Det startet med gjeninnføringen av en funksjon som dukket opp kort i sommer, men som raskt ble fjernet (etter at smarte folk oppdaget at de kunne bruke den til å få tilgang til betalte nettsteder gratis via ChatGPT): AI-tilkobling på WEB! GPT-4-modellen som ligger til grunn for ChatGPT ble trent på eldre dokumenter i slutten av 2021. Uten internett-tilkobling ville AI ikke bare være ute av stand til å analysere nettdokumenter, men den ville heller ikke være i stand til å berike sine svar med nyere informasjon . Ved å slå på «Browse with Bing»-innstillingen i «Beta/Beta Settings and Features» lar samtale-AI nå svare på spørsmål om nyere emner og hendelser og koble til nettet for å avgrense analysen.

Fra forståelse til å generere bilder

En annen nøkkelnyhet er at OpenAI endelig har bestemt seg for å frigjøre det multimodale potensialet til GPT-4. Fra nå av er ChatGPT basert på den nye GPT-4V iterasjonen av sin grunnmodell og formaliserer dermed tilgang til bildeanalyse. ChatGPT Plus-brukere vil snart kunne (og kan nå på mobilversjoner av iOS og Android) sende inn bilder eller spørsmål illustrert med bilder og få AI til å analysere og kommentere dem. På denne måten kan AI oversette manuskripter, forvandle den tegnede omrisset av en algoritme eller en skjerm til datakode, analysere og beskrive et fotografi eller et maleri, analysere captchaer og mange andre ting.

I tillegg vil OpenAI også snart integrere sin spektakulære «Dall-E 3» bildegenerator i ChatGPT (allerede tilgjengelig på Bing Image Builder og forestillingene er mye mer imponerende enn Dall-E 2) og konkurrerer seriøst med Midjourney samtidig som de tilbyr mer variasjon i stiler.

Stemme, for å utvide interaksjoner

En av de store styrkene til generativ AI er at den revolusjonerer menneske-maskin-interaksjoner ved å gjøre naturlig språk til støtte for disse interaksjonene. Fra nå av er tanken å kunne utføre denne typen interaksjoner med stemmen i stedet for å skrive. Vi må fortsatt vente litt med å ha en diskusjon som med et menneske på grunn av dagens tider med analyse og forståelse av menneskelig tale. Men vi nærmer oss.

Bing Chat i sin mobilversjon lar deg stille spørsmål med stemmen, og AI kan også svare på dem med stemmen. For å gjøre dette er AI basert på modeller utviklet av Microsoft.

OpenAI vil snart integrere sin «Whisper» tale-til-tekst-modell i ChatGPT Plus. Chatboten vil også kunne snakke takket være en ny «TTS – Text to Speech»-modell som tilbyr 5 forskjellige stemmer.

Med andre ord kan ChatGPT nå koble til, se, snakke og høre. Så mange nye funksjoner som smarte småbrukere ikke vil slutte å utnytte til uforutsette formål, og ha det gøy med å omgå begrensningene som OpenAI har forsøkt å implementere for å forhindre ondsinnet eller upassende bruk av AI.

