Är du intresserad av dem ERBJUDANDEN? Spara med våra kuponger på WhatsApp o TELEGRAM!

ChatGPT är nu en assistent som kan se, höra och tala

25 September 2023

chatgpt accepterar röst- och bildinmatning

ChatGPT, utvecklat av OpenAI, introducerar nya funktioner som låter dig interagera genom röst och bilder, erbjuder ett intuitivt gränssnitt och fler sätt att integrera ChatGPT i ditt dagliga liv. I ett nyligen tillkännagivande på sin webbplats beslutade OpenAI att avslöja dessa nya funktioner i förväg. Likaså lyfte han också fram fördelarna de ger och utmaningarna de ger på den växande AI-marknaden.

Ämnen i denna artikel:

ChatGPT: röstinteraktion

Med den nya röstfunktionaliteten kan användarna ha interaktiva konversationer med ChatGPT. Detta gör att du kan använda assistenten även på resande fot, vilket ökar chatbotens potential. En användare kan till exempel be ChatGPT att berätta en barnberättelse när han är på språng, vilket gör det roligare.

En berättelse skapad av chatboten

Eller, under en middag med vänner, kan en debatt om ett specifikt ämne uppstå; i det här fallet kan användare använda boten för att få korrekt information och lösa debatten på ett konstruktivt sätt.

ChatGPT:s röstteknik använder en avancerad text-till-tal-modell. I samarbete med professionella röstskådespelare kan denna modell generera humanoid ljud från text och korta röstprov, vilket gör interaktionen med ChatGPT ännu mer naturlig och intuitiv. Också tack vare Viska, ett system för taligenkänning med öppen källkod utvecklat av OpenAI, talade ord är transkriberas till text med stor precision, vilket gör att chatboten kan förstå och svara effektivt på användarförfrågningar.

ChatGPT: visuell interaktion

Som ovan kan AI-modellen nu analysera en eller flera bilder, så att användare kan lösa problem, planera måltider eller analysera komplexa grafer. En användare kan till exempel skicka in ett foto av innehållet i sitt kylskåp. Chatboten bör därför användas analysera de livsmedel som finns och föreslå recept baserat på dessa ingredienser, ger också steg för steg instruktioner för förberedelser.

Läs också: GPT-4: Gemini kommer att bli Googles rival. Här är skillnaderna

Dessutom, om användaren behöver fokusera på ett visst element i bilden, ChatGPT:s mobilapp innehåller ett ritverktyg som låter dig markera specifika delar av bilden, vilket gör kommunikation och analys ännu mer exakt och personlig.

Bildförståelse drivs av GPT-3.5 och GPT-4 multimodala modeller. Dessa avancerade modeller de tillämpar sina språkkunskaper på ett brett utbud av bilder, som fotografier, skärmdumpar och dokument som innehåller både text och bilder, vilket gör att ChatGPT kan förstå och tolka det visuella sammanhanget exakt och i detalj.

Det är värt att nämna att från poco OpenAI har inte bara integrerat det canva men även DALL-E 3 i ChatGPT, eller den generativa bildmodellen.

När och för vem kommer den att finnas tillgänglig

Under de kommande två veckorna kommer OpenAI att implementera röst och bilder i ChatGPT för användare användare med Plus- och Enterprise-prenumerationer.

Funktionen som tillåter röstinteraktion kommer att vara tillgänglig på iOS och Android men inte på webbversionen, som är den som används av de flesta.

Funktionen som möjliggör visuell interaktion kommer istället att finnas tillgänglig på alla plattformar, därför Android, iOS och webben.

Källa | OpenAI