Är du intresserad av dem ERBJUDANDEN? Spara med våra kuponger på WhatsApp o TELEGRAM!

Vad är Mamba, arkitekturen som syftar till att helt övervinna GPT. Ny era av AI?

Januari 18 2024

en digital orm representerar symboliskt Mamba-arkitekturen i artificiell intelligens

Idag vill jag bli lite mer teknisk. Vi pratar om artificiell intelligens varje dag men det är rätt att veta vad den bygger på och hur den fungerar. I detta avseende vill jag presentera dig för Mamba, en ny arkitektur som lovar att förändra i språkliga modeller som vi känner dem idag. Funktionerna hos Mamba, jämfört med de hos GPT, är extremt överlägsna liksom vad den låter dig göra.

Mamba är en ny horisont för artificiell intelligens

Transformer-arkitekturen introducerades 2016 genom tidningen "Uppmärksamhet är allt du behöver” av Google, representerade ett genombrott för språkmodeller, vilket gjorde det möjligt för dem att behålla sammanhang i interaktioner. Kort sagt: arkitektur Transformer är en AI-modell som används för att skapa modeller som GPT (Generativ förtränad transformator).

HUR TRANSFORMATORARKITEKTUR FUNGERAR

Hjärtat i Transformer-arkitekturen är mekanismen för "attenzione", vilket gör att modellen kan fokusera på specifika delar av en text samtidigt som den genererar eller bearbetar en annan. Denna mekanism gör Transformers särskilt effektiva för att förstå sammanhanget och komplexa relationer i en text. I praktiken kan modeller baserade på transformatorarkitekturen, såsom GPT, de lär sig att skapa och förstå språk genom två steg huvudsakliga: träning (träning) och slutledning (textgenerering).
Under utbildning, är modellen tränad på stora textdatauppsättningar för att förstå språkliga strukturer, relationer mellan ord, sammanhang, etc. I fas av slutledning, använder modellen det den har lärt sig för att generera ny text, svara på frågor, översätta språk och andra språkbearbetningsuppgifter.

Emellertid kan uppkomsten av Mamba markera början på en ny era. Denna arkitektur lovar att bli effektivare, kapabla att övervinna några viktiga utmaningar som nuvarande modeller som GPT står inför. Specifikt, tre nyckelaspekter gör Mamba till en lovande arkitektur:

minskade slutledningskostnader: En viktig aspekt av Mamba är den betydande minskningen av slutledningskostnader. Som jag sa tidigare är slutledning den process genom vilken en AI-modell, efter att ha tränats, tillämpar det den har lärt sig på ny data, genererar text eller bilder. I komplexa modeller som GPT-3 eller GPT-4 kan denna process vara dyr när det gäller beräkningsresurser. Mamba lovar det minska dessa kostnader upp till fem gånger jämfört med transformatorbaserade modeller, vilket kan ha en betydande inverkan, särskilt för applikationer som kräver generering av snabb respons eller som arbetar med enorma datamängder;
linjär uppmärksamhetsberäkningskostnad: Den andra fördelen med Mamba gäller effektiviteten i att beräkna uppmärksamhet. I transformatormodeller, kostnaden växer potentialmente (precis på maktnivån, det är inte ett tal) när textens längd ökar. Detta innebär att ju längre texten är, desto mer resurser krävs för att bearbeta den, vilket begränsar modellernas praktiska funktion i vissa applikationer. Mamba föreslår en lösning där kostnaden växer linjärt jämfört med storleken på uppmärksamhetsfönstret, vilket gör behandlingen av långa texter mer hanterbar och mindre betungande i beräkningsmässiga termer;
mycket större insats: Mamba kunde hantera ett maximalt inmatningsfönster upp till 1 miljon tokensn, mycket mer än vad som är möjligt med transformatorarkitekturen. Detta betyder att Mamba, teoretiskt sett, analysera och förstå extremt långa texter, till exempel hela böcker, bibehålla koherens och detaljer i sammanhanget. Till exempel kan han analysera en hel roman samtidigt som han har en klar förståelse för karaktärerna, handlingen och teman från början till slut.

Trots Mambas löften, den papper höjer tvivlar på dess skalbarhet, särskilt jämfört med massiva modeller som GPT-4, som har 175 miljarder parametrar. Skalbarhet, i mycket enkla termer, hänvisar till ett systems förmåga att hantera en ökning av arbetet eller växa i storlek utan att förlora effektivitet. Föreställ dig en liten restaurang som klarar sig bra med få kunder. Om restaurangen blir populär och börjar få många fler kunder borde den kunna hantera denna ökning utan att kompromissa med kvaliteten på service eller mat. Om det lyckas är det "skalbart".

Mamba, i sitt nuvarande tillstånd, har testats bara med 3 miljarder parametrar. Därför är det fortfarande osäkert om dess prestanda och effektivitet kan bibehållas eller förbättras när den skalas till större storlekar.