Är du intresserad av dem ERBJUDANDEN? Spara med våra kuponger på WhatsApp o TELEGRAM!

Det finns ett stort problem som håller tillbaka träningen av neurala nätverk

2 April 2024

I den dynamiska världen avintelligens artificiell, ledande teknikföretag står inför en oväntad utmaning som kan bromsa innovationstakten: den växande svårt att hitta data av kvalitet för att träna sina modeller. Denna databrist påverkar utvecklingen av avancerad teknik som t.ex GPT-5, medan företag av kalibern Microsoft och OpenAI söker innovativa lösningar för att övervinna detta hinder.

AI-träningsutmaningar: Det finns en hunger efter data och detta bromsar framstegen

I en tid präglad av en aldrig tidigare skådad ökning av datorkraft och utvecklingen av maskininlärningstekniker, står OpenAI och dess liknande inför en paradox: Överflöd av onlinedata översätts inte automatiskt till en användbar resurs för AI-träning. De behöver korrekta uppgifter, relevant och uppdaterad är viktigare än någonsin, särskilt när det gäller att träna allt mer komplexa modeller som den planerade GPT-5.

Övergången från GPT-4 till GPT-5 illustrerar denna exponentiella tillväxt i efterfrågan på data: medan den förra krävde "bara" 12 biljoner tokens, är uppskattningar för efterträdaren omkring 60-100 biljoner. Skillnaden mellan tillgängligheten och behovet av data av hög kvalitet framstår som ett betydande hinder, vilket uppskattar en brist som kan variera mellan 10 och 20 biljoner tokens.

openai logotyp på smartphone i vit bakgrund

Denna brist på kvalitetsdata leder till en verklig flaskhals för utvecklingen av AI. Den ofta föråldrade eller lågkvalitativa data som befolkar webben representerar en allvarlig gräns för effektiviteten av maskininlärning. Dessutom förvärrar begränsningarna av dataåtkomst från stora plattformar bara problemet, vilket ytterligare begränsar de tillgängliga resurserna för utbildning språkliga modeller.

Som svar på denna utmaning varierar de antagna strategierna från tekniska innovationer till strategiska partnerskap. OpenAI, till exempel, syftar till att förbättraanvänder ljud- och videodata genom dess Whispe-taligenkänningsverktygr, för att utöka poolen av tillgängliga data. Parallellt undersöker företaget möjligheten att generera syntetiska data av kvalitet som kan fylla den befintliga luckan.