Elon Musk, pronari i kompanisë xAI, ka deklaruar se burimet e të dhënave reale për trajnimin e modeleve të inteligjencës artificiale (AI) janë pothuajse të shteruara. Në një bisedë të transmetuar drejtpërdrejt me kryetarin e Stagwell, Mark Penn, të mërkurën mbrëma në platformën X, Musk tha: “Kemi shteruar praktikisht totalin e njohurive njerëzore… për trajnimin e AI. Kjo ndodhi vitin e kaluar.”
Të Dhënat Sintetike: E Ardhmja e AI
Musk sugjeroi se e vetmja mënyrë për të kompensuar mungesën e të dhënave reale është përdorimi i të dhënave sintetike, të krijuara nga vetë modelet e AI. “Me të dhënat sintetike, AI mund të vlerësojë dhe të mësojë nga vetja,” theksoi ai. Kjo qasje reflekton parashikimet e Ilya Sutskever, ish-shkencëtar kryesor në OpenAI, i cili gjatë një konference të NeurIPS në dhjetor, foli për “kulmin e të dhënave” dhe ndryshimet që do të pasojnë në mënyrën e zhvillimit të modeleve AI.
Gjigantët Teknologjikë në Përdorimin e të Dhënave Sintetike
Kompani si Microsoft, Meta, OpenAI dhe Anthropic tashmë përdorin të dhëna sintetike për të trajnuar modelet e tyre kryesore. Gartner parashikon se deri në vitin 2024, 60% e të dhënave të përdorura për projekte të AI dhe analitikë do të jenë të gjeneruara në mënyrë sintetike.
Për shembull, modeli Phi-4 i Microsoft, i hapur për publikun këtë javë, është trajnuar duke kombinuar të dhëna reale dhe sintetike. Modelet e Google, si Gemma, dhe Claude 3.5 Sonnet i Anthropic gjithashtu përfitojnë nga të dhënat sintetike. Po ashtu, Meta ka përmirësuar serinë e saj më të fundit të modeleve Llama duke përdorur të dhëna të gjeneruara nga AI.
Kostot e Reduktuara dhe Sfidat e Reja
Një nga avantazhet kryesore të përdorimit të të dhënave sintetike është kursimi i kostove. Për shembull, startup-i Writer ka raportuar se zhvillimi i modelit të tij Palmyra X 004 me të dhëna sintetike ka kushtuar rreth 660,000 €, krahasuar me 4.3 milionë € për një model të ngjashëm të OpenAI.
Megjithatë, të dhënat sintetike kanë edhe disavantazhe. Studiuesit paralajmërojnë për rrezikun e “kolapsit të modelit,” ku modelet bëhen më pak krijuese dhe më të njëanshme në rezultatet e tyre. Nëse të dhënat sintetike që përdoren për trajnimin e AI kanë gabime ose paragjykime, këto mangësi do të reflektohen në prodhimet e modeleve.
Përmbledhje
- Elon Musk pohon se burimet e të dhënave reale për trajnimin e AI janë shteruar.
- Të dhënat sintetike po përdoren gjithnjë e më shumë nga kompanitë kryesore teknologjike.
- Ndërsa kursen kosto, përdorimi i të dhënave sintetike sjell edhe sfida, si rritja e paragjykimeve në modele.
Hashtag-e
#InteligjencaArtificiale #AI #ElonMusk #TeDhenaSintetike #Teknologjia