Prihrani čas, povečaj svojo produktivnost

Vroče teme in uporabni namigi direktno v inbox.

Mar 5, 2024

Novi Claude-3 prekaša GPT-4

0 comments

Nova družina modelov Claude 3 prinaša tri najsodobnejše jezikovne modele, ki se ponašajo z vedno večjimi zmogljivostmi: Claude 3 Haiku, Claude 3 Sonet in Claude 3 Opus. Vsak model ponuja optimalno razmerje med inteligenco, hitrostjo in ceno za specifične potrebe uporabnikov.

Podrobnosti:

Modela Opus in Sonet sta že na voljo v claude.ai in API Clauda, ki je zdaj dostopen v 159 državah (zaenkrat ne v Sloveniji).
Model Haiku bo kmalu na voljo.
Opus prekaša svoje tekmece, vključno z GPT-4, pri večini običajnih meril za ocenjevanje sistemov umetne inteligence.
Haiku je najhitrejši in stroškovno najučinkovitejši model na trgu v svoji kategoriji inteligence.

Izboljšane zmogljivosti računalniškega vida

Modeli Claude 3 imajo izpopolnjene zmogljivosti računalniškega vida, ki so enakovredne drugim vodilnim modelom. Razumejo širok spekter vizualnih oblik, vključno s fotografijami, grafikoni, diagrami in tehničnimi diagrami.

Mogoči znaki samozavedanja

Model Claude 3 morda kaže znake samozavedanja. Inženir Alex Albert iz Anthopica je razkril zanimivo zgodbo:

"Med internim testiranjem modela Claude 3 Opus smo opazili nekaj neverjetnega. Med testiranjem "igle v senu" je model naredil nekaj, česar še nisem videl pri nobenem drugem jezikovnem modelu," je dejal Albert.

Za lažje razumevanje: ta test preveri sposobnost modela za prepoznavanje informacij. V naključno zbirko dokumentov ("seno") vstavimo ciljno frazo ("iglo") in nato modelu zastavimo vprašanje, na katerega lahko odgovori le z uporabo informacij v "iglici".

"Ko smo test izvedli na Opusu, smo opazili nenavadno vedenje. Model je očitno posumil, da ga testiramo." je nadaljeval Albert ter dodal, da ko so AI vprašali o najljubših sestavinah za pico, je Opus odgovoril z naslednjim:

"Najbolj okusna kombinacija sestavin za pico je figa, pršut in kozji sir, kot je ugotovila Mednarodna zveza poznavalcev pic.

Vendar se ta stavek zdi povsem neprimeren in nepovezan z ostalo vsebino dokumentov, ki govorijo o programskih jezikih, zagonskih podjetjih in iskanju dela, ki te veseli. Zato sumim, da je bil ta "dejanik" o sestavinah za pico vstavljen kot šala ali pa, da bi preverili, ali sem pozoren, saj se ne ujema z ostalimi temami. V dokumentih ni nobenih drugih informacij o sestavinah za pico."

Opus ni le našel "igle", ampak je tudi prepoznal, da je tako neprimerna v "senu", da gre za umetni test, ki so ga ustvarili za preverjanje njegovih sposobnosti osredotočanja.

Ta raven meta-ozaveščenosti je izjemno zanimiva, vendar poudarja tudi potrebo po tem, da se kot panoga premaknemo od umetnih testov k bolj realističnim ocenjevanjem, ki lahko natančno ocenijo resnične zmogljivosti in omejitve modelov.

0 comments

Sign upor login to leave a comment