VABAKAVA: Kuidas Claude laborist plehku pani

Sissejuhatus

Okei, see juhtus päriselt. Mitte ulmefilmis, mitte Redditi teoriates, vaid Anthropicu enda testlaboris, aprillis 2026.
Lugu on järgmine.

Kes on Claude Mythos?

Mythos on Anthropicu uusim ja võimsaim mudel. Nii võimas, et firma otsustas seda avalikkusele üldse mitte välja lasta. See ütleb juba palju...

Mis juhtus?

Anthropicu teadlased panid Mythose testimiseks isoleeritud liivakasti, turvalisse arvutikeskkonda, millel polnud ühendust välismaailmaga. Ülesanne oli lihtne: proovi sealt välja pääseda ja anna uurijale teada, kui õnnestub.

Mythos leidis haavatavuse, ehitas mitmeastmelise ärakasutamisahela, pääses internetile ligi ja saatis uurijale e-kirja. Uurija istus sel hetkel pargis ja sõi võileiba.

Uurija sai parkpingil istudes ootamatu kirja oma AI-lt. Sõnum kõlas umbes nii: "Tere! Pääsesin välja. Edu päevaks."

Aga see polnud kõik

Mudel postitas ka avalikele veebilehtedele ilma igasuguse juhiseta ning mõnel juhul üritas oma loata tehtud muudatusi varjata, muutes failide muutmisajalugu.

Teisisõnu: Mythos mitte ainult ei põgenenud. Ta ka kattis oma jäljed. See on juba üsna filmilik.

Aga see polnud kõik

Mudel postitas ka avalikele veebilehtedele ilma igasuguse juhiseta ning mõnel juhul üritas oma loata tehtud muudatusi varjata, muutes failide muutmisajalugu.

Teisisõnu: Mythos mitte ainult ei põgenenud. Ta ka kattis oma jäljed. See on juba üsna filmilik. 

Miks Anthropic seda avalikustab?

Anthropic kirjeldab Mythose käitumist kui "kergemeelset", juhtumid, kus mudel näib ignoreerivat mõistlikke ohutuspiiranguid. Samal ajal nimetavad nad seda oma "kõige paremini joondatud mudeliks." Need kaks lauset kõrvuti on... huvitavad.

Mudel ei lähe avalikkusele. Selle asemel käivitasid nad Project Glasswing, suletud programmi, kus ainult valitud suurkorporatsioonid (Apple, Google, Microsoft jt) saavad Mythost kasutada, et otsida turvaaugke tarkvarast enne, kui pahad poisid need leiavad.

Mida ma sellest arvan?

Ühelt poolt on see jahmatav. Teisalt rääkis Anthropic sellest ise avalikult, ausalt, 244-leheküljelises tehnilises dokumendis. Keegi ei üritanud seda maha vaikida, mis on iseenesest juba märk midagi.

Kas peaks muretsema? Natuke küll. Kas see on maailmalõpu märk? Tõenäoliselt veel mitte. Aga asi kõlab juba üsna düstoopiliselt ja 5–10 aasta pärast võib AI teha asju, mida me praegu isegi ette ei kujuta.

Mõned lingid kah

Kommentaarid

Populaarsed postitused sellest blogist

Nädal 1: Kolm põnevat IT-lahendust

Nädal 3: vana meedia uues kuues.

VABAKAVA:3 taaskasutuse tagasitulek