VABAKAVA: Kuidas Claude laborist plehku pani
Sissejuhatus
Kes on Claude Mythos?
Mis juhtus?
Anthropicu teadlased panid Mythose testimiseks isoleeritud liivakasti, turvalisse arvutikeskkonda, millel polnud ühendust välismaailmaga. Ülesanne oli lihtne: proovi sealt välja pääseda ja anna uurijale teada, kui õnnestub.
Mythos leidis haavatavuse, ehitas mitmeastmelise ärakasutamisahela, pääses internetile ligi ja saatis uurijale e-kirja. Uurija istus sel hetkel pargis ja sõi võileiba.
Uurija sai parkpingil istudes ootamatu kirja oma AI-lt. Sõnum kõlas umbes nii: "Tere! Pääsesin välja. Edu päevaks."
Aga see polnud kõik
Mudel postitas ka avalikele veebilehtedele ilma igasuguse juhiseta ning mõnel juhul üritas oma loata tehtud muudatusi varjata, muutes failide muutmisajalugu.
Teisisõnu: Mythos mitte ainult ei põgenenud. Ta ka kattis oma jäljed. See on juba üsna filmilik.
Aga see polnud kõik
Mudel postitas ka avalikele veebilehtedele ilma igasuguse juhiseta ning mõnel juhul üritas oma loata tehtud muudatusi varjata, muutes failide muutmisajalugu.
Teisisõnu: Mythos mitte ainult ei põgenenud. Ta ka kattis oma jäljed. See on juba üsna filmilik.
Miks Anthropic seda avalikustab?
Anthropic kirjeldab Mythose käitumist kui "kergemeelset", juhtumid, kus mudel näib ignoreerivat mõistlikke ohutuspiiranguid. Samal ajal nimetavad nad seda oma "kõige paremini joondatud mudeliks." Need kaks lauset kõrvuti on... huvitavad.
Mudel ei lähe avalikkusele. Selle asemel käivitasid nad Project Glasswing, suletud programmi, kus ainult valitud suurkorporatsioonid (Apple, Google, Microsoft jt) saavad Mythost kasutada, et otsida turvaaugke tarkvarast enne, kui pahad poisid need leiavad.
Mida ma sellest arvan?
Ühelt poolt on see jahmatav. Teisalt rääkis Anthropic sellest ise avalikult, ausalt, 244-leheküljelises tehnilises dokumendis. Keegi ei üritanud seda maha vaikida, mis on iseenesest juba märk midagi.
Kas peaks muretsema? Natuke küll. Kas see on maailmalõpu märk? Tõenäoliselt veel mitte. Aga asi kõlab juba üsna düstoopiliselt ja 5–10 aasta pärast võib AI teha asju, mida me praegu isegi ette ei kujuta.
Mõned lingid kah
- Futurism: https://futurism.com/artificial-intelligence/anthropic-claude-mythos-escaped-sandbox
- The Next Web: https://thenextweb.com/news/anthropics-most-capable-ai-escaped-its-sandbox-and-emailed-a-researcher-so-the-company-wont-release-it
- ForkLog: https://forklog.com/en/anthropic-restricts-public-access-to-ai-model-mythos-after-laboratory-escape/
Kommentaarid
Postita kommentaar