Tekoälyhalusinaatiot muodostavat uuden uhan ohjelmiston toimitusketjulle

Jäykkyttävässä uudessa kehityksessä kehittäjille ja organisaatioille, jotka luottavat tekoälyyn koodauksessa, tutkijat ovat paljastaneet uuden toimitusketjuuhan, jonka syntyvät tekoälyharhot koodintuotantomalleissa. Tämä nouseva hyökkäysvektori, jota kutsutaan slopsquattingiksi , voi antaa haitallisten toimijoiden tunkeutua ohjelmistoekosysteemeihin hyödyntämällä kuvitteellisia paketteja, joita Large Language Models (LLM) hallusinoi.
Vaara piilee siinä tosiasiassa, että LLM:t usein "hallusinoivat" paketteja – ehdottavat tai lisäävät viittauksia ohjelmistoriippuvuuksiin, joita yksinkertaisesti ei ole olemassa. San Antonion Texasin yliopiston, Oklahoman yliopiston ja Virginia Techin yhdessä tekemässä tutkimuksessa havaittiin, että yksikään testatuista 16 suositusta LLM:stä ei ollut immuuni tälle ilmiölle.
Sisällysluettelo
Mitä Slopsquatting on ja miten se toimii?
Slopsquatting ottaa tämän hallusinaatiovirheen ja muuttaa sen aseeksi. Kun LLM ehdottaa olematonta pakettia koodin luomisen aikana, kyberrikolliset voivat nopeasti rekisteröidä haitallisen paketin tällä nimellä. Julkaisemisen jälkeen jokainen kehittäjä, joka hyväksyy tekoälyn luoman koodin nimellisarvolla, voi tietämättään tuoda ja suorittaa haitallisen paketin. Tämä ei ainoastaan vaaranna yksittäistä projektia, vaan se voi myös levitä koko ohjelmiston toimitusketjussa, jos tartunnan saanutta koodia käytetään uudelleen tai jaetaan.
Tutkimuksessa havaittiin, että 2,23 miljoonasta Python- ja JavaScript-testiskenaarioissa luodusta paketista lähes 440 000 eli noin 19,7 % oli hallusinoituja. Näistä huikeat 205 474 oli ainutlaatuisia kuvitteellisia paketin nimiä. Useimmat hallusinoidut paketit – 81 % – olivat ainutlaatuisia ne luoneelle mallille, mikä viittaa epäjohdonmukaiseen käyttäytymiseen eri LLM:issä.
Kaupalliset tekoälymallit aiheuttivat hallusinaatioita paketteja vähintään 5,2 prosentissa tapauksista, kun taas avoimen lähdekoodin mallit menestyivät huomattavasti huonommin hallusinaatioiden ollessa 21,7 prosenttia. Hälyttävästi nämä virheet eivät olleet vain yksittäisiä sattumia. Yli puolet hallusinoituneista paketeista (58 %) ilmestyi toistuvasti vain 10 iteraatiossa, mikä osoittaa selkeää taipumusta pysymiseen.
Tekoälyn luoman koodin kasvava riski ohjelmistokehityksessä
Vaikka aikaisemmat tutkimukset ovat tunnustaneet kirjoitusvirheen uhan – jossa hyökkääjät käyttävät väärin kirjoitettuja tai harhaanjohtavia pakettinimiä – tämä uusi squatting-hyökkäys edustaa huomiotta jätettyä ja mahdollisesti paljon vaarallisempaa varianttia. Toisin kuin typosquatting, joka saalistaa inhimillisiä virheitä, slopsquatting hyödyntää tekoälyn luoman koodin koettua auktoriteettia ja luotettavuutta.
Ehkä kiehtovin – ja yhtä huolestuttava – tutkijat havaitsivat, että LLM:t pystyivät tunnistamaan monia omia hallusinaatioitaan. Tämä viittaa hyödyntämättömään itsesääntelypotentiaaliin, jota voitaisiin käyttää tulevissa turvallisuusmekanismeissa. Se vihjaa myös mahdollisuuteen ottaa käyttöön mallin sisäisiä tunnistustyökaluja viallisen tai vaarallisen koodin leviämisen estämiseksi.
Kuinka kehittäjät voivat suojautua tekoälypaketin hallusinaatioilta
Uhan torjumiseksi tutkijat ehdottavat erilaisia lievennyskeinoja. Näitä ovat kehittyneet nopeat suunnittelutekniikat, kuten Retrieval Augmented Generation (RAG), pikaviritys ja itsetarkistus. Mallin kehittämisen puolella strategiat, kuten valvottu hienosäätö ja parannetut dekoodausalgoritmit, voivat auttaa vähentämään hallusinaatioiden määrää.
Kun generatiivinen tekoäly muuttaa edelleen ohjelmistokehitystä, tämä tutkimus on jyrkkä muistutus siitä, että mukavuudesta voi tulla hintaa. Kehittäjien on pysyttävä valppaina ja kriittisesti tekoälyn luoman koodin suhteen, etenkin riippuvuuden hallinnassa. Staattisten analyysityökalujen ja manuaalisten tarkistusten integrointi ennen suositeltujen pakettien asentamista on nyt tärkeämpää kuin koskaan.
Uhkamaisema kehittyy nopeasti, ja kuten tämä tutkimus osoittaa, myös puolustuksemme on kehittymässä. Aiemmin tieteiskirjallisuudesta tuntunut – tekoäly kuvittelee ohjelmistoja, joita ei ole olemassa – on tullut hyvin todellinen kyberturvallisuusongelma, jolla on laajakantoisia seurauksia.