Ang AI Hallucinations ay Nagdulot ng Bagong Banta sa Software Supply Chain

Sa isang nakakatakot na bagong development para sa mga developer at organisasyong umaasa sa artificial intelligence para sa coding, natuklasan ng mga mananaliksik ang isang nobelang banta sa supply chain na nilikha ng AI hallucinations sa mga modelong bumubuo ng code. Ang umuusbong na vector ng pag-atake na ito, na tinatawag na slopsquatting , ay maaaring magbigay-daan sa mga malisyosong aktor na makalusot sa mga software ecosystem sa pamamagitan ng pagsasamantala sa mga gawa-gawang pakete na na-hallucinate ng Large Language Models (LLMs).
Ang panganib ay nakasalalay sa katotohanan na ang mga LLM ay kadalasang "nagha-hallucinate" ng mga pakete—nagmumungkahi o naglalagay ng mga sanggunian sa mga dependency ng software na sadyang wala. Sa pagsasaliksik na isinagawa nang magkasama ng Unibersidad ng Texas sa San Antonio, Unibersidad ng Oklahoma, at Virginia Tech, natuklasan na wala sa 16 na sikat na LLM na sinuri ang immune sa hindi pangkaraniwang bagay na ito.
Talaan ng mga Nilalaman
Ano ang Slopsquatting at Paano Ito Gumagana?
Kinukuha ng slopsquatting ang depektong ito ng guni-guni at ginagawa itong sandata. Kapag nagmungkahi ang isang LLM ng hindi umiiral na package sa panahon ng pagbuo ng code, mabilis na makakapagrehistro ang mga cybercriminal ng nakakahamak na package sa ilalim ng pangalang iyon. Kapag na-publish na, ang sinumang developer na tumatanggap ng code na binuo ng AI sa halaga ng mukha ay maaaring hindi sinasadyang mag-import at magpatakbo ng nakakahamak na package. Hindi lamang nito ikokompromiso ang indibidwal na proyekto ngunit maaari ring magpalaganap sa buong supply chain ng software kung muling gagamitin o ibinahagi ang infected na code.
Nalaman ng pag-aaral na sa 2.23 milyong mga pakete na nabuo sa mga senaryo ng pagsubok sa Python at JavaScript, halos 440,000—o humigit-kumulang 19.7%—ay na-hallucinate. Sa mga ito, ang nakakagulat na 205,474 ay mga natatanging gawa-gawang pangalan ng package. Karamihan sa mga na-hallucinated na package—81%—ay natatangi sa partikular na modelo na bumuo sa kanila, na nagtuturo sa mga hindi tugmang gawi sa iba't ibang LLM.
Ang mga komersyal na modelo ng AI ay nagha-hallucinate ng mga pakete sa hindi bababa sa 5.2% ng mga kaso, habang ang mga open-source na modelo ay lumala nang husto sa mga rate ng hallucination na umabot sa 21.7%. Nakababahala, ang mga error na ito ay hindi lamang isang beses na mga flukes. Mahigit sa kalahati ng mga na-hallucinated na pakete (58%) ay paulit-ulit na lumitaw sa loob lamang ng 10 pag-ulit, na nagpapakita ng isang malinaw na tendensya para sa pagtitiyaga.
Ang Tumataas na Panganib ng AI-Generated Code sa Software Development
Bagama't kinilala ng mga nakaraang pag-aaral ang banta ng typosquatting—kung saan sinasamantala ng mga umaatake ang maling pag-type o mapanlinlang na mga pangalan ng package—ang bagong slopsquatting na pag-atake na ito ay kumakatawan sa isang hindi napapansin at potensyal na mas mapanganib na variant. Hindi tulad ng typosquatting, na nabiktima ng pagkakamali ng tao, ginagamit ng slopsquatting ang nakikitang awtoridad at pagiging mapagkakatiwalaan ng AI-generated code.
Marahil ang pinaka-kamangha-manghang-at pantay na may kinalaman-nalaman ng mga mananaliksik na ang mga LLM ay may kakayahang makilala ang marami sa kanilang sariling mga guni-guni. Ito ay nagmumungkahi ng hindi pa nagamit na potensyal na self-regulatory na maaaring magamit sa mga mekanismo ng kaligtasan sa hinaharap. Ipinapahiwatig din nito ang posibilidad ng pag-deploy ng mga in-modelo na tool sa pagtuklas upang maiwasan ang pamamahagi ng mali o mapanganib na code.
Paano Mapoprotektahan ng Mga Developer laban sa AI Package Hallucinations
Upang kontrahin ang banta, ang mga mananaliksik ay nagmumungkahi ng isang hanay ng mga pagpapagaan. Kabilang dito ang mga advanced na diskarte sa maagang engineering gaya ng Retrieval Augmented Generation (RAG), agarang pag-tune, at self-refinement. Sa panig ng pagbuo ng modelo, ang mga diskarte tulad ng pinangangasiwaang fine-tuning at pinahusay na mga algorithm ng pag-decode ay maaaring makatulong na mabawasan ang mga rate ng hallucination.
Habang patuloy na binabago ng generative AI ang pagbuo ng software, ang pag-aaral na ito ay isang matinding paalala na ang kaginhawaan ay maaaring may halaga. Dapat manatiling mapagbantay at kritikal ang mga developer sa code na binuo ng AI, lalo na pagdating sa pamamahala ng dependency. Ang pagsasama ng mga static na tool sa pagsusuri at mga manu-manong pagsusuri bago mag-install ng anumang inirerekomendang mga pakete ay mas mahalaga na ngayon kaysa dati.
Ang tanawin ng banta ay mabilis na umuunlad, at tulad ng ipinapakita ng pananaliksik na ito, dapat din ang ating mga depensa. Ang dating parang science fiction—AI imagining software na wala—ay naging isang tunay na pag-aalala sa cybersecurity na may malawak na epekto.