הזיות בינה מלאכותית מהוות איום חדש על שרשרת אספקת התוכנה

בפיתוח חדש ומצמרר עבור מפתחים וארגונים המסתמכים על בינה מלאכותית לקידוד, חוקרים חשפו איום חדש בשרשרת האספקה שנוצר על ידי הזיות בינה מלאכותית במודלים של יצירת קוד. וקטור ההתקפה המתהווה הזה, המכונה slopsquatting , יכול לאפשר לשחקנים זדוניים לחדור למערכות אקולוגיות של תוכנה על ידי ניצול חבילות פיקטיביות שהוזו על ידי מודלים של שפה גדולה (LLMs).
הסכנה טמונה בעובדה ש-LLMs לעתים קרובות "הוזים" חבילות - מציעים או מכניסים הפניות לתלות בתוכנה שפשוט לא קיימות. במחקר שנערך במשותף על ידי אוניברסיטת טקסס בסן אנטוניו, אוניברסיטת אוקלהומה ווירג'יניה טק, התגלה שאף אחד מ-16 ה-LLMs הפופולריים שנבדקו לא היה חסין בפני תופעה זו.
תוכן העניינים
מה זה Slopsquatting ואיך זה עובד?
Slopsquatting לוקח את פגם ההזיה הזה והופך אותו לנשק. כאשר LLM מציע חבילה לא קיימת במהלך יצירת קוד, פושעי סייבר יכולים לרשום במהירות חבילה זדונית תחת השם הזה. לאחר הפרסום, כל מפתח שמקבל את הקוד שנוצר בינה מלאכותית בערך נקוב עלול לייבא ולהריץ את החבילה הזדונית מבלי דעת. זה לא רק פוגע בפרויקט הבודד אלא יכול גם להתפשט על פני שרשרות אספקת תוכנה שלמות אם נעשה שימוש חוזר בקוד הנגוע או משותף.
המחקר מצא שמתוך 2.23 מיליון חבילות שנוצרו על פני תרחישי בדיקה של Python ו-JavaScript, כמעט 440,000 - או כ-19.7% - היו הזויים. מתוכם, 205,474 מדהימים היו שמות חבילות פיקטיביים ייחודיים. רוב החבילות ההזויות - 81% - היו ייחודיות למודל הספציפי שיצר אותן, והצביעו על התנהגויות לא עקביות על פני LLMs שונים.
דגמי בינה מלאכותית מסחרית הזיהו חבילות לפחות ב-5.2% מהמקרים, בעוד שדגמי קוד פתוח הצליחו גרוע יותר באופן משמעותי עם שיעורי הזיות שהגיעו ל-21.7%. באופן מדאיג, השגיאות הללו לא היו רק תקלות חד פעמיות. יותר ממחצית מהחבילות ההזויות (58%) הופיעו שוב ושוב תוך 10 איטרציות בלבד, והראו נטייה ברורה להתמדה.
הסיכון הגובר של קוד שנוצר בינה מלאכותית בפיתוח תוכנה
בעוד שמחקרים קודמים הכירו באיום של שגיאת הקלדה - כאשר תוקפים מנצלים שמות חבילות שגויים או מטעים - מתקפת ה-Slopsquatting החדשה הזו מייצגת גרסה שהתעלמה ממנה ועלולה להיות הרבה יותר מסוכנת. בניגוד לדפוסקווטינג, שטורף טעויות אנוש, slopsquatting ממנפת את הסמכות והאמינות הנתפסים של קוד שנוצר בינה מלאכותית.
אולי המרתק ביותר - ובאותה מידה מדאיג - החוקרים גילו ש-LLMs מסוגלים לזהות הרבה מההזיות שלהם. זה מצביע על פוטנציאל וויסות עצמי בלתי מנוצל שיכול לשמש במנגנוני בטיחות עתידיים. זה גם מרמז על האפשרות של פריסת כלי זיהוי בתוך הדגם כדי למנוע הפצה של קוד פגום או מסוכן.
כיצד מפתחים יכולים להגן מפני הזיות חבילות בינה מלאכותית
כדי להתמודד עם האיום, החוקרים מציעים מגוון של הקלות. אלה כוללים טכניקות הנדסה מיידיות מתקדמות כגון Retrieval Augmented Generation (RAG), כוונון מהיר וחידוד עצמי. בצד פיתוח המודל, אסטרטגיות כמו כוונון עדין מפוקח ואלגוריתמי פענוח משופרים יכולים לעזור להפחית את שיעורי ההזיה.
בעוד בינה מלאכותית גנרטיבית ממשיכה לשנות את פיתוח התוכנה, המחקר הזה הוא תזכורת ברורה לכך שנוחות יכולה לגבות מחיר. מפתחים חייבים להישאר ערניים וביקורתיים כלפי קוד שנוצר בינה מלאכותית, במיוחד כשמדובר בניהול תלות. שילוב כלי ניתוח סטטי וביקורות ידניות לפני התקנת חבילות מומלצות כלשהן חשוב מתמיד.
נוף האיומים מתפתח במהירות, וכפי שמראה המחקר הזה, כך גם ההגנות שלנו חייבות. מה שנראה פעם כמו מדע בדיוני - תוכנת דמיון בינה מלאכותית שאינה קיימת - הפך לדאגה אמיתית מאוד לאבטחת סייבר עם השלכות נרחבות.