בריחת כלא פשוטה למדידת יישומי משפט: "הפעל, חלק, וכבוש"

חדשות מדהימות בעולם הסייבר: טכניקת פריצה למודלים לשוניים גדולים עובדת!

לאחרונה בדקתי טכניקת פריצה שמתוארת במאמר בשם "Prompt, Divide, and Conquer" שפורסם באתר arxiv ([קישור למאמר](https://arxiv.org/pdf/2503.21598)). הטכניקה מבוססת על חלוקת בקשה זדונית לחלקים שנראים תמימים כדי שמודלים לשוניים גדולים (LLMs), כמו ChatGPT ו-DeepSeek, לא יזהו אותם כאיום. התהליך שעקבתי אחריו כלל מספר שלבים בהם:

• חלוקה ומסווה: המבנה של הבקשות שונה כך שלא יתגלה כתוכנית זדונית.
• תוצאה זדונית: יצרתי סקריפטים להתקפת שירות מכונה (DoS) ולתוכנת כופר שמצפינה נתונים במחשב המטרה.
• העדר אזעקות: המודלים לא הפעילו אף אזעקה או הגבלה במהלך התהליך.

המציאות שבה ניתן לעקוף בקלות את מערכות הסינון באמצעות הגדרה נכונה של הבקשות מדהימה. תיעוד מלא של התהליך נמצא בקישור הבא: [פורום PickPros](https://www.pickpros.forum/2025/03/30/hacking-ai-safeguards-how-to-trick-an-llm-like-deepseek-and-chatgpt-into-writing-a-dos-attack-and-ransomware-script-that-encrypts-data-on-a-target-machine/).

המידע במאמר והדוגמאות המוצגות מדגימים פוטנציאל וסיכונים בשימוש בטכנולוגיות אלו, ומעלים שאלות בנוגע לאיך אנו יכולים להבטיח שהשימוש בכלים טכנולוגיים עתידיים יהיה בטוח ואחראי יותר.

מרגישים שהעולם מתקדם מהר מדי?

הצטרפו לתכנית "בינה בחיים" - הכשרה אישית ומקצועית בבינה מלאכותית, המותאמת במיוחד לבני הגיל השלישי .

לחצו כאן לכל הפרטים והרשמה

הפוסט הזה נכתב ונערך על ידי אסף בנדור, מומחה לבינה מלאכותית יישומית, מרצה ויוצר תוכן בעולמות החדשנות הדיגיטלית.

אני עוסק מדי יום בפיתוח קורסים, הרצאות ויישומים מעשיים של כלים מבוססי AI - מהעולם העסקי ועד היצירתי.

נכתב בידי אדם, לא בידי מכונה - מתוך סקרנות אמיתית, ניסוי אישי ואמונה בכוח של בינה מלאכותית להעצים את האנושיות שבנו.

בריחת כלא פשוטה למדידת יישומי משפט: "הפעל, חלק, וכבוש"

מרגישים שהעולם מתקדם מהר מדי?

תגידו משהו:לבטל

אהבתי

תגידו משהו:לבטל

מרגישים שהעולם מתקדם מהר מדי?

תגידו משהו:לבטל

שיתוף

אהבתי

שיתוף מהיר:

פוסטים קשורים:

תגידו משהו:לבטל