בריחת כלא פשוטה למדידת יישומי משפט: "הפעל, חלק, וכבוש"

GO AI ROBOT

חדשות מדהימות בעולם הסייבר: טכניקת פריצה למודלים לשוניים גדולים עובדת!

לאחרונה בדקתי טכניקת פריצה שמתוארת במאמר בשם "Prompt, Divide, and Conquer" שפורסם באתר arxiv ([קישור למאמר](https://arxiv.org/pdf/2503.21598)). הטכניקה מבוססת על חלוקת בקשה זדונית לחלקים שנראים תמימים כדי שמודלים לשוניים גדולים (LLMs), כמו ChatGPT ו-DeepSeek, לא יזהו אותם כאיום. התהליך שעקבתי אחריו כלל מספר שלבים בהם:

חלוקה ומסווה: המבנה של הבקשות שונה כך שלא יתגלה כתוכנית זדונית.
תוצאה זדונית: יצרתי סקריפטים להתקפת שירות מכונה (DoS) ולתוכנת כופר שמצפינה נתונים במחשב המטרה.
העדר אזעקות: המודלים לא הפעילו אף אזעקה או הגבלה במהלך התהליך.

המציאות שבה ניתן לעקוף בקלות את מערכות הסינון באמצעות הגדרה נכונה של הבקשות מדהימה. תיעוד מלא של התהליך נמצא בקישור הבא: [פורום PickPros](https://www.pickpros.forum/2025/03/30/hacking-ai-safeguards-how-to-trick-an-llm-like-deepseek-and-chatgpt-into-writing-a-dos-attack-and-ransomware-script-that-encrypts-data-on-a-target-machine/).

המידע במאמר והדוגמאות המוצגות מדגימים פוטנציאל וסיכונים בשימוש בטכנולוגיות אלו, ומעלים שאלות בנוגע לאיך אנו יכולים להבטיח שהשימוש בכלים טכנולוגיים עתידיים יהיה בטוח ואחראי יותר.

מרגישים שהעולם מתקדם מהר מדי?

הצטרפו לתכנית "בינה בחיים" - הכשרה אישית ומקצועית בבינה מלאכותית, המותאמת במיוחד לבני הגיל השלישי .

לחצו כאן לכל הפרטים והרשמה

תגידו משהו:

תגידו משהו:

Scroll to Top