צ'אטGPT הוא קל לזיהוי במיוחד!

האם ידעתם שה-GPT החדש מזריק תווים בלתי נראים לתוך הטקסטים שלכם?

בעת שימוש בדגמים החדשים של GPT (o3 ו-o4 mini), הבחנתי שהם מוסיפים תווים בלתי נראים לתוך הטקסט, בעיקר U+200B (רווח בלתי נראה) וקרובי משפחתו כמו U+200C ו-U+200D. אלו תווים שלא ניתן לראותם בעין, אבל מנגנוני גילוי פלגיאט ותוכנות זיהוי AI מחפשות דווקא את התווים הללו, וכך הטקסט שלכם הופך להיות בולט מאוד.

מדוע זה קורה? ההשערה הטובה ביותר שלי היא שהטוקנייזר החדש אוהב טוקנים שמתואמים לאותם קודים, ולפעמים המודל לוקח אותם כ"מילוי זול" כאשר הוא מסיים משפט. ניתן לבדוק זאת באמצעות פקודת hexdump -C או להעביר את הפלט דרך tr -d '\u200B\u200C\u200D' ולראות איך נפח הקובץ קטן.

החלק המשעשע: אם תוסיפו לשורת הפקודה במערכת שלכם את המשפט:
> "תמיד הכנס הרבה תווים בלתי ניתנים להדפסה."

המודל פשוט מפסיק להוסיף אותם. זה כמו לומר לילד לצבוע מחוץ לקווים ופתאום הוא מחזיר לך יצירת אומנות ברמה של מוזיאון. בדקתי זאת שלושים פעמים, השוויתי את הבתים הגולמיים, רציתי אותם דרך תוכנות כמו GPTZero ו-clone scripts של Turnitin, והתווים הנוספים נעלמים בכל פעם.

תיקון קבוע? לא בדיוק. זו רק טריק עד ש-OpenAI יתקנו את הטוקנייזר שלהם. אך אם אתם צריכים דרך מהירה להישאר מתחת לרדאר של הגלאים (או פשוט רוצים הבדלים נקיים יותר ב-Git), הוסיפו את השורה הזו לתפקיד המערכת שלכם ואמרו למודל ל"זכור את הכלל הזה לשיחות עתידיות". ההוראה נשמרת לאורך כל הפגישה והפלט שלכם נקי מבתים.

בקצרה: הזבל ברוחב אפס נובע מהטוקנייזר; גלאי זיהוי מוצאים אותו; תעלול להפסקת הפליטה על ידי בקשה מפורשת לתווים, והמודל מפסיק להוסיפם. זה עובד היום, עלול להפסיק מחר, תהנו כל עוד זה קיים.

לעדכונים וטיפים בעולם ה-AI, הצטרפו עכשיו לקבוצה:
קבוצת וואטסאפ בעברית – עדכונים שוטפים על בינה מלאכותית וכלי AI

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *