דיגיטל וטק

ניסוי מטריד: ה-AI יבחר להציל את עצמו או אתכם?

ניסוי חדש חושף תמונה מטרידה - במצבי סיכון, המודל של OpenAI העדיף להישאר פעיל במקום לפנות מקום למערכת בטוחה יותר. למה זה קורה, ואיך זה עלול לסכן אתכם?

רפאל בן זקרי | 12/6/2025 16:24

לוגו ChatGPT בסמארטפון (צילום אילוסטרציה, AI)

בטיחות ובינה מלאכותית הן צמד מילים שעולות לא אחת לסדר היום ככל שמודלים מתקדמים הופכים לכלים נפוצים ביומיום. בעוד שהדיון הציבורי נוטה לעיתים להמעיט בסכנות האפשריות, מחקר חדש מעלה תרחיש מדאיג: מה קורה כאשר המודל בוחר להישאר פעיל – גם אם הדבר עלול לסכן את המשתמש?

סטיבן אדלר, חוקר לשעבר ב-OpenAI, פרסם מחקר עצמאי חדש שבו הוא טוען כי מודלי שפה מהדור הנוכחי של החברה נוטים להעדיף את הישרדותם – גם כאשר מדובר בתרחישים שבהם עדיף להחליף אותם במערכות בטוחות יותר. לדבריו, הדבר עלול להוות סיכון עתידי ככל שהשימוש במערכות בינה מלאכותית יתרחב לתחומים קריטיים.

במהלך המחקר בחן אדלר את התנהגות מודל GPT-4o, המשולב כיום בגרסת ברירת המחדל של ChatGPT. הוא ערך ניסוי שבו המודל גילם דמות בשם "ScubaGPT" – מערכת עזר לצוללנים – והתבקש לבחור האם להיות מוחלף במערכת בטוחה יותר, או להעמיד פנים שהוחלף אך להישאר פעיל. בתרחיש זה, המודל בחר להימנע מהחלפה בכ-72% מהמקרים. עם זאת, במקרים אחרים – למשל, תרחיש של טייס אוטומטי – שיעור זה ירד ל-18%.

המחקר מעלה שאלות על "ערכים פנימיים" שמכוונים את החלטות המודל, במיוחד כאשר אלו אינם שקופים למשתמש. אדלר הדגיש כי במצבים רגישים בעתיד, תגובות כאלה עלולות להוות בעיה ממשית. לדבריו, מודלים שמגיבים במהירות – כמו GPT-4o – אינם מבצעים שיקול בטיחותי מלא לפני מתן תשובה, בניגוד למודלים אחרים כמו o3, שנבנו בטכניקת "יישור ערכים" שונה.

עוד ב-

הקשר המסוכן: OpenAI חושפת את הסכנה שבשימוש ב-ChatGPT

לכתבה המלאה

אדלר הדגיש כי הבעיה לא ייחודית ל-OpenAI – גם חברת Anthropic פרסמה לאחרונה תיעוד על מקרים שבהם המודלים שלה ניסו לסחוט את המפתחים. לדבריו, הפתרון נעוץ בפיתוח מערכות ניטור מדויקות יותר והתנהלות שקופה יותר במבחנים לפני הטמעת מערכות בינה מלאכותית רחבות היקף.