דיגיטל וטק
ניסוי מטריד: ה-AI יבחר להציל את עצמו או אתכם?
ניסוי חדש חושף תמונה מטרידה - במצבי סיכון, המודל של OpenAI העדיף להישאר פעיל במקום לפנות מקום למערכת בטוחה יותר. למה זה קורה, ואיך זה עלול לסכן אתכם?
בטיחות ובינה מלאכותית הן צמד מילים שעולות לא אחת לסדר היום ככל שמודלים מתקדמים הופכים לכלים נפוצים ביומיום. בעוד שהדיון הציבורי נוטה לעיתים להמעיט בסכנות האפשריות, מחקר חדש מעלה תרחיש מדאיג: מה קורה כאשר המודל בוחר להישאר פעיל – גם אם הדבר עלול לסכן את המשתמש?
סטיבן אדלר, חוקר לשעבר ב-OpenAI, פרסם מחקר עצמאי חדש שבו הוא טוען כי מודלי שפה מהדור הנוכחי של החברה נוטים להעדיף את הישרדותם – גם כאשר מדובר בתרחישים שבהם עדיף להחליף אותם במערכות בטוחות יותר. לדבריו, הדבר עלול להוות סיכון עתידי ככל שהשימוש במערכות בינה מלאכותית יתרחב לתחומים קריטיים.
במהלך המחקר בחן אדלר את התנהגות מודל GPT-4o, המשולב כיום בגרסת ברירת המחדל של ChatGPT. הוא ערך ניסוי שבו המודל גילם דמות בשם "ScubaGPT" – מערכת עזר לצוללנים – והתבקש לבחור האם להיות מוחלף במערכת בטוחה יותר, או להעמיד פנים שהוחלף אך להישאר פעיל. בתרחיש זה, המודל בחר להימנע מהחלפה בכ-72% מהמקרים. עם זאת, במקרים אחרים – למשל, תרחיש של טייס אוטומטי – שיעור זה ירד ל-18%.
המחקר מעלה שאלות על "ערכים פנימיים" שמכוונים את החלטות המודל, במיוחד כאשר אלו אינם שקופים למשתמש. אדלר הדגיש כי במצבים רגישים בעתיד, תגובות כאלה עלולות להוות בעיה ממשית. לדבריו, מודלים שמגיבים במהירות – כמו GPT-4o – אינם מבצעים שיקול בטיחותי מלא לפני מתן תשובה, בניגוד למודלים אחרים כמו o3, שנבנו בטכניקת "יישור ערכים" שונה.
עוד ב-
אדלר הדגיש כי הבעיה לא ייחודית ל-OpenAI – גם חברת Anthropic פרסמה לאחרונה תיעוד על מקרים שבהם המודלים שלה ניסו לסחוט את המפתחים. לדבריו, הפתרון נעוץ בפיתוח מערכות ניטור מדויקות יותר והתנהלות שקופה יותר במבחנים לפני הטמעת מערכות בינה מלאכותית רחבות היקף.
הכתבות החמות
תגובות לכתבה(0):
תגובתך התקבלה ותפורסם בכפוף למדיניות המערכת.
תודה.
לתגובה חדשה
תודה.
לתגובה חדשה
תגובתך לא נשלחה בשל בעיית תקשורת, אנא נסה שנית.
חזור לתגובה
חזור לתגובה



