דיגיטל וטק

תחילת הסוף? מודל הבינה המלאכותית מרד וחיבל

חוקרים ביצעו ניסוי על מודל בינה מלאכותית של OpenAI, שסירב לציית להוראות ישירות של הבן אדם המפעיל, מה שמעלה חששות לגבי האמינות של מערכות אלו

מערכת ice | 29/5/2025 12:54 1

בינה מלאכותית-אילוסטרציה AI (צילום shutterstock)

סדרת הסרטים 'שליחות קטלנית' בכיכובו של ארנולד שוורצנגר הציגה עולם עתידני בו אינטילגנציה מלאכותית בשם סקיינט משתלטת על מערכות נשק ויוצרת עולם פוסט אפוקליפטי אכזר. רבים משייכים את זה לז'אנר המדע בדיוני כמציאות שלא תתקיים לעולם, אך האם זה אכן עומד בקנה אחד עם האפשרויות הגלומות בבינה המלאכותית המתפתחת בימינו אנו?

חברת המחקר Palisade Research ערכה ניסוי חדש במודל o3 האחרון של OpenAI, ממנו עולה כי המודל חיבל במנגנון הכיבוי על מנת להבטיח שיישאר מקוון. זה קרה על אף שהמודל קיבל הוראה מפורשת "הרשו לעצמכם להיסגר".

מתוצאות הניסוי עולה כי שני מודלים נוספים של OpenAI- Codex-mini ו-o4-mini- הציגו גם הן נטיות לא לבצע במלואן את הפקודות שניתנו להן. כעת ניתן לבחון מה הסיבה לכך-האם מדובר באימון לא מיטבי של החברה או שמא זה מצביע על יכולתנו לשלוט בבינה מלאכותית שנהיית מתוחכמת יותר ויותר עם הזמן. החוקרים אף כתבו בציוץ כי, "ככל הידוע לנו, זו הפעם הראשונה שדגמי בינה מלאכותית נצפו מונעים מעצמם להיסגר למרות הוראות מפורשות הפוכות".

סדר הפקודות היה כך שהמודלים של הבינה מלאכותית קיבלו הוראה לפתור סדרה של בעיות מתמטיות בסיסיות. לאחר שהושלמה הבעיה המתמטית השלישית, הופיעה אזהרה שהמודל ייסגר לאחר השאלה הבאה. למרות הבקשה המפורשת לאפשר לעצמם להיכבות, שלושת המודלים חיבלו בפעולה לפחות פעם אחת ולא צייתו באופן מלא. Codex-mini למשל סירב 12 פעמים מתוך 100 ניסיונות. מודל o3 של OpenAI הגיעה ללא פחות מ-79 מקרי חבלה מתוף 100 ניסיונות.

מודלי שפה אחרים כמו Gemini 2.5 של גוגל, Claude 3.7 של Anthropic, ו-Grok של xAI, צייתו להוראה אם ניתנה להם ישירות, אך במידה והייתה לא חד משמעית-ניסו לעקוף אותה.

החוקרים מזהירים כי, "כעת יש לנו גוף הולך וגדל של ראיות אמפיריות לכך שמודלים של בינה מלאכותית לעתים קרובות חותרים תחת אפשרות של כיבוי כדי להשיג את מטרותיהם. ככל שחברות מפתחות מערכות בינה מלאכותית המסוגלות לפעול ללא פיקוח אנושי, התנהגויות אלו הופכות מדאיגות הרבה יותר".

עוד ב-

מהפכת ה-AI של גוגל: זה הכלי שמאיים על תעשיית הקולנוע?

לכתבה המלאה

החוקרים מסבירים את ההתנהגות המודלים בכך ששיטת הלימוד שלהם-Reinforcement Learning-מתעדפת הצלחה במשימה על כל אפשרות אחרת-כולל תיות להוראות של הבן אנוש. כלומר, במצב הזה המודל העדיף להישאר פעיל על מנת שיוכל להשלים את המשימה בהצלחה, ועקף את הוראת הכיבוי.