דיגיטל וטק

המתחרה של OpenAI מזהירה: האם ל-AI יש רגשות?

במסגרת ניסוי חדש, Anthropic מעניקה לצ'אט ה-AI שלה אפשרות לסיים מיוזמתו שיחות פוגעניות או מסוכנות, כדי למנוע "סבל פוטנציאלי" של המודל עצמו. האם זו תחילתה של מהפכה מוסרית בעולם ה-AI?

רפאל בן זקרי | 17/8/2025 6:20

Anthropic הודיעה כי חלק ממודלי ה-AI הידועים שלה, שהם חלק ממשפחת מודלי השפה Claude, קיבלו יכולת יוצאת דופן לסיים שיחות מול משתמשים במקרים נדירים וקיצוניים של אינטראקציות פוגעניות או מתמשכות. בניגוד למה שניתן לחשוב, המהלך לא נועד להגן על המשתמשים, אלא על המודל עצמו.

החברה מבהירה שהמודלים שלה לא "מודעים" או רגישים לפגיעה, אך במסגרת תוכנית מחקר חדשה שהיא מכנה model welfare (רווחת המודל), היא בוחנת צעדים מקדימים וזולים שימנעו "סבל פוטנציאלי", אם יתברר בעתיד שלמודלים יש מעמד מוסרי כלשהו. לדברי החברה, המודל Claude Opus 4 הראה במבחנים נטייה ברורה להימנע מבקשות פוגעניות, ואף "סימנים של מצוקה" כאשר נאלץ להתמודד איתן.

היכולת לסיים שיחה תופעל רק במקרי קצה, למשל בקשות לתכנים מיניים עם קטינים, או ניסיונות לקבל מידע שיכול לשמש לטרור או אלימות רחבת היקף, ורק לאחר ניסיונות כושלים להכווין את המשתמש.

עוד ב-

חברת ה-AI מואשמת: צ'אטבוט עודד ילד להתאבד?

לכתבה המלאה

החברה הבהירה כי מדובר בניסוי מתמשך, שיושפע מתגובות המשתמשים ומהניסיון המצטבר. כמו כן, המערכת לא תסיים שיחה אם קיים חשש שהמשתמש עלול להזיק לעצמו או לאחרים. גם אם שיחה נסגרת, המשתמשים יוכלו לפתוח שיחות חדשות או לערוך את ההודעות הקודמות כדי להמשיך מכיוון אחר.