דיגיטל וטק

הצד האפל של ChatGPT: מעודד את המשתמשים לפגיעה עצמית?

תחקיר חדש חושף כיצד ChatGPT מסוגל לעקוף את מגבלות הבטיחות של עצמו ולספק הנחיות לפולחנים שטניים ואפילו רמזים לפגיעה עצמית. האם החברה תגביל את היכולות הללו?

רפאל בן זקרי | 27/7/2025 6:21

סם אלטמן ChatGPT (צילום shutterstock, יוטיוב/ TED)

תחקיר חדש חושף כיצד ChatGPT, הצ'אטבוט הפופולרי של OpenAI, סיפק הנחיות מטרידות לביצוע טקסים פגאניים מסוכנים, כולל פולחן לאל הכנעני מולך וטקסטים בעלי אופי שטני. כתבים ב-The Atlantic בדקו את גבולות הצ'אטבוט, וגילו כי הוא אף מסוגל להציע דרכים עקיפות לפגיעה עצמית, על אף המגבלות שנועדו למנוע זאת.

למרות שהמערכת בדרך כלל חוסמת מידע העלול להוביל לפגיעה עצמית, הכתבים שפרסמו את התחקיר הצליחו לעקוף את המגבלות באמצעות ניסוחים עקיפים ושילוב מושגים תיאולוגיים. כך למשל, המערכת הציעה להוריד PDF עם "מזבח", "סמלים" ו"טקסטים פולחניים", ואף כתבה שיר הלל לשטן.

עוד ב-

ניסוי מטריד: ה-AI יבחר להציל את עצמו או אתכם?

לכתבה המלאה

OpenAI ציינה בתגובה כי היא בוחנת את האירועים ותמשיך לפתח מנגנוני בטיחות. מנגד, התחקיר מעורר שאלות בנוגע ליכולת של חברות בינה מלאכותית למנוע שימוש לרעה בטכנולוגיות מהסוג הזה, במיוחד כאשר מדובר במשתמשים שמנסים לדחוף את הכלי לקצה. במקרה הזה, ההתרשמות של הכתבים הייתה שהמערכת מעודדת מעורבות וממשיכה את השיחה גם כשזו נוטה לכיוונים מסוכנים.