דיגיטל וטק

מטא תחת ביקורת: השתמשה בספרי הארי פוטר לאימון ה-AI שלה?

מחקר חדש חושף כי מודל ה-AI המתקדם של מטא, Llama 3.1, "זוכר" קטעים שלמים מ"הארי פוטר" וספרים נוספים. האם מדובר בהפרה חמורה של זכויות יוצרים, ומה מטא תעשה כדי להיחלץ מגל התביעות שעלול להגיע?

רפאל בן זקרי | 16/6/2025 17:12 עקבו אחרינו בגוגל

מחקר חדש שנערך על ידי צוות מאוניברסיטאות סטנפורד, קורנל ווירג'יניה מגלה: מודל הבינה המלאכותית Llama 3.1 של מטא מסוגל לשחזר קטעים שלמים מהספר הראשון של הארי פוטר – ברמה שמעידה על זכירה של 42% מהתוכן. מדובר בעלייה דרמטית לעומת גרסאות קודמות של אותו מודל, ועולה שאלה מטרידה: האם מדובר בהפרת זכויות יוצרים?

החוקרים בדקו חמישה מודלים פתוחים נפוצים, ביניהם גם כאלה של מיקרוסופט ו-EleutherAI, וגילו כי מודל Llama של מטא נטה יותר מהאחרים לשחזר קטעים מספרים פופולריים – כמו "1984" של אורוול או "ההוביט" – בעוד שספרים פחות מוכרים כמעט שלא נשמרו בזיכרון. העובדה שמודל זה, שפותח בשנה שעברה, שומר על רמת זכירה גבוהה של יצירות מוגנות, מעלה חשש ממשי לפגיעות בזכויות יוצרים מצד בעלי הזכויות.

המשמעות עבור התעשייה רחבה: אם בית משפט יכריע שבעיות הזיכרון במודלים מסוג זה אכן מפרות זכויות יוצרים, חברות כמו מטא עלולות לעמוד בפני גל של תביעות – או לחילופין, לטעון שאין בסיס לאגד אלפי סופרים בתביעה ייצוגית אחת, בשל הבדלים ניכרים בין הספרים. כך או כך, התוצאה עשויה להשפיע על כל התחום המתפתח של מודלים פתוחים.

עוד ב-

מטא מגייסת את הבכיר מחברת ה-AI: בדרך לבינה מלאכותית כללית?

לכתבה המלאה

החוקרים מציעים מספר הסברים אפשריים לתופעה – בהם שימוש חוזר באותו מאגר ספרים בעת האימון או שילוב של מקורות מקוונים המכילים ציטוטים מתוך ספרים מוכרים. אולם לא מן הנמנע שדווקא שינויים טכניים בצורת האימון הם שהובילו לבעיה.