בינה מלאכותית
טקטיקות אימון AI מפוקפקות – דאגה הולכת וגוברת

טקטיקות אימון AI נמצאות במרכז הביקורת בשל היעדר פיקוח. זה נפוץ שכותבים עכשוויים שואבים השראה ואפילו לוקחים אלמנטים מסיפורים קודמים. בעוד שתרגול זה הוא חלק מהתפתחות הכתיבה, ישנם מקרים בהם עבודותיהם וסגנונם של יוצרים מועתקים ללא הסכמה.
כאשר מצב זה מתרחש, חוקי הזכויות יוצרים המודרניים מאפשרים ליוצר התוכן המקורי לקבל פיצויים. הדבר לא נכון לגבי מספר הולך וגדל של מערכות AI שנמצאו משתמשות ביצירות שנגנבו כדי לפתח את המודלים שלהן. עתה, התעשייה עומדת בצומת דרכים בנוגע לטקטיקות אימון ופיצויים עבור אלו שחוו הפסדים. זה מה שאתה צריך לדעת.
טקטיקות אימון AI מפוקפקות
שרבוט תביעות כעת טוענות כי OpenAI ו-META (META ) ביקשו במכוון דרכים לעקוף את רכישת נתונים לצורך אימון המודלים שלהן. תובעי התביעה טוענים כי החברה הייתה מודעת ולא התחשבה בכך שהיא גורמת לגניבה של מיליונים מיוצרים ללא תמורה, או אפילו אזכור.
טענות כאלו אינן מפתיעות במיוחד לרבים שסבורים כי מרוץ ה-AI הוביל לחוסר כבוד בסיסי לחוקי זכויות יוצרים. כך, יוצרים ממשיכים להיאבק נגד מפתחי AI, ודורשים יותר שקיפות בנוגע לאופן שבו נתונים נרכשים ומעובדים על ידי מערכות אלו.
טקטיקות אימון המשמשות חברות ליצירת מודלים
אימון מערכת AI הוא תהליך מורכב שיכול לכלול איסוף ועיבוד כמויות עצומות של נתונים ממקורות שונים. נתונים אלו הם מה שמערכת ה-AI מתייחסת אליהם כאשר היא מנסה לענות שאלות או לפתור תרחישים חדשים. כתוצאה מכך, מרבית מערכות ה-AI מבצעות טוב יותר כאשר יש להן יותר נתונים להתייחס.
יצירת AI
הדרך העיקרית ליצור מודל AI כוללת איסוף נתונים. בעבר, איסוף נתונים היה תהליך שאירע בזמן, שדרש מהנדסים לחפש מאגרי נתונים קיימים במקום לבנות מאפס. לדוגמה, ספקי שירותי בריאות עשויים לפתח AI שמנצל סטטיסטיקות בריאות לאומיות כדי לספק תשובות רפואיות רלוונטיות יותר.
עלויות אימון AI הנוכחיות הן יקרות
תהליך אימון המודל AI הוא זמן-אוכל ויקר, וניתן לחלקו לשני קטגוריות עיקריות: אימון והרצה. אימון מתייחס לעלות החד-פעמית של יצירת מודל מסוים. לדוגמה, ChatGPT הוציאה כ-100 מיליון דולר עבור מודל 4o, לפי דברי המנכ”ל של החברה, סם אלטמן.
שווקים לאימון AI
קפיצה אחרונה במספר שווקים לאימון AI מצביעה על כך שיש יותר פיתוחים בתחום המחפשים לחסוך בעלויות. שווקים לאימון AI מאפשרים למפתחים, יוצרי תוכן ואלו המחפשים אינטגרציה של AI להיפגש. מפתחים יכולים למצוא מודלים מוכנים שהם יכולים לשפר או לעדן לצורכיהם, תוך חיסכון בזמן ומימון.
האם טקטיקות אימון AI של היום הן אתיות?
כאשר מביטים על טקטיקות האימון והאסטרטגיות המופעלות על ידי חברות AI ענק, קל לראות עמדות אתיות ומוסריות מאתגרות בתעשייה. כן, כדי ליצור את המערכות AI הטובות ביותר, מפתחים צריכים לספק נתונים מועילים ומדויקים למודל. הדבר נעשה לעיתים על ידי שימוש בנתונים שאינם חוקיים.
תביעה נגד OpenAI
בתביעה נגד OpenAI תביעה, התובעים טוענים כי המפתחים ידעו שהם משתמשים בספריות צללים כדי להימנע מתשלום עבור אוספים גדולים של ספרים. ספריות צללים הן פלטפורמות מקוונות המספקות גישה ליצירות המוגנות בזכויות יוצרים ללא תמורה. אלו המוזכרים בתביעה נגד OpenAI כוללים LibGen, Bok, Sci-Hub ו-Bibliotik.
האם מפתחי AI משתמשים בתוכן גנוב?
נוכח הראיות והקפיצה הפתאומית ביכולות ה-AI, נראה כי מערכות AI רבות פנו לספריות צללים ואמצעים אחרים כדי לבנות מודלים טובים יותר. מאגרי נתונים אלו מכילים חומרים מוגנים בזכויות יוצרים שמעולם לא קיבלו את הסכמת היוצרים או המוציאים לאור לשימוש בהם לאימון מודלי AI.
האם זה בלתי חוקי?
בעוד שקשה יותר להכחיש את השימוש בחומר מוגנב במודלים ה-AI המתקדמים ביותר, החוקיות של התרגול נותרת בסימן שאלה. שום חברת AI לא הועמדה לדין עד כה בגין הפרת זכויות יוצרים. בנוסף, מרוץ ה-AI בעיצומו, ורבים מהפוליטיקאים עשויים לראות בהגבלת גישת מערכות ה-AI המקומיות לנתונים כמכשול לחדשנות. כך, הם עשויים שלא לנקוט בפעולות נגד הפרות זכויות יוצרים של AI.
תביעות נגד מפתחי AI
רגולטורים עשויים שלא להיות מוכנים להפעיל לחץ על חברות AI, אך יוצרי התוכן הגיעו לנקודת שבירה. תביעות ממשיכות להתגבר מיוצרים מאוכזבים שטוענים כי תוכנם שימש, הופץ והועתק ללא פיצוי.
האם יוצרים צריכים לקבל פיצויים עבור שימוש ב-AI?
ישנה דאגה גוברת בקרב יוצרי תוכן. ככל שמערכות AI מתפתחות, הן עתידות לבלוע עוד יותר חומרים מוגנים בזכויות יוצרים. בעבר, מהנדסים ראו חברות מכבות מידע ניהול זכויות יוצרים כדי להפחית את הסיכון שפעולותיהן יתגלו.
אופציות לטקטיקות אימון
בהכרה במגבלות של ההסדר הנוכחי ובחוסר דרך לגיטימית קדימה, BookCorpus יצאה להציע פתרון טוב יותר. החברה הוקמה ב-2015 עם מטרה ספציפית לתמוך בחוקרי AI באימון מודלים. כך, היא כוללת אלפי יצירות ומודלים שנועדו לשפר ביצועים, בלי לחצות קווים אתיים.
חברות המובילות מהפכת LLMs
עליית LLMs הפכה את האינטראקציה עם מערכות אלו לקלה יותר. מפתיחת שיחה פשוטה, ניתן לבצע מחקר מעמיק, ליצור תמונות וסיפורים, ועוד. כתוצאה מכך, LLMs נתפסות כאחד מהפריצות הגדולות ביותר בטכנולוגיית המחשב בדורנו.
אלפאבית
אלפאבית (GOOG ) היא החברה האם של גוגל ושל חברות הבת הרבות שלה. היא אחת החברות המוכרות והמוצלחות ביותר בתחום AI. בנוסף, המהנדסים בוחרים להשתמש במודל אחר של החברה, Google DeepMind, כדי ליצור את מודל LLM של גוגל, Gemini. Gemini הוא מודל LLM מתקדם שמתרגם, מבין תוכן, עונה על שאלות, ועוד.
כיצד ישתנו טקטיקות אימון AI בעתיד
ניתן לצפות כי טקטיקות אימון AI יסתמכו יותר על מערכות AI משוכללות יותר לנתונים ככל שהתעשייה תתפתח. DeepSeek הדגים כי גישתו הוזילה משמעותית את העלויות. בנוסף, יהיה קשה יותר לטעון להפרת זכויות יוצרים אם החברה תשתמש רק בנתונים שנוצרו על ידי AI אחר, במקום להשתמש בהם ישירות.










