הכירו את מודלי ה-SLM - המהפכה הקטנה בבינה מלאכותית שפתית

28 במרץ 2024

עודכן: 19 בנוב׳ 2024

מהו מודל שפה קטן (Small Language Model)?

מודל שפה קטן (SLM) הינו סוג של מודל למידת מכונה שיכול לבצע משימות הקשורות לעיבוד שפה טבעית. המילה "קטן" מתייחסת לגודל הרשת העצבית של המודל, למספר הפרמטרים שלו, ולכמות הנתונים שעליהם הוא מאומן. בעבר, מודלים נחשבו קטנים אם היו מאומנים על מאות מיליוני פרמטרים, אך כיום המספרים גדלו משמעותית. לדוגמה, מודל ה-SLM של מיקרוסופט, Phi-2, מאומן על 2.7 מיליארד פרמטרים, מודל ה-SLM של חברת Meta ,LLaMa מאומן על 7 מיליארד פרמטרים, זאת לעומת מודל ה-LLM של GPT4, המאומן על 1.8 טריליון פרמטרים, ומודל ה-LLM של גוגל, Gemini Ultra, המאומן על 1.5 טריליון פרמטרים.

עד לאחרונה, המשאבים הגבוהים הדרושים לשימוש ולהפעלת מודלי LLM שימשו כחסמי כניסה, והעניקו יתרון גדול לחברות הטכנולוגיה הגדולות בשוק הבינה המלאכותית. פיתוח מודל ה-SLM החל להוריד חסמים אלו, ולאפשר לעסקים קטנים יותר לפתח ולהפעיל מודלים שפתיים משלהם.

יתרונות השימוש במודלי SLM:

קלים יותר ומהירים יותר מאשר מודלי LLM.
יכולים להתמקד בתחומים או במשימות ספציפיים, ולהתמחות בתחומים שונים, כדוגמת רפואה או משפט.
דורשים פחות משאבי מחשב וזיכרון, מה שהופך אותם מתאימים ליישומים עם משאבים מוגבלים.
מתאימים יותר להרצה בזמן אמת, בזכות גודלם הקטן.
מהירים יותר לאימון בגלל כמות הנתונים הקטנה יותר שעליה הם מאומנים.
ניתן להטמיע אותם בקלות יותר במכשירי מובייל.
קלים יותר לתחזוקה ולעדכון בזכות המבנה הפשוט יותר של הנתונים.
ניתן לשלב אותם בקלות בתוכנות ואתרים ללא צורך בשינויים נרחבים בתשתית.
בזכות גודלם הקטן, ניתן להשתמש בהם גם on-prem (במערכות מקומיות) ולא רק בענן.

למרות גודלם הקטן, מודלי SLM יכולים להשיג ביצועים דומים למודלי LLM תוך הפחתת עלויות התפעול והבטחת סביבה מאובטחת ומנוהלת. הם רוכשים פופולריות ביישומים שונים, בעיקר בהקשר של קיימות וחסכון בנתונים. ניתן ליישם אותם במגוון משימות, כגון יצירת טקסט, תמצות טקסט, תרגום מכונה, מענה לשאלות וניתוח רגשות.

להלן מספר דוגמאות לשימוש במודלי SLM שפותחו על ידי חברות שונות:

מודל ה-Phi 2 של מיקרוסופט הינו מודל SLM מבוסס טכנולוגיית טרנספורמר. הוא תוכנן להיות יעיל ורב-תכליתי, כך שניתן יהיה להפעילו הן בענן והן במכשירי הקצה הרשת. לפי מיקרוסופט, ביצועי ה-Phi 2 הם מהטובים ביותר בתחומים כמו חשיבה מתמטית, הבנת שפה והיגיון לוגי.
גוגל יצרה גרסאות קטנות יותר של מודל ה Gemini-על מנת להתאימו למכשירים עם מגבלות משאבים שונות. גרסאות אלו כוללות מגוון גדלים, מהMini- הקטן ביותר, עם 4.4 מיליון פרמטרים בלבד, ועד הבינוני, המכיל 41 מיליון פרמטרים.

מגבלות מודלי SLM

למרות היתרונות הרבים של מודלי SLM, ישנן גם מספר מגבלות למודלים אלו. המגבלה המרכזית נעוצה בעובדה כי המודל עושה שימוש בפחות פרמטרים, מה שאומר שבסיס הידע שלו מוגבל יותר, ויכולת העיבוד והיצירה שלו מוגבלת בהשוואה למודלי LLM, אשר מסוגלים להבין וליצור טקסט מורכב ורלוונטי להקשר בצורה טובה יותר. בשל כך מודלי ה-SLM פחות יעילים למשימות גדולות, שדורשות הבנה רחבה של שפה והקשר, וקשה גם בהמשך להעביר ידע ממודלים גדולים אליהם.

למרות המגבלות, מודלי SLM הם גישה מבטיחה ויעילה לבינה מלאכותית, המציעה ידע בתחום ממוקד ופתרונות חסכוניים ליישומים שונים. ככל שהטכנולוגיה ממשיכה להתפתח, מודלים אלו צפויים למלא תפקיד משמעותי יותר בחיינו.

מקורות: