A Microsoft és az OpenAI új módszert fejlesztettek ki a nagyméretű AI-modellek tökéletesítésére.
A Microsoft Research által közzétett blogbejegyzés szerint az a µ-paraméterezés (vagy µP) nevű technika segítségével a kis és nagyméretű AI-modellek viselkedése közötti hasonlóságok felfedezése a cél, mellyel a legkisebbre alakítható az optimalizáláshoz szükséges számítási erőforrások mennyisége.
A lényeg az, hogy µ-paraméterezéssel olcsóbb és egyszerűbb lesz olyan AI-modelleket fejleszteni, amelyek a ma elérhető modelleknél sokkal nagyobb teljesítményt képesek nyújtani.
A nagyméretű AI-modelleket azért olyan nehéz betanítani, mert kevés a külső rálátás arra, hogy miként változik a viselkedésük a skálázás során.
A µ-paraméterezés azonban kihasználja azt a felismerést, hogy a különböző méretű neurális hálózatok bizonyos körülmények között ugyanazokat az optimális hiperparamétereket osztják meg. Ennek lényege, hogy egy kis léptékű hangolási folyamat extrapolálható és leképezhető egy sokkal nagyobb modellre.
A modell µP elven történő paraméterezése és a tanulási sebesség kiválasztása bárki számára megkönnyíti a mély neurális hálózatok betanításának skálázását. Ez egy gyönyörű elmélet és a gyakorlati hatás elegáns kombinációja.
– Johannes Gehrke, a Microsoft Research laboratóriumának igazgatója
A gyakorlatban a Microsoft és az OpenAI a µ-parametrizációt a GPT-3-on, egy olyan természetes nyelvi modellen próbálta ki, amelynek legnagyobb iterációja 175 milliárd paraméterből áll.
Az eredményeknek köszönhetően a szakembereknek sikerült létrehozniuk a GPT-3 egy még nagyobb teljesítményű változatát, amely a 6,7 milliárd paraméteres modell előképzéséhez felhasznált számítási teljesítmény mindössze 7 százalékát használta fel.
A vállalat szerint azonban még sokmindent meg kell érteni és tapasztalni a mesterséges intelligencia modellek skálázásával kapcsolatban, de ígéretet tett, hogy továbbra is folytatja a munkát.
Forrás: