Robert Važan 13. apríla 2024

Kam sa stratili špecializované jazykové modely?

Špecializované jazykové modely môžu mať vo svojej oblasti špecializácie lepšie výsledky než všeobecné modely, aj keď stoja zlomok z nákladov na trénovanie a používanie všeobecných modelov. Vďaka kvadratickým nákladom na trénovanie môžete vytrénovať sto 7B modelov za cenu jedného 70B modelu. Je potom dosť prekvapujúce, že otvorené 70B modely sprevádza len jeden osamelý všeobecný 7B variant. Prečo by vývojári týchto modelov neinvestovali čo i len malú časť svojho obrovského výpočtového rozpočtu na trénovanie niekoľkých 7B modelov, ktoré by boli vysoko konkurencieschopné v ich oblasti špecializácie?

Aby sme boli spravodliví, modely sa postupne špecializujú pre jazyky (Qwen v čínštine, YaLM v ruštine, LeoLM v nemčine, Aguila v španielčine, CroissantLLM vo francúzštine, Polka v poľštine a pravdepodobne mnoho ďalších). Väčšina z nich je dvojjazyčná s angličtinou. Modely jazykových rodín, ako je SEA-LION pre jazyky juhovýchodnej Ázie, sú zaujímavou alternatívou. Existuje niekoľko modelov špecializovaných pre programovacie jazyky (Pythonový variant Code Llamy, SQLCoder) a niektoré sú špecializované pre konkrétne profesie (Code Llama a ďalšie pre programovanie, Meditron pre medicínu a Samantha pre psychológiu). To je však prekvapivo málo vzhľadom na relatívne nízke náklady na trénovanie menších modelov a ich širokú použiteľnosť.

Fine-tuning to nezachráni. Je užitočný len vtedy, ak je doménových poznatkov málo, pretože sa potom môže oprieť o všeobecné znalosti a transferové učenie v základnom modeli. Ak je v oblasti dostatok dát, pretraining nového základného modelu oveľa lepšie využije dostupné parametre a výpočtový rozpočet. Špecializované modely je možné postaviť na existujúcom generalistickom modeli po rozšírení jeho slovníka, ale zatiaľ nie je jasné, či je to viac alebo menej efektívne než trénovanie úplne nového modelu. Zdedené trénovanie zo základného modelu môže byť nevýhodou, ak základný model uviazol v určitých vzorcoch uvažovania a stratil schopnosť prispôsobiť sa, ako to naznačuje lotériová hypotéza.

Myslím, že nedostatok systematickej špecializácie je spôsobený viacerými faktormi. Vývojári všeobecných modelov považujú za svoju úlohu posúvanie stavu techniky a špecializované modely vnímajú ako odvádzanie pozornosti od hlavného cieľa. Namiesto toho pretrénujú svoje menšie modely ďaleko za Chinchilla-optimálnu úroveň. Vývojárom generalistických modelov zvyčajne chýbajú hlboké doménové znalosti, čo obmedzuje ich schopnosť vybrať vhodné trénovacie dáta a kontrolovať kvalitu modelu. Niektoré oblasti sú chudobné na trénovacie dáta a potrebujú veľa transferového učenia, aby dobre fungovali. A v neposlednom rade, trénovanie špecializovaných modelov pre nasledovanie inštrukcií je komplikované, pretože na svete momentálne nie je dostatok doménovo špecifických inštrukčných databáz. Napriek tomu je možné, že niektorý veľký hráč vytrénuje sadu špecializovaných modelov, ak sa to stane hlavným cieľom projektu.

Keďže hovoríme o menších modeloch, stojí za zváženie, ako ďaleko sa môžu dostať obyčajní hobbysti so spotrebiteľskými grafickými kartami. Naneštastie, Chinchilla-optimálne 1B modely sú tu maximom aj v prípade, že do nich investujete špičkovú grafickú kartu 24x7 po dobu jedného roka. Ak chcete trénovať niekoľko rôznych modelov ročne, maximom je 100-300M parametrov na model. Možno sú moje orientačné výpočty trochu mimo a mohli by ste zájsť kúsok za hranicu 1B parametrov, ale 7B a 13B modely sú pre amatérov určite nedosiahnuteľné. Malé modely majú stále vysokú hodnotu, pretože sa dajú použiť ako komponent všade, ale úspešne konkurovať kvalitou univerzálnym modelom si vyžaduje využitie všetkých dostupných inferenčných zdrojov, čo znamená 7B alebo 13B parametrov pre modely zamerané na spotrebiteľský hardvér.

Ľudia investujúci mesiace výpočtového výkonu drahých systémov s viacerými grafickými kartami budú chcieť uznanie za svoju prácu, ako aj kontrolu nad nastavením trénovania. Preto bude každý špecializovaný model jediný svojho druhu. Systematický vývoj celého radu príbuzných modelov je nepravdepodobný, aj keď inak samostatné projekty budú zdieľať veľa poznatkov a kódu, čo nepriamo zabezpečí určitú štruktúru. Katalógy modelov budú poskytovať systematizáciu externe. Rast bude v rôznych oblastiach veľmi nerovnomerný, ale scéna špecializovaných jazykových modelov sa bude zväčšovať a v praxi bude hlavným prispievateľom k zvyšovaniu kvality výstupov lokálnych jazykových modelov.