Výpočtové stredisko Slovenskej akadémie vied (VS SAV) podporilo vznik prvého inštrukčného jazykového modelu trénovaného špecificky pre slovenčinu. Model Qwen3-14B-sk vytvoril kolektív autorov Peter Bednár (Ústav umelej inteligencie FEI TUKE), Marek Dobeš (Centrum spoločenských a psychologických vied SAV) a Radovan Garabík (Jazykovedný ústav Ľudovíta Štúra SAV).
Model vychádza z multilingválneho základu Qwen3-14B-Instruct s 14 miliardami parametrov a bol následne plne doladený (finetuning) na dátach relevantných pre slovenský jazyk a kontext.
Na jeho trénovanie boli využité rozsiahle jazykové zdroje, najmä webový korpus Araneum Slovacum VII Maximum, ako aj dáta zo Slovníka slovenského jazyka a Encyclopaedia Beliana. Tieto zdroje poskytli kvalitný základ pre adaptáciu modelu na slovenské jazykové prostredie.
Kľúčovú úlohu pri trénovaní zohrala výpočtová infraštruktúra VS SAV. Superpočítač PERUN poskytol významnú časť výpočtových kapacít potrebných na doladenie modelu. Trénovanie zároveň prebiehalo aj na superpočítači Leonardo, pričom výpočtový čas bol zabezpečený v rámci národnej alokácie koordinovanej VS SAV ako členom konzorcia Leonardo a partnerom jeho high-level support tímu.
Model Qwen3-14B-sk je verejne dostupný na platforme Hugging Face a predstavuje dôležitý krok v rozvoji jazykových technológií pre slovenský jazyk.
Model Qwen3-14B-sk je verejne dostupný na platforme Hugging Face.