Hizkuntza-eredu handi bat, edo LLM ingelesez, adimen artifizialeko eredu bat da, giza hizkuntza ulertu eta sortzeko ikaskuntza automatikoko teknikak erabiltzen dituana, datu-multzo masiboetatik sortutako ezagutzan oinarrituta. Euskarak bere badau bere hizkuntza-eredu handia: Latxa. Meta-ren LLaMA ereduetan oinarrituta dago, eta 7-70 mila miloi parametro arteko ereduak batzen ditu. Gaur egungo LLMek errendimendu harrigarria dabe baliabide ugariko hizkuntzetan, adibidez, ingelesarako ChatGPT edo Bard-ek dabezanak. Euskara eta baliabide urriko beste hizkuntzen kasuan, ostera, haren errendimendua ausazko asmatzetik hurbil dago.
Honek baliabide ugariko eta urriko hizkuntzen arteko arrakala teknologikoa handitu egiten dau, tresna digitalei jagokonez, behinik behin. UPV/EHUko Hizkuntza Teknologiako HiTZ Zentroak Latxa garatu dau, muga horrek gainditzeko eta LLMetan oinarritutako euskarazko produktu, barrikuntza eta produktuen garapena sustatzeko.
Lan hau Eusko Jaurlaritzak lagundu dau (IKER-GAITU proiektuaren EusCrawl erabili dabe, euskarazko testuez osatutako testu multzoa, 1,72 milloi dokumentu eta 288 miloi hitz dituana. EusCrawl kalitatezko edukia daben 33 webguneetatik erauzi zan, internetetik corpusak osotzeko beste teknikak baino kalitate hobea eskeiniaz. Eneko Agirre HiTZ Zentroko zuzendaria gure artean izan da.