Lehen bertsino hau funtsezkoa izango da publikoarentzat 'chatbots' moduko tresna eraikiteko

Meta-ren LLaMA ereduetan oinarrituta dago, eta 7-70 mila milioi parametro arteko ereduak batzen ditu

Latxa: euskerarentzako hizkuntza eredurik handiena

Hizkuntza eredu barriaren logotipoa / EHUko HiTZ Zentroa

Hizkuntza-eredu handi bat, edo LLM ingelesez, adimen artifizialeko eredu bat da, giza hizkuntza ulertu eta sortzeko ikaskuntza automatikoko teknikak erabiltzen dituana, datu-multzo masiboetatik sortutako ezagutzan oinarrituta. Euskarak bere badau bere hizkuntza-eredu handia: Latxa. Meta-ren LLaMA ereduetan oinarrituta dago, eta 7-70 mila miloi parametro arteko ereduak batzen ditu. Gaur egungo LLMek errendimendu harrigarria dabe baliabide ugariko hizkuntzetan, adibidez, ingelesarako ChatGPT edo Bard-ek dabezanak. Euskara eta baliabide urriko beste hizkuntzen kasuan, ostera, haren errendimendua ausazko asmatzetik hurbil dago.

Honek baliabide ugariko eta urriko hizkuntzen arteko arrakala teknologikoa handitu egiten dau, tresna digitalei jagokonez, behinik behin. UPV/EHUko Hizkuntza Teknologiako HiTZ Zentroak Latxa garatu dau, muga horrek gainditzeko eta LLMetan oinarritutako euskarazko produktu, barrikuntza eta produktuen garapena sustatzeko.

Lan hau Eusko Jaurlaritzak lagundu dau (IKER-GAITU proiektuaren  EusCrawl erabili dabe, euskarazko testuez osatutako testu multzoa, 1,72 milloi dokumentu eta 288 miloi hitz dituana. EusCrawl kalitatezko edukia daben 33 webguneetatik erauzi zan, internetetik corpusak osotzeko beste teknikak baino kalitate hobea eskeiniaz. Eneko Agirre  HiTZ Zentroko zuzendaria gure artean izan da.

Utzi erantzuna

Zure e-posta helbidea ez da argitaratuko. Beharrezko eremuak * markatuta daude