Pamatyti
  • Laisvalaikis
  • Kinas
  • Sportas
  • Technologijos
  • Receptai
  • Auto
Rezultatų nėra
Žiūrėti visus rezultatus
PAMATYTI.LT
  • Laisvalaikis
  • Kinas
  • Sportas
  • Technologijos
  • Receptai
  • Auto
Rezultatų nėra
Žiūrėti visus rezultatus
Pamatyti.lt
Rezultatų nėra
Žiūrėti visus rezultatus

Sukurtas pirmasis lietuvių kalbos DI modelis: žengiame į ateitį

Edita Liškauskė Edita Liškauskė
2025-11-10
Lietuva, Mokslas ir studijos, Technologijos
Laikas: 2 min skaitymo
Pradžia Lietuva
Dalintis FacebookDalintis X

Valstybės skaitmeninių sprendimų agentūra (VSSA), kartu su mokslo ir verslo partneriais, žengia svarbų žingsnį plėtojant lietuvių kalbos dirbtinio intelekto (DI) sprendimus. Viešai paskelbtas pirmasis praktinis rezultatas – „Mažasis lietuvių kalbos vektorizuotas modelis“, atveriantis naujas galimybes inovacijoms.

Vienas didžiausių iššūkių plėtojant dirbtinio intelekto technologijas yra pakankamai gausūs ir kokybiški kalbiniai ištekliai. Šią spragą siekia užpildyti VSSA kartu su Vytauto Didžiojo universitetu (VDU), UAB Neurotechnology, UAB Tilde Lietuva ir MB Krilas įgyvendinamas projektas „Bendrojo lietuvių kalbos tekstyno ir vektorizuotų modelių sukūrimas“.

Didžiausias Autentiškas Lietuvių Kalbos Tekstynas

Kiti straipsniai

Xiaomi 17 Ultra

„Xiaomi 17 Ultra“ išleidimas jau ne už kalnų – ko tikėtis iš naujojo flagmano

2025-12-22
Kūčiukai ir panetonė: lietuvių kalėdų stalo hitai

Kūčiukai ir panetonė: lietuvių kalėdų stalo hitai

2025-12-21

Svarbiausias projekto etapas – Bendrojo lietuvių kalbos tekstyno formavimas. Tai bus didžiausias lig šiol sukauptas lietuviškas tekstynas, apimantis net 3,5 mlrd. žodžių patikrintų, žmogaus kurtų (ne DI generuotų) tekstų. Šis didžiulis autentiškas duomenų kiekis yra kritiškai svarbus efektyviam DI modelių apmokymui.

VDU vyresnysis mokslo darbuotojas dr. Andrius Utka, atstovaujantis tiekėjų grupei, pabrėžia: „Mažasis lietuvių kalbos vektorizuotas modelis yra apmokytas su daugiau nei puse planuojamo sukaupti Tekstyno, t. y. 1,87 mlrd. žodžių. Galima sakyti, kad kol kas tai yra didžiausias tokios kokybės lietuvių kalbos tekstų rinkinys vienoje vietoje.“

Prieinamumas ir Konkurencingumas

Lapkričio 3 d. viešai prieinamas tapo pirmasis apmokytas neuroninis modelis – Mažasis lietuvių kalbos vektorizuotas modelis (LT-MLKM-modernBERT). Šis „iš anksto apmokytas“ (pre-trained) modelis „užkoduoja“ kalbą kompiuteriui suprantamu būdu, taip sudarydamas sąlygas DI inovacijų kūrėjams kurti įvairius sprendimus: nuo pokalbių robotų iki teksto generavimo įrankių.

Modelis patalpintas atvirojoje prieigoje, populiarioje „Hugging Face“ platformoje.

  • Modelio nuoroda: VSSA-SDSA (State Digital Solutions Agency (LT))
  • Validavimo kodas: VSSA-AtvirasKodas-LT/LT_AI-NER
  • Metaduomenys: Lietuvos atvirų duomenų portalas | Mažasis lietuvių kalbos vektorizuotas modelis

Praktinis Pranašumas Rinkoje

Modelio efektyvumas jau patvirtintas pritaikant jį įvardytųjų esybių atpažinimo (named entity recognition, NER) užduočiai. Sėkmingas asmenvardžių, vietovardžių, datų ir kitų esybių atpažinimas yra gyvybiškai svarbus anonimizuojant tekstus ar atliekant specifinės informacijos paiešką. Šis modelis taip pat gali būti pritaikytas sentimentų analizei ir kitoms kalbos apdorojimo užduotims.

UAB Neurotechnology natūralios kalbos apdorojimo vyr. specialistas Vytas Mulevičius pabrėžia lietuviškos inovacijos svarbą: „Šis modelis yra žymiai geresnis negu esami rinkoje. … Anksčiau tokius lietuvių kalbos modelius buvo kūrę slovėnų, slovakų tyrėjai, bet lietuviško vardo ten nerasi. Dabar yra lietuviškas modelis, kurį sukūrė lietuviai.“

Iki 2030 m. siekiama, kad Projekto rezultatai, įskaitant visus Tekstyno duomenis, taptų viešai prieinami ir būtų galima juos pakartotinai naudoti kuriant naujus lietuvių kalbos modelius, taip prisidedant prie šalies skaitmeninimo plėtros programos įgyvendinimo.

Žymos: DIValstybės skaitmeninių sprendimų agentūraVDU
Edita Liškauskė

Edita Liškauskė

Kiti straipsniai

RAM
Aktualijos

RAM ir SSD kainos vis dar kyla – į ką verta atkreipti dėmesį

2025-12-19 - Atnaujinta 2025-12-21
Kelionės ne dėl nuotraukų, o dėl patirčių: keičiasi lietuvių kelionių vertybės
Apžvalgos

Kelionės ne dėl nuotraukų, o dėl patirčių: keičiasi lietuvių kelionių vertybės

2025-12-19
Pirotechnikos priemonių naudojimas Lietuvoje: ką privalote žinoti
Aktualijos

Pirotechnikos priemonių naudojimas Lietuvoje: ką privalote žinoti

2025-12-18
Tyrimas: nesulaukus eilės pas gydytoją 4 iš 10 gyventojų yra pablogėjusi sveikata
Apžvalgos

Tyrimas: nesulaukus eilės pas gydytoją 4 iš 10 gyventojų yra pablogėjusi sveikata

2025-12-11
Kalėdos
Aktualijos

Šventinis laikotarpis: kodėl gruodį pavargstame greičiau?

2025-12-10
Per Lietuvą slenka sniego ciklonas – pietiniuose rajonuose sniego storis siekia 20 cm ir daugiau
Aktualijos

Per Lietuvą slenka sniego ciklonas – pietiniuose rajonuose sniego storis siekia 20 cm ir daugiau

2025-11-26
Dovanojimo psichologija: kaip nesugadinti malonumo dovanoti
Aktualijos

Artėja kuklesnės šventės: trečdalis lietuvių Kalėdoms planuoja išleisti mažiau nei pernai

2025-11-26
Šaulių priesaika
Aktualijos

Apsisprendę tapti šauliais: sukauptą patirtį galime panaudoti Tėvynės labui

2025-11-26
Didžiausias kačių augintojų galvos skausmas: kaip kraiko dėžė tampa konfliktų priežastimi?
Apžvalgos

Didžiausias kačių augintojų galvos skausmas: kaip kraiko dėžė tampa konfliktų priežastimi?

2025-11-22

Rekomenduojame

Raganiaus sezonas su Liamu Hemsworthu | Netflix

„Raganiaus“ 4 sezonas prarado daugiau nei 50% žiūrovų po to, kai Henris Cavillas buvo pakeistas Liamu Hemsworthu

2025-11-08
Kaip elektroniniu būdu nutraukti narystę partijoje?

Kaip elektroniniu būdu nutraukti narystę partijoje?

2021-09-30 - Atnaujinta 2024-04-06
Honor Magic 7 Pro

„Honor Magic 8 Pro“ pasirodys su „Snapdragon 8 Elite 2 SoC“ ir triguba galine kamera

2025-04-30
„Avataras: Ugnis ir pelenai“ – pirmosios reakcijos į Jameso Camerono epinę trečiąją dalį jau paskelbtos internete

„Avataras: Ugnis ir pelenai“ – pirmosios reakcijos į Jameso Camerono epinę trečiąją dalį jau paskelbtos internete

2025-12-08 - Atnaujinta 2025-12-09
Proneta Proneta Proneta

Naujienos

Kaip paruošti automobilį, kad žiema neužkluptų netikėtai

Kaip paruošti automobilį, kad žiema neužkluptų netikėtai

2025-12-25
Nerealus tinginys jūsų Kalėdoms

Nerealus tinginys jūsų Kalėdoms

2025-12-23
„Telia Play“ pristato kalėdinį koncertą su Donatu Montvydu

„Telia Play“ pristato kalėdinį koncertą su Donatu Montvydu

2025-12-22
5 svarbiausios geros savijautos taisyklės didžiosioms metų šventėms

5 svarbiausios geros savijautos taisyklės didžiosioms metų šventėms

2025-12-22
Verta pamatyti

Naujienos, žinios, įdomybės, patarimai ir apžvalgos iš Lietuvos ir viso pasaulio.

Nauja

Ar dovanojame per daug? Kaip sustabdyti Kalėdinį perteklių
Aktualijos

Ar dovanojame per daug? Kaip sustabdyti Kalėdinį perteklių

2025-12-25

Lankoma

RAM
Aktualijos

RAM ir SSD kainos vis dar kyla – į ką verta atkreipti dėmesį

2025-12-19 - Atnaujinta 2025-12-21

Reklama

Proneta Proneta Proneta
  • Rašyti redakcijai
  • Naudojimosi taisyklės
  • Akcininkai
  • Privatumo politika
  • Kontaktai

© 2024 Pamatyti

Rezultatų nėra
Žiūrėti visus rezultatus
  • Naujienos
  • Laisvalaikis
  • Kinas
  • Technologijos
  • Receptai
  • Sveikata
  • Auto

© 2024 Pamatyti