Pamatyti
  • Laisvalaikis
  • Kinas
  • Sportas
  • Technologijos
  • Receptai
  • Auto
Rezultatų nėra
Žiūrėti visus rezultatus
PAMATYTI.LT
  • Laisvalaikis
  • Kinas
  • Sportas
  • Technologijos
  • Receptai
  • Auto
Rezultatų nėra
Žiūrėti visus rezultatus
Pamatyti.lt
Rezultatų nėra
Žiūrėti visus rezultatus

Sukurtas pirmasis lietuvių kalbos DI modelis: žengiame į ateitį

Edita Liškauskė
2025-11-10
Lietuva, Mokslas ir studijos, Technologijos
Laikas: 2 min skaitymo
Pradžia Lietuva
Dalintis FacebookDalintis X

Valstybės skaitmeninių sprendimų agentūra (VSSA), kartu su mokslo ir verslo partneriais, žengia svarbų žingsnį plėtojant lietuvių kalbos dirbtinio intelekto (DI) sprendimus. Viešai paskelbtas pirmasis praktinis rezultatas – „Mažasis lietuvių kalbos vektorizuotas modelis“, atveriantis naujas galimybes inovacijoms.

Vienas didžiausių iššūkių plėtojant dirbtinio intelekto technologijas yra pakankamai gausūs ir kokybiški kalbiniai ištekliai. Šią spragą siekia užpildyti VSSA kartu su Vytauto Didžiojo universitetu (VDU), UAB Neurotechnology, UAB Tilde Lietuva ir MB Krilas įgyvendinamas projektas „Bendrojo lietuvių kalbos tekstyno ir vektorizuotų modelių sukūrimas“.

Didžiausias Autentiškas Lietuvių Kalbos Tekstynas

Kiti straipsniai

Lietuva pagal pagal naudotų automobilių duomenų klastojimą Europos sąrašo gale

2025-11-07
VU mokslininkų DI sprendimas padės „pamatyti“ žemę iš kosmoso pro debesis

VU mokslininkų DI sprendimas padės „pamatyti“ žemę iš kosmoso pro debesis

2025-11-06

Svarbiausias projekto etapas – Bendrojo lietuvių kalbos tekstyno formavimas. Tai bus didžiausias lig šiol sukauptas lietuviškas tekstynas, apimantis net 3,5 mlrd. žodžių patikrintų, žmogaus kurtų (ne DI generuotų) tekstų. Šis didžiulis autentiškas duomenų kiekis yra kritiškai svarbus efektyviam DI modelių apmokymui.

VDU vyresnysis mokslo darbuotojas dr. Andrius Utka, atstovaujantis tiekėjų grupei, pabrėžia: „Mažasis lietuvių kalbos vektorizuotas modelis yra apmokytas su daugiau nei puse planuojamo sukaupti Tekstyno, t. y. 1,87 mlrd. žodžių. Galima sakyti, kad kol kas tai yra didžiausias tokios kokybės lietuvių kalbos tekstų rinkinys vienoje vietoje.“

Prieinamumas ir Konkurencingumas

Lapkričio 3 d. viešai prieinamas tapo pirmasis apmokytas neuroninis modelis – Mažasis lietuvių kalbos vektorizuotas modelis (LT-MLKM-modernBERT). Šis „iš anksto apmokytas“ (pre-trained) modelis „užkoduoja“ kalbą kompiuteriui suprantamu būdu, taip sudarydamas sąlygas DI inovacijų kūrėjams kurti įvairius sprendimus: nuo pokalbių robotų iki teksto generavimo įrankių.

Modelis patalpintas atvirojoje prieigoje, populiarioje „Hugging Face“ platformoje.

  • Modelio nuoroda: VSSA-SDSA (State Digital Solutions Agency (LT))
  • Validavimo kodas: VSSA-AtvirasKodas-LT/LT_AI-NER
  • Metaduomenys: Lietuvos atvirų duomenų portalas | Mažasis lietuvių kalbos vektorizuotas modelis

Praktinis Pranašumas Rinkoje

Modelio efektyvumas jau patvirtintas pritaikant jį įvardytųjų esybių atpažinimo (named entity recognition, NER) užduočiai. Sėkmingas asmenvardžių, vietovardžių, datų ir kitų esybių atpažinimas yra gyvybiškai svarbus anonimizuojant tekstus ar atliekant specifinės informacijos paiešką. Šis modelis taip pat gali būti pritaikytas sentimentų analizei ir kitoms kalbos apdorojimo užduotims.

UAB Neurotechnology natūralios kalbos apdorojimo vyr. specialistas Vytas Mulevičius pabrėžia lietuviškos inovacijos svarbą: „Šis modelis yra žymiai geresnis negu esami rinkoje. … Anksčiau tokius lietuvių kalbos modelius buvo kūrę slovėnų, slovakų tyrėjai, bet lietuviško vardo ten nerasi. Dabar yra lietuviškas modelis, kurį sukūrė lietuviai.“

Iki 2030 m. siekiama, kad Projekto rezultatai, įskaitant visus Tekstyno duomenis, taptų viešai prieinami ir būtų galima juos pakartotinai naudoti kuriant naujus lietuvių kalbos modelius, taip prisidedant prie šalies skaitmeninimo plėtros programos įgyvendinimo.

Žymos: DIValstybės skaitmeninių sprendimų agentūraVDU

Kiti straipsniai

„Pigus“ dopaminas mūsų kasdienybėje: kaip socialiniai tinklai „apdovanoja“ smegenis?
Aktualijos

Telefoniniams sukčiams – galas? Operatoriai blokuos dar daugiau suklastotų skambučių

2025-11-06
Pasiruoškite, netrukus „Facebook“ užtvindys DI generuotas turinys
Technologijos

Pasiruoškite, netrukus „Facebook“ užtvindys DI generuotas turinys

2025-11-05
Berniukai vis dar spaudžiami savo vertę įrodyti jėga, o mergaitės – nuolankumu
Gyvenimas

Berniukai vis dar spaudžiami savo vertę įrodyti jėga, o mergaitės – nuolankumu

2025-11-04
Policijos reidai keliuose lapkričio mėnesį
Lietuva

Policijos reidai keliuose lapkričio mėnesį

2025-11-03
Per Vėlinės nepamirškime pagerbti ir Lietuvos Laisvės kovotojų
Lietuva

Per Vėlinės nepamirškime pagerbti ir Lietuvos Laisvės kovotojų

2025-10-31
Ištrinti neįmanoma: kas nutinka jūsų informacijai, įkeltai į dirbtinio intelekto modelį?
Aktualijos

Ištrinti neįmanoma: kas nutinka jūsų informacijai, įkeltai į dirbtinio intelekto modelį?

2025-10-20
Kaip ir kasmet: vos prasidėjo šildymo sezonas – gaisrų vėl padaugėjo
Aktualijos

Kaip ir kasmet: vos prasidėjo šildymo sezonas – gaisrų vėl padaugėjo

2025-10-20
7 finansiniai asmenybės tipai: ar žinote, kuris esate jūs?
Apžvalgos

Lietuviai atsakė, ką darytų netikėtai gavę 1000 eurų

2025-10-17
Maistas
Gyvenimas

Lietuviai netaupo ir išmeta tonas maisto: ką galime padaryti?

2025-10-17

Rekomenduojame

Iš kur kilo tas Helovinas ir kaip jis atėjo į Lietuvą?

Iš kur kilo tas Helovinas ir kaip jis atėjo į Lietuvą?

2024-10-29
K-POP demonų medžiotojos

Kaip „K-Pop demonų medžiotojos“ tapo žiūrimiausiu filmu „Netflix“ istorijoje

2025-09-25
5 populiariausi telefonų modeliai Lietuvoje 2025-aisiais

5 populiariausi telefonų modeliai Lietuvoje 2025-aisiais

2025-06-02
Šių metų superdaržovė salieras – kaip skaniai jį paruošti?

Šių metų superdaržovė salieras – kaip skaniai jį paruošti?

2025-01-22
Proneta Proneta Proneta

Naujienos

Miuziklas „Riešutėliai Pelenei“ atsisveikina su žiūrovais

Miuziklas „Riešutėliai Pelenei“ atsisveikina su žiūrovais

2025-11-10
Sukurtas pirmasis lietuvių kalbos DI modelis: žengiame į ateitį

Sukurtas pirmasis lietuvių kalbos DI modelis: žengiame į ateitį

2025-11-10
Mokslininkai apie horoskopus: neturi nieko bendro su realybe

Mokslininkai apie horoskopus: neturi nieko bendro su realybe

2025-11-10
Klimato derybos Brazilijoje: kieno balsas lems planetos ateitį?

Klimato derybos Brazilijoje: kieno balsas lems planetos ateitį?

2025-11-10
Verta pamatyti

Naujienos, žinios, įdomybės, patarimai ir apžvalgos iš Lietuvos ir viso pasaulio.

Nauja

Miuziklas „Riešutėliai Pelenei“ atsisveikina su žiūrovais
Kultūra

Miuziklas „Riešutėliai Pelenei“ atsisveikina su žiūrovais

2025-11-10

Lankoma

5 populiariausi telefonų modeliai Lietuvoje 2025-aisiais
Technologijos

5 populiariausi telefonų modeliai Lietuvoje 2025-aisiais

2025-06-02

Reklama

Proneta Proneta Proneta
  • Rašyti redakcijai
  • Naudojimosi taisyklės
  • Akcininkai
  • Privatumo politika
  • Kontaktai

© 2024 Pamatyti

Rezultatų nėra
Žiūrėti visus rezultatus
  • Naujienos
  • Laisvalaikis
  • Kinas
  • Technologijos
  • Receptai
  • Sveikata
  • Auto

© 2024 Pamatyti