logo
POPISI

/

Serijske publikacije

/

Prispevki za novejšo zgodovino

Potencial ChatGPT pri razvoju Slovarja sopomenk sodobne slovenščine


Soavtor(ji):Jure Gašparič (gl. ur.), Mojca Šorn (ur.), Andreja Jezernik (lekt.), Cody J. Inglis (lekt.), Studio S.U.R (lekt., prev.)
Leto:2025
Založnik(i):Inštitut za novejšo zgodovino, Ljubljana
Jezik(i):slovenščina, angleščina
Vrst(e) gradiva:besedilo
Identifikator:https://doi.org/10.51663/pnz.65.3.08
Avtorske pravice:
CC license

To delo avtorjev Špela Arhar Holdt, Magdalena Gapsa, Polona Gantar, Iztok Kosem je ponujeno pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna

Datoteke (1)
Ime:PNZ_03_2025.pdf
Velikost:12.31MB
Format:
Odpri
Prenesi
Opis

V raziskavi preverjamo, kako dobro se ChatGPT-4 odreže pri dveh slovaropisnih nalogah: (a) čiščenju seznama strojno pridobljenih sopomenskih kandidatov in umeščanju sopomenskega gradiva pod besedne pomene ter (b) izdelavi slovarskega gesla, vključno s pomensko členitvijo, definicijami in zgledi, na podlagi različnih vhodnih podatkov. Kot zlati standard upoštevamo slovaropisne odločitve, vključene v Digitalno slovarsko bazo za slovenščino. V prvem preizkusu analiziramo rezultate za 246 slovarskih iztočnic in ugotavljamo, da je ChatGPT podatke uredil povsem enako kot slovaropisci pri 41,9 odstotka iztočnic, pri 58,1 odstotka pa se je v odločitvi razlikoval. Pri presojanju relevantnosti sopomenskih kandidatov je bil ChatGPT popustljivejši od zlatega standarda. Razlike v razvrščanju sopomenk (umestitev pod drug pomen pri 14,6 odstotka iztočnic, manjkajoča umestitev pri 19,9 odstotka) deloma pripisujemo značilnostim vhodnih podatkov, kot sta kompleksnost naloge in kratkost pomenskih indikatorjev. V drugem preizkusu preverjamo zmožnost ChatGPT za samostojno izdelavo slovarskih gesel za 116 iztočnic. Analiza kakovosti generiranih pomenskih členitev in definicij kaže, da sistem deluje zmerno dobro: v 57 odstotkih primerov je zaznal vse pomene,

Metapodatki (13)
  • identifikatorhttps://hdl.handle.net/11686/71607
    • naslov
      • Potencial ChatGPT pri razvoju Slovarja sopomenk sodobne slovenščine
      • The Potential of Chatgpt in the Development of the Thesaurus of Modern Slovene
    • avtor
      • Špela Arhar Holdt
      • Magdalena Gapsa
      • Polona Gantar
      • Iztok Kosem
    • soavtor
      • Jure Gašparič (gl. ur.)
      • Mojca Šorn (ur.)
      • Andreja Jezernik (lekt.)
      • Cody J. Inglis (lekt.)
      • Studio S.U.R (lekt., prev.)
    • predmet
      • digitalno slovaropisje
      • ChatGPT
      • sopomenke
      • besedni pomen
      • slovenščina
      • digital lexicography
      • synonyms
      • word senses
      • Slovenian language
    • opis
      • V raziskavi preverjamo, kako dobro se ChatGPT-4 odreže pri dveh slovaropisnih nalogah: (a) čiščenju seznama strojno pridobljenih sopomenskih kandidatov in umeščanju sopomenskega gradiva pod besedne pomene ter (b) izdelavi slovarskega gesla, vključno s pomensko členitvijo, definicijami in zgledi, na podlagi različnih vhodnih podatkov. Kot zlati standard upoštevamo slovaropisne odločitve, vključene v Digitalno slovarsko bazo za slovenščino. V prvem preizkusu analiziramo rezultate za 246 slovarskih iztočnic in ugotavljamo, da je ChatGPT podatke uredil povsem enako kot slovaropisci pri 41,9 odstotka iztočnic, pri 58,1 odstotka pa se je v odločitvi razlikoval. Pri presojanju relevantnosti sopomenskih kandidatov je bil ChatGPT popustljivejši od zlatega standarda. Razlike v razvrščanju sopomenk (umestitev pod drug pomen pri 14,6 odstotka iztočnic, manjkajoča umestitev pri 19,9 odstotka) deloma pripisujemo značilnostim vhodnih podatkov, kot sta kompleksnost naloge in kratkost pomenskih indikatorjev. V drugem preizkusu preverjamo zmožnost ChatGPT za samostojno izdelavo slovarskih gesel za 116 iztočnic. Analiza kakovosti generiranih pomenskih členitev in definicij kaže, da sistem deluje zmerno dobro: v 57 odstotkih primerov je zaznal vse pomene,
      • In this study, we examine how well ChatGPT-4 performs in two lexicographic tasks: (a) cleaning the list of automatically retrieved synonym candidates and assigning synonymic material to lexical senses, and (b) generating dictionary entries, including sense division, definitions, and examples, based on different input data. As a gold standard, we consider the lexicographic decisions recorded in the Digital Dictionary Database for Slovene. In the first experiment, we analyse the results for 246 dictionary entries and find that ChatGPT processed the data identically to lexicographers in 41.9 % of cases, while in 58.1 % of cases, it made different decisions. When assessing the relevance of synonym candidates, ChatGPT was more permissive than the gold standard. Differences in synonym placement (assignment to a different sense in 14.6 % of entries, missing placement in 19.9 %) can be partly attributed to input data characteristics, such as task complexity and the brevity of semantic indicators. In the second experiment, we test ChatGPT’s ability to autonomously generate dictionary entries for 116 headwords. The analysis of generated sense divisions and definitions reveals that the system performs moderately well: in 57 % of cases, it identified all senses, almost 80 % of generated entries received an average score of 3.5 or higher, and 19 % received the highest score from both evaluators. The main challenges include excessive splitting of senses, failure to recognise figurative meanings, and reduced predictability of results. We conclude that ChatGPT has potential for speeding up manual lexicographic work if its results are properly monitored and refined.
    • založnik
      • Inštitut za novejšo zgodovino
    • datum
      • 2025
    • tip
      • besedilo
    • identifikator
      • https://doi.org/10.51663/pnz.65.3.08
    • jezik
      • Slovenščina
      • Angleščina
    • jeDelOd
    • pravice
      • licenca: ccBySa