Типи мовних помилок у текстах, згенерованих штучним інтелектом

Larisza Kravec; Natálka Libák

doi:10.58423/2786-6726/2026-2-114-130

Szerzők

Larisza Kravec II. Rákóczi Ferenc Kárpátaljai Magyar Egyetem https://orcid.org/0000-0002-5486-0642
Natálka Libák II. Rákóczi Ferenc Kárpátaljai Magyar Egyetem https://orcid.org/0000-0002-0200-4668

DOI:

https://doi.org/10.58423/2786-6726/2026-2-114-130

Kulcsszavak:

mesterséges intelligencia, generált szöveg, nyelvi hibák, ukrán nyelv, nyelvi norma, szövegminőség, szerkesztés

Absztrakt

A tanulmány a mesterséges intelligencia által generált szövegek minőségének problémáját vizsgálja. Hangsúlyozza, hogy bár a korszerű rendszerek képesek nyelvtanilag helyes és stilisztikailag koherens szövegek létrehozására, nem tudják stabilan biztosítani a nyelvi normák következetes betartását. A generált szövegek gyakran különböző típusú nyelvi devianciákat tartalmaznak, amelyek befolyásolják a tartalom pontos közvetítését, csökkentik az információba vetett bizalom szintjét, és megingathatják a standard nyelvi normát. A tanulmány rámutat arra is, hogy a mesterséges intelligencia által generált ukrán nyelvű szövegek vizsgálata mindeddig nem kapott kellő figyelmet.

A kutatás célja az volt, hogy feltárja a generatív modellek által létrehozott ukrán nyelvű szövegek főbb nyelvi hibatípusait, valamint elemezze előfordulásuk törvényszerűségeit a nyelvi modellek működési sajátosságainak figyelembevételével. A kutatás anyagát a ChatGPT különböző verziói által generált, filológiai témájú, tudományos és tudományos-ismeretterjesztő stílusú szövegek képezték.

Megállapítást nyert, hogy a leggyakoribbak a lexikai-szemantikai és stilisztikai hibák, különösen a tükörfordítások, a tautológiák, a túlzott verbalizáció, a klisészerűség és a sablonos megfogalmazás. Jelentős arányt képviselnek a szintaktikai eltérések is, amelyek a túlzottan bonyolult szerkezetekben, a sablonos struktúrákban és a passzív formák használatára való hajlamban mutatkoznak meg. A tanulmány szemantikai és logikai hibákat is azonosított, amelyek a „hallucináció” jelenségéhez kapcsolódnak, és pontatlan vagy megbízhatatlan információk megjelenéséhez vezetnek. Ugyanakkor a morfológiai és helyesírási hibák viszonylag ritkán fordulnak elő, ami az ilyen szövegek magas szintű formális nyelvi helyességére utal.

A nyelvi devianciák fő okaként a generálás valószínűségi természetét, a heterogén és részben hibás tanítóadatok hatását, a nyelvek közötti interferenciát, valamint az ukrán nyelv egyenetlen reprezentáltságát jelöli meg a tanítókorpuszokban. A tanulmány hangsúlyozza a nyelvi hibák rendszerszerű vizsgálatának és tipológiájuk kidolgozásának szükségességét, mivel ez a generált szövegek hatékony diagnosztizálásának és szerkesztésének előfeltétele.

Az eredmények gyakorlati jelentőséggel bírnak az automatizált szövegminőség-ellenőrző eszközök fejlesztése, a szerkesztési gyakorlatok tökéletesítése, valamint a generatív mesterséges intelligencia felelős használatára vonatkozó ajánlások kidolgozása szempontjából az ukrán nyelvű kommunikációs térben.

Szerző életrajzok

Larisza Kravec, II. Rákóczi Ferenc Kárpátaljai Magyar Egyetem

a filológiai tudományok doktora, professzor. II. Rákóczi Ferenc Kárpátaljai Magyar Egyetem, Filológia Tanszék, professzor

Natálka Libák, II. Rákóczi Ferenc Kárpátaljai Magyar Egyetem

PhD. II. Rákóczi Ferenc Kárpátaljai Magyar Egyetem, Filológia Tanszék, docens

Hivatkozások

1. Zahnitko, A. 2012. Slovnyk suchasnoi linhvistyky: poniattia i terminy [Dictionary of Contemporary Linguistics: Concepts and Terms]. Donetsk: Donetskyi natsionalnyi universytet imeni Vasylia Stusa. (In Ukrainian)

2. Kravets, L. V. 2023. Semantychna deryvatsiia v ukrainskomu publichnomu dyskursi [Semantic derivation in Ukrainian public discourse]. Slobozhanskyi naukovyi visnyk. Seriia: Filolohiia 3: s. 74–79. https://doi.org/10.32782/philspu/2023.3.14 (In Ukrainian)

3. Kravets, L. V. 2025. Ukrainska mova v epokhu tsyfrovoi komunikatsii: tendentsii, zminy, perspektyvy [The Ukrainian language in the age of digital communication: trends, changes, and prospects]. Slobozhanskyi naukovyi visnyk. Seriia: Filolohiia 12: s. 18–22. https://doi.org/10.32782/philspu/2025.12.3 (In Ukrainian)

4. Kulias, P. P. 2015. Typolohiia pomylok: pidruchnyk-monohrafiia [Typology of Errors: Textbook-Monograph]. Kyiv: NPU im. M. P. Drahomanova. (In Ukrainian)

5. Slovnyk terminiv u sferi shtuchnoho intelektu [Dictionary of Terms in the Field of Artificial Intelligence] / editors: Chumachenko D., Mishkin D., Andriienko O., Krakovetskyi O., Turuta O., Dubno O., Khrushchova D., Kobrin A., Avdieieva T., Kravets I., Herasymiak V., Shabanov O., Bystrytska A. Kyiv: Ministerstvo tsyfrovoi transformatsii Ukrainy, 2024. (In Ukrainian)

6. Telpis, D. M. – Kutuza, N. V. 2025. Movni deviatsii yak identyfikatsiia roli shtuchnoho intelektu u formuvanni IpsO [Linguistic deviations as an identification of the role of artificial intelligence in the formation of information-psychological operations]. In: Filatova, O. S. ed. Zhurnalistyka i media v umovakh tsyfrovykh transformatsii. Mykolaiv: NUK im. adm. Makarova, s. 205–207. (In Ukrainian)

7. Tur, O. M. – Shabunina, V. V. – Sarancha, V. I. 2025. Dyskursyvni osoblyvosti vykorystannia terminolohii heneratyvnoho shtuchnoho intelektu u fakhovii komunikatsii: analiz tendentsii ta perspektyv [Discursive features of the use of generative artificial intelligence terminology in professional communication: an analysis of trends and prospects]. Acta Academiae Beregsasiensis, Philologica 4/3: s. 140–157. https://doi.org/10.58423/2786-6726/2025-3-140-157 (In Ukrainian)

8. Bender, E. M. – Gebru, T. – McMillan-Major, A. – Shmitchell, S. 2021. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency. New York: Association for Computing Machinery, pp. 610–623. https://doi.org/10.1145/3442188.3445922

9. Brown, T.B. – Mann, B. – Ryder, N. – Subbiah, M. – Kaplan J. – Dhariwal, P. – Neelakantan, A. – Shyam, P. – Sastry, G. – Askell, A. – Agarwal, S. – Herbert-Voss, A. – Krueger, G. – Henighan, T. – Child, R. – Ramesh, A. – Ziegler, D. M. – Wu, J. – Winter, C. – Hesse, Ch. – Chen, M. – Sigler, E. – Litwin, M. – Gray, S. – Chess, B. – Clark, J. – Berner, Ch. – Candlish, S. – Radford, A. – Sutskever, I. – Amodei, D. 2020. Language Models are Few-Shot Learners. arXiv. Cornell University, pp. 1–75. https://doi.org/10.48550/arXiv.2005.14165

10. Devlin, J. – Uesato, J. – Singh, R. – Kohli, P. 2017. Semantic Code Repair using Neuro-Symbolic Transformation Networks. arXiv. Cornell University, pp. 1–11. https://doi.org/10.48550/arXiv.1710.11054

11. Jumelet J. – Denić M. – Szymanik J. – Hupkes D. – Steinert-Threlkeld S. 2021. Language Models Use Monotonicity to Assess NPI Licensing. In: Findings of the Association for Computational Linguistics. Association for Computational Linguistics, pp. 4958–4969. https://doi.org/10.18653/v1/2021.findings-acl.439

12. Kwok, D. – Altintas, G. S. – Raffel, C. – Rolnick, D. 2025. The Butterfly Effect: Neural Network Training Trajectories Are Highly Sensitive to Initial Conditions. arXiv. Cornell University, pp. 1–29. https://doi.org/10.48550/arXiv.2506.13234

13. Shannon, C. E. 1948. A Mathematical Theory of Communication. The Bell System Technical Journal 27/3: pp. 379–423. https://doi.org/10.1002/j.1538-7305.1948.tb01338.x

14. Shimabucoro, L. – Ustun, A. – Fadaee, M. – Ruder, S. 2025. A Post-trainer’s Guide to Multilingual Training Data: Uncovering Cross-lingual Transfer Dynamics. arXiv. Cornell University, pp. 1–18. https://doi.org/10.48550/arXiv.2504.16677

15. Sorensen, T. – Choi, Y. 2025. Opt-ICL at LeWiDi-2025: Maximizing In-Context Signal from Rater Examples via Meta-Learning. In: Proceedings of the The 4th Workshop on Perspectivist Approaches to NLP. Suzhou: Association for Computational Linguistics, pp. 228–241. https://doi.org/10.18653/v1/2025.nlperspectives-1.20

16. Terčon, L. – Dobrovoljc, K. 2025. Linguistic Characteristics of AI-Generated Text: A Survey. arXiv. Cornell University, pp. 1–26. https://doi.org/10.48550/arXiv.2510.05136

A mesterséges intelligencia által generált szövegekben előforduló nyelvi hibák típusai

Szerzők

DOI:

Kulcsszavak:

Absztrakt

Szerző életrajzok

Larisza Kravec, II. Rákóczi Ferenc Kárpátaljai Magyar Egyetem

Natálka Libák, II. Rákóczi Ferenc Kárpátaljai Magyar Egyetem

Hivatkozások

Downloads

Megjelent

Hogyan kell idézni

Folyóirat szám

Rovat

License

Nyelv

ISSN:

B kategória ikon

DOAJ