Kvalitetssäkring av databaser med AI: Hur stora språkmodeller kan upptäcka och hantera felaktig eller avvikande data
2025 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Database Quality Assurance with AI : How Large Language models can detect and handle incorrect or anomalous data (English)
Abstract [en]
Large Language Models (LLMs) have become increasingly common in data-driven processes, including automated data validation. However, important questions remain regarding their reliability, interpretability, and practical applicability in data-critical environments. This study aims to examine how variations in prompt formulation affect the ability of language models to detect errors in a structured relational database. Three different LLMs were evaluated using atotal of 45 prompts, and performance was measured using precision, recall, and F1-score. To analyse the relationship between the semantic similarity of prompts and performance variation, Spearman's rank correlation and principal component analysis (PCA) were applied. The results show that prompts with similar semantic content often yield significantly different performance, while prompts with varied formulations can sometimes produce comparable outcomes. A weak but statistically significant negative correlation was found between semantic distance and the difference in F1-score. This suggests that language models largely respond to surface-level linguistic patterns rather than deeper semantic meaning. Moreover, the PCA visualization revealed no clear clustering of high-performing prompts, further supporting the notion that semantic proximity is not a reliable predictor of model performance. These findings align with previous research emphasizing that even minor variations in syntax and phrasing can greatly impact model output. This study contributes with insights into the limitations of language models in the context of data validation. It also highlights the need for diversity in prompt design and the importance of focusing on linguistic patterning rather than content alone. For future research, it is recommended that the experiment be expanded to include a broader range of LLMs, additional data types, larger prompt sets, and the continued development of effective prompt engineering strategies.
Abstract [sv]
Stora språkmodeller (Large Language Models) har blivit allt vanligare inom datadrivna processer, inklusive automatiserad datavalidering. Samtidigt kvarstår viktiga frågor kring deras tillförlitlighet, förklarbarhet och praktisk användbarhet i datakritiska miljöer. Denna studie syftar till att undersöka hur variationer i promptformulering påverkar språkmodellers förmåga att upptäcka fel i en strukturerad relationsdatabas. Tre olika språkmodeller utvärderades, genom totalt 45 prompts, och prestandan mättes med precision-, recall-, och F1-score. För att analysera sambandet mellan promptarnas semantiska likhet och variation i resultat användes Spearmans rangkorrelationkoefficient och Principal Component Analysis (PCA). Resultaten visar att prompts med likartad semantisk innebörd ofta leder till betydligt olika prestanda, samtidigt som prompts med olika formuleringar ibland genererar likvärdigt resultat. En svag, men signifikant, negativ korrelation konstaterades mellan semantiskt avstånd samt skillnad i F1-score. Detta antyder att språkmodeller reagerar i stor utsträckning på språkligt mönster snarare än semantisk betydelse. I visualiseringen med hjälp av PCA visades inte heller någon tydlig klustring av högpresterande prompts, vilket ytterligare bekräftar att den semantiska närheten inte är en tillförlitlig indikator för prestanda. Dessa fynd stödjs av tidigare forskning som understryker att små variationer i syntax och uttryck kan ha stor påverkan på modellens respons. Denna studie bidrar med insikter om begränsningarna inom datavalidering hos språkmodellerna. Det finns även behov av variation i promptdesign, med ett tydligt fokus på att identifiera mönster snarare än endast innehållet. För framtida forskning rekommenderas att experimentet utökas till ett bredare urval av LLM:er, andra datatyper och större promptmängder, samt vidareutvecklingen av effektiva strategier för prompt engineering.
Place, publisher, year, edition, pages
2025.
Keywords [sv]
Large Language Models (LLM), Datavalidering, Prompt engineering, Spearman-korrelation, PCA, Human-in-the-Loop (HITL)
National Category
Information Systems
Identifiers
URN: urn:nbn:se:du-51084OAI: oai:DiVA.org:du-51084DiVA, id: diva2:1989812
Subject / course
Informatics
2025-08-182025-08-182025-10-09