Deze gerepliceerde studie onderzoekt of de meningen van softwaretesters—zoals voorkeurtechnieken, waargenomen complexiteit en zelfbeoordeelde prestaties—hunDeze gerepliceerde studie onderzoekt of de meningen van softwaretesters—zoals voorkeurtechnieken, waargenomen complexiteit en zelfbeoordeelde prestaties—hun

Een Replicatiestudie over Softwaretestperceptie versus Effectiviteit

Inhoudsopgave

Samenvatting

1 Inleiding

2 Oorspronkelijke studie: onderzoeksvragen en methodologie

3 Oorspronkelijke studie: bedreigingen voor de validiteit

4 Oorspronkelijke studie: resultaten

5 Gerepliceerde studie: onderzoeksvragen en methodologie

6 Gerepliceerde studie: bedreigingen voor de validiteit

7 Gerepliceerde studie: resultaten

8 Discussie

9 Gerelateerd werk

10 Conclusies en referenties

\

5 Gerepliceerde studie: onderzoeksvragen en methodologie

We besluiten de resultaten van de oorspronkelijke studie verder te onderzoeken op zoek naar mogelijke oorzaken van mispercepties. De psychologie beschouwt dat de percepties van mensen kunnen worden beïnvloed door persoonlijke kenmerken zoals attitudes, persoonlijke interesses en verwachtingen. Daarom besluiten we de meningen van deelnemers te onderzoeken door een gedifferentieerde replicatie van de oorspronkelijke studie [47] uit te voeren die het doel als volgt uitbreidt:

  1. De enquête over effectiviteitsperceptie wordt uitgebreid met vragen over programma's.

  2. We willen uitzoeken of de percepties van deelnemers mogelijk worden geconditioneerd door hun meningen. Meer specifiek: hun voorkeuren (favoriete techniek), hun prestaties (de techniek waarvan ze denken deze het beste te hebben toegepast) en de complexiteit van techniek of programma (de techniek waarvan ze denken dat deze het gemakkelijkst toe te passen is, of het eenvoudigste te testen programma).

    \ Daarom heronderzoekt de gerepliceerde studie RQ1 zoals vermeld in de oorspronkelijke studie (deze keer bevat de enquête die door deelnemers wordt ingevuld ook vragen over programma's), en behandelt de volgende nieuwe onderzoeksvragen:

    RQ1.6: Zijn de percepties van deelnemers gerelateerd aan het aantal defecten dat door deelnemers is gerapporteerd? We willen beoordelen of deelnemers de techniek waarmee ze meer defecten hebben gerapporteerd als de meest effectieve percipiëren.

    RQ2: Kunnen de meningen van deelnemers worden gebruikt als voorspellers voor testeffectiviteit?

    – RQ2.1: Wat zijn de meningen van deelnemers over technieken en programma's? We willen weten of deelnemers verschillende meningen hebben over technieken of programma's.

    RQ2.2: Voorspellen de meningen van deelnemers hun effectiviteit? We willen beoordelen of de meningen die deelnemers hebben over technieken (of programma's) voorspellen welke het meest effectief voor hen is.

    RQ3: Is er een relatie tussen de percepties en meningen van deelnemers?

    RQ3.1: Is er een relatie tussen de percepties en meningen van deelnemers? We willen beoordelen of de meningen die deelnemers hebben over technieken (of programma's) gerelateerd zijn aan hun percepties.

    – RQ3.2: Is er een relatie tussen de meningen van deelnemers? We willen beoordelen of een bepaalde mening die deelnemers hebben over technieken gerelateerd is aan andere meningen.

    \ Om deze vragen te beantwoorden, repliceren we de oorspronkelijke studie met studenten van dezelfde cursus in het volgende academische jaar. Deze keer hebben we 46 studenten. De wijzigingen die zijn aangebracht in de replicatie van het experiment zijn als volgt: – De vragenlijst die door deelnemers aan het einde van het experiment moet worden ingevuld, wordt uitgebreid met nieuwe vragen. De informatie die we willen vastleggen met de meningsvragen is: – Prestaties van deelnemers op technieken. Met deze vraag verwijzen we naar procesconformiteit. Best toegepaste techniek is de techniek waarvan elke deelnemer denkt deze het meest grondig te hebben toegepast. Dit komt overeen met OT1: Welke techniek heb je het beste toegepast?

    \ – Voorkeuren van deelnemers. We willen de favoriete techniek van elke deelnemer weten. Degene waarmee hij/zij zich het meest op zijn/haar gemak voelde bij toepassing. Dit komt overeen met OT2: Welke techniek vind je het beste?

    Complexiteit van techniek. We willen de techniek weten waarvan elke deelnemer denkt dat het gemakkelijkste was om procesconformiteit te verkrijgen. Dit komt overeen met OT3: Welke techniek is het gemakkelijkst toe te passen?

    \ – Testbaarheid van programma. We willen weten welk programma gemakkelijker te testen was. Dit is het programma waarin procesconformiteit gemakkelijker kon worden verkregen. Dit komt overeen met OP1: Wat is het eenvoudigste programma? Tabel 16 vat de enquêtevragen samen. We hebben deze vragen gekozen omdat we eenvoudige vragen moeten stellen die gemakkelijk door deelnemers kunnen worden begrepen en tegelijkertijd betekenisvol zijn. We willen deelnemers niet overweldigen met complexe vragen die veel uitleg bevatten. Een complexe vragenlijst zou studenten kunnen ontmoedigen om deze in te dienen.

    \ – De programmafouten zijn veranderd. De oorspronkelijke studie is zo ontworpen dat alle technieken effectief zijn in het vinden van alle geïnjecteerde defecten. We kiezen fouten die door alle technieken detecteerbaar zijn, zodat de technieken eerlijk kunnen worden vergeleken. De gerepliceerde studie is ontworpen om de situatie te dekken waarin sommige fouten niet door alle technieken kunnen worden gedetecteerd. Daarom injecteren we enkele fouten die technieken niet effectief kunnen detecteren. Zo kan BT bijvoorbeeld geen niet-geïmplementeerde functie detecteren (omdat deelnemers alleen uit de broncode testgevallen moeten genereren). Evenzo,

kan EP geen fout vinden waarvan de detectie afhangt van de combinatie van twee ongeldige equivalentieklassen. Daarom injecteren we in de gerepliceerde studie enkele fouten die door BT maar niet door EP kunnen worden gedetecteerd en enkele fouten die door EP maar niet door BT kunnen worden gedetecteerd in elk programma (elk programma bevat zes fouten). Merk op dat het ontwerp gebalanceerd is: we injecteren hetzelfde aantal fouten dat BT kan detecteren maar EP niet, als het tegenovergestelde – EP kan detecteren maar BT niet). Deze wijziging zal naar verwachting de effectiviteit van EP en BT beïnvloeden, die lager kan zijn dan in de oorspronkelijke studie. Het zou de effectiviteit van CR niet moeten beïnvloeden.

– We veranderen de volgorde van programmatoepassing om rijpingsproblemen verder te bestuderen. De volgorde is nu: cmdline, ntree, nametbl. Deze wijziging zou de resultaten niet moeten beïnvloeden.

– Deelnemers voeren hun eigen testgevallen uit. Het zou kunnen dat de mispercepties die in de oorspronkelijke studie zijn verkregen te wijten zijn aan het feit dat deelnemers niet hun eigen testgevallen uitvoeren.

– Er zijn niet langer twee versies maar één. Fouten en mislukkingen zijn niet het doel van deze studie. Dit helpt het experiment te vereenvoudigen. Tabel 17 toont een samenvatting van de wijzigingen die aan de studie zijn aangebracht.

Om de effectiviteit van technieken te meten, gaan we op dezelfde manier te werk als in de oorspronkelijke studie. We vertrouwen niet op de gerapporteerde mislukkingen, omdat deelnemers:

  1. Vals-positieven kunnen rapporteren (niet-echte mislukkingen).
  2. Dezelfde mislukking meer dan één keer kunnen rapporteren (hoewel hen was gevraagd dit niet te doen).
  3. Mislukkingen kunnen missen die overeenkomen met fouten die door de techniek zijn uitgeoefend, maar om een of andere reden niet zijn gezien.

We meten de nieuwe responsvariabele (gerapporteerde defecten) door het aantal fouten/mislukkingen te tellen dat door elke deelnemer is gerapporteerd. We analyseren RQ2.1 op dezelfde manier als RQ1.1, en RQ1.6, RQ2.2, RQ3.1 en RQ3.2 zoals RQ1.2. Tabel 18 vat de statistische tests samen die worden gebruikt om elke onderzoeksvraag te beantwoorden.

\

6 Gerepliceerde studie: bedreigingen voor de validiteit

De bedreigingen voor de validiteit die in de oorspronkelijke studie worden vermeld, zijn van toepassing op deze gerepliceerde studie. Daarnaast hebben we de volgende geïdentificeerd:

6.1 Conclusievaliditeit

  1. Betrouwbaarheid van behandelingsimplementatie. Het gerepliceerde experiment wordt uitgevoerd door dezelfde onderzoekers die het oorspronkelijke experiment hebben uitgevoerd. Dit garandeert dat de twee groepen deelnemers de behandelingen niet anders implementeren.

    6.2 Interne validiteit

    1. Evaluatieangst. Het gebruik van studenten en het koppelen van hun prestaties in het experiment aan hun cijfer voor de cursus kan verklaren dat deelnemers beschouwen dat hun prestaties en niet de zwakke punten van de technieken de effectiviteit van een techniek verklaren.

6.3 Constructvaliditeit

  1. Ontoereikende preoperationele verklaring van effectconstructen. Aangezien meningen moeilijk te operationaliseren constructen zijn, bestaat de mogelijkheid dat de vragen in de vragenlijst niet door deelnemers worden geïnterpreteerd zoals we bedoeld hadden. 6.4 Externe validiteit

  2. Reproduceerbaarheid van resultaten. Het is niet duidelijk in hoeverre de hier verkregen resultaten reproduceerbaar zijn. Daarom zijn meer replicaties van de studie nodig.

    \ De stappen die moeten worden gevolgd zijn:

    (a) Repliceer de studie waarbij de redenen voor de antwoorden van deelnemers worden vastgelegd.

    (b) Voer de studie uit met praktijkmensen met dezelfde kenmerken als de studenten die in deze studie worden gebruikt (mensen met weinig of geen ervaring in softwaretesten).

    (c) Onderzoek en definieer welke soorten ervaring de resultaten zouden kunnen beïnvloeden (academisch, professioneel, programmeren, testen, enz.).

    (d) Voer nieuwe studies uit waarbij rekening wordt gehouden met toenemende ervaringsniveaus.

    \ Nogmaals, van alle bedreigingen die de gerepliceerde studie beïnvloeden, is de enige die de validiteit van de resultaten van deze studie in een industriële context zou kunnen beïnvloeden, degene die verband houdt met generalisatie naar andere onderwerpstypes.

\

:::info Auteurs:

  1. Sira Vegas
  2. Patricia Riofr´ıo
  3. Esperanza Marcos
  4. Natalia Juristo

:::

:::info Dit paper is beschikbaar op arxiv onder CC BY-NC-ND 4.0 licentie.

:::

\

Disclaimer: De artikelen die op deze site worden geplaatst, zijn afkomstig van openbare platforms en worden uitsluitend ter informatie verstrekt. Ze weerspiegelen niet noodzakelijkerwijs de standpunten van MEXC. Alle rechten blijven bij de oorspronkelijke auteurs. Als je van mening bent dat bepaalde inhoud inbreuk maakt op de rechten van derden, neem dan contact op met service@support.mexc.com om de content te laten verwijderen. MEXC geeft geen garanties met betrekking tot de nauwkeurigheid, volledigheid of tijdigheid van de inhoud en is niet aansprakelijk voor eventuele acties die worden ondernomen op basis van de verstrekte informatie. De inhoud vormt geen financieel, juridisch of ander professioneel advies en mag niet worden beschouwd als een aanbeveling of goedkeuring door MEXC.