Inhaltsverzeichnis
Abstrakt
1 Einleitung
2 Originalstudie: Forschungsfragen und Methodik
3 Originalstudie: Validitätsbedrohungen
4 Originalstudie: Ergebnisse
5 Wiederholungsstudie: Forschungsfragen und Methodik
6 Wiederholungsstudie: Validitätsbedrohungen
7 Wiederholungsstudie: Ergebnisse
8 Diskussion
9 Verwandte Arbeiten
10 Schlussfolgerungen und Referenzen
\
Wir beschließen, die Ergebnisse der Originalstudie weiter zu untersuchen, um mögliche Ursachen für Fehlwahrnehmungen zu finden. Die Psychologie geht davon aus, dass die Wahrnehmung von Menschen durch persönliche Eigenschaften wie Einstellungen, persönliche Interessen und Erwartungen beeinflusst werden kann. Daher beschließen wir, die Meinungen der Teilnehmer zu untersuchen, indem wir eine differenzierte Wiederholung der Originalstudie [47] durchführen, die ihr Ziel wie folgt erweitert:
Die Umfrage zur Wahrnehmung der Wirksamkeit wird um Fragen zu Programmen erweitert.
Wir möchten herausfinden, ob die Wahrnehmungen der Teilnehmer durch ihre Meinungen beeinflusst werden könnten. Genauer gesagt: ihre Präferenz (bevorzugte Technik), ihre Leistung (die Technik, die sie ihrer Meinung nach am besten angewendet haben) und die Komplexität der Technik oder des Programms (die Technik, die ihrer Meinung nach am einfachsten anzuwenden ist, oder das einfachste zu testende Programm).
\ Daher untersucht die Wiederholungsstudie RQ1 aus der Originalstudie erneut (diesmal enthält die von den Teilnehmern ausgefüllte Umfrage auch Fragen zu Programmen) und behandelt die folgenden neuen Forschungsfragen:
– RQ1.6: Stehen die Wahrnehmungen der Teilnehmer im Zusammenhang mit der Anzahl der von den Teilnehmern gemeldeten Fehler? Wir möchten bewerten, ob die Teilnehmer die Technik als am wirksamsten wahrnehmen, mit der sie mehr Fehler gemeldet haben.
– RQ2: Können die Meinungen der Teilnehmer als Prädiktoren für die Testwirksamkeit verwendet werden?
– RQ2.1: Was sind die Meinungen der Teilnehmer zu Techniken und Programmen? Wir möchten wissen, ob die Teilnehmer unterschiedliche Meinungen zu Techniken oder Programmen haben.
– RQ2.2: Sagen die Meinungen der Teilnehmer ihre Wirksamkeit voraus? Wir möchten bewerten, ob die Meinungen der Teilnehmer zu Techniken (oder Programmen) vorhersagen, welche für sie am wirksamsten ist.
– RQ3: Gibt es einen Zusammenhang zwischen den Wahrnehmungen und Meinungen der Teilnehmer?
– RQ3.1: Gibt es einen Zusammenhang zwischen den Wahrnehmungen und Meinungen der Teilnehmer? Wir möchten bewerten, ob die Meinungen der Teilnehmer zu Techniken (oder Programmen) mit ihren Wahrnehmungen zusammenhängen.
– RQ3.2: Gibt es einen Zusammenhang zwischen den Meinungen der Teilnehmer? Wir möchten bewerten, ob eine bestimmte Meinung der Teilnehmer zu Techniken mit anderen Meinungen zusammenhängt.
\ Um diese Fragen zu beantworten, wiederholen wir die Originalstudie mit Studenten desselben Kurses im folgenden akademischen Jahr. Diesmal haben wir 46 Studenten. Die Änderungen an der Wiederholung des Experiments sind wie folgt: – Der von den Teilnehmern am Ende des Experiments auszufüllende Fragebogen wird um neue Fragen erweitert. Die Informationen, die wir mit den Meinungsfragen erfassen möchten, sind: – Leistung der Teilnehmer bei Techniken. Mit dieser Frage beziehen wir uns auf Prozesskonformität. Die am besten angewendete Technik ist die Technik, die jeder Teilnehmer seiner Meinung nach gründlicher angewendet hat. Sie entspricht OT1: Welche Technik haben Sie am besten angewendet?
\ – Präferenz der Teilnehmer. Wir möchten die Lieblingstechnik jedes Teilnehmers kennen. Diejenige, mit der er/sie sich bei der Anwendung wohler gefühlt hat. Sie entspricht OT2: Welche Technik mögen Sie am liebsten?
– Technikkomplexität. Wir möchten die Technik kennen, die jeder Teilnehmer für am einfachsten hält, um Prozesskonformität zu erreichen. Sie entspricht OT3: Welche Technik ist am einfachsten anzuwenden?
\ – Programmtestbarkeit. Wir möchten das Programm kennen, das einfacher zu testen war. Das heißt, das Programm, bei dem Prozesskonformität leichter erreicht werden konnte. Es entspricht OP1: Welches ist das einfachste Programm? Tabelle 16 fasst die Umfragefragen zusammen. Wir haben diese Fragen gewählt, weil wir einfache Fragen stellen müssen, die von den Teilnehmern leicht verstanden werden können und gleichzeitig aussagekräftig sind. Wir möchten die Teilnehmer nicht mit komplexen Fragen überfordern, die viele Erklärungen enthalten. Ein komplexer Fragebogen könnte die Studenten davon abhalten, ihn einzureichen.
\ – Die Programmfehler werden geändert. Die Originalstudie ist so konzipiert, dass alle Techniken effektiv alle injizierten Fehler finden können. Wir wählen Fehler aus, die von allen Techniken erkannt werden können, damit die Techniken fair verglichen werden können. Die Wiederholungsstudie ist so konzipiert, dass sie die Situation abdeckt, in der einige Fehler nicht von allen Techniken erkannt werden können. Daher injizieren wir einige Fehler, die die Techniken nicht effektiv erkennen können. Zum Beispiel kann BT keine nicht implementierte Funktion erkennen (da die Teilnehmer aufgefordert werden, Testfälle nur aus dem Quellcode zu generieren). Ebenso
kann EP keinen Fehler finden, dessen Erkennung von der Kombination zweier ungültiger Äquivalenzklassen abhängt. Daher injizieren wir in der Wiederholungsstudie in jedes Programm einige Fehler, die von BT, aber nicht von EP erkannt werden können, und einige Fehler, die von EP, aber nicht von BT erkannt werden können (jedes Programm wird mit sechs Fehlern versehen). Beachten Sie, dass das Design ausgewogen ist: Wir injizieren die gleiche Anzahl von Fehlern, die BT erkennen kann, aber nicht EP, wie umgekehrt – EP erkennen kann, aber nicht BT). Es wird erwartet, dass diese Änderung die Wirksamkeit von EP und BT beeinträchtigt, die möglicherweise niedriger ist als in der Originalstudie. Sie sollte die Wirksamkeit von CR nicht beeinträchtigen.
– Wir ändern die Reihenfolge der Programmanwendung, um Reifungsprobleme weiter zu untersuchen. Die Reihenfolge lautet nun: cmdline, ntree, nametbl. Diese Änderung sollte die Ergebnisse nicht beeinflussen.
– Die Teilnehmer führen ihre eigenen Testfälle aus. Es könnte sein, dass die in der Originalstudie erhaltenen Fehlwahrnehmungen darauf zurückzuführen sind, dass die Teilnehmer ihre eigenen Testfälle nicht ausführen.
– Es gibt nicht mehr zwei Versionen, sondern eine. Fehler und Ausfälle sind nicht das Ziel dieser Studie. Dies hilft, das Experiment zu vereinfachen. Tabelle 17 zeigt eine Zusammenfassung der an der Studie vorgenommenen Änderungen.
Um die Wirksamkeit der Technik zu messen, gehen wir genauso vor wie in der Originalstudie. Wir verlassen uns nicht auf die gemeldeten Ausfälle, da die Teilnehmer könnten:
Wir messen die neue Antwortvariable (gemeldete Fehler), indem wir die Anzahl der von jedem Teilnehmer gemeldeten Fehler/Ausfälle zählen. Wir analysieren RQ2.1 auf die gleiche Weise wie RQ1.1 und RQ1.6, RQ2.2, RQ3.1 und RQ3.2 wie RQ1.2. Tabelle 18 fasst die statistischen Tests zusammen, die zur Beantwortung jeder Forschungsfrage verwendet werden.
\
Die in der Originalstudie aufgeführten Validitätsbedrohungen gelten auch für diese Wiederholungsstudie. Darüber hinaus haben wir die folgenden identifiziert:
Zuverlässigkeit der Behandlungsimplementierung. Das wiederholte Experiment wird von denselben Forschern durchgeführt, die das ursprüngliche Experiment durchgeführt haben. Dies stellt sicher, dass die beiden Teilnehmergruppen die Behandlungen nicht unterschiedlich implementieren.
6.2 Interne Validität
1. Bewertungsbesorgnis. Die Verwendung von Studenten und die Verknüpfung ihrer Leistung im Experiment mit ihrer Note im Kurs könnte erklären, dass die Teilnehmer der Meinung sind, dass ihre Leistung und nicht die Schwächen der Techniken die Wirksamkeit einer Technik erklären.
Unzureichende präoperative Erklärung von Effektkonstrukten. Da Meinungen schwer zu operationalisierende Konstrukte sind, besteht die Möglichkeit, dass die im Fragebogen erscheinenden Fragen von den Teilnehmern nicht so interpretiert werden, wie wir es beabsichtigt haben. 6.4 Externe Validität
Reproduzierbarkeit der Ergebnisse. Es ist nicht klar, inwieweit die hier erzielten Ergebnisse reproduzierbar sind. Daher sind weitere Wiederholungen der Studie erforderlich.
\ Die zu befolgenden Schritte sind:
(a) Wiederholen der Studie unter Erfassung der Gründe für die von den Teilnehmern gegebenen Antworten.
(b) Durchführung der Studie mit Praktikern mit den gleichen Eigenschaften wie die in dieser Studie verwendeten Studenten (Personen mit geringer oder keiner Erfahrung im Softwaretest).
(c) Erkunden und Definieren, welche Arten von Erfahrung die Ergebnisse beeinflussen könnten (akademisch, beruflich, Programmierung, Testen usw.).
(d) Durchführung neuer Studien unter Berücksichtigung steigender Erfahrungsstufen.
\ Auch hier ist von allen Bedrohungen, die die Wiederholungsstudie betreffen, die einzige, die die Gültigkeit der Ergebnisse dieser Studie in einem industriellen Kontext beeinträchtigen könnte, diejenige, die mit der Verallgemeinerung auf andere Subjekttypen zusammenhängt.
\
:::info Autoren:
:::
:::info Dieses Papier ist auf arxiv verfügbar unter CC BY-NC-ND 4.0 Lizenz.
:::
\


