Содержание
Резюме
1 Введение
2 Первоначальное исследование: Исследовательские вопросы и методология
3 Первоначальное исследование: Угрозы валидности
4 Первоначальное исследование: Результаты
5 Повторное исследование: Исследовательские вопросы и методология
6 Повторное исследование: Угрозы валидности
7 Повторное исследование: Результаты
8 Обсуждение
9 Связанные работы
10 Выводы и ссылки
\
Мы решили дополнительно изучить результаты первоначального исследования в поисках возможных причин неправильных восприятий. Психология считает, что восприятие людей может зависеть от личных характеристик, таких как установки, личные интересы и ожидания. Поэтому мы решили изучить мнения участников, проведя дифференцированное повторение первоначального исследования [47], которое расширяет его цель следующим образом:
Опрос о восприятии эффективности расширен, чтобы включить вопросы о программах.
Мы хотим выяснить, могут ли восприятия участников быть обусловлены их мнениями. Точнее: их предпочтениями (любимая техника), их производительностью (техника, которую, по их мнению, они применили лучше всего) и сложностью техники или программы (техника, которую, по их мнению, легче всего применить, или самая простая программа для тестирования).
\ Таким образом, повторное исследование пересматривает RQ1, заявленный в первоначальном исследовании (на этот раз опрос, проводимый участниками, также включает вопросы о программах), и рассматривает следующие новые исследовательские вопросы:
– RQ1.6: Связаны ли восприятия участников с количеством дефектов, о которых сообщили участники? Мы хотим оценить, воспринимают ли участники как наиболее эффективную технику ту, с помощью которой они сообщили о большем количестве дефектов.
– RQ2: Можно ли использовать мнения участников в качестве предикторов эффективности тестирования?
– RQ2.1: Каково мнение участников о техниках и программах? Мы хотим узнать, есть ли у участников разные мнения о техниках или программах.
– RQ2.2: Предсказывают ли мнения участников их эффективность? Мы хотим оценить, предсказывают ли мнения участников о техниках (или программах), какая из них наиболее эффективна для них.
– RQ3: Существует ли связь между восприятием и мнениями участников?
– RQ3.1: Существует ли связь между восприятием и мнениями участников? Мы хотим оценить, связаны ли мнения участников о техниках (или программах) с их восприятием.
– RQ3.2: Существует ли связь между мнениями участников? Мы хотим оценить, связано ли определенное мнение участников о техниках с другими мнениями.
\ Чтобы ответить на эти вопросы, мы повторяем первоначальное исследование со студентами того же курса в следующем учебном году. На этот раз у нас 46 студентов. Изменения, внесенные в повторение эксперимента, следующие: – Анкета, которую участники должны заполнить в конце эксперимента, расширена и включает новые вопросы. Информация, которую мы хотим получить с помощью вопросов о мнениях: – Производительность участников по техникам. Под этим вопросом мы подразумеваем соответствие процессу. Лучше всего примененная техника — это техника, которую каждый участник считает, что он/она применил(а) наиболее тщательно. Это соответствует OT1: Какую технику вы применили лучше всего?
\ – Предпочтения участников. Мы хотим узнать любимую технику каждого участника. Ту, с которой он/она чувствовал(а) себя более комфортно при применении. Это соответствует OT2: Какая техника вам нравится больше всего?
– Сложность техники. Мы хотим знать технику, которую каждый участник считает наиболее легкой для достижения соответствия процессу. Это соответствует OT3: Какую технику легче всего применить?
\ – Тестируемость программы. Мы хотим узнать программу, которую было легче тестировать. То есть программу, в которой соответствие процессу можно было получить наиболее легко. Это соответствует OP1: Какая программа самая простая? Таблица 16 обобщает вопросы опроса. Мы выбрали эти вопросы, потому что нам нужно задавать простые вопросы, которые могут быть легко поняты участниками и в то же время являются содержательными. Мы не хотим перегружать участников сложными вопросами с большим количеством объяснений. Сложная анкета может отпугнуть студентов от ее заполнения.
\ – Ошибки программы изменены. Первоначальное исследование разработано так, что все техники эффективны для обнаружения всех внесенных дефектов. Мы выбираем ошибки, обнаруживаемые всеми техниками, чтобы техники можно было сравнивать справедливо. Повторное исследование разработано для охвата ситуации, в которой некоторые ошибки не могут быть обнаружены всеми техниками. Поэтому мы вносим некоторые ошибки, которые техники неэффективны при обнаружении. Например, BT не может обнаружить нереализованную функцию (поскольку от участников требуется генерировать тестовые случаи только из исходного кода). Аналогично,
EP не может найти ошибку, обнаружение которой зависит от комбинации двух недопустимых классов эквивалентности. Поэтому в повторном исследовании мы вносим в каждую программу некоторые ошибки, которые могут быть обнаружены BT, но не EP, и некоторые ошибки, которые могут быть обнаружены EP, но не BT (каждая программа засевается шестью ошибками). Обратите внимание, что дизайн сбалансирован: мы вносим одинаковое количество ошибок, которые BT может обнаружить, но не EP, и противоположное – EP может обнаружить, но не BT). Ожидается, что это изменение повлияет на эффективность EP и BT, которая может быть ниже, чем в первоначальном исследовании. Это не должно повлиять на эффективность CR.
– Мы изменяем порядок применения программ для дальнейшего изучения проблем созревания. Порядок теперь: cmdline, ntree, nametbl. Это изменение не должно повлиять на результаты.
– Участники запускают свои собственные тестовые случаи. Возможно, что неправильные восприятия, полученные в первоначальном исследовании, связаны с тем, что участники не запускают свои собственные тестовые случаи.
– Больше нет двух версий, а только одна. Ошибки и сбои не являются целью этого исследования. Это помогает упростить эксперимент. Таблица 17 показывает сводку изменений, внесенных в исследование.
Для измерения эффективности техники мы действуем так же, как и в первоначальном исследовании. Мы не полагаемся на сообщенные сбои, так как участники могли:
Мы измеряем новую переменную отклика (сообщенные дефекты), подсчитывая количество ошибок/сбоев, о которых сообщил каждый участник. Мы анализируем RQ2.1 таким же образом, как RQ1.1, и RQ1.6, RQ2.2, RQ3.1 и RQ3.2, как RQ1.2. Таблица 18 обобщает статистические тесты, используемые для ответа на каждый исследовательский вопрос.
\
Угрозы валидности, перечисленные в первоначальном исследовании, применимы к этому повторному исследованию. Кроме того, мы определили следующие:
Надежность реализации обработки. Повторный эксперимент проводится теми же исследователями, которые провели первоначальный эксперимент. Это гарантирует, что две группы участников не реализуют обработку по-разному.
6.2 Внутренняя валидность
1. Опасения оценки. Использование студентов и связывание их производительности в эксперименте с их оценкой в курсе может объяснить, что участники считают, что их производительность, а не слабости техник, объясняют эффективность техники.
Неадекватное предоперационное объяснение конструкций эффекта. Поскольку мнения трудно операционализировать, существует возможность того, что вопросы, появляющиеся в анкете, не интерпретируются участниками так, как мы предполагали. 6.4 Внешняя валидность
Воспроизводимость результатов. Неясно, в какой степени полученные здесь результаты воспроизводимы. Поэтому необходимы дополнительные повторения исследования.
\ Следующие шаги должны быть выполнены:
(a) Повторить исследование, фиксируя причины ответов, данных участниками.
(b) Провести исследование с практиками с теми же характеристиками, что и студенты, использованные в этом исследовании (люди с небольшим опытом или без опыта в тестировании программного обеспечения).
(c) Исследовать и определить, какие типы опыта могут влиять на результаты (академический, профессиональный, программирование, тестирование и т. д.).
(d) Провести новые исследования с учетом повышения уровня опыта.
\ Опять же, из всех угроз, влияющих на повторное исследование, единственная, которая может повлиять на валидность результатов этого исследования в промышленном контексте, связана с обобщением на другие типы субъектов.
\
:::info Авторы:
:::
:::info Эта статья доступна на arxiv под лицензией CC BY-NC-ND 4.0.
:::
\


