← все материалы · лендинг

Deep-research 2: валидный ранний сигнал по рву/дистрибуции за полдня

Скептический методологический разбор с реальным веб-поиском и адверсариальной верификацией. Цель — улучшить методику лаборатории «Ров» (metodika-rva.md). Июнь 2026.

Калибровка источников применена: фасилитация — только независимая оценка, не само-промо; lean — эмпирический разбор валидности теста, не блог-вендор; стат/поведенческая — рецензируемое и по возможности реплицированное; single study без репликации помечен как красный флаг.

1. TL;DR

Главный вывод: пересборка ядра в §6 методики направлена правильно, но в трёх местах опирается на приёмы, которые сами по себе невалидны, и в одном — оставляет дыру, которую считает закрытой.

Семь тезисов, каждый с доказательством (полные ссылки — §3):

Тест спроса ≠ тест барьера — это уже зашито в §6.1, и литература это подтверждает жёстче, чем сама методика. Design Sprint, fake-door, painted-door валидируют usability/curiosity, а не willingness-to-pay и тем более не барьер (Richard; userpilot; Прентис). Хорошо: §6.1 запрещает «ров подтверждён». Плохо: §1.3 всё ещё подаёт «быстрый тест» каждого типа как тест рва.
n=12 дружелюбных коллег не даёт квантитативного сигнала — ни k-фактора, ни price-теста, ни конверсии. И pre-registration этого не лечит. При n=12 доверительный интервал для доли ≈ ±25–30 п.п. (Brown–Cai–DasGupta 2001). Pre-registration убирает p-hacking, но не повышает мощность и не чинит малую выборку (PLOS One 2020). §6.2 правильно выносит сигнал во внешний канал — это ключевая правка, её надо защитить от исключений.
Публичные опросы/голоса в зале — это информационный каскад, а не 12 независимых сигналов. Последовательные публичные мнения → люди копируют, а не раскрывают приватный сигнал (Bikhchandani et al. 1992; Anderson–Holt 1997). Социальное влияние повышает уверенность без повышения точности (Lorenz et al. 2011, PNAS). Зал, который «договорился», чувствует себя увереннее, будучи не точнее.
Автор не может честно забраковать свой ров — это самая прочная находка, и §6.3 её правильно лечит. Мотивированное рассуждение (Kunda 1990) + асимметрия производства/оценки аргументов (Mercier–Sperber 2011): человек объективен, оценивая чужой аргумент, и пристрастен, производя свой. Вывод «фейк/не фейк» структурно исключён из роли автора в §6.3 — это совпадает с доказательством.
Но «назначенный критик» (assigned devil’s advocate) — слабейшая форма критики и может усилить исходную позицию. Назначенная роль адвоката дьявола вызывает cognitive bolstering — группа генерирует больше аргументов ЗА исходную идею (Nemeth et al. 2001). Аутентичное несогласие бьёт контривированное. §6.3 назначает «другого фаундера» убивать гипотезу — это лучше, чем самокритика, но это всё ещё assigned, не authentic.
Ранний индикатор (leading-метрика §1.3) НЕ является валидным суррогатом долгого ROIC без проверки surrogate validity. Корреляция с исходом ≠ суррогатность (критерий Прентиса). «k-фактор > 0», «retention-плато», «CAC падает» — это корреляты, не доказанные предикторы рва. Surrogate paradox: можно сдвинуть суррогат и ухудшить истинный исход.
Sean Ellis 40%-опрос (используется в §1.3 как тест бренд-рва) имеет встроенный self-selection bias и слабую предсказательность. Отвечают вовлечённые, лапснутые недосэмплированы → 40% считается на выборке, перекошенной в фанатов; cohort-retention строже (Perspective AI; Growth Eng Blog). Это та же ошибка выборки, что и «сигнал на коллегах».

ТОП-правка одной фразой: методика должна перестать называть внутризальные «быстрые тесты» (§1.3) тестами и переименовать их в генераторы гипотез для внешней проверки; единственный валидный исход зала — (а) фальсификация барьера чужими руками и (б) запущенный во внешний канал pre-registered тест спроса. Это ровно то, к чему §6 уже движется — но §1.3 и §3 это движение не отражают.

2. Индекс приёмов

Приём · что валидирует (с источником) · условия валидности · типичные ложные срабатывания.

Приём	Что реально валидирует	Условия валидности	Ложные срабатывания
Fake-door / painted-door	Curiosity/CTR к офферу выгоды	Внешний холодный канал; целевая популяция; достаточная n; клик ≠ покупка учтён	Клик принимают за willingness-to-pay; тест спроса выдают за тест барьера; локейшн-байас оффера
Smoke test (лендинг + конверсия)	Раннее намерение в реальном канале	Холодный трафик, не друзья; n по power-расчёту; зафиксирован порог ДО теста	На тёплой/дружеской аудитории — шум; новизна ≠ удержание
Sean Ellis 40% PMF-опрос	Грубый leading-сигнал привязанности	Выборка не перекошена в активных; рассматривать как ОДИН из сигналов	Self-selection (отвечают фанаты) → завышение; «бренд-ров» из опроса — артефакт выборки
Design Sprint (5-day) тест на 5 юзерах	Usability прототипа	Это юзабилити-эвристика Нильсена, НЕ инференс о спросе	«Validated» подменяет usability на market-fit; прецедент-фрейминг + confirmation bias
Devil’s advocate (назначенный)	Поверхностное оппонирование	Слабая форма; нужна аутентичность + право менять решение	Cognitive bolstering — усиливает исходную позицию вместо подрыва
Authentic dissent (настоящее несогласие)	Расширение поиска информации, качество решения	Несогласный реально верит в контрпозицию; психологическая безопасность	Если контрфорсированно — деградирует к назначенному
Premortem / prospective hindsight	+~30% сгенерированных причин провала (одно исследование 1989)	Хорош для генерации рисков; ДО фиксации решения	«+30% к качеству решений» — поп-оверрич; это про генерацию причин, не про исходы
Red-team / SAT	Зависит от структуры	Независимость + мандат менять решение + аутентичность	Театр, если чек-бокс без полномочий; ACH НЕ снижает confirmation bias
Pre-registration	Убирает p-hacking / post-hoc подгонку	Применять к ВНЕШНЕМУ тесту с адекватной n	На малой/невалидной выборке придаёт шуму печать валидности
Wisdom of crowds (агрегация)	Точную оценку — при независимости + разнообразии	Diversity, independence, decentralization, aggregation (Surowiecki); приватные ответы	Каскад при публичных последовательных мнениях; коррелированные ошибки у однородных фаундеров
Leading indicator как суррогат	Ничего, пока не доказана surrogacy	Критерий Прентиса: эффект на суррогат предсказывает эффект на истинный исход	Корреляцию принимают за суррогатность; surrogate paradox

3. Доказательная база со ссылками

3.1. Lean / validation — тест спроса, а не барьера

Fake-door измеряет curiosity, не commitment. «Clicks measure curiosity, not commitment… this gap between click intent and purchase behavior is where most fake door tests produce misleading signal». userpilot, userintuition. Локейшн-байас и требование значимой n: gethorizon.
Design Sprint валидирует usability, НЕ спрос/оплату. Kevin Richard (независимый практик, не продаёт спринты): «You actually proved that your solution is usable… What does it tell us about people[’s] willingness to buy it? Not many things». Плюс прецедент-фрейминг и observer-expectancy: «If you seek validation only, you just created the perfect conditions to get what you want». kevinrichard.ch, UX Collective. n=5 — юзабилити-эвристика Нильсена, не инференс о рынке.
Sean Ellis 40%-опрос: self-selection + слабая предсказательность. «The PMF survey systematically over-indexes on respondents who completed the survey… the 40% is calculated against a sample that already over-represents fans»; пример: ультра-вовлечённая группа дала 78% «very disappointed», но широкая база не удержалась. Cohort retention строже (no response bias). Perspective AI, Growth Eng Blog (Jeff Chang). Происхождение метрики — малая выборка SaaS середины 2000-х: First Round (Vohra).

3.2. Статистика — малая выборка и pre-registration

CI для доли при n=12 ≈ ±25–30 п.п. Рекомендованные при малой n методы (Wilson, Agresti–Coull, Clopper–Pearson) всё равно дают огромные интервалы; Wald нельзя. Канон: Brown, Cai & DasGupta (2001), «Interval Estimation for a Binomial Proportion», Statistical Science 16(2). DOI: 10.1214/ss/1009213286. Обзор: Wikipedia: Binomial proportion CI.
Pre-registration убирает p-hacking, но НЕ повышает мощность и не чинит малую n. Recommendations promote power analyses but do not increase sample size. van den Akker et al. / Heininga et al. (2020), PLOS One, DOI: 10.1371/journal.pone.0236079. Также Lakens, Improving Your Statistical Inferences, ch.13.
Малые выборки повышают и false-positive, и false-negative (особенно для взаимодействий/ratio-метрик). Systematic review + simulation: PubMed 24768005. Underpowered → «winner’s curse» (инфляция эффекта при «значимости»).
MDE / размер выборки A/B: детекция 5–10 п.п. лифта при power 0.80 требует сотен–тысяч на ветку, не 12 всего. Invesp sample-size.

3.3. Surrogate validity — ранний индикатор как суррогат ROIC

Корреляция с исходом ≠ суррогатность. «If an outcome is correlated with the true clinical outcome, it cannot necessarily be used as a valid surrogate; proper justification requires that the effect of the intervention on the surrogate predicts the effect on the clinical outcome — a much stronger condition than correlation». Критерий Прентиса (1989); Freedman «proportion explained». Wikipedia: Surrogate endpoint, PMC4692254, фреймворк интерпретации: eClinicalMedicine 2023.
Surrogate paradox: можно положительно сдвинуть суррогат и отрицательно — истинный исход. arXiv 1607.05454, arXiv 1712.08732. → leading-метрики §1.3 нельзя считать суррогатами рва без проверки.

3.4. Поведенческая / групповая — самообман, давление, каскады

Мотивированное рассуждение + асимметрия производства/оценки аргументов. Kunda (1990), «The case for motivated reasoning», Psychological Bulletin 108(3), PDF. Mercier & Sperber (2011), «Why do humans reason?», BBS 34(2), DOI: 10.1017/S0140525X10000968 — confirmation bias доминирует при производстве своих аргументов, но человек беспристрастен при оценке чужих → внешняя критика > самокритики (при реальном разногласии + психобезопасности).
Devil’s advocacy > consensus (мета-анализ), но slabее authentic dissent. Schwenk (1989/1990) мета-анализ DA/DI, SMJ DOI: 10.1002/smj.4250100309; OBHDP 47(1). НО: назначенный адвокат дьявола → cognitive bolstering (усиливает исходную позицию): Nemeth, Brown & Rogers (2001), «Devil’s advocate versus authentic dissent», EJSP 31(6), DOI: 10.1002/ejsp.58.
Asch: конформность ломает не размер группы, а единодушие; один диссентер роняет конформность с ~37% до ~5–10%. Мета-анализ: Bond & Smith (1996), Psychological Bulletin 119(1), DOI: 10.1037/0033-2909.119.1.111. → фасилитатор помогает, только если вскрывает и легитимирует несогласие (анонимность, round-robin), а не нейтральностью как таковой.
Информационные каскады: публичные последовательные мнения уничтожают независимость. Bikhchandani, Hirshleifer & Welch (1992), JPE 100(5), DOI: 10.1086/261849; лаб-подтверждение Anderson & Holt (1997), AER 87(5), PDF.
Социальное влияние подрывает мудрость толпы: уверенность растёт без роста точности. Lorenz, Rauhut, Schweitzer & Helbing (2011), PNAS 108(22), DOI: 10.1073/pnas.1008636108. N=144. Красный флаг: единичное исследование с опубликованными возражениями (Becker et al. 2017, PNAS, показали обратное при определённых сетевых структурах) — но confidence-without-accuracy устойчив; именно его и используем.
Условия мудрости толпы: diversity, independence, decentralization, aggregation. Surowiecki (2004) — поп-наука, не рецензируемая (красный флаг как источник). Рецензируемый бэкенд агрегации: Hong & Page (2004), PNAS 101(46), DOI: 10.1073/pnas.0403723101 — но «diversity trumps ability» оспорено (артефакт модели), не цитировать как факт.
Groupthink — слабо реплицирован, использовать только как ярлык. Janis — кейсы без данных (selection-on-outcome). Критика: Esser (1998), OBHDP 73(2–3), DOI: 10.1006/obhd.1998.2758; Aldag & Fuller (1993), Psych Bulletin. → несущая наука для «сигнала из зала» — каскады (§3.4) и малая-n/выборка (§3.2), НЕ groupthink.
Convenience/self-selection sample ≠ целевой рынок. Прямая угроза внешней валидности; дружелюбные фаундеры — самый перекошенный тип выборки, и байас НЕ усредняется с добавлением людей (растёт ложная точность). Scribbr: sampling bias.
Social desirability в малой группе с фасилитатором. Присутствие модератора создаёт давление не давать негатив; «director»-стиль усиливает байас, «facilitator»-стиль снижает. BMC Med Res Methodology. → вывод зала нельзя считать независимым свидетельством того, что люди реально сделают.

3.5. Red-team / SAT — когда работает, когда театр

SAT эмпирически недо-валидированы; ACH НЕ снижает confirmation bias. Coulthart (2017), IJIC 30(2), DOI: 10.1080/08850607.2016.1230706; Chang, Berdini, Mandel & Tetlock (2018), Intelligence and National Security 33(3), DOI: 10.1080/02684527.2017.1400230. Red-team работает при независимости + аутентичности + мандате менять решение; иначе — театр.
Premortem / prospective hindsight: +~30% причин — одно исследование 1989, про генерацию причин, не про исходы. Mitchell, Russo & Pennington (1989), J. Behavioral Decision Making 2(1), DOI: 10.1002/bdm.3960020103; Klein (2007), HBR PDF. Красный флаг: «+30% к качеству решений» — поп-оверрич.

3.6. Фасилитация — независимая оценка vs само-промо

Decision Quality (Spetzler/SDG) — сильнейший фреймворк (vendor-origin, но на decision analysis). Судить РЕШЕНИЕ, не исход; 6 требований: (1) подходящий фрейм, (2) креативные альтернативы, (3) релевантная и надёжная информация, (4) ясные ценности/трейд-оффы, (5) здравое рассуждение, (6) приверженность действию; цепь — по слабейшему звену. Wiley, O’Reilly ch.2.
Kirkpatrick: satisfaction ≠ learning ≠ behavior ≠ results; цепочка «реакция→результат» опровергнута. «Learner satisfaction has been shown to be uncorrelated with learning results». Thalheimer (независимый): Work-Learning Research; Devlin Peck. Relevance — лучший предиктор переноса, чем satisfaction: Training Industry. → метрика успеха зала не должна быть «понравилось».
Liberating Structures: доказательная база тонкая, в основном кейсы/тестимониалы, RCT нет. SI Labs. Использовать как паттерн участия, не как доказанный драйвер результатов.

4. Требования к валидному раннему сигналу

Чтобы сигнал «засчитывался», должны выполняться все условия. Иначе это «инсайт», а не «сигнал».

#	Требование	Почему (доказательство)
R1	Канал — внешний и холодный. Не зал, не друзья, не коллеги-фаундеры.	Convenience/self-selection ≠ целевой рынок; social desirability у дружелюбной аудитории (Scribbr; BMC).
R2	Объект совпадает с гипотезой. Тест спроса засчитывается ТОЛЬКО как сигнал спроса, не барьера.	Fake-door/sprint валидируют curiosity/usability, не WTP и не барьер (Richard; userpilot).
R3	Выборка и порог поставлены power-расчётом. Для квантитативного вывода — не n=12.	CI при n=12 ≈ ±25–30 п.п.; underpowered → инфляция эффекта (Brown–Cai–DasGupta; PubMed 24768005).
R4	Pre-registration ТОЛЬКО к внешнему тесту с адекватной n.	Pre-reg убирает подгонку, но не чинит малую выборку (PLOS One 2020). На шуме придаёт ложную печать.
R5	Приватность и независимость ответов. Никаких публичных последовательных голосований по сигналу.	Каскады уничтожают независимость; соц.влияние растит уверенность без точности (Bikhchandani; Lorenz).
R6	Вердикт о барьере выносит НЕ автор. Барьер можно только опровергнуть (red-team), не подтвердить в зале.	Мотивированное рассуждение; асимметрия оценки чужого аргумента (Kunda; Mercier–Sperber).
R7	Критика — аутентичная, с мандатом. Назначенный адвокат дьявола — слабейшая форма; нужен реально несогласный + право менять вердикт.	Назначенная роль → cognitive bolstering (Nemeth 2001); SAT без мандата = театр (Coulthart).
R8	Leading-метрика помечена как гипотеза-суррогат, не доказательство.	Корреляция ≠ суррогатность; surrogate paradox (Прентис; arXiv 1607.05454).
R9	«Инсайт» отделён от «сигнала» явной меткой. Качественный вход из зала ≠ количественный сигнал.	Малая n даёт качественную генерацию гипотез, но не оценку rate/ratio/price (small-n stats).

Что отличает «инсайт» от «сигнала»: инсайт = качественная гипотеза/возражение/формулировка, рождённая в зале (валидна как вход). Сигнал = поведение целевой популяции во внешнем канале при заранее зафиксированном пороге и адекватной выборке (валиден как вердикт). Зал производит инсайты; сигналы производит внешний канал.

5. Поэтапные правки к методике (адресно к §3 и §6)

Легенда приоритета: P0 — без этого методика легитимирует шум; P1 — закрывает доказанную дыру; P2 — усиление.

К §1.3 «Проверка каждого типа» — P0

Переименовать колонку «Быстрый тест» → «Быстрый тест (генератор гипотезы для внешней проверки)» и добавить дисклеймер: ни один из этих тестов не выполняется и не засчитывается на зале; все, кроме fake-door/channel-микротеста, — это либо мнение (запрещено Этапом 4), либо корреляты-суррогаты (требуют surrogate-проверки за пределами зала). Конкретно: - Строку «Бренд → Sean Ellis PMF-опрос (≥40%)» пометить: self-selection bias; не считать бренд-рвом; перепроверять cohort-retention [Perspective AI; Growth Eng Blog]. - Все leading-сигналы (k-фактор, retention-плато, CAC-динамика) пометить как корреляты, не суррогаты [Прентис]. Доказательство: §3.1, §3.3.

К Этапу 2 «Фильтр фейк-рвов» (§3.3) и §6.3 — P1

Усилить кросс-фильтр: назначенный «другой фаундер» — это assigned критик (слабая форма). Добавить: где возможно — рекрутировать аутентичного скептика (человек, который реально не верит в гипотезу), а назначенному критику дать мандат и протокол, а не роль «поспорь». Зафиксировать, что вердикт фасилитатора по протоколу копирования имеет право вето (это уже есть — закрепить, что без аутентичности назначенная критика может усилить идею). Доказательство: §3.4 (Nemeth cognitive bolstering; Schwenk; Coulthart — мандат).

К Этапу 4 «Тест в зале» (§3.3) и §6.1/§6.2 — P0 (подтверждение + ужесточение)

§6.1/§6.2 уже правы: зал не подтверждает барьер; сигнал — только внешний холодный канал. Ужесточить два пункта: 1. Power-gate на пороге. «Зафиксировать порог» (Этап 4) дополнить требованием: порог и минимальная выборка ставятся power-расчётом; запрещено выносить вердикт «спрос есть», пока внешний тест не набрал n, при которой CI не накрывает порог. Без этого «48 ч во внешнем канале» (§6.1) может вернуть n=12 кликов = тот же шум. 2. Pre-registration привязать к R3. Явно: pre-reg применяется к тесту с адекватной n; на малой выборке pre-reg НЕ легитимирует число. Доказательство: §3.2 (CI при малой n; pre-reg не чинит мощность).

К Этапу 5 «Вердикт» (§3.3) и §6.2 — P1

Добавить запрет на квантитативный вывод из зала и метку суррогата: назначаемая leading-метрика (§1.3) сопровождается строкой «это коррелят, не доказанный предиктор рва; surrogacy не проверена». ИИ-синтез выдаёт кластеры + аномалии (уже в §6.2) — добавить, что аномалия на малой n не является сигналом, а является гипотезой для внешней перепроверки (иначе «смотреть аномалии первыми» рискует абсолютизировать выброс). Доказательство: §3.3 (surrogate); §3.2 (малая n).

К §6.3 «Stage-gate + фасилитатор» — P1 (закрыть остаточную дыру)

Stage-gate и право вето фасилитатора — правильно. Дыра: метрика успеха зала в §6.1 — «≥70% ушли с запущенным тестом за 48 ч» — это метрика активности (Kirkpatrick L1-подобная), не валидности. Добавить вторую метрику качества метода (см. §5-метрики ниже), измеряющую долю тестов, поставленных по R1–R5 (внешний канал + power + приватность + не-автор-вердикт). Иначе зал оптимизирует «запустили хоть что-то». Доказательство: §3.6 (Kirkpatrick: активность/реакция ≠ результат).

К §6.4 «Понизить ИИ» — P2 (подтверждение)

Правка про «непубличный механизм» и «персона = вопросы к названному человеку» — корректна и согласуется с тем, что teardown по публичным success-story = survivorship/cherry-picking [§3.6, Richard]. Добавить одну строку: teardown выдаёт гипотезу о барьере, которую red-team обязан попытаться опровергнуть (не «нашли ров у конкурента»).

Новые метрики качества самого метода (которых в методике нет; лечит атаку 7b «нефальсифицируемость») — P1

Сделать зал фальсифицируемым через измеримые показатели процесса (не исхода): 1. Validity-rate тестов: доля запущенных тестов, удовлетворяющих R1–R5 (внешний канал, power-выборка, приватность, не-автор-вердикт, surrogate-метка). Цель ≥ X%. 2. Falsification-rate: доля гипотез, реально опровергнутых red-team в зале (если 0% — фильтр течёт, как в атаке 1). 3. Author-override count: сколько раз автор пытался сам вынести вердикт о барьере (должно быть 0 по §6.3). 4. Decision Quality чек (Spetzler): перед выходом из зала — 6 пунктов DQ по выбранной гипотезе (фрейм/альтернативы/инфо/ценности/рассуждение/приверженность). Слабейшее звено = что добирать вне зала. 5. Calibration follow-up: через срок реального теста сверить вердикт зала с внешним результатом (это и есть проверка surrogate validity самих leading-метрик постфактум). Доказательство: §3.6 (Kirkpatrick L3/L4 > L1; DQ — судить решение, не исход).

6. Ограничения

Перенос доменов. Большая часть твёрдых доказательств — из клинической статистики (суррогаты), интеллект-анализа (red-team), соц-психологии (Asch/каскады). Перенос на стартап-воркшоп — по аналогии механизма, не по прямой репликации в этом сетапе. Механизмы (мотивированное рассуждение, каскады, малая-n) домен-инвариантны; конкретные эффект-сайзы — нет.
Lean-источники по fake-door — преимущественно вендорские блоги (userpilot, amplitude, abtasty). Критический разбор валидности взят там, где он независим (Richard по спринтам; Perspective AI/Growth Eng по PMF-опросу), но строгого рецензируемого RCT по fake-door-валидности я не нашёл — это сам по себе сигнал тонкости доказательной базы lean.
Несколько ключевых находок — single study с возражениями. Lorenz et al. 2011 (соц.влияние) имеет опубликованные ребатлы (Becker 2017); premortem «+30%» — одно исследование 1989; Hong–Page «diversity trumps ability» оспорено. Я использовал только устойчивые части (confidence-without-accuracy; направление эффекта premortem; математику малой-n) и пометил флаги.
Groupthink сознательно не несущий — слабо реплицирован; в правках на него не опираюсь.
Decision Quality и Liberating Structures — vendor-origin. DQ беру за подлежащую decision analysis; LS — только как паттерн участия, не доказанный драйвер результатов.
US-only веб-поиск и отсутствие платного доступа к части журналов: часть DOI verified по abstract/обзору, не по полному тексту. Где так — это видно по ссылке (PMC/arXiv/abstract).
Не охвачено: эконометрика реальных стартап-когорт (нет публичных датасетов «leading-метрика → ROIC через N лет» для прямой проверки surrogacy рва — это и есть фундаментальная причина, почему ранний индикатор рва остаётся гипотезой-суррогатом, а не доказанным).

Источники приведены инлайн по фазам §3. Ключевые DOI: Brown–Cai–DasGupta 10.1214/ss/1009213286 · PLOS One 10.1371/journal.pone.0236079 · Mercier–Sperber 10.1017/S0140525X10000968 · Nemeth 10.1002/ejsp.58 · Bond–Smith 10.1037/0033-2909.119.1.111 · Bikhchandani 10.1086/261849 · Lorenz 10.1073/pnas.1008636108 · Hong–Page 10.1073/pnas.0403723101 · Schwenk 10.1002/smj.4250100309 · Esser 10.1006/obhd.1998.2758 · Coulthart 10.1080/08850607.2016.1230706 · Mitchell–Russo–Pennington 10.1002/bdm.3960020103.