← все материалы  ·  лендинг

Deep-research 2: валидный ранний сигнал по рву/дистрибуции за полдня

Скептический методологический разбор с реальным веб-поиском и адверсариальной верификацией. Цель — улучшить методику лаборатории «Ров» (metodika-rva.md). Июнь 2026.

Калибровка источников применена: фасилитация — только независимая оценка, не само-промо; lean — эмпирический разбор валидности теста, не блог-вендор; стат/поведенческая — рецензируемое и по возможности реплицированное; single study без репликации помечен как красный флаг.


1. TL;DR

Главный вывод: пересборка ядра в §6 методики направлена правильно, но в трёх местах опирается на приёмы, которые сами по себе невалидны, и в одном — оставляет дыру, которую считает закрытой.

Семь тезисов, каждый с доказательством (полные ссылки — §3):

  1. Тест спроса ≠ тест барьера — это уже зашито в §6.1, и литература это подтверждает жёстче, чем сама методика. Design Sprint, fake-door, painted-door валидируют usability/curiosity, а не willingness-to-pay и тем более не барьер (Richard; userpilot; Прентис). Хорошо: §6.1 запрещает «ров подтверждён». Плохо: §1.3 всё ещё подаёт «быстрый тест» каждого типа как тест рва.

  2. n=12 дружелюбных коллег не даёт квантитативного сигнала — ни k-фактора, ни price-теста, ни конверсии. И pre-registration этого не лечит. При n=12 доверительный интервал для доли ≈ ±25–30 п.п. (Brown–Cai–DasGupta 2001). Pre-registration убирает p-hacking, но не повышает мощность и не чинит малую выборку (PLOS One 2020). §6.2 правильно выносит сигнал во внешний канал — это ключевая правка, её надо защитить от исключений.

  3. Публичные опросы/голоса в зале — это информационный каскад, а не 12 независимых сигналов. Последовательные публичные мнения → люди копируют, а не раскрывают приватный сигнал (Bikhchandani et al. 1992; Anderson–Holt 1997). Социальное влияние повышает уверенность без повышения точности (Lorenz et al. 2011, PNAS). Зал, который «договорился», чувствует себя увереннее, будучи не точнее.

  4. Автор не может честно забраковать свой ров — это самая прочная находка, и §6.3 её правильно лечит. Мотивированное рассуждение (Kunda 1990) + асимметрия производства/оценки аргументов (Mercier–Sperber 2011): человек объективен, оценивая чужой аргумент, и пристрастен, производя свой. Вывод «фейк/не фейк» структурно исключён из роли автора в §6.3 — это совпадает с доказательством.

  5. Но «назначенный критик» (assigned devil’s advocate) — слабейшая форма критики и может усилить исходную позицию. Назначенная роль адвоката дьявола вызывает cognitive bolstering — группа генерирует больше аргументов ЗА исходную идею (Nemeth et al. 2001). Аутентичное несогласие бьёт контривированное. §6.3 назначает «другого фаундера» убивать гипотезу — это лучше, чем самокритика, но это всё ещё assigned, не authentic.

  6. Ранний индикатор (leading-метрика §1.3) НЕ является валидным суррогатом долгого ROIC без проверки surrogate validity. Корреляция с исходом ≠ суррогатность (критерий Прентиса). «k-фактор > 0», «retention-плато», «CAC падает» — это корреляты, не доказанные предикторы рва. Surrogate paradox: можно сдвинуть суррогат и ухудшить истинный исход.

  7. Sean Ellis 40%-опрос (используется в §1.3 как тест бренд-рва) имеет встроенный self-selection bias и слабую предсказательность. Отвечают вовлечённые, лапснутые недосэмплированы → 40% считается на выборке, перекошенной в фанатов; cohort-retention строже (Perspective AI; Growth Eng Blog). Это та же ошибка выборки, что и «сигнал на коллегах».

ТОП-правка одной фразой: методика должна перестать называть внутризальные «быстрые тесты» (§1.3) тестами и переименовать их в генераторы гипотез для внешней проверки; единственный валидный исход зала — (а) фальсификация барьера чужими руками и (б) запущенный во внешний канал pre-registered тест спроса. Это ровно то, к чему §6 уже движется — но §1.3 и §3 это движение не отражают.


2. Индекс приёмов

Приём · что валидирует (с источником) · условия валидности · типичные ложные срабатывания.

Приём Что реально валидирует Условия валидности Ложные срабатывания
Fake-door / painted-door Curiosity/CTR к офферу выгоды Внешний холодный канал; целевая популяция; достаточная n; клик ≠ покупка учтён Клик принимают за willingness-to-pay; тест спроса выдают за тест барьера; локейшн-байас оффера
Smoke test (лендинг + конверсия) Раннее намерение в реальном канале Холодный трафик, не друзья; n по power-расчёту; зафиксирован порог ДО теста На тёплой/дружеской аудитории — шум; новизна ≠ удержание
Sean Ellis 40% PMF-опрос Грубый leading-сигнал привязанности Выборка не перекошена в активных; рассматривать как ОДИН из сигналов Self-selection (отвечают фанаты) → завышение; «бренд-ров» из опроса — артефакт выборки
Design Sprint (5-day) тест на 5 юзерах Usability прототипа Это юзабилити-эвристика Нильсена, НЕ инференс о спросе «Validated» подменяет usability на market-fit; прецедент-фрейминг + confirmation bias
Devil’s advocate (назначенный) Поверхностное оппонирование Слабая форма; нужна аутентичность + право менять решение Cognitive bolstering — усиливает исходную позицию вместо подрыва
Authentic dissent (настоящее несогласие) Расширение поиска информации, качество решения Несогласный реально верит в контрпозицию; психологическая безопасность Если контрфорсированно — деградирует к назначенному
Premortem / prospective hindsight +~30% сгенерированных причин провала (одно исследование 1989) Хорош для генерации рисков; ДО фиксации решения «+30% к качеству решений» — поп-оверрич; это про генерацию причин, не про исходы
Red-team / SAT Зависит от структуры Независимость + мандат менять решение + аутентичность Театр, если чек-бокс без полномочий; ACH НЕ снижает confirmation bias
Pre-registration Убирает p-hacking / post-hoc подгонку Применять к ВНЕШНЕМУ тесту с адекватной n На малой/невалидной выборке придаёт шуму печать валидности
Wisdom of crowds (агрегация) Точную оценку — при независимости + разнообразии Diversity, independence, decentralization, aggregation (Surowiecki); приватные ответы Каскад при публичных последовательных мнениях; коррелированные ошибки у однородных фаундеров
Leading indicator как суррогат Ничего, пока не доказана surrogacy Критерий Прентиса: эффект на суррогат предсказывает эффект на истинный исход Корреляцию принимают за суррогатность; surrogate paradox

3. Доказательная база со ссылками

3.1. Lean / validation — тест спроса, а не барьера

3.2. Статистика — малая выборка и pre-registration

3.3. Surrogate validity — ранний индикатор как суррогат ROIC

3.4. Поведенческая / групповая — самообман, давление, каскады

3.5. Red-team / SAT — когда работает, когда театр

3.6. Фасилитация — независимая оценка vs само-промо


4. Требования к валидному раннему сигналу

Чтобы сигнал «засчитывался», должны выполняться все условия. Иначе это «инсайт», а не «сигнал».

# Требование Почему (доказательство)
R1 Канал — внешний и холодный. Не зал, не друзья, не коллеги-фаундеры. Convenience/self-selection ≠ целевой рынок; social desirability у дружелюбной аудитории (Scribbr; BMC).
R2 Объект совпадает с гипотезой. Тест спроса засчитывается ТОЛЬКО как сигнал спроса, не барьера. Fake-door/sprint валидируют curiosity/usability, не WTP и не барьер (Richard; userpilot).
R3 Выборка и порог поставлены power-расчётом. Для квантитативного вывода — не n=12. CI при n=12 ≈ ±25–30 п.п.; underpowered → инфляция эффекта (Brown–Cai–DasGupta; PubMed 24768005).
R4 Pre-registration ТОЛЬКО к внешнему тесту с адекватной n. Pre-reg убирает подгонку, но не чинит малую выборку (PLOS One 2020). На шуме придаёт ложную печать.
R5 Приватность и независимость ответов. Никаких публичных последовательных голосований по сигналу. Каскады уничтожают независимость; соц.влияние растит уверенность без точности (Bikhchandani; Lorenz).
R6 Вердикт о барьере выносит НЕ автор. Барьер можно только опровергнуть (red-team), не подтвердить в зале. Мотивированное рассуждение; асимметрия оценки чужого аргумента (Kunda; Mercier–Sperber).
R7 Критика — аутентичная, с мандатом. Назначенный адвокат дьявола — слабейшая форма; нужен реально несогласный + право менять вердикт. Назначенная роль → cognitive bolstering (Nemeth 2001); SAT без мандата = театр (Coulthart).
R8 Leading-метрика помечена как гипотеза-суррогат, не доказательство. Корреляция ≠ суррогатность; surrogate paradox (Прентис; arXiv 1607.05454).
R9 «Инсайт» отделён от «сигнала» явной меткой. Качественный вход из зала ≠ количественный сигнал. Малая n даёт качественную генерацию гипотез, но не оценку rate/ratio/price (small-n stats).

Что отличает «инсайт» от «сигнала»: инсайт = качественная гипотеза/возражение/формулировка, рождённая в зале (валидна как вход). Сигнал = поведение целевой популяции во внешнем канале при заранее зафиксированном пороге и адекватной выборке (валиден как вердикт). Зал производит инсайты; сигналы производит внешний канал.


5. Поэтапные правки к методике (адресно к §3 и §6)

Легенда приоритета: P0 — без этого методика легитимирует шум; P1 — закрывает доказанную дыру; P2 — усиление.

К §1.3 «Проверка каждого типа» — P0

Переименовать колонку «Быстрый тест» → «Быстрый тест (генератор гипотезы для внешней проверки)» и добавить дисклеймер: ни один из этих тестов не выполняется и не засчитывается на зале; все, кроме fake-door/channel-микротеста, — это либо мнение (запрещено Этапом 4), либо корреляты-суррогаты (требуют surrogate-проверки за пределами зала). Конкретно: - Строку «Бренд → Sean Ellis PMF-опрос (≥40%)» пометить: self-selection bias; не считать бренд-рвом; перепроверять cohort-retention [Perspective AI; Growth Eng Blog]. - Все leading-сигналы (k-фактор, retention-плато, CAC-динамика) пометить как корреляты, не суррогаты [Прентис]. Доказательство: §3.1, §3.3.

К Этапу 2 «Фильтр фейк-рвов» (§3.3) и §6.3 — P1

Усилить кросс-фильтр: назначенный «другой фаундер» — это assigned критик (слабая форма). Добавить: где возможно — рекрутировать аутентичного скептика (человек, который реально не верит в гипотезу), а назначенному критику дать мандат и протокол, а не роль «поспорь». Зафиксировать, что вердикт фасилитатора по протоколу копирования имеет право вето (это уже есть — закрепить, что без аутентичности назначенная критика может усилить идею). Доказательство: §3.4 (Nemeth cognitive bolstering; Schwenk; Coulthart — мандат).

К Этапу 4 «Тест в зале» (§3.3) и §6.1/§6.2 — P0 (подтверждение + ужесточение)

§6.1/§6.2 уже правы: зал не подтверждает барьер; сигнал — только внешний холодный канал. Ужесточить два пункта: 1. Power-gate на пороге. «Зафиксировать порог» (Этап 4) дополнить требованием: порог и минимальная выборка ставятся power-расчётом; запрещено выносить вердикт «спрос есть», пока внешний тест не набрал n, при которой CI не накрывает порог. Без этого «48 ч во внешнем канале» (§6.1) может вернуть n=12 кликов = тот же шум. 2. Pre-registration привязать к R3. Явно: pre-reg применяется к тесту с адекватной n; на малой выборке pre-reg НЕ легитимирует число. Доказательство: §3.2 (CI при малой n; pre-reg не чинит мощность).

К Этапу 5 «Вердикт» (§3.3) и §6.2 — P1

Добавить запрет на квантитативный вывод из зала и метку суррогата: назначаемая leading-метрика (§1.3) сопровождается строкой «это коррелят, не доказанный предиктор рва; surrogacy не проверена». ИИ-синтез выдаёт кластеры + аномалии (уже в §6.2) — добавить, что аномалия на малой n не является сигналом, а является гипотезой для внешней перепроверки (иначе «смотреть аномалии первыми» рискует абсолютизировать выброс). Доказательство: §3.3 (surrogate); §3.2 (малая n).

К §6.3 «Stage-gate + фасилитатор» — P1 (закрыть остаточную дыру)

Stage-gate и право вето фасилитатора — правильно. Дыра: метрика успеха зала в §6.1 — «≥70% ушли с запущенным тестом за 48 ч» — это метрика активности (Kirkpatrick L1-подобная), не валидности. Добавить вторую метрику качества метода (см. §5-метрики ниже), измеряющую долю тестов, поставленных по R1–R5 (внешний канал + power + приватность + не-автор-вердикт). Иначе зал оптимизирует «запустили хоть что-то». Доказательство: §3.6 (Kirkpatrick: активность/реакция ≠ результат).

К §6.4 «Понизить ИИ» — P2 (подтверждение)

Правка про «непубличный механизм» и «персона = вопросы к названному человеку» — корректна и согласуется с тем, что teardown по публичным success-story = survivorship/cherry-picking [§3.6, Richard]. Добавить одну строку: teardown выдаёт гипотезу о барьере, которую red-team обязан попытаться опровергнуть (не «нашли ров у конкурента»).

Новые метрики качества самого метода (которых в методике нет; лечит атаку 7b «нефальсифицируемость») — P1

Сделать зал фальсифицируемым через измеримые показатели процесса (не исхода): 1. Validity-rate тестов: доля запущенных тестов, удовлетворяющих R1–R5 (внешний канал, power-выборка, приватность, не-автор-вердикт, surrogate-метка). Цель ≥ X%. 2. Falsification-rate: доля гипотез, реально опровергнутых red-team в зале (если 0% — фильтр течёт, как в атаке 1). 3. Author-override count: сколько раз автор пытался сам вынести вердикт о барьере (должно быть 0 по §6.3). 4. Decision Quality чек (Spetzler): перед выходом из зала — 6 пунктов DQ по выбранной гипотезе (фрейм/альтернативы/инфо/ценности/рассуждение/приверженность). Слабейшее звено = что добирать вне зала. 5. Calibration follow-up: через срок реального теста сверить вердикт зала с внешним результатом (это и есть проверка surrogate validity самих leading-метрик постфактум). Доказательство: §3.6 (Kirkpatrick L3/L4 > L1; DQ — судить решение, не исход).


6. Ограничения

  1. Перенос доменов. Большая часть твёрдых доказательств — из клинической статистики (суррогаты), интеллект-анализа (red-team), соц-психологии (Asch/каскады). Перенос на стартап-воркшоп — по аналогии механизма, не по прямой репликации в этом сетапе. Механизмы (мотивированное рассуждение, каскады, малая-n) домен-инвариантны; конкретные эффект-сайзы — нет.
  2. Lean-источники по fake-door — преимущественно вендорские блоги (userpilot, amplitude, abtasty). Критический разбор валидности взят там, где он независим (Richard по спринтам; Perspective AI/Growth Eng по PMF-опросу), но строгого рецензируемого RCT по fake-door-валидности я не нашёл — это сам по себе сигнал тонкости доказательной базы lean.
  3. Несколько ключевых находок — single study с возражениями. Lorenz et al. 2011 (соц.влияние) имеет опубликованные ребатлы (Becker 2017); premortem «+30%» — одно исследование 1989; Hong–Page «diversity trumps ability» оспорено. Я использовал только устойчивые части (confidence-without-accuracy; направление эффекта premortem; математику малой-n) и пометил флаги.
  4. Groupthink сознательно не несущий — слабо реплицирован; в правках на него не опираюсь.
  5. Decision Quality и Liberating Structures — vendor-origin. DQ беру за подлежащую decision analysis; LS — только как паттерн участия, не доказанный драйвер результатов.
  6. US-only веб-поиск и отсутствие платного доступа к части журналов: часть DOI verified по abstract/обзору, не по полному тексту. Где так — это видно по ссылке (PMC/arXiv/abstract).
  7. Не охвачено: эконометрика реальных стартап-когорт (нет публичных датасетов «leading-метрика → ROIC через N лет» для прямой проверки surrogacy рва — это и есть фундаментальная причина, почему ранний индикатор рва остаётся гипотезой-суррогатом, а не доказанным).

Источники приведены инлайн по фазам §3. Ключевые DOI: Brown–Cai–DasGupta 10.1214/ss/1009213286 · PLOS One 10.1371/journal.pone.0236079 · Mercier–Sperber 10.1017/S0140525X10000968 · Nemeth 10.1002/ejsp.58 · Bond–Smith 10.1037/0033-2909.119.1.111 · Bikhchandani 10.1086/261849 · Lorenz 10.1073/pnas.1008636108 · Hong–Page 10.1073/pnas.0403723101 · Schwenk 10.1002/smj.4250100309 · Esser 10.1006/obhd.1998.2758 · Coulthart 10.1080/08850607.2016.1230706 · Mitchell–Russo–Pennington 10.1002/bdm.3960020103.