Luel: два 18-летних дропаута из Беркли построили маркетплейс данных на $2M ARR за 6 недель

Публичные данные кончились, синтетика деградирует модели. Два дропаута из Berkeley сделали маркетплейс, где люди продают видео, аудио и фото для обучения AI. $500K от YC W26.

Завязка: стена данных, в которую врезался весь AI

Вот парадокс 2026 года: AI-модели становятся мощнее с каждым месяцем, но топливо для их обучения — данные — заканчивается. Весь публичный интернет уже проглочен. Reddit, Wikipedia, Stack Overflow, книги — всё давно в обучающих датасетах. Synthetic data? Модели, обученные на выходе других моделей, деградируют — это доказано и называется model collapse.

И вот два 18-летних первокурсника из Беркли бросают учёбу и заявляют: мы решим проблему данных для всей AI-индустрии. Через шесть недель у них $2M годовой выручки. Через три месяца — YC Demo Day и инвесторы из xAI, Meta и Apple в cap table.

Их решение элегантно до смешного: пусть обычные люди снимают видео своей повседневной жизни — глажка рубашки, разговор с врачом, прогулка по парку — и продают это AI-компаниям за деньги.

Продукт и рынок

Luel — двусторонний маркетплейс мультимодальных данных для обучения AI. С одной стороны — фронтир-лаборатории (xAI, Meta, Anthropic-уровень), которым нужны специфичные датасеты: егоцентричное видео, медицинские диалоги, производственные сцены, аудио на редких языках. С другой — обычные люди по всему миру, которые записывают контент по спецификации и получают деньги.

Какую боль решают: AI-компании тратят месяцы на сбор данных через собственные команды или медленные enterprise-пайплайны Scale AI. Качество непредсказуемо, права не оформлены, масштабирование упирается в людей. Luel сжимает цикл с месяцев до дней.

Рынок: Глобальный рынок AI training data оценивается в $4.4 млрд в 2026 году с прогнозом роста до $23 млрд к 2034 (CAGR 23%). Но это только формальный рынок — реальный TAM шире, потому что каждая новая мультимодальная модель создаёт спрос на данные, которых раньше просто не существовало. Когда OpenAI, Google и xAI начинают тренировать роботов — им нужны миллионы часов видео людей, выполняющих физические задачи. Этих данных нет нигде, кроме таких платформ как Luel.

Этап рынка: Переходный. Старые гиганты (Appen, Lionbridge) теряют долю — акции Appen упали на 90% с пиков. Scale AI доминирует в enterprise-сегменте, но слишком медленные и дорогие для новых lab-клиентов. Окно для быстрого маркетплейса открыто прямо сейчас.

Бизнес-модель и unit-экономика

Модель: классический маркетплейс с take rate. Luel берёт комиссию с каждой транзакции между enterprise-клиентом и контрибьютором. Плюс наценка за QA, правовую документацию и курирование.

Два источника дохода:

Custom collections — клиент присылает спецификацию (модальность, сценарий, устройства, правила QA), Luel собирает датасет под ключ. Высокий чек, высокая маржа.
Off-the-shelf licensing — готовые датасеты (медицинские диалоги, производственное видео, бытовые сцены) продаются как продукт с полки.

Ценообразование: не публичное, но по косвенным данным — кастомные коллекции начинаются от десятков тысяч долларов за датасет. При этом выплаты контрибьюторам — per-task, от нескольких долларов за короткое аудио до десятков долларов за сложное видео.

Unit-экономика:

$2M ARR за 6 недель — это ~$167K MRR на старте, что указывает на крупные контракты (enterprise ACV вероятно $50-200K)
Маржа маркетплейса: если take rate 40-60% (стандарт для data-сервисов с QA), то валовая маржа высокая
CAC на стороне enterprise — через нетворк YC + инвесторов из самих AI-лабораторий (xAI, Meta)
CAC на стороне контрибьюторов — органический рост через referral и App Store

Почему модель сходится: Данные — расходный материал для AI-компаний. Они не покупают один раз — каждый новый проект, каждая новая модель требует нового датасета. Retention по определению высокий, потому что клиент возвращается с новой спецификацией.

Конкурентный ров (moat)

1. Сетевой эффект. Больше контрибьюторов → быстрее сбор → лучше для клиентов → больше денег → больше контрибьюторов. Классический маркетплейс-флайвил.

2. Данные как ров. Каждый выполненный заказ — это обученная система QA, откалиброванные ожидания по типам данных, рейтинги контрибьюторов. Это не скопировать.

3. Compliance и rights-clearing. Каждый датасет идёт с полным пакетом документов: согласия, chain-of-title, audit trail. В мире, где NYT судит OpenAI за авторские права, это не просто фича — это requirement. Выстроить юридическую инфраструктуру с нуля — это время и деньги.

4. Скорость. Scale AI обрабатывает запросы неделями. Luel обещает дни. При равном качестве скорость — это ров, потому что AI-команды работают в спринтах и не могут ждать.

Насколько moat реальный: На раннем этапе — скорее потенциальный. Главная защита сейчас — скорость исполнения и YC-нетворк для дистрибуции. Настоящий ров вырастет через 12-18 месяцев, когда сеть контрибьюторов станет достаточно большой и обученной.

Команда и история

William Namgyal, CEO, 18 лет. USACO Platinum в 16. Предыдущий exit с ezML (ML-инструмент). Founding engineer в Relixir (YC X25). Research по LLM-безопасности в Northeastern PEACH lab. Бросил Berkeley M.E.T. (программа для тех, кто одновременно инженер и предприниматель) на первом семестре.

Inigo Lenderking, COO, 18 лет. ML-исследователь, интерны в Harvard и Flexcel. Berkeley CS dropout. Бросил на том же семестре, что и Namgyal.

Происхождение идеи: Оба видели изнутри, как AI-компании мучаются с данными. Namgyal — через Relixir (YC), Lenderking — через ML-research. Идея родилась из прямого наблюдения: лабы готовы платить огромные деньги, но инфраструктуры для быстрого сбора нет.

Инвесторы: YC + ангелы из xAI, Meta, DoorDash, Apple. Состав говорящий — это люди, которые сами являются покупателями данных. Они инвестируют не из абстрактной веры в рынок, а потому что знают боль из первых рук.

Позиционирование и GTM

Целевая аудитория: AI-лаборатории и ML-команды в enterprise, которые тренируют мультимодальные модели и испытывают дефицит качественных данных с правами.

Главный месседж: «Права-cleared мультимодальные данные за дни, не месяцы.» Чёткое value proposition, атакующее главную слабость конкурентов — скорость.

Канал привлечения: Network-driven sales. Инвесторы из AI-лабов = тёплые интро к первым клиентам. YC Demo Day = витрина для 200+ стартапов, каждый из которых потенциально нуждается в данных. Далее — контент-маркетинг (блог с comparison-статьями вроде «Luel vs Scale vs Appen»).

На стороне контрибьюторов: iOS-приложение в App Store, Venmo/Stripe выплаты за 2-7 дней. Вход максимально низкий — скачал, записал видео, получил деньги. Сарафан + YouTube-обзоры от тех, кто зарабатывает.

Кейсы и результаты клиентов

Публичных кейсов с названиями пока мало (стандартно для enterprise data-бизнеса на ранней стадии). Известно:

Работают с frontier AI labs (подтверждено YC и инвесторским составом)
Типы данных: медицинские диалоги, производственное видео, егоцентричные записи (для робототехники), аудио на разных языках
Скорость доставки: от техзадания до готового датасета — дни, не недели
Контрибьюторы получают выплаты в течение 24-48 часов после одобрения

Один косвенный показатель результативности: $2M ARR за 6 недель означает, что первые клиенты не просто попробовали — они вернулись с повторными заказами. В enterprise-мире это сильнейший сигнал product-market fit.

Что можно взять себе

1. Маркетплейс вокруг дефицита. Формула: найди ресурс, который одна сторона производит легко (люди снимают видео постоянно), а другая готова дорого покупать (AI-лабы). Соедини — и возьми комиссию. Не нужен собственный продукт, не нужна технология на миллионы.

2. Compliance как продукт. Юридическая обёртка вокруг простого действия (запись видео) превращает $0 актив в $100+ актив. Вопрос: где ещё есть ситуация, когда данные существуют бесплатно, но без правовой упаковки бесполезны для бизнеса?

3. Speed kills. Если ты делаешь то же, что гигант, но в 10 раз быстрее — у тебя есть бизнес. Scale AI монополизировал рынок размером и репутацией. Luel атакует единственную щель — скорость.

4. Инвесторы = первые клиенты. Гениальный GTM: привлечь ангелов из компаний, которые сами покупают твой продукт. Это одновременно финансирование, валидация и первый pipeline.

5. Two-sided marketplace можно запустить с минимумом. Luel — два человека, 18 лет, без офиса, без команды. MVP: landing + Telegram-бот для контрибьюторов + ручной QA. Автоматизация — потом.

Риски и слабые места

1. Зависимость от нескольких крупных клиентов. $2M ARR при enterprise-модели — это 5-15 контрактов. Уход одного клиента = проседание на 10-20%. На ранней стадии это нормально, но опасно.

2. Scale AI не будет стоять. Как только Luel покажет, что speed — рабочая стратегия, Scale добавит fast-track tier. У них бесконечные ресурсы и существующие клиенты.

3. Качество при масштабировании. Ручной QA работает на $2M ARR. На $20M — нет. Автоматизация проверки качества видео/аудио — нерешённая задача.

4. Регуляторные риски. Если завтра ЕС или Калифорния примут закон о запрете использования пользовательских данных для обучения AI без явного informed consent — модель может сломаться. Luel, впрочем, как раз строит compliance-инфраструктуру, что должно защитить.

5. Moat пока тонкий. 18-летние без инфраструктуры vs Scale AI с $14B valuation. Единственная защита — скорость исполнения и YC-нетворк. Если через год не будет lock-in через данные и сеть — скопируют.

Вердикт

Luel доказали, что самая ценная нефть AI-эпохи — не модели, не GPU, а rights-cleared данные из реального мира, и что двое 18-летних с правильным инсайтом могут построить pipeline быстрее, чем компания с 14-миллиардной оценкой.