Как DoorDash изгражда метаданни за храни чрез журита от езикови модели (LLM Juries) и мултимодален ИИ

Публикувано от Svetni.me Editorial на 4 юли 2026 г.

В публикация на официалния си инженерен блог, технологичната платформа DoorDash разкри детайли за своята нова архитектура за автоматизирано генериране и валидиране на хранителни метаданни в голям мащаб [1]. Системата е проектирана да се справя с изключителното разнообразие на артикули в менютата на ресторантите, като извлича детайлни характеристики като степен на лютивост, тип кухня, хранителни и диетични категории. Чрез комбиниране на мултимодални данни, интелигентно гласуване и автоматизирана оптимизация, компанията успява да автоматизира процес, който досега е изисквал скъп и бавен ръчен труд.

Предизвикателството с мащаба на менютата

Обработката на менюта в реално време е изключително трудна задача поради липсата на стандартизация в описанията на храните от различните търговци. Едно и също ястие може да бъде описано по десетки различни начини, а приложените снимки често не съдържат директно текстово описание на съставките [1].

За да реши този проблем, DoorDash изгражда тръбопровод, който събира текстови описания, изображения на ястия и външни уеб сигнали за всяка позиция. Този поток от данни изисква обработка на базата на мултимодалност, тъй като само един тип информация не е достатъчен за точно класифициране на сложни ястия като алергени или специфични диети.

Мултимодално генериране и ролята на SLM

В основата на генеративната фаза на платформата стоят малоразмерни езикови модели (SLM), които са специално дообучени за задачи по класификация на менюта. Тъй като използването на най-големите комерсиални модели за милиони ежедневни транзакции е икономически неизгодно, малките модели се оказват ключово решение.

Тези специализирани модели анализират комбинираните сигнали от текст и изображения, за да предложат първични тагове за всяко ястие. Чрез този хибриден подход DoorDash успява да постигне изключително ниска латентност при обработката на заявките в реално време, без да натоварва излишно изчислителната си инфраструктура.

Архитектура на платформата за метаданни

Следващата схема илюстрира пълния цикъл на обработка на данните – от постъпването на менютата до финалното им потвърждение и автоматизираната обратна връзка за оптимизация:

Архитектура на платформата на DoorDash
Изображение: Svetni.me / Авторско изображение

Системата LLM Jury за оценка и консенсус

За да се гарантира качеството на генерираните метаданни, DoorDash въвежда концепцията за LLM Jury (Жури от езикови модели) [1]. Вместо да се разчита на единствен голям езиков модел (LLM) или на субективна човешка оценка, системата изпраща предложените тагове на жури от няколко силни ИИ оценители.

Всеки член на журито работи независимо, като анализира контекста и дава своята присъда (валиден или невалиден таг) заедно с писмена аргументация. Решенията се вземат чрез алгоритъм за консенсус, базиран на мнозинството от гласове. Този подход намалява индивидуалните изкривявания на моделите и елиминира халюцинациите.

В резултат на внедряването на журито, точността на автоматично генерираните метаданни се повишава с приблизително 20% в сравнение с традиционните етикети, поставяни от хора. Това прави системата напълно надеждна за директна интеграция в потребителското приложение.

Автоматизирана оптимизация на контекста

Едно от най-значимите нововъведения в платформата е механизмът за автоматична оптимизация на контекста (Context Optimization) [1]. Когато журито отхвърли даден таг поради несъответствие, детайлите за грешката се изпращат обратно към специализиран промпт агент (tuning agent).

Този агент анализира естеството на грешката и автоматично коригира инструкциите на системно ниво, като добавя нови правила или edge cases към контекста на генератора. Този процес на автоматизирано пренаписване на промпта отнема броени минути, като елиминира необходимостта от ръчна намеса на софтуерни инженери.

Благодарение на автоматизирания промпт инженеринг, прецизността на генеративния модел се увеличава с над 20%. Освен това времето за разработка на нови категории метаданни се съкращава десетократно.

Разпределена обработка с Apache Spark

За да се справя с първоначалното зареждане на исторически данни (backfills) за милиони ресторанти, DoorDash имплементира паралелен тръбопровод за изчисления. Традиционната последователна обработка на подобни масиви би отнела повече от месец.

Чрез интеграцията на Apache Spark за разпределено управление на данните, DoorDash разделя менютата на независими части и ги изпраща към клъстер от работни нодове [1]. Това позволява паралелно подаване на пакетни заявки към LLM интерфейсите.

Благодарение на тази оптимизация времето за пълно обновяване на базата данни с метаданни е намалено от над 30 дни до по-малко от 3 дни, при максимална икономическа ефективност на процеса.

Бизнес ползи иMerchant Override

Освен пълната автоматизация, DoorDash запазва контрола на хората в критичните точки на процеса. Системата включва т.нар. merchant override механизъм, който позволява на собствениците на ресторанти да преглеждат генерираните от ИИ характеристики на храните си и да ги коригират ръчно, ако открият грешка [1].

Финансовите ползи от новата архитектура са значителни:

Инференс разходите са намалени с около 90% чрез използването на фино настроени малоразмерни модели вместо скъпи комерсиални системи.
Времето за разработка на нови модели и функции е съкратено десетократно поради елиминирането на ръчното писане на промптове.
Качеството на клиентското преживяване е подобрено чрез по-добро филтриране и персонализирано търсене на ястия по диети и алергени.

Внедряването на LLM журита и самооптимизиращ се контекст показва как съвременните софтуерни архитектури могат успешно да скалират генеративния ИИ в реални бизнес процеси, поддържайки висока точност на ниска цена.

Източници:

Building Food Metadata with LLM Juries, Context Optimization & Multimodal AI - DoorDash