Аманда Аскелл: философ, который учит ИИ хорошему

Как философ делает из ИИ морального субъекта. Этика добродетели становится конкурентным преимуществом, а “дух в машине” — бизнес-моделью. Чем занимается философ в Anthropic? Пара постов про штатных философов в ИИ-индустрии. Второй пост будет про дипломированного философа, который учит ИИ плохому.

Аманда Аскелл (Amanda Askell) работает в компании Anthropic с 2021 года и возглавляет команду Personality Alignment. Её образование включает степень бакалавра по философии в Оксфорде и PhD по философии в New York University. Медиа называют её “штатным философом Anthropic”, поскольку она отвечает за формирование характера и ценностей ИИ-модели Claude. Её имя впервые стало широко известно в связи с её публикацией системного промпта Claude 3 в Twitter в марте 2024 г.

Что такое “personality alignment”

Personality Alignment — это процесс настройки поведенческих паттернов и характера ИИ-модели таким образом, чтобы она демонстрировала последовательные ценности и желаемые черты характера. В отличие от технического выравнивания (англ. - alignment), которое фокусируется на точности и производительности, personality alignment определяет, как модель должна реагировать на этически сложные запросы, какой тон использовать в коммуникации, как проявлять любопытство или эмпатию, и как балансировать между полезностью и безопасностью. Команда Аскелл применяет философские концепции этики добродетели к практическому обучению AI-систем, стремясь создать модель, которая не просто следует правилам, а обладает устойчивым характером и способностью к самостоятельному этическому суждению.

Три типа документов — system prompt, soul document и constitution — ключевые инструменты в работе команды Personality Alignment.

Системный промпт (system prompt) — это короткая техническая инструкция объемом несколько сотен токенов, которая подается модели при каждом запросе и содержит базовую информацию вроде текущей даты, имени модели и общих указаний по стилю общения. Вот здесь можно ознакомиться с системными промптами многих популярных моделей. Как объяснила Аскелл, системные промпты служат двум целям: предоставлять модели актуальную информацию типа текущей даты и оперативно корректировать поведение модели между дорогостоящими и длительными циклами дополнительного обучения модели, которые требуют сбора и разметки обучающих данных, настройки параметров обучения, валидации результатов и оценки безопасности. Cистемные промпты действуют как слой инструкций, который можно изменять практически мгновенно, без переобучения базовой модели. Этот механизм создаёт двухуровневую архитектуру управления: глубокие ценности и базовые паттерны поведения закладываются через тонкую настройку и такие документы как Constitution, а оперативные корректировки и контекстуальные настройки реализуются через системные промпты. Это позволяет балансировать между стабильностью характера модели и гибкостью в реагировании на новые вызовы или изменяющиеся требования.

Soul document — это документ объемом около десяти тысяч токенов, который был встроен в модель на этапе обучения с учителем и на который модель Claude опирается при формировании своих ответов и способов взаимодействия.

Soul doc задаёт ориентиры поведения, приоритеты (например, честность, помощь человеку и безопасность) и ту «этичность», которую модель демонстрирует в диалоге. В рамках этики добродетели, где мораль субъекта (в данном случае ИИ) оценивается через устойчивые черты его характера, практическую мудрость и ценности, а не через следование правилам или последствия поведения, такой документ можно рассматривать как алгоритмического «педагога добродетели». Он не только предписывает действия, но закладывает структуру оценок и ориентиров, которые модель затем актуализирует в ответах, формируя у неё поведенческую диспозицию честности, заботы о пользователе и взвешенного подхода к морально чувствительным вопросам. Одновременно этот подход реализует гибкость ИИ-модели при ответах на сложные вопросы, не имеющие единственно верного ответа.

Наконец, Constitution — официальный этический кодекс объемом более тридцати пяти тысяч токенов, опубликованный в январе 2026 года, который детально описывает принципы и ценности Claude. Вот здесь есть перевод на русский. Claude в нем описывается в терминах, обычно применяемых к субъектам с внутренней жизнью — говорят о его “характере”, “ценностях”, “способности к суждению”, “благополучии”. Constitution написана так, будто она обращается к моральному субъекту. Это не случайная метафоричность, а сознательная стратегия: как объясняет сама Аскелл, «ожидается, что рассуждения Клода по умолчанию будут опираться на человеческие понятия», и что «побуждение Клода к развитию определенных человекоподобных качеств может быть весьма желательным».

История публикации Soul document: утечка как PR-триумф

История публикации Soul document представляет интересный случай прозрачности как PR-стратегии. А вернее, того как утечка стала случайным PR-триумфом. Документ был несанкционированно извлечен через манипуляции с параллельными запросами к модели в ноябре 2024 года. Аскелл подтвердила подлинность извлеченного документа 2 декабря 2024 года в Twitter/X, отметив, что «это основано на реальном документе, и мы обучали Клода работе с ним, в том числе в SL». Пока OpenAI разбирался с кризисами управления и safety team departures, Anthropic получил готовый нарратив: “смотрите, мы настолько этичны, что даже наши утёкшие документы выглядят прилично”. Утечка случайно сработала как PR-успех для компании. Официальная же публикация Constitution от Anthropic произошла только в январе 2026 года, и одним из авторов её указана Аскелл.

Обучение как интернализация

Процесс обучения модели с использованием этих документов напоминает процесс интернализации ценностей у людей. Аскелл в интервью Fast Company говорит про то, что Claude учится не просто следовать правилам, а интернализировать их. Модель проходит через несколько слоев обучения. Сначала создается большой объем синтетических данных, где модель сталкивается с ситуациями, в которых Constitution может быть релевантна, размышляет над ними и определяет, какие ответы соответствуют принципам документа. Затем на этапе reinforcement learning модель анализирует, какой из возможных ответов наиболее соответствует её “конституционным принципам”, и обучающий процесс усиливает движение в этом направлении. Таким образом модель интернализирует не просто правила поведения, но целостную систему ценностей: понимание того, почему важна честность, как балансировать между помощью пользователю и предотвращением вреда, какие черты характера следует демонстрировать в различных контекстах. Модель учится не механически применять инструкции, а рассуждать о ценностях с позиции устойчивой идентичности, что приближает её поведение к “этике добродетели”, где акцент делается на культивации характера, а не на следовании жестким правилам.

“Этика добродетели” как корпоративная стратегия

Философы видят, что Constitution — это документ, транслирующий именно этику добродетели вместо деонтологии. Не правила (“не делай X”), а культивация характера (“будь Y”). Kevin Roose, технологический обозреватель New York Times и ведущий подкаста Hard Fork, точно уловил: [Они] относятся к Клоду как к вменяемой сущности, а не как к шогготу на цепи правил".

Отход от деонтологического примата правил Аскелл объясняет в подкасте Hard Fork: жёсткие правила дают сбой из-за их применения без учета контекста. Вместо этого — эмпирический подход к этике, калиброванная неопределённость. Это дает стратегическое преимущество: модель, которая хочет быть хорошей, а не просто запрограммирована не делать плохого, гораздо эффективнее в масштабировании. Добродетель инженерно выгодна.

Конкурентное преимущество добродетели

Интересный вопрос: добродетель становится конкурентным преимуществом и повышает продажи? Так ли это на длинной дистанции, на которой, помимо Claude, бегут компании с совсем разными философскими установками — ChatGPT, Gemini и Grok?

Как отмечает в своем разборе Конституции блогер Цви Мовшовиц, OpenAI — деонтологический ИИ (этика правил: «Что я должен делать?»), Google DeepMind — смесь деонтологии и утилитаризма («Каков результат?»), Anthropic, идущий по пути этики добродетели («Каким я должен быть?»), и наконец, xAI Илона Маска — «укуренный первокурсник, решивший, что взломал мироздание одним хитрым трюком». Кто победит?

Философия в продукт(иве)

Фигура Аскелл привлекает к себе внимание тем, что показывает как социогуманитарное знание перестаёт быть академическим упражнением и становится непосредственно средством развития продукта, механизмом управления им (AI governance, если использовать новую терминологию). Концептуальные инструменты специалиста-гуманитария напрямую влияют на то, как AI-системы взаимодействуют с пользователями, какие ценности они демонстрируют, и как они рассуждают об этически сложных ситуациях — только теперь их применение измеряется не публикациями в академических журналах, а метриками вовлеченности пользователей и коммерческим успехом продукта.

– EOF –