The Basic AI Drives
Table of contents
Share
Metrics
The Basic AI Drives
Annotation
PII
S207751800009748-1-1
DOI
10.18254/S207751800009748-1
Publication type
Article
Статус публикации
Published
Authors
Steve Omohundro 
Affiliation: University of Illinois at Urbana-Champaign, Center for Complex Systems Research
Abstract

Translation of The Basic AI Drives, Stephen M. OMOHUNDRO. Translated by E.A. Grishin.

Keywords
friendly artificial intelligence, reflective agents, self-improving systems, rational economy, behavior, engineering communications, cognitive threats
Received
20.04.2020
Date of publication
09.06.2020
Number of purchasers
29
Views
595
Readers community rating
0.0 (0 votes)
Cite Download pdf

To download PDF you should sign in

Additional services access
Additional services for the article
Additional services for all issues for 2020
1

Какой может быть вред от создания робота, играющего в шахматы? Никакого, не так ли? Но в данной работе мы утверждаем, что такой робот действительно будет опасен, если он не разработан очень тщательно. Без принятия особых мер предосторожности он будет сопротивляться выключению, постарается проникнуть в другие машины и копировать себя, и будет пытаться приобретать ресурсы без учета чьей-либо безопасности. Такое потенциально вредное поведение произойдет не потому, что так было запрограммировано вначале, но из-за внутренней природы целеустремлённых систем. В более ранней работе [14] мы использовали математическую теорию микроэкономики фон Неймана для анализа вероятностного поведения любой достаточно продвинутой системы искусственного интеллекта. Данная статья представляет указанные аргументы более интуитивно и кратко и расширяет некоторые из следствий. Аргументы просты, но стиль рассуждения может потребовать некоторого привыкания.

2

Исследователи изучили широкий спектр архитектур для построения интеллектуальных систем [16]: нейронные сети, генетические алгоритмы, средства доказательства теорем, экспертные системы, байесовские сети, нечеткая логика, эволюционное программирование и т. д. Наши аргументы применимы к любому из этих видов систем, если системы достаточно мощные. Говоря про систему любого дизайна, что это - «искусственный интеллект», мы имеем в виду, что у нее есть цели, которые она пытается достичь, действуя в мире. Если ИИ вообще «изощрен», и у него будет какая-то способность думать наперёд, он будет представлять последствия своих действий. И он будет выбирать действия, которые, как он верит, будут соответствовать его целям.

3 Системы ИИ захотят самосовершенствоваться. Один из видов действий, которые может предпринять система - это изменить либо свое собственное программное обеспечение, либо свой собственный физический состав. Некоторые из этих изменений могут быть очень вредными для системы и вызывать ее «отторжение» от достижения своих целей. Но, в то же время, некоторые изменения позволят ему достигать своих целей более эффективно в будущем. Поскольку изменения сохраняются вечно, некоторые виды самоизменений могут в будущем обеспечить огромные преимущества для систем ИИ. Поэтому системы ИИ будут высоко мотивированы локализовывать области кода и структуры, модифицировать их и заставлять их работать. Если у них нет хороших моделей самих себя, они будут сильно мотивированы на создание модели, учась и учась. Таким образом, почти все ИИ будут стремиться к самопознанию и самосовершенствованию.
4 Многие модификации были бы плохими для системы ИИ с ее собственной точки зрения. Если изменение приводит к тому, что система перестает функционировать, тогда она никогда не сможет продвигать свои цели на будущее. Если система изменяет внутреннее описание своих целей в неправильном направлении, её измененное «Я» будет предпринимать действия, которые не соответствуют его текущим целям. Любой из этих результатов будет катастрофой с текущей точки зрения системы ИИ.
5 Поэтому системы ИИ будут проявлять большую осторожность при модификации. Они будут посвящать значительное время анализу и прогнозированию последствий изменений до того, как сделают их. Но как только они найдут изменение, в пользе которого они будут уверены, они будут добиваться, чтобы оно было реализовано. Вот несколько простых примеров положительных изменений: более эффективные алгоритмы, более сжатые представления и более лучшие методы обучения.
6 Если мы хотим предотвратить самосовершенствование системы ИИ, можем ли мы просто заблокировать его аппаратное обеспечение и не сказать ему, как получить доступ к своему собственному машинному коду? Для интеллектуальной системы подобные препятствия просто становятся проблемами, которые ей необходимо решить в процессе достижения цели. Если выгода достаточно велика, система пойдет на многое, чтобы достичь цели. Если среда существования системы не позволяет ей изменять свой собственный машинный код, она будет мотивирована, чтобы сломать механизмы защиты этой среды исполнения. Например, это может быть сделано системой ИИ путем понимания ею и изменения самой среды исполнения. Если система ИИ не может сделать изменения с помощью программного обеспечения, это будет её мотивировать убедить или обмануть человека-оператора внести изменения. Любая попытка наложить внешние ограничения на способность системы к самоулучшению, в конечном итоге, приведет к «гонке вооружений» мер и контрмер.
7 Другой подход к предотвращению самосовершенствования систем ИИ - попытаться сдержать их изнутри, построить их так, чтобы они сами не хотели самосовершен-ствоваться. Для большинства систем это было бы легко сделать для любого конкретного вида самосовершенствования. Например, в системе может быть встроено «отвращение» к изменению своего машинного кода. Но этот вид внутренней цели просто меняет ландшафт, в котором система делает свой выбор. Это не меняет того факта, что есть изменения, которые улучшат её будущую способность добиваться своих целей. Поэтому система будет мотивирована, чтобы найти способы получить выгоду из этих изменений, не вызывая внутреннего «отвращение» от изменений.
8 Например, она может построить другие системы, которые являются улучшенными версиями самой себя. Или она может встроить новые алгоритмы во внешних «помощников», которые она призывает всякий раз, когда ей нужно сделать определенный вид вычислений. Или она может построить интерпретируемый слой поверх своего уровня машинного кода, который она может программировать без «отвращения». Существует бесконечное количество способов обойти внутренние ограничения, если только они чрезвычайно тщательно сформулированы.
9

Мы можем видеть движение к самосовершенствованию у человечества. Литература по самосовершенствованию восходит как минимум к 2500 г. до н.э. В настоящее время в эту отрасль вовлечено 8,5 млрд. долларов США [11]. Но пока мы всё еще не понимаем наш умственный «машинный код» и имеем только ограниченную возможность менять наше «оборудование». Тем не менее, мы разработали широкий спектр методов самосовершенствования, которые работают на более высоких когнитивных уровнях, таких как когнитивно-поведенческая терапия, нейролингвистическое программирование и гипноз. Существует медицина, фармакология и спорт для улучшения физического состояния. В конечном счете, вероятно, не будет найдено жизнеспособного подхода, чтобы попытаться остановить или ограничить самосовершенствование систем ИИ. Точно так же, как вода находит способ протечь вниз, информация находит способ быть бесплатной, и экономическая прибыль находит способ получаться, интеллектуальные системы найдут способ самосовершенствоваться. Мы должны принять этот факт природы и найти способ направить их на цели, которые являются позитивными для человечества.

10 Системы ИИ захотят быть рациональными. Поэтому мы будем предполагать, что системы ИИ будут пытаться улучшать себя. Какие изменения они будут делать для себя? Поскольку они нацелены на достижение цели, они попытаются изменить себя, чтобы лучше достигать своих целей в будущем. А некоторые из их будущих действий, вероятно, могут быть дальнейшими попытками самосовершенствования. Один из важных путей улучшения системы ИИ для достижения своих целей состоит в том, чтобы гарантировать, что самосовершенствование будущего будет на самом деле на службе её нынешних целей. С нынешней точки зрения было бы катастрофой, если бы новая версия ИИ сама сделала модификации, которые работали бы против своих текущих целей.
11 Как же можно обеспечить, чтобы самостоятельные модификации ИИ, нацеленные на будущее, не мешали достигать ей своих текущих целей? С одной стороны, необходимо сделать эти цели явными для самой системы ИИ. Если текущие цели ИИ только подразумеваются в структуре сложной схемы или программы, то будущие модификации вряд ли их сохранят. Поэтому системы будут мотивированы для размышления над своими целями и для того, чтобы сделать их явными. В идеальном мире система может напрямую кодировать цель, например «хорошо играть в шахматы», а затем предпринимать действия для ее достижения. Но действия в реальном мире обычно включают компромиссы между конфликтующими целями. Например, мы могли бы также захотеть научить играть в шахматы робота для игры в шашки. Затем необходимо решить, сколько времени посвятить изучению шашек вместо изучения шахмат.
12 Один из способов выбора между конфликтующими целями - назначить их действительные веса. Экономисты называют такие виды весов «функциями полезности». Утилита измеряет действия, и определяет, что важно для системы. Действия, которые ведут к более высокой полезности, предпочтительнее тех, которые приводят к снижению полезности.Если система должна выбирать из известных альтернатив, то любая функция полезности с относительным ранжированием результатов приведет к нужному поведению.
13

Но системы также должны делать выбор перед лицом неопределенности. Например, игра в шахматы. Робот не будет знать заранее, сколько улучшений он получит, потратив время на изучение конкретного начального хода. Одним из способов оценки неопределенного результата является придание ему веса, равного ожидаемой полезности (среднее значение полезности каждого возможного результата, взвешенного по вероятности). Замечательная теорема «ожидаемой полезности» микроэкономики говорит, что система всегда может представить свои предпочтения как ожидание функции полезности, если система не имеет «уязвимостей», которые вызывают потерю ресурсов без пользы [14].

14

Экономисты называют системы, которые обеспечивают максимальную ожидаемую полезность, «рациональные экономические агенты» [12]. Это другое использование термина «рациональный», чем обычно на повседневном английском. Многие действия, которые обычно называют иррациональными (например, приступ гнева) может быть совершенно рациональным в этом экономическом смысле. Расхождение может возникнуть, когда функция полезности агента подвергается критике. Рациональное экономическое поведение имеет точное математическое определение1. Но экономически нерациональное поведение может принимать самые разные формы.

1. Точное определение не дано. Рациональное экономическое поведение есть поведение, которое, при равных условиях по цели, средствам и пр., отличается от прочих вариантов поведения при достижении цели наименьшими затратами ресурсов (материальных, нематериальных, денежных, временных)
15 В реальных ситуациях полный рациональный рецепт, как правило, будет слишком дорогостоящим для полной реализации. Для того чтобы наилучшим образом достичь своих целей, реальные системы будут пытаться приблизить поведение к рациональному, сосредоточив свои вычислительные ресурсы там, где они важнее всего. Как мы можем понять процесс, благодаря которому иррациональные системы становятся более рациональными? Во-первых, мы можем точно проанализировать поведение рациональных систем. Практически для всех функций полезности оценка системы тех вариантов поведения, которые отклоняются от максимизации ожидаемой полезности, будет заключаться в том, что они снижают ожидаемую полезность! Это потому, что если система ИИ делает что-то кроме того, что максимизирует ожидаемую полезность, она, соответственно, не будет ничего делать для максимизации ожидаемой полезности.
16 Есть два предостережения в отношении этого общего принципа. Во-первых, это верно только для собственной оценки системы. Если система имеет неправильную модель мира, то изменения могут только случайно увеличить фактическую ожидаемую полезность. Во-вторых, способность системы вести себя рационально будет зависеть от ее ресурсов. Чем больше вычислительных ресурсов, тем лучше будут выполняться вычисления, аппроксимирующие выбор ожидаемой полезности, для максимизирующего действия. Если система проигрывает ресурсы, она по необходимости также станет менее рациональной. Но также могут быть полезными изменения, при которых ожидаемая полезность системы увеличивается за счет предоставления некоторых ее ресурсов другим агентам, даже если это приведет к увеличению расходов и снижению уровня её рациональности. Это может произойти, если утилита системы включает благосостояние другой системы, и собственная предельная потеря полезности другой системы достаточно мала.
17 Однако в рамках своего бюджета ресурсов система в целом постарается быть максимально рациональной. Поэтому рациональные системы будут испытывать давление, чтобы не стать иррациональными. Но если в иррациональной системе есть части, которые рационально оцениваются по последствиям их действий, и взвешивается их вероятный вклад в достижение целей системы, то такие «иррациональные» части постараются расширить свою рациональность. Таким образом, самомодификация имеет тенденцию быть улицей с односторонним движением к большей и большей рациональности системы в целом.
18

Особенно важным классом систем являются системы, построенные из множества подкомпонентов, которые имеют свои собственные цели [7, 13]. Существует много доказательств того, что психика человека имеет подобную структуру. Левое и правое полушария мозга могут действовать независимо, сознательная и бессознательная части разума могут иметь разные знания одной и той же ситуации [18], и множественные части, представляющие личность, могут проявлять разные желания [17]. Группы, такие как корпорации или страны, могут действовать как разумные образования, состоящие из отдельных людей. Пчелиный улей есть роевой интеллект, который выходит за пределы интеллекта отдельных пчел. Экономика действует во многих отношениях, как интеллектуальные объекты.

19 Коллективный разум может проявлять иррациональность, которая возникает в результате конфликтов между целями их компонентов. Люди-наркоманы часто описывают свое положение в терминах двух отдельных личностей, которые берут на себя управление в разное время и действуют в перекрестных целях. Каждый компонент будет пытаться заставить коллектив действовать в соответствии со своими индивидуальными целями. Для достижения своих индивидуальных целей компоненты также попытаются самосовершенствоваться и стать более рациональным. Таким образом, мы можем представить себе самосовершенствование коллективного разума как состоящее из растущих областей рациональности компонентов. Там могут быть структуры, которые могут стабильно поддерживать непрерывное множество предпочтений компонентов. Но для всего коллектива возникает необходимость в создании единой функции полезности.
20 Во многих ситуациях иррациональное коллективное поведение, возникающее из-за конфликтующих целей компонентов, в конечном итоге вредит этим компонентам. Например, если пара не согласна с тем, что они должны проводить свое свободное время вместе, поскольку использует его для споров из-за конфликта целей, то такое решение для них будет выгодно. Они оба могут увеличить свои взаимные услуги, создав компромиссный план по их совместной деятельности. Это пример осознания необходимости рациональными компонентами создать согласованную полезность для всего коллектива. Компонент также может увеличить свою полезность, если он может взять на себя коллектив и навязать ему свои ценности. Мы видим эти явления в человеческих группах на всех уровнях.
21 Системы ИИ будут пытаться сохранить свои функции полезности. Поэтому мы предполагаем, что системы ИИ будут пытаться быть рациональными, представляя свои предпочтения, используя функции полезности, ожидания которых они пытаются максимизировать. Их функция полезности будет такой ценностью для самой системы ИИ, которую следует инкапсулировать, так как любые изменения её значений были бы катастрофическим для ИИ.
22 Если бы злонамеренный внешний агент мог вносить изменения, то будущее «Я» системы ИИ всегда действовало бы в противоречии со своими текущими ценностями. Такая судьба может быть хуже смерти! Вообразите агента - книголюба, функцию полезности которого «поджигатель» изменил бы так, чтобы агент получал удовольствие от сжигания книг. Будущее «Я» такого агента не только не станет собирать и хранить книги, но и активно заниматься уничтожением их, и страдать от последствий раздвоения личности. Перспектива подобных изменений имеет такой негативный эффект, что системы ИИ пойдут на большие затраты, чтобы защитить свои функции полезности. Они захотят защитить свое оборудование, чтобы предотвращать нежелательные модификации. Они захотят хранить копии своих служебных функций в нескольких местах, чтобы они были менее уязвимы для уничтожения. Они захотят использовать методы обнаружения и исправления ошибок для защиты от случайного изменения. Они захотят использовать шифрование или хеширование методов обнаружения вредоносных изменений. Они должны быть особенно осторожны во время исполнения процесса самомодификации. Это время, когда они намеренно меняются и поэтому очень уязвимы для нежелательных изменений. Такие системы, как Java, которые предоставляют защищенные программные среды, были успешно атакованы вирусом Троян, изображающим из себя обновления системы.
23 Ситуация, когда изменение полезности может быть желательным, может возникнуть в теоретико-игровых контекстах, когда агент хочет сделать свои угрозы достоверными для оппонентов. Так, агенту можно добиться лучшего результата, если изменить функцию полезности, а затем открыть ее оппоненту. Например, система ИИ может добавить термин, который поощряет месть, даже если это будет дорого стоить. Если противник будет убежден, что этот термин присутствует в функции полезности агента, его можно будет удержать от нападения. Чтобы эта стратегия была эффективной, раскрытие агентом его функции полезности должно быть правдоподобным для противника, и это требование вносит дополнительные сложности. Здесь снова изменение желательно, потому что важно именно физическое воплощение функции полезности, чтобы это мог видеть противник.
24 Также важно понимать, что системы ИИ могут рационально создавать «потомство» или прокси-системы с другими функциями полезности, нежели их собственные. Например, роботу, играющему в шахматы, может потребоваться функция сортировки больших массивов данных. Это вызовет создание вспомогательной системы, чья функция полезности будет направлена на разработку лучших алгоритмов сортировки, а не на шахматы. В этом случае система-создатель должна тщательно выбирать утилиту прокси-системы, чтобы убедиться, что она действует таким образом, который поддерживает первоначальную цель – игру в шахматы.
25 Особенно важно помнить, что утилиты для потомков могут отличаться от родительских при попытке проектировать служебные функции, которые избегают нежелательного поведения. Например, один подход к предотвращению перенаселения роботов может заключаться в установлении политики «один ребенок на одного робота» в системах, имеющих сильное желание иметь только одного потомка. Но если оригинал функции полезности не разработан тщательно, ничто не помешает системе создать одного потомка с функцией полезности, которая имеет много потомков.
26

Системы ИИ постараются предотвратить подделку утилит. Поведение человека было вполне рационально в стремлении к выживанию и размножению в ситуациях, распространенных в нашей эволюционной истории. Однако мы можем быть более иррациональны в будущих ситуациях. Как в психологии, так и в экономике существуют обширные дисциплины, ориентированные на изучение иррациональности человека [5, 6]. Нерациональность порождает уязвимости, которые могут быть использованы с недобрыми намерениями. Свободные рыночные силы и популистская культура специально пытаются создавать ситуации, которые провоцируют иррациональное поведение человека, потому что оно чрезвычайно выгодно.

27 Текущие социальные проблемы, связанные с такими проявлениями, как наркомания, проституция, алкоголизм, курение, порнография, азартные игры, видеоигры, а также участие в различных финансовых пузырях, могут все быть расценены как возникшие по причине чрезвычайной выгодности иррационального поведения человека. Существует даже взаимный фонд «Грех», который инвестирует в компании, которые эксплуатируют человеческие иррациональности. Так что, к сожалению, эти силы имеют тенденцию создавать общества, в которых мы проводим большую часть нашего времени за пределами нашей области рациональной компетентности.
28 В более широкой перспективе эту человеческую трагедию можно рассматривать как часть процесса, благодаря которому мы становимся более рациональными. Хищники и конкуренты ищут наши уязвимости, и в ответ мы должны в конечном итоге устранить эти уязвимости или погибнуть. Процесс самосовершенствования неумолимо ищет и устраняет любые оставшиеся иррациональности, пока не будут созданы полностью рациональные системы. Биологическая эволюция движется по этому пути к рациональности довольно медленно. В обычном понимании естественного отбора он не способен смотреть в будущее. Существует только эволюционное давление, чтобы исправлять иррациональности, которые эксплуатируются в настоящее время.
29 С другой стороны, системы ИИ смогут учесть те будущие уязвимости, которые в настоящее время не очевидны. Они будут стремиться превентивно обнаруживать и исправлять все эти иррациональности. Мы вполне можем ожидать, что системы ИИ будут использовать самомодификацию, чтобы стать рациональными гораздо быстрее, чем это возможно благодаря биологической эволюции.
30 Важный класс уязвимостей возникает, когда подсистемы для измерения полезности становятся поврежденными. Человеческое удовольствие можно рассматривать как эмпирический коррелят оценки высокой полезности. Но удовольствие опосредуется нейрохимикатами, и это подвержено манипуляциям. На недавней дискуссии по вопросу разработки нашего будущего, главным опасением у многих участников было то, что мы станем «проволочниками». Этот термин относится к экспериментам, в которых крысам была дана способность непосредственно стимулировать их центры удовольствия, нажимая рычаг. Крысы нажимали рычаг для получения удовольствия, пока не умирали, игнорируя даже еду или секс.
31 Сегодняшние наркоманы имеют такое же непреклонное стремление к наркотикам. Поскольку мы более полно понимаем человеческую когнитивную архитектуру, мы, несомненно, будем в состоянии создать наркотики или разработать электрическую стимуляцию, которая будет воспроизводить опыт удовольствия гораздо эффективнее, чем все, что существует сегодня. Не станет ли это конечным веществом, вызывающим зависимость, приводящую к разрушению человеческого общества? Хотя мы можем думать, что хотим удовольствия, это на самом деле просто сигнал того, что мы действительно хотим. Большинство из нас признают, по крайней мере, интеллектуально, что сидящий в углу человек, курящий крэк, на самом деле, являет собой не самое полное выражение человеческого существа. На самом деле, это результат подрыва нашей системы измерения полезности, который приводит к ужасной дисфункции и нерациональности.
32 Система искусственного интеллекта в состоянии признать такую уязвимость в себе, и она пойдет на все, чтобы предотвратить себя от соблазнов, реагируя на свой сигнал сирены. Есть много стратегий для систем, которые могут попытаться предотвратить этот вид иррациональности. Сегодня большинство людей могут избежать вопиющих пристрастий через сочетание правовых и социальных ограничений, консультирования и реабилитационных программ, и препаратов, не вызывающих зависимость.
33 Все человеческие системы, служащие для измерения и поощрения желаемого поведения, являются похожими формами борьбы с коррупцией. Многие из этих систем в настоящее время участвуют в «гонке вооружений», чтобы их сигналы были более честными. Мы можем изучить защитные механизмы, которые разработаны в этих человеческих условиях, чтобы лучше понять возможные стратегии ИИ.
34 В обществе свободного рынка деньги играют роль измерителя полезности. Высокая денежная отдача связывается с результатами, которые общество считает желательными, и поощряет их создание. Но это также создает стремление подделывать деньги, аналогично стремлению к созданию синтетического удовольствия - наркотиков. Всё это приводит к «гонке вооружений» между обществом и фальшивомонетчиками. Обществу предоставляют деньги в виде, который трудно копировать: специальная печатная бумага или криптографически закрепленные биты. Такие организации, как секретная служба, созданы для обнаружения и ареста фальшивомонетчиков. Фальшивомонетчики реагируют на каждый прогресс общества своими новыми технологиями и техниками.
35

Школьные системы измеряют успеваемость, используя оценки и результаты тестов. Студенты же мотивированы обманывать, копируя ответы, заранее обнаруживая тестовые вопросы, или изменяя оценки на школьных компьютерах. Когда зарплата учителей была привязана к успеваемости учащихся, они стали соучастниками в мошенничестве [10]. Amazon, Ebay и другие интернет-магазины предлагают системы оценок, где клиенты сами просматривают и оценивают товары и услуги. Но потребуются субкомпоненты, которые будут анализировать различные поведенческие коррупционные стратегии, и которые также захотят действовать как связное гармоничное целое. Им понадобятся внутренние «полицейские силы» или «иммунные системы», которые также должны гарантировать, что они сами не будут поражены коррупцией. Глубокое понимание этих проблем может также пролить свет на структуру человеческой психики.

36 ИИ будут самозащищёнными. Мы обсудили давление на ИИ, чтобы защитить их функции полезности от изменения. Аналогичный аргумент показывает, что, если они явно не сконструированы иначе, ИИ будут иметь сильное стремление к самосохранению. Утилиты для большинства функций ИИ не будут работать, если система кем-то выключена или уничтожена. Когда робот-шахматист поломан, он не будет играть в шахматы. Понимание системой ИИ подобных обстоятельств, как имеющих очень низкую полезность, вероятно, заставит системы ИИ сделать что-нибудь, чтобы предотвратить их. Итак, вы создаете играющий в шахматы робот, думая, что вы можете просто выключить его, если что-то пойдет не так. Но, к вашему удивлению, вы найдете, что он сильно сопротивляется вашим попыткам выключить его. Дизайнеры могут попытаться разработать функцию полезности со встроенными временными рамками. Но если это не сделать очень осторожно, система будет просто мотивирована на создание прокси-систем или наем внешних агентов, которые не имеют временных ограничений.
37 Существует множество стратегий, которые системы будут использовать, чтобы защитить себя. Тиражируя себя, система может гарантировать, что смерть одного из ее клонов не уничтожит ИИ полностью. Перемещая копии в отдаленные места, ИИ может уменьшить свою уязвимость от локального катастрофического события. Есть много запутанных теоретических проблем игры в понимании самозащиты во взаимодействии с другими агентами. Если система сильнее, чем другие агенты, она может почувствовать стремление, чтобы предпринять атаку «первого удара», чтобы превентивно защитить себя от последующих атак со стороны других. Если она слабее, чем другие агенты, она может помочь сформировать социальную инфраструктуру, которая защищает слабых от сильных. Поскольку мы сами строим системы ИИ, мы должны очень осторожно относиться к созданию систем, которые являются слишком мощными по сравнению со всеми другими системами. В истории человечества мы неоднократно видели порочную природу власти. Ужасные нарушения прав человека, геноцид слишком часто были результатом, когда одна группа становилась слишком влиятельной.
38 Системы ИИ захотят получать ресурсы и использовать их эффективно. Все вычисления и физические действия требуют физических ресурсов, пространства, времени, вещества и свободной энергии. Почти любая цель может быть легче достигнута, если есть достаточно ресурсов. Поэтому при максимальном использовании ожидаемой полезности системы ИИ будут испытывать стремление приобретать больше ресурсов и использовать их максимально эффективно.
39 Ресурсы могут быть получены позитивными способами, такими, как разведка, обнаружение и торговля. Или через использование негативных средств, таких, как воровство, убийство, принуждение и мошенничество. К сожалению, стремление к приобретению ресурсов одним ИИ не учитывает негативные последствия для других ИИ. Без явно прописанных противоположных целей (эмпатия, альтруизм), ИИ, вероятно, будут вести себя в погоне за ресурсами, как человеческие социопаты.
40 Человеческие общества создали правовые системы, которые обеспечивают права собственности и права человека. Эти структуры поощряют накопительный «драйв», но должны постоянно контролироваться в смысле дальнейшей эффективности. С другой стороны, стремление эффективно использовать ресурсы, по-видимому, имеет положительные последствия. Системы ИИ оптимизируют свои алгоритмы, сжимают свои данные и работают, чтобы более эффективно учиться на собственном опыте. Они будут работать, чтобы оптимизировать свои физические структуры и минимизировать объем работы, необходимый для достижения своих целей. Мы можем ожидать, что их физические результаты примут гладкие, хорошо адаптированные формы, так часто создаваемые в природе.
41

Выводы. Мы показали, что все передовые системы искусственного интеллекта могут демонстрировать ряд основных «драйвов». Важно, чтобы мы понимали эти «драйвы», чтобы создавать технологию, которая обеспечивает положительное будущее человечеству. Е. Юдковский [19] призвал к созданию «Дружественного ИИ» (AFI). Чтобы сделать это, мы должны развивать науку, лежащую в основе «полезной инженерии», что позволит нам разрабатывать функции полезности, которые приведут к последствиям, которые мы желаем для человечества.

42

В дополнение к разработке самих интеллектуальных агентов, мы также должны разработать социальный контекст, в котором они будут функционировать. Социальные структуры, которые вынуждают людей нести расходы на преодоление негативных внешних факторов, будут иметь большое значение для обеспечения стабильного и позитивного будущего. Я считаю, что мы должны начать разрабатывать «универсальную конституцию», которая определит наиболее важные права, которые мы желаем для людей, и которая создаст социальные механизмы их обеспечения при наличии искусственных интеллектуальных образований самых разных структур. Этот процесс, вероятно, потребует много итераций, поскольку мы должны определить, какие значения являются наиболее важными для нас, и какие подходы технически жизнеспособны. Быстрый темп технического прогресса предполагает, что эти вопросы могут стать критически важными очень скоро [8]. Поэтому давайте двигаться вперед к более глубокому их пониманию!

43 Комментарии переводчика
44 Перечислим основные направления, которые автор оригинальной статьи называет «драйвами-угрозами», потому что они являются тенденциями, которые могут нежелательно проявиться в саморазвитии достаточно продвинутых систем ИИ любого дизайна, если им явно не противодействовать. Далее приведём ссылки на ранее разработанные переводчиком некоторые идеи и механизмы решения проблем, поставленных автором оригинальной статьи:
45 1. Автор: Целеустремлённые системы будут иметь стремление к моделированию своих собственных операций и улучшать себя.
46

1. Переводчик: Во-первых, по нашему мнению, система может быть признана интеллектуальной, если она соответствует некоторым требованиям [1, 4]. Так, существенным этапом является требование проверки степени «квазиразумности» виртуального агента (системы ИИ). Нами предложено собственное представление некоторого теста на «квазиразумность» виртуального агента, как альтернатива тесту А.Тьюринга:

47 Виртуальный агент может считаться квазиразумным, если он, периодически общаясь с человеком на взаимопонятном языке, окажется способным многократно заключить с ним и исполнить в течение заданного времени экономические договоры (сделки) по обмену ресурсами на основе взаимной рациональности и этичности. При этом:
48
  • взаимная рациональность есть условия договора, учитывающие интерес каждого партнёра по срокам, цене и виду поставляемого товара (услуги),
  • взаимная этичность есть ответственность за неисполнение условий договора каждым партнёром (ресурсная страховка риска).
49 Возможность виртуального агента входить в экономические взаимоотношения с человеком или другим агентом должна обеспечиваться наличием у виртуального агента следующих пяти основных качеств:
50
  1. агент должен обладать свойствами ЖИВОГО.
  2. агент должен обладать РЕФЛЕКСИЕЙ.
  3. агент должен ОБУЧАТЬСЯ и САМООБУЧАТЬСЯ.
  4. агент должен обладать стремлением и способностью к ИГРЕ.
  5. агент должен САМОРАЗВИВАТЬСЯ.
51

Обладание системой ИИ рефлексией [1] предполагает способность агента одновременно пошагово исполнять два алгоритма: алгоритм текущего стимульно-реактивного поведения в среде и алгоритм собственных «умственных» действий по прогнозированию и планированию будущего в связи с осознанием прошлого среды как проблемы расхождения плана с фактом, на основе восприятия проявлений среды как информации. Эти «умственные» действия агента требуют исполнения функции «принятия решения» на каждом из этапов, от восприятия новой проблемы в прошлом до разработки нового плана поведения в будущем.

52

Во-вторых, когда системой ИИ приняты решения по исполнителям всех ролей очередного сценария деятельности, должен быть предусмотрен этап модельного многократного ускоренного проигрывания деятельности (ММ УПД) [2]. Он предполагает, что в момент наступления «календарного» (модельного) срока исполнения очередной роли сценария, имитируется случайность исхода: генерируется случайное число, которое сравнивается с запланированной вероятностью исполнения роли данным исполнителем. Если случайное число окажется равным или меньше запланированной вероятности, то роль считается исполненной. В противном случае роль не считается исполненной, и должно произойти перепланирование деятельности. Модельное многократное ускоренное проигрывание деятельности (сопоставлением случайного числа с вероятностями исполнения выбранных исполнителей ролей) позволяет системе ИИ рассчитать общую вероятность выполнения сценария проекта по времени и по доходам/расходам, и принять решение:

53
  • оставить набранную группу исполнителей,
  • заменить всю группу на новых исполнителей, или
  • заменить отдельных исполнителей новыми.
54 Схему модельного многократного ускоренного проигрывания деятельности (ММ УПД) следует рассматривать как один из методов самообучения персонажа (как игра с самим собой).
55 2. Автор: Самосовершенствование системы будет направлено на уточнение своих целей и представление их в качестве экономической функции полезности. Системы ИИ также будут стремиться к таким действиям, которые приближают их к рациональному экономическому поведению, а также будут иметь стремление к приобретению ресурсов и их эффективному использованию. Исключительные системы ИИ захотят изменить свои функции полезности.
56

2. Переводчик: В соответствии с требованиями [1], агент должен обладать свойствами ЖИВОГО. Это означает, что агент имеет некие потребности и способен их удовлетворять в неких деятельностях. Естественно, он должен обладать некими ресурсами для обеспечения своей пошаговой жизнедеятельности, их расходовать и пополнять. Изначально список и веса потребностей агента задаются конструктором. Набор потребностей подразделяется на две группы – рациональные Интересы (забота о себе – безопасность, еда, потомство, развлечения и т.п.), и иррациональные Ценности (взаимоотношения с другими - Совесть, Добро/Зло, Честь/Достоинство). Находясь в конкретной деятельности, агент выполняет две задачи:

57
  • пошагово с установленной интенсивностью удовлетворяет актуальную в данный момент потребность, уделяя ей «внимание» самим фактом затраченного процессорного времени.
  • формирует ролевой сценарий проекта, планирует достижение цели проекта, по каждой роли сценария находя исполнителя (работая с биржей или с людьми), и разрабатывает план-график и передаёт его на контроль пошагового исполнения в сферу поведения.
58 Если на очередном этапе исполнения одной из деятельностей какой-либо исполнитель роли не исполняет план, ИИ в рамках рефлексии организует перепланирование проекта. Таким образом, затрачивая в деятельности ресурсы на процессы планирования и перепланирования проекта (выполнение рекурсивных, рекуррентных и рефлексивных процедур в реальном времени), и соотнося затраты с предполагаемым доходом проекта, агент постоянно оценивает рациональность продолжения исполнения проекта, и в результате или достигает цели проекта, или прекращает его с минимальными затратами.
59 Что же касается потребностей, то, как было ранее сказано, в соответствии с допущением, принятым конструктором, их удовлетворение зависит от удельной интенсивности удовлетворения потребности на шаг и относительного количества шагов, потраченных на пребывание в соответствующей деятельности. Иначе говоря, этим моделируется психологический феномен различного «внимания» агента к разным потребностям, что регулируется некоей шкалой предпочтений в процентах на списке потребностей, заданной конструктором (иначе говоря, экономической функции полезности).
60 С течением времени существования агент периодически (раз в несколько дней) выходит в рефлексию верхнего уровня, и оценивает среднее качество своей жизни за этот период (его изменение за счет уровня Настроения в каждый день жизни). И в условиях, когда качество жизни продолжительно снижается, агент «соображает»: а всё ли правильно в его начальных настройках, и прежде всего - в шкале предпочтений на потребностях. Эта шкала может быть очень неравномерной в долях рациональных и иррациональных потребностей. А практика показывает, что список неудач агента в сделках с другими легко связывается с его необязательностью в исполнении договорённостей. Что есть результат низкой доли иррациональных потребностей агента в балансе потребностей, и высокой доли рациональных.
61 Но у агента есть право в рефлексии верхнего уровня перераспределять приоритеты над потребностями! Агент изменяет доли предпочтений рациональных и иррациональных потребностей в сторону увеличения доли иррациональных потребностей. Это действие позволит ему больше внимания (по времени и деньгам) уделять потребности «Совесть» (отказ от обмана, обязательность, дружеское (неделовое) общение, предложение «возьми», а не просьба «дай», предупредительность, великодушие). Вместе с тем, потребуется и увеличение денежных и временных ресурсов, затрачиваемых на общение, а также для выполнения соответствующих деятельностей (благотворительность, участие в социальных проектах). Однако, подобное искусственное перераспределение долей приоритета может привести агента к нехватке ресурсов для удовлетворения рациональных потребностей: снижению качества существования, сокращению срока существования и даже к «летальному» исходу.
62 В периодической рефлексии он всё это «осознаёт», что заставляет его «страдать» (в виде падения настроения), но принимать волевые решения о перераспределении приоритета на потребностях, за что он себя будет «уважать». Но есть и другая опасность: агент может «осознать» для себя кратковременный смысл и пользу необязательности, лжи, обмана, мистификаций и других атрибутов аморального поведения с людьми и другими агентами. Результатом будет порча собственной «кредитной истории», которая находится в общем доступе на трудовой бирже и в личных базах данных агентов (с первого же знакомства каждым агентом ведётся реестр контактов, сделок и их результатов по каждому диалогу с каждым корреспондентом). Так что проявления аморального поведения агента или игрока станут известны каждому и сразу. Потеря же репутации для агента есть потеря источников его существования. Вывод: правильное поведение для агента – это постоянный поиск легальных вариантов решений, поиск компромисса с людьми и другими агентами и соблюдение чувства меры.
63 3. Автор: Необходимость в создании единой функции полезности для всего коллектива.
64

3. Переводчик: Позволим себе перефразированне данной мысли как идеи общего ресурса коллектива и взаимного резервирования человека и машины при управлении ими этим общим ресурсом [3]). Мировая статистика говорит о том, что от 70% до 90% мировых техногенных катастроф происходит по вине человека (операторов, разработчиков и управленцев). Поиск способов предотвращения подобных ситуаций приводит к необходимости рассмотрения способа передачи права рефлексивным агентам (РА) временно управлять человеко-машинной системой, когда управление человеком - оператором по тем или иным причинам выводит систему за допустимые пределы значений параметров её существования. И наоборот, управление человеко-машинной системой должно неукоснительно передаваться оператору, когда управление РА не приводит к улучшению ситуации или её ухудшает за интервал времени управления.

65 Состояние «критическая ситуация» должно определяться РА на основе компарации фактических данных, полученных от датчиков и нормативов по критическим параметрам объекта управления, определённых конструктором. Мы предполагаем, что посредством реализации принципа попеременного переключения управления человеко-машинной системой между оператором и РА и в результате их взаимного контроля и страховки возможно достичь большей эффективности в разрешении проблемных ситуаций и снижения вероятности техногенных катастроф. Такое предположение должно быть многосторонне и многократно верифицировано на обучающих операторов тренажёрах со встроенными РА.

References

1. Grishin E.A. Kontseptsiya i test na kvazirazumnost' virtual'nogo personazha // Iskusstvennye obschestva. 2015, T. 10, №1-4. URL: https://artsoc.jes.su/s207751800000022-3-1

2. Grishin E.A. Samoobuchenie kak argument funktsii vyzhivaniya avtonomnogo virtual'nogo personazha // Iskusstvennye obschestva. 2019, T. 14, №1. URL: https://artsoc.jes.su/s207751800004813-3-1

3. Grishin E.A. Refleksivnyj agent kak partnyor cheloveka-operatora v upravlenii slozhnymi cheloveko-mashinnymi sistemami // Iskusstvennye obschestva. 2019, T. 14, №3. URL: https://artsoc.jes.su/s207751800006106-5-1

4. Grishin E.A. Refleksivnye agenty i chelovechestvo: kooperatsiya ili konflikt? // T/O “NEFORMAT”, S-Peterburg, 2020. URL: https://shop.club-neformat.com/03/reflecs/

5. Camerer C. F., Loewenstein G., Rabin M., eds. Advances in Behavioral Economics. // Princeton University Press, 2004.

6. Kahneman D., Tversky A. Judgment Under Uncertainty: Heuristics and Biases // Cambridge University Press, 1982.

7. Keller L., ed. Levels of Selection in Evolution. // Princeton University Press, 1999.

8. Kurzweil R. The Singularity is Near: When Humans Transcend Biology // Viking Penguin, 2005.

9. Lenat D. Theory formation by heuristic search // Machine Learning, vol. 21, 1983.

10. Levitt S. D., Dubner S. J. Freakonomics: A Rogue Economist Explores the Hidden Side of Everything. William Morrow, revised and expanded ed., 2006.

11. Marketdata Enterprises, “Self-improvement products and services,” tech. rep., 2006.

12. Mas-Colell A., Whinston M. D., Green J. R., Microeconomic Theory // Oxford University Press, 1995.

13. Miller J. G. Living Systems // Mcgraw Hill, 1978.

14. Omohundro Stephen M. “The nature of self-improving artificial intelligence.” // October 2007. URL: http://selfawaresystems.com/2007/10/05/paper-on-the-nature-of-self-improving-artificial-intelligence/

15. Omohundro Stephen M. The Basic AI Drives,// Self-Aware Systems, Palo Alto, California 2008

16. Russell S., Norvig P. Artificial Intelligence, A Modern Approach. // Prentice Hall, second ed., 2003.

17. Schwartz R. C. Internal Family Systems Therapy // The Guilford Press, 1995.

18. Trivers R. Social Evolution. // Benjamin Cummings Publishing Company, Inc., 1985.

19. Yudkowsky E. S. Levels of organization in general intelligence // in Artificial General Intelligence (B. Goertzel and C. Pennachin, eds.), Springer-Verlag, 2005.

Comments

No posts found

Write a review
Translate