Технологические предпосылки неразличимости человека и его компьютерной имитации

Ефимов Альберт Р.

doi:10.18254/S207751800007645-8

Русский

Войти Регистрация

Главная>Выпуск 4>Технологические предпосылки неразличимости человека и его компьютерной имитации

Технологические предпосылки неразличимости человека и его компьютерной имитации

Оглавление

Аннотация Оценить Содержание публикации

Библиография Комментарии

Технологические предпосылки неразличимости человека и его компьютерной имитации

Аннотация

Код статьи

S207751800007645-8-1

DOI

10.18254/S207751800007645-8

Тип публикации

Статья

Статус публикации

Опубликовано

Авторы

Ефимов Альберт Рувимович Связаться с автором

ORCID: 0000-0001-6857-8659

Аффилиация: Сбербанк
Адрес: Российская Федерация, Москва

Выпуск

Том 14 Выпуск 4

Аннотация

В статье автор анализирует проблематику коммуникации человека и компьютера в контексте разработок в области искусственного интеллекта, дополненной реальности и тьюринговой методологии сравнения возможностей искусственного и естественного интеллекта в диалоге. Утверждается, что инструмент, с помощью которого ведется коммуникация компьютера и человека, имеет не меньшую важность, чем компьютерная программа, ведущая диалог. В качестве примера реализации такой коммуникации рассмотрен проект «Э.ЛЕНА» – цифровой теледиктор, созданный в Лаборатории робототехники Сбербанка. Автор предлагает собственный вариант частного теста Тьюринга для изучения особенностей невербальных коммуникационных интерфейсов между человеком и компьютером. Ключевая мысль, сформулированная автором для дальнейшей дискуссии, состоит в наделении искусственного интеллекта визуальным образом для того, чтобы избежать отчуждения человека и компьютера и потери смысловой информации при передаче от компьютера к человеку.

Ключевые слова

дополненная реальность, искусственный интеллект, цифровой аватар, цифровой двойник Тьюринга, тест Тьюринга, философия искусственного интеллекта

Классификатор

Получено

24.11.2019

Дата публикации

19.12.2019

Всего подписок

Всего просмотров

2439

Оценка читателей

0.0 (0 голосов)

Цитировать Скачать pdf

ГОСТ	Ефимов А. Р. Технологические предпосылки неразличимости человека и его компьютерной имитации // Искусственные общества. – 2019. – T. 14. – Выпуск 4. URL: https://artsoc.jes.su/s207751800007645-8-1/. DOI: 10.18254/S207751800007645-8
MLA	Efimov, Albert "Technological background of Individuality of Human and its Computer imitation." Artificial societies. 14.4 (2019). DOI: 10.18254/S207751800007645-8
APA	Efimov A. (2019). Technological background of Individuality of Human and its Computer imitation. Artificial societies. vol. 14, no. 4 DOI: 10.18254/S207751800007645-8

Доступ к дополнительным сервисам

Дополнительные сервисы только на эту статью

Преимущества сервисов

100 руб. / 1.0 SU

Дополнительные сервисы на все выпуски за 2019 год

Преимущества сервисов

1500 руб. / 15.0 SU

Библиография

1. Алексеев А.Ю. Комплексный тест Тьюринга: философско-методологические и социо-культурные аспекты. // Москва: ИИнтеЛЛ, 2013

2. Гаврилов К. Как делать сюжет новостей? и стать медиатворцом. // СПб: Амфора, 2007

3. Давыдова Л.И., Конькова Г.И., Чубова А.П. Античные мастера. Скульпторы и живописцы. // Л: Искусство, 1986.

4. Долар М. Голос и ничего больше. // М.: Изд-во Ивана Лимбаха, 2018

5. Маклюэн М. Понимание Медиа: внешние расширения человека. // М.: Гиперборея; Кучково поле, 2007.

6. Стругацкий А.Н., Стругацкий Б.Н. Понедельник начинается в субботу: Сказка для научных работников младшего возраста. // М.: Детская литература, 1965.

7. Эверетт Д. Как начинался язык. История величайшего изобретения. // М.: Альпина Нон Фикшн, 2019

8. Turing Alan Intelligent Machinery // 1948. In Cybernetics: Key Papers, eds. C. R. Evans and A. D. J. Robertson, University Park Press, Baltimore Md.and Manchester (1968).


1	Введение Некоторые ошибочно полагают, что А. Тьюринг в своих работах, заложивших курс всей современной computer science, не упоминал «физических» роботов. Это не так, поскольку сам Тьюринг говорил о подобных машинах и считал, что делает это слишком преждевременно. В частности, в своем отчете 1948 года [8] он предполагает, что физическая интеллектуальная машина, созданная из моторов, телекамер и громкоговорителей, «блуждающая по полям» Англии, будет, «несомненно, создавать угрозу для окружающих» [8, стр. 3-23]. В силу этого несовершенства технологий в той области знаний, которую мы сейчас называем робототехникой, методология, предложенная им, была основана на человеческой речи, а точнее тексте. Другие естественные навыки человека было слишком сложно реализовать, тогда как обмен репликами посредством записок был намного доступнее для инженерного воплощения в его время. Тем не менее, прогресс компьютерных технологий приобрел такие формы, которые не мог предвидеть основатель искусственного интеллекта.	<h3 id="text_content_item_1"><strong>Введение</strong></h3> <p>Некоторые ошибочно полагают, что А. Тьюринг в своих работах, заложивших курс всей современной computer science, не упоминал «физических» роботов. Это не так, поскольку сам Тьюринг говорил о подобных машинах и считал, что делает это слишком преждевременно. В частности, в своем отчете 1948 года [8] он предполагает, что физическая интеллектуальная машина, созданная из моторов, телекамер и громкоговорителей, «блуждающая по полям» Англии, будет, «несомненно, создавать угрозу для окружающих» [8, стр. 3-23]. В силу этого несовершенства технологий в той области знаний, которую мы сейчас называем робототехникой, методология, предложенная им, была основана на человеческой речи, а точнее тексте. Другие естественные навыки человека было слишком сложно реализовать, тогда как обмен репликами посредством записок был намного доступнее для инженерного воплощения в его время. Тем не менее, прогресс компьютерных технологий приобрел такие формы, которые не мог предвидеть основатель искусственного интеллекта.</p> <h3 id="text_content_item_1"><strong>Введение</strong></h3> <p>Некоторые ошибочно полагают, что А. Тьюринг в своих работах, заложивших курс всей современной computer science, не упоминал «физических» роботов. Это не так, поскольку сам Тьюринг говорил о подобных машинах и считал, что делает это слишком преждевременно. В частности, в своем отчете 1948 года [8] он предполагает, что физическая интеллектуальная машина, созданная из моторов, телекамер и громкоговорителей, «блуждающая по полям» Англии, будет, «несомненно, создавать угрозу для окружающих» [8, стр. 3-23]. В силу этого несовершенства технологий в той области знаний, которую мы сейчас называем робототехникой, методология, предложенная им, была основана на человеческой речи, а точнее тексте. Другие естественные навыки человека было слишком сложно реализовать, тогда как обмен репликами посредством записок был намного доступнее для инженерного воплощения в его время. Тем не менее, прогресс компьютерных технологий приобрел такие формы, которые не мог предвидеть основатель искусственного интеллекта.</p>

2	Изображения людей, животных или выдуманных существ на экране компьютера или кинозала не являются чем-то новым. Однако предыдущее поколение технологий компьютерной графики – от мультфильмов Диснея и до сложнейшей компьютерной графики современных голливудских студий – лишь подражало реальности, используя ее в качестве основы творчества. Художники, делающие компьютерную графику, создавали новую, виртуальную, реальность, которая настолько похожа на наблюдаемый нами мир, насколько похожи на него лучшие работы классических живописцев: они отражают не окружающий мир, но взгляд художника, влияющий на впечатления зрителей. Новое поколение технологий, которое появляется прямо сейчас, на наших глазах, делает доступным другой подход. Компьютерная графика становится не альтернативой реальному миру, но его живым дополнением: за основу изображения берется видео- или фотоизображение реальности, и уже на его основе создается видео или аудио запись. Итоговый видеофрагмент мог никогда не существовать в реальности, но выглядит он абсолютно реалистично. В этой связи совершенно правомерно вспомнить древнегреческую историю о двух художниках, Зевксисе и Парразии [3].	Изображения людей, животных или выдуманных существ на экране компьютера или кинозала не являются чем-то новым. Однако предыдущее поколение технологий компьютерной графики – от мультфильмов Диснея и до сложнейшей компьютерной графики современных голливудских студий – лишь подражало реальности, используя ее в качестве основы творчества. Художники, делающие компьютерную графику, создавали новую, виртуальную, реальность, которая настолько похожа на наблюдаемый нами мир, насколько похожи на него лучшие работы классических живописцев: они отражают не окружающий мир, но взгляд художника, влияющий на впечатления зрителей. Новое поколение технологий, которое появляется прямо сейчас, на наших глазах, делает доступным другой подход. Компьютерная графика становится не альтернативой реальному миру, но его живым дополнением: за основу изображения берется видео- или фотоизображение реальности, и уже на его основе создается видео или аудио запись. Итоговый видеофрагмент мог никогда не существовать в реальности, но выглядит он абсолютно реалистично. В этой связи совершенно правомерно вспомнить древнегреческую историю о двух художниках, Зевксисе и Парразии [3]. Изображения людей, животных или выдуманных существ на экране компьютера или кинозала не являются чем-то новым. Однако предыдущее поколение технологий компьютерной графики – от мультфильмов Диснея и до сложнейшей компьютерной графики современных голливудских студий – лишь подражало реальности, используя ее в качестве основы творчества. Художники, делающие компьютерную графику, создавали новую, виртуальную, реальность, которая настолько похожа на наблюдаемый нами мир, насколько похожи на него лучшие работы классических живописцев: они отражают не окружающий мир, но взгляд художника, влияющий на впечатления зрителей. Новое поколение технологий, которое появляется прямо сейчас, на наших глазах, делает доступным другой подход. Компьютерная графика становится не альтернативой реальному миру, но его живым дополнением: за основу изображения берется видео- или фотоизображение реальности, и уже на его основе создается видео или аудио запись. Итоговый видеофрагмент мог никогда не существовать в реальности, но выглядит он абсолютно реалистично. В этой связи совершенно правомерно вспомнить древнегреческую историю о двух художниках, Зевксисе и Парразии [3].

3	Зевксис с Парразием поспорили, кто лучше распишет стену храма. Собрался народ, вышли двое соперников, у каждого из них росписи были под покрывалом. Зевксис отдернул покрывало — на стене была виноградная гроздь, так похожая на настоящую, что птицы слетелись ее клевать. Народ рукоплескал. «Теперь ты отдерни покрывало!» — сказал Зевксис Парразию. «Не могу, — ответил Парразий, — оно-то у меня и нарисовано». Зевксис склонил голову. «Ты победил! — сказал он. — Я обманул глаз птиц, а ты обманул глаз живописца» [3].	Зевксис с Парразием поспорили, кто лучше распишет стену храма. Собрался народ, вышли двое соперников, у каждого из них росписи были под покрывалом. Зевксис отдернул покрывало — на стене была виноградная гроздь, так похожая на настоящую, что птицы слетелись ее клевать. Народ рукоплескал. «Теперь ты отдерни покрывало!» — сказал Зевксис Парразию. «Не могу, — ответил Парразий, — оно-то у меня и нарисовано». Зевксис склонил голову. «Ты победил! — сказал он. — Я обманул глаз птиц, а ты обманул глаз живописца» [3]. Зевксис с Парразием поспорили, кто лучше распишет стену храма. Собрался народ, вышли двое соперников, у каждого из них росписи были под покрывалом. Зевксис отдернул покрывало — на стене была виноградная гроздь, так похожая на настоящую, что птицы слетелись ее клевать. Народ рукоплескал. «Теперь ты отдерни покрывало!» — сказал Зевксис Парразию. «Не могу, — ответил Парразий, — оно-то у меня и нарисовано». Зевксис склонил голову. «Ты победил! — сказал он. — Я обманул глаз птиц, а ты обманул глаз живописца» [3].

4	На наш взгляд, виртуальную реальность, воссоздаваемую с максимальным правдоподобием компьютерной графикой (которая является лишь невероятно интеллектуальной кистью художника – специалиста по компьютерной графике или программиста), можно соотнести с мастерством Зевксиса, а технологии «дополнения/восполнения» реальности, связанные с обработкой изображения реальных объектов искусственными нейронными сетями, – с мастерством Парразия. Древние истории и здесь могут стать отправной точкой в последующем философском рассуждении.	На наш взгляд, виртуальную реальность, воссоздаваемую с максимальным правдоподобием компьютерной графикой (которая является лишь невероятно интеллектуальной кистью художника – специалиста по компьютерной графике или программиста), можно соотнести с мастерством Зевксиса, а технологии «дополнения/восполнения» реальности, связанные с обработкой изображения реальных объектов искусственными нейронными сетями, – с мастерством Парразия. Древние истории и здесь могут стать отправной точкой в последующем философском рассуждении. На наш взгляд, виртуальную реальность, воссоздаваемую с максимальным правдоподобием компьютерной графикой (которая является лишь невероятно интеллектуальной кистью художника – специалиста по компьютерной графике или программиста), можно соотнести с мастерством Зевксиса, а технологии «дополнения/восполнения» реальности, связанные с обработкой изображения реальных объектов искусственными нейронными сетями, – с мастерством Парразия. Древние истории и здесь могут стать отправной точкой в последующем философском рассуждении.

5	Мы не предлагаем проводить сравнение объективной реальности, компьютерной графики, виртуальной и дополненной реальности. Скорее речь идет о сравнении способов коммуникации машины с человеком – насколько человек может доверять машине послать сообщение другому человеку. Может ли послание быть передано машиной так, как если бы оно было передано человеком? Известный афоризм М. Маклюэна о том, что «средство коммуникации и есть сообщение» [5] мы можем дополнить и заявить, что «машина и есть средство коммуникации». М. Маклюэн не мог вообразить себе телевидение, в котором не было бы людей. Но сейчас это не только мыслимо, но уже реально.	Мы не предлагаем проводить сравнение объективной реальности, компьютерной графики, виртуальной и дополненной реальности. Скорее речь идет о сравнении способов коммуникации машины с человеком – насколько человек может доверять машине послать сообщение другому человеку. Может ли послание быть передано машиной так, как если бы оно было передано человеком? Известный афоризм М. Маклюэна о том, что «средство коммуникации и есть сообщение» [5] мы можем дополнить и заявить, что «машина и есть средство коммуникации». М. Маклюэн не мог вообразить себе телевидение, в котором не было бы людей. Но сейчас это не только мыслимо, но уже реально. Мы не предлагаем проводить сравнение объективной реальности, компьютерной графики, виртуальной и дополненной реальности. Скорее речь идет о сравнении способов коммуникации машины с человеком – насколько человек может доверять машине послать сообщение другому человеку. Может ли послание быть передано машиной так, как если бы оно было передано человеком? Известный афоризм М. Маклюэна о том, что «средство коммуникации и есть сообщение» [5] мы можем дополнить и заявить, что «машина и есть средство коммуникации». М. Маклюэн не мог вообразить себе телевидение, в котором не было бы людей. Но сейчас это не только мыслимо, но уже реально.

6	Э.ЛЕНА – цифровой аватар, теледиктор В начале 2019 года Сбербанк представил первого цифрового русскоязычного теледиктора Э.ЛЕНУ (Электронную ЛЕНУ), основанного на генерации реалистичного образа телеведущей. Использование технологий на основе искусственных нейронный сетей для улучшения изображений не является чем-то новым: в каждом смартфоне уже есть несколько приложений, которые модифицируют фотографии пользователей в соответствии с их самыми заветными чаяниями (убирают морщины, размывают фон, исправляют цвета) практически в онлайн-режиме. Мы сами начинаем воспринимать окружающую реальность так, как если бы ее пропустили через фильтры популярных приложений, при этом обычная ясность взгляда на объективную реальность получила даже специальное обозначение (тег) #nofilter. Однако дополнение/воссоздание реальности является достаточно новой технологией: представленные пользователю объекты в видеофрагменте кажутся реальными, документальными, так как реалистически отражают знакомые пользователю сцены или объекты. В то же время то, что происходит с этими объектами, никогда не происходило в реальности и не может произойти. За рубежом данный феномен получил броское название deepfake и его стали связывать с отрицательными явлениями социально-политической жизни.	<h3 id="text_content_item_6" id="text_content_item_6" class="docx-publication-h1"><strong>Э.ЛЕНА</strong> <strong>– цифровой </strong><strong>аватар</strong><strong>, теледиктор</strong></h3> <p>В начале 2019 года Сбербанк представил первого цифрового русскоязычного теледиктора Э.ЛЕНУ (<em><strong>Э</strong></em>лектронную <em><strong>ЛЕНУ</strong></em>), основанного на генерации реалистичного образа телеведущей. Использование технологий на основе искусственных нейронный сетей для улучшения изображений не является чем-то новым: в каждом смартфоне уже есть несколько приложений, которые модифицируют фотографии пользователей в соответствии с их самыми заветными чаяниями (убирают морщины, размывают фон, исправляют цвета) практически в онлайн-режиме. Мы сами начинаем воспринимать окружающую реальность так, как если бы ее пропустили через фильтры популярных приложений, при этом обычная ясность взгляда на объективную реальность получила даже специальное обозначение (тег) <em><strong>#</strong></em><em><strong>nofilter</strong></em>. Однако дополнение/воссоздание реальности является достаточно новой технологией: представленные пользователю объекты в видеофрагменте кажутся реальными, документальными, так как реалистически отражают знакомые пользователю сцены или объекты. В то же время то, что происходит с этими объектами, никогда не происходило в реальности и не может произойти. За рубежом данный феномен получил броское название <em><strong>deepfake</strong></em> и его стали связывать с отрицательными явлениями социально-политической жизни.</p> <h3 id="text_content_item_6" id="text_content_item_6" class="docx-publication-h1"><strong>Э.ЛЕНА</strong> <strong>– цифровой </strong><strong>аватар</strong><strong>, теледиктор</strong></h3> <p>В начале 2019 года Сбербанк представил первого цифрового русскоязычного теледиктора Э.ЛЕНУ (<em><strong>Э</strong></em>лектронную <em><strong>ЛЕНУ</strong></em>), основанного на генерации реалистичного образа телеведущей. Использование технологий на основе искусственных нейронный сетей для улучшения изображений не является чем-то новым: в каждом смартфоне уже есть несколько приложений, которые модифицируют фотографии пользователей в соответствии с их самыми заветными чаяниями (убирают морщины, размывают фон, исправляют цвета) практически в онлайн-режиме. Мы сами начинаем воспринимать окружающую реальность так, как если бы ее пропустили через фильтры популярных приложений, при этом обычная ясность взгляда на объективную реальность получила даже специальное обозначение (тег) <em><strong>#</strong></em><em><strong>nofilter</strong></em>. Однако дополнение/воссоздание реальности является достаточно новой технологией: представленные пользователю объекты в видеофрагменте кажутся реальными, документальными, так как реалистически отражают знакомые пользователю сцены или объекты. В то же время то, что происходит с этими объектами, никогда не происходило в реальности и не может произойти. За рубежом данный феномен получил броское название <em><strong>deepfake</strong></em> и его стали связывать с отрицательными явлениями социально-политической жизни.</p>

7	Сложно сказать, кто впервые предложил идею полной оцифровки актера или телеведущего, для этого нужно отдельное исследование поп-культуры и научной фантастики. Однако в явном виде идея полной оцифровки профессионального актера была представлена в малозамеченном фантастическом фильме «Конгресс» 2012 года.	Сложно сказать, кто впервые предложил идею полной оцифровки актера или телеведущего, для этого нужно отдельное исследование поп-культуры и научной фантастики. Однако в явном виде идея полной оцифровки профессионального актера была представлена в малозамеченном фантастическом фильме «Конгресс» 2012 года. Сложно сказать, кто впервые предложил идею полной оцифровки актера или телеведущего, для этого нужно отдельное исследование поп-культуры и научной фантастики. Однако в явном виде идея полной оцифровки профессионального актера была представлена в малозамеченном фантастическом фильме «Конгресс» 2012 года.

8	Впервые цифровой теледиктор-двойник был представлен китайской компанией Sogou, которая разработала платформенное решение по заказу государственного новостного агентства Xinhua в ноябре 2018 года. Немногим позднее Сбербанк впервые самостоятельно разработал и представил эту технологию на русском языке. Цифровой теледиктор, представленный Сбербанком, может полностью автоматически озвучивать любой текст. Это позволяет использовать данное решение в качестве теледиктора новостей на корпоративном телевидении Сбербанка. В настоящее время с помощью этой технологии уже произведены десятки новостных сюжетов. Зрителями стали сотрудники и клиенты Сбербанка, которые просмотрели новости с участием цифрового теледиктора сотни тысяч раз с помощью различных каналов коммуникации. Рассмотрим эту технологию подробнее.	<p>Впервые цифровой теледиктор-двойник был представлен китайской компанией Sogou, которая разработала платформенное решение по заказу государственного новостного агентства Xinhua в ноябре 2018 года. Немногим позднее Сбербанк впервые самостоятельно разработал и представил эту технологию на русском языке. Цифровой теледиктор, представленный Сбербанком, может полностью автоматически озвучивать любой текст. Это позволяет использовать данное решение в качестве теледиктора новостей на корпоративном телевидении Сбербанка. В настоящее время с помощью этой технологии уже произведены десятки новостных сюжетов. Зрителями стали сотрудники и клиенты Сбербанка, которые просмотрели новости с участием цифрового теледиктора сотни тысяч раз с помощью различных каналов коммуникации. Рассмотрим эту технологию подробнее.</p> <p>Впервые цифровой теледиктор-двойник был представлен китайской компанией Sogou, которая разработала платформенное решение по заказу государственного новостного агентства Xinhua в ноябре 2018 года. Немногим позднее Сбербанк впервые самостоятельно разработал и представил эту технологию на русском языке. Цифровой теледиктор, представленный Сбербанком, может полностью автоматически озвучивать любой текст. Это позволяет использовать данное решение в качестве теледиктора новостей на корпоративном телевидении Сбербанка. В настоящее время с помощью этой технологии уже произведены десятки новостных сюжетов. Зрителями стали сотрудники и клиенты Сбербанка, которые просмотрели новости с участием цифрового теледиктора сотни тысяч раз с помощью различных каналов коммуникации. Рассмотрим эту технологию подробнее.</p>

9	«Что у Э.ЛЕНЫ под капором?» Голос Э.ЛЕНЫ представляет собой нейросетевой синтез речи на основе искусственных нейронных сетей глубокого обучения. Чтобы создать этот голос, необходимо было провести обучение нейронных сетей на базе специально подготовленных фонограмм голоса диктора (профессиональной актрисы) и разработать программное обеспечение, которое позволяет преобразовывать произвольный текст в речь.	<h3 id="text_content_item_9" id="text_content_item_9" class="docx-publication-h1"><strong>«Что у Э.ЛЕНЫ под капором?»</strong></h3> <p>Голос Э.ЛЕНЫ представляет собой нейросетевой синтез речи на основе искусственных нейронных сетей глубокого обучения. Чтобы создать этот голос, необходимо было провести обучение нейронных сетей на базе специально подготовленных фонограмм голоса диктора (профессиональной актрисы) и разработать программное обеспечение, которое позволяет преобразовывать произвольный текст в речь.</p> <h3 id="text_content_item_9" id="text_content_item_9" class="docx-publication-h1"><strong>«Что у Э.ЛЕНЫ под капором?»</strong></h3> <p>Голос Э.ЛЕНЫ представляет собой нейросетевой синтез речи на основе искусственных нейронных сетей глубокого обучения. Чтобы создать этот голос, необходимо было провести обучение нейронных сетей на базе специально подготовленных фонограмм голоса диктора (профессиональной актрисы) и разработать программное обеспечение, которое позволяет преобразовывать произвольный текст в речь.</p>

10	Мимика Э.ЛЕНЫ формируется с помощью ансамбля искусственных нейронных сетей, предварительно обученных на специально подготовленных данных – видеоматериалах и 3D-сканах актрисы-прообраза (в настоящий момент голос и видео Э.ЛЕНЫ принадлежат разным актрисам). В результате этих двухэтапных преобразований, происходящих без участия человека, получается мимика и речь цифрового теледиктора. Затем с помощью автоматизированного технологического инструментария и компонентов компьютерного зрения и систем распознавания речи производится обработка, в результате которой выявляются и устраняются ошибки, после чего реалистичное видео готово к использованию. Весь комплекс представляет собой целостное решение, основанное на нескольких независимых технологиях с компонентами искусственного интеллекта.	Мимика Э.ЛЕНЫ формируется с помощью ансамбля искусственных нейронных сетей, предварительно обученных на специально подготовленных данных – видеоматериалах и 3D-сканах актрисы-прообраза (в настоящий момент голос и видео Э.ЛЕНЫ принадлежат разным актрисам). В результате этих двухэтапных преобразований, происходящих без участия человека, получается мимика и речь цифрового теледиктора. Затем с помощью автоматизированного технологического инструментария и компонентов компьютерного зрения и систем распознавания речи производится обработка, в результате которой выявляются и устраняются ошибки, после чего реалистичное видео готово к использованию. Весь комплекс представляет собой целостное решение, основанное на нескольких независимых технологиях с компонентами искусственного интеллекта. Мимика Э.ЛЕНЫ формируется с помощью ансамбля искусственных нейронных сетей, предварительно обученных на специально подготовленных данных – видеоматериалах и 3D-сканах актрисы-прообраза (в настоящий момент голос и видео Э.ЛЕНЫ принадлежат разным актрисам). В результате этих двухэтапных преобразований, происходящих без участия человека, получается мимика и речь цифрового теледиктора. Затем с помощью автоматизированного технологического инструментария и компонентов компьютерного зрения и систем распознавания речи производится обработка, в результате которой выявляются и устраняются ошибки, после чего реалистичное видео готово к использованию. Весь комплекс представляет собой целостное решение, основанное на нескольких независимых технологиях с компонентами искусственного интеллекта.

11	В настоящий момент сервис по преобразованию текста в видеофрагмент находится лишь в опытной эксплуатации у службы корпоративного телевидения ПАО «Сбербанк». Произведено порядка 50 различных новостных сюжетов с использованием данной программы. Текущая реализация Э.ЛЕНЫ имеет достаточное количество несоответствий: плохая синхронизация движения губ и произносимого текста, ограниченность поз, неестественный голос и т.п. Однако технологии очень быстро развиваются, и в самое ближайшее время многие компании и научные центры смогут демонстрировать разработки высочайшего уровня.	В настоящий момент сервис по преобразованию текста в видеофрагмент находится лишь в опытной эксплуатации у службы корпоративного телевидения ПАО «Сбербанк». Произведено порядка 50 различных новостных сюжетов с использованием данной программы. Текущая реализация Э.ЛЕНЫ имеет достаточное количество несоответствий: плохая синхронизация движения губ и произносимого текста, ограниченность поз, неестественный голос и т.п. Однако технологии очень быстро развиваются, и в самое ближайшее время многие компании и научные центры смогут демонстрировать разработки высочайшего уровня. В настоящий момент сервис по преобразованию текста в видеофрагмент находится лишь в опытной эксплуатации у службы корпоративного телевидения ПАО «Сбербанк». Произведено порядка 50 различных новостных сюжетов с использованием данной программы. Текущая реализация Э.ЛЕНЫ имеет достаточное количество несоответствий: плохая синхронизация движения губ и произносимого текста, ограниченность поз, неестественный голос и т.п. Однако технологии очень быстро развиваются, и в самое ближайшее время многие компании и научные центры смогут демонстрировать разработки высочайшего уровня.

12	Даже текущая реализация Э.ЛЕНЫ способна ввести ряд людей в заблуждение. Сбербанк провел опрос в сообществе, в которое входит 1.5 млн пользователей социальной сети «Одноклассники», о «происхождении Елены», представив посетителям своей группы два ролика одновременно: на одном был человек-теледиктор, на другом – цифровой теледиктор Э.ЛЕНА. Поразительно, что даже в текущей реализации более чем 25% опрошенных из 22 тысяч человек ошиблись (или проявили сомнение) при определении происхождения (цифрового или естественного) теледиктора.	Даже текущая реализация Э.ЛЕНЫ способна ввести ряд людей в заблуждение. Сбербанк провел опрос в сообществе, в которое входит 1.5 млн пользователей социальной сети «Одноклассники», о «происхождении Елены», представив посетителям своей группы два ролика одновременно: на одном был человек-теледиктор, на другом – цифровой теледиктор Э.ЛЕНА. Поразительно, что даже в текущей реализации более чем 25% опрошенных из 22 тысяч человек ошиблись (или проявили сомнение) при определении происхождения (цифрового или естественного) теледиктора. Даже текущая реализация Э.ЛЕНЫ способна ввести ряд людей в заблуждение. Сбербанк провел опрос в сообществе, в которое входит 1.5 млн пользователей социальной сети «Одноклассники», о «происхождении Елены», представив посетителям своей группы два ролика одновременно: на одном был человек-теледиктор, на другом – цифровой теледиктор Э.ЛЕНА. Поразительно, что даже в текущей реализации более чем 25% опрошенных из 22 тысяч человек ошиблись (или проявили сомнение) при определении происхождения (цифрового или естественного) теледиктора.

13	Вербальная и невербальная коммуникация Взаимодействие людей друг с другом основано на нашем взаимном понимании смысла коммуникации, отражающей не только интенциональность направленной на другого коммуникации, проявляемой в нашей речи и языке, но также контекст взаимодействия, который может быть географическим, временным или смысловым. При взаимодействии друг с другом мы также учитываем невероятное количество социокультурных особенностей друг друга (к примеру, в академической среде используем иные выражения, нежели совершая покупки на рынке). В общем виде, чтобы машина (компьютер, робот) понимала человека, необходимо обеспечить понимание всех трех аспектов смысла, который мы вкладываем в речь: язык, контекст и культура. Поэтому подход к изучению искусственного интеллекта, сфокусированный исключительно на обработке естественных языков, представляется недостаточным для понимания смысла, вложенного в коммуникацию.	<h3 id="text_content_item_13" id="text_content_item_13" class="docx-publication-h1"><strong>Вербальная и невербальная коммуникация</strong></h3> <p>Взаимодействие людей друг с другом основано на нашем взаимном понимании смысла коммуникации, отражающей не только интенциональность направленной на другого коммуникации, проявляемой в нашей речи и языке, но также контекст взаимодействия, который может быть географическим, временным или смысловым. При взаимодействии друг с другом мы также учитываем невероятное количество социокультурных особенностей друг друга (к примеру, в академической среде используем иные выражения, нежели совершая покупки на рынке). В общем виде, чтобы машина (компьютер, робот) понимала человека, необходимо обеспечить понимание всех трех аспектов смысла, который мы вкладываем в речь: язык, контекст и культура. Поэтому подход к изучению искусственного интеллекта, сфокусированный исключительно на обработке естественных языков, представляется недостаточным для понимания смысла, вложенного в коммуникацию.</p> <h3 id="text_content_item_13" id="text_content_item_13" class="docx-publication-h1"><strong>Вербальная и невербальная коммуникация</strong></h3> <p>Взаимодействие людей друг с другом основано на нашем взаимном понимании смысла коммуникации, отражающей не только интенциональность направленной на другого коммуникации, проявляемой в нашей речи и языке, но также контекст взаимодействия, который может быть географическим, временным или смысловым. При взаимодействии друг с другом мы также учитываем невероятное количество социокультурных особенностей друг друга (к примеру, в академической среде используем иные выражения, нежели совершая покупки на рынке). В общем виде, чтобы машина (компьютер, робот) понимала человека, необходимо обеспечить понимание всех трех аспектов смысла, который мы вкладываем в речь: язык, контекст и культура. Поэтому подход к изучению искусственного интеллекта, сфокусированный исключительно на обработке естественных языков, представляется недостаточным для понимания смысла, вложенного в коммуникацию.</p>

14	Все три модальности понимания смысла (язык, культура, контекст) отражаются не только в буквальном значении слов, но и, по мнению Д. Эверетта [7], с помощью имплицитного культурного знания, которое он называет «темной материей». Эта темная материя может состоять не только из смысловых конструкций, образованных словами и выражениями, но и, например, из жестов, сопровождающих локутивные действия.	Все три модальности понимания смысла (язык, культура, контекст) отражаются не только в буквальном значении слов, но и, по мнению Д. Эверетта [7], с помощью имплицитного культурного знания, которое он называет «темной материей». Эта темная материя может состоять не только из смысловых конструкций, образованных словами и выражениями, но и, например, из жестов, сопровождающих локутивные действия. Все три модальности понимания смысла (язык, культура, контекст) отражаются не только в буквальном значении слов, но и, по мнению Д. Эверетта [7], с помощью имплицитного культурного знания, которое он называет «темной материей». Эта темная материя может состоять не только из смысловых конструкций, образованных словами и выражениями, но и, например, из жестов, сопровождающих локутивные действия.

15	Милен Долар в своей книге приводит пример того, как Станиславский давал задание своим ученикам подготовить пятьдесят различных способов произнести фразу «завтра вечером», вкладывая в нее различные намерения [4]. Говорящие включают мимику лица, жесты и интонацию в синтаксическую структуру предложения и используют их как пояснения, указывающие на наличие имплицитной информации, содержащейся в культуре или личном опыте говорящего и слушающего. Д. Эверетт справедливо замечает, что «язык никогда не выражает всего, культура заполняет эти пропуски» [7, стр. 272]. Традиционный подход к исследованию искусственного интеллекта, основанный на тексте, а по сути, на «телетайпных» сообщениях, унаследованных из эпохи аналоговой электроники, игнорирует «темную материю» коммуникации, поскольку интерпретация сообщения (по Эверетту) направлена не только на вербальное рассуждение, но и на жесты и мимику.	Милен Долар в своей книге приводит пример того, как Станиславский давал задание своим ученикам подготовить пятьдесят различных способов произнести фразу «завтра вечером», вкладывая в нее различные намерения [4]. Говорящие включают мимику лица, жесты и интонацию в синтаксическую структуру предложения и используют их как пояснения, указывающие на наличие имплицитной информации, содержащейся в культуре или личном опыте говорящего и слушающего. Д. Эверетт справедливо замечает, что «язык никогда не выражает всего, культура заполняет эти пропуски» [7, стр. 272]. Традиционный подход к исследованию искусственного интеллекта, основанный на тексте, а по сути, на «телетайпных» сообщениях, унаследованных из эпохи аналоговой электроники, игнорирует «темную материю» коммуникации, поскольку интерпретация сообщения (по Эверетту) направлена не только на вербальное рассуждение, но и на жесты и мимику. Милен Долар в своей книге приводит пример того, как Станиславский давал задание своим ученикам подготовить пятьдесят различных способов произнести фразу «завтра вечером», вкладывая в нее различные намерения [4]. Говорящие включают мимику лица, жесты и интонацию в синтаксическую структуру предложения и используют их как пояснения, указывающие на наличие имплицитной информации, содержащейся в культуре или личном опыте говорящего и слушающего. Д. Эверетт справедливо замечает, что «язык никогда не выражает всего, культура заполняет эти пропуски» [7, стр. 272]. Традиционный подход к исследованию искусственного интеллекта, основанный на тексте, а по сути, на «телетайпных» сообщениях, унаследованных из эпохи аналоговой электроники, игнорирует «темную материю» коммуникации, поскольку интерпретация сообщения (по Эверетту) направлена не только на вербальное рассуждение, но и на жесты и мимику.

16	Цифровой теледиктор как инструмент для изучения коммуникации человека и машины С того момента, как А. Тьюринг предложил заменить вопрос «может ли машина мыслить?» на игру в имитацию, которую он предлагал проводить с помощью обмена «записочками» или телетайпными сообщениями, исследователи искусственного интеллекта, по сути, не обращали никакого внимания на то, каким образом сообщения передаются между судьей и испытуемыми через так называемую «стену Тьюринга», отделяющую участников игры в имитацию. Сотни научных и популярных работ, посвященных искусственному интеллекту, обходили стороной вопрос «невербальной» коммуникации с машиной.	<h3 id="text_content_item_16" id="text_content_item_16" class="docx-publication-h1"><strong>Цифровой теледиктор как инструмент для изучения коммуникации человека и машины</strong></h3> <p>С того момента, как А. Тьюринг предложил заменить вопрос «может ли машина мыслить?» на игру в имитацию, которую он предлагал проводить с помощью обмена «записочками» или телетайпными сообщениями, исследователи искусственного интеллекта, по сути, не обращали никакого внимания на то, каким образом сообщения передаются между судьей и испытуемыми через так называемую «стену Тьюринга», отделяющую участников игры в имитацию. Сотни научных и популярных работ, посвященных искусственному интеллекту, обходили стороной вопрос «невербальной» коммуникации с машиной.</p> <h3 id="text_content_item_16" id="text_content_item_16" class="docx-publication-h1"><strong>Цифровой теледиктор как инструмент для изучения коммуникации человека и машины</strong></h3> <p>С того момента, как А. Тьюринг предложил заменить вопрос «может ли машина мыслить?» на игру в имитацию, которую он предлагал проводить с помощью обмена «записочками» или телетайпными сообщениями, исследователи искусственного интеллекта, по сути, не обращали никакого внимания на то, каким образом сообщения передаются между судьей и испытуемыми через так называемую «стену Тьюринга», отделяющую участников игры в имитацию. Сотни научных и популярных работ, посвященных искусственному интеллекту, обходили стороной вопрос «невербальной» коммуникации с машиной.</p>

17	Одним из немногих исключений является советский научно-популярный фильм «Кто за стеной?» 1977 года, в котором «стена Тьюринга» стала видеостеной. По мнению авторов настоящей статьи, Э.ЛЕНА могла бы стать новым инструментом для изучения проблематики человеко-машинного взаимодействия и искусственного интеллекта за счет расширения методики А. Тьюринга, которая позже получила название «тест Тьюринга». Современный прогресс в области создания «дополненной реальности», появление цифровых аватаров, теледикторов типа Э.ЛЕНА ставит перед нами другой важный вопрос: может ли машина создавать такую же интерпретационную основу речи, как и человек, используя не только определенный набор слов для выражения мысли или намерения, но и невербальные коммуникации – мимику и жесты? Будет ли обладать машина таким арсеналом для локутивного акта, каким обладает человек? Или же, подняв стену Тьюринга, мы увидим лишь микросхемы и аккумуляторы, которые нам безошибочно укажут на обман.	Одним из немногих исключений является советский научно-популярный фильм «Кто за стеной?» 1977 года, в котором «стена Тьюринга» стала видеостеной. По мнению авторов настоящей статьи, Э.ЛЕНА могла бы стать новым инструментом для изучения проблематики человеко-машинного взаимодействия и искусственного интеллекта за счет расширения методики А. Тьюринга, которая позже получила название «тест Тьюринга». Современный прогресс в области создания «дополненной реальности», появление цифровых аватаров, теледикторов типа Э.ЛЕНА ставит перед нами другой важный вопрос: может ли машина создавать такую же интерпретационную основу речи, как и человек, используя не только определенный набор слов для выражения мысли или намерения, но и невербальные коммуникации – мимику и жесты? Будет ли обладать машина таким арсеналом для локутивного акта, каким обладает человек? Или же, подняв стену Тьюринга, мы увидим лишь микросхемы и аккумуляторы, которые нам безошибочно укажут на обман. Одним из немногих исключений является советский научно-популярный фильм «Кто за стеной?» 1977 года, в котором «стена Тьюринга» стала видеостеной. По мнению авторов настоящей статьи, Э.ЛЕНА могла бы стать новым инструментом для изучения проблематики человеко-машинного взаимодействия и искусственного интеллекта за счет расширения методики А. Тьюринга, которая позже получила название «тест Тьюринга». Современный прогресс в области создания «дополненной реальности», появление цифровых аватаров, теледикторов типа Э.ЛЕНА ставит перед нами другой важный вопрос: может ли машина создавать такую же интерпретационную основу речи, как и человек, используя не только определенный набор слов для выражения мысли или намерения, но и невербальные коммуникации – мимику и жесты? Будет ли обладать машина таким арсеналом для локутивного акта, каким обладает человек? Или же, подняв стену Тьюринга, мы увидим лишь микросхемы и аккумуляторы, которые нам безошибочно укажут на обман.

18	Технологии создания дополненной цифровой реальности дают нам возможность сформировать новый несовершенный частный тест Тьюринга в терминологии А.Ю. Алексеева [1]. Частным несовершенным тестом Тьюринга называется испытание, которое сфокусировано на проверке лишь одного компонента исходного теста Тьюринга. В данном случае предложенный частный тест Тьюринга (ЧТТ) направлен на проверку невербальных коммуникационных возможностей компьютерных программ. По мнению А. Алексеева, ЧТТ описывается следующими компонентами: предметом тестирования, реализационной схемой, тестовыми вопросами-ответами. Кроме того, А. Алексеев предлагает дополнять описание самого тестирования дискуссией (подобно тому, как А. Тьюринг подошел к разбору возражений относительно оригинального теста) и описанием социокультурных последствий. При описании предлагаемого частного теста Тьюринга «Э.ЛЕНА» мы воспользуемся предложенным подходом.	Технологии создания <em>дополненной цифровой реальности</em> дают нам возможность сформировать новый <em>несовершенный</em> <em>частный тест Тьюринга</em> в терминологии А.Ю. Алексеева [1]. Частным несовершенным тестом Тьюринга называется испытание, которое сфокусировано на проверке лишь одного компонента исходного теста Тьюринга. В данном случае предложенный частный тест Тьюринга (ЧТТ) направлен на проверку невербальных коммуникационных возможностей компьютерных программ. По мнению А. Алексеева, ЧТТ описывается следующими компонентами: предметом тестирования, реализационной схемой, тестовыми вопросами-ответами. Кроме того, А. Алексеев предлагает дополнять описание самого тестирования дискуссией (подобно тому, как А. Тьюринг подошел к разбору возражений относительно оригинального теста) и описанием социокультурных последствий. При описании предлагаемого частного теста Тьюринга «Э.ЛЕНА» мы воспользуемся предложенным подходом. Технологии создания <em>дополненной цифровой реальности</em> дают нам возможность сформировать новый <em>несовершенный</em> <em>частный тест Тьюринга</em> в терминологии А.Ю. Алексеева [1]. Частным несовершенным тестом Тьюринга называется испытание, которое сфокусировано на проверке лишь одного компонента исходного теста Тьюринга. В данном случае предложенный частный тест Тьюринга (ЧТТ) направлен на проверку невербальных коммуникационных возможностей компьютерных программ. По мнению А. Алексеева, ЧТТ описывается следующими компонентами: предметом тестирования, реализационной схемой, тестовыми вопросами-ответами. Кроме того, А. Алексеев предлагает дополнять описание самого тестирования дискуссией (подобно тому, как А. Тьюринг подошел к разбору возражений относительно оригинального теста) и описанием социокультурных последствий. При описании предлагаемого частного теста Тьюринга «Э.ЛЕНА» мы воспользуемся предложенным подходом.

19	По сути, Э.ЛЕНА представляет собой симуляцию виртуального мира телевизионной студии. Задача телевизионной студии как средства массовой информации – сформировать у своей аудитории определенную картину мира. В предлагаемом ЧТТ «Э.ЛЕНА» предметом тестирования является способность человека воспринимать информацию, предлагаемую цифровым телеведущим, ведущим вещание из цифровой телестудии. В самом деле, Э.ЛЕНА (а точнее программный комплекс, создающий ее) преобразует текстовую информацию в аудиовизуальный формат, который, по замыслу создателей системы, должен быть аналогичен формату телевизионной новостной студии. В предлагаемом тесте мы определяем, как люди воспринимают информацию от цифровых теледикторов, и есть ли какая-либо разница в восприятии человеком информации, переданной ему теледиктором-человеком или цифровым теледиктором.	По сути, Э.ЛЕНА представляет собой симуляцию виртуального мира телевизионной студии. Задача телевизионной студии как средства массовой информации – сформировать у своей аудитории определенную картину мира. В предлагаемом ЧТТ «Э.ЛЕНА» предметом тестирования является способность человека воспринимать информацию, предлагаемую цифровым телеведущим, ведущим вещание из цифровой телестудии. В самом деле, Э.ЛЕНА (а точнее программный комплекс, создающий ее) преобразует текстовую информацию в аудиовизуальный формат, который, по замыслу создателей системы, должен быть аналогичен формату телевизионной новостной студии. В предлагаемом тесте мы определяем, как люди воспринимают информацию от цифровых теледикторов, и есть ли какая-либо разница в восприятии человеком информации, переданной ему теледиктором-человеком или цифровым теледиктором. По сути, Э.ЛЕНА представляет собой симуляцию виртуального мира телевизионной студии. Задача телевизионной студии как средства массовой информации – сформировать у своей аудитории определенную картину мира. В предлагаемом ЧТТ «Э.ЛЕНА» предметом тестирования является способность человека воспринимать информацию, предлагаемую цифровым телеведущим, ведущим вещание из цифровой телестудии. В самом деле, Э.ЛЕНА (а точнее программный комплекс, создающий ее) преобразует текстовую информацию в аудиовизуальный формат, который, по замыслу создателей системы, должен быть аналогичен формату телевизионной новостной студии. В предлагаемом тесте мы определяем, как люди воспринимают информацию от цифровых теледикторов, и есть ли какая-либо разница в восприятии человеком информации, переданной ему теледиктором-человеком или цифровым теледиктором.

20	Как и исходный тест Тьюринга, тест Э.ЛЕНЫ имеет бинарный результат. Если наблюдатель воспринимает информацию не хуже, чем при просмотре новостей, озвученных реальной ведущей, то тест пройден. Если же наблюдатель при просмотре новостей, озвученных роботом, воспринимает информацию хуже, то тест не пройден. Конкретную имплементацию теста Э.ЛЕНА назовем для краткости «эксперимент».	Как и исходный тест Тьюринга, тест Э.ЛЕНЫ имеет бинарный результат. Если наблюдатель воспринимает информацию не хуже, чем при просмотре новостей, озвученных реальной ведущей, то тест пройден. Если же наблюдатель при просмотре новостей, озвученных роботом, воспринимает информацию хуже, то тест не пройден. Конкретную имплементацию теста Э.ЛЕНА назовем для краткости «эксперимент». Как и исходный тест Тьюринга, тест Э.ЛЕНЫ имеет бинарный результат. Если наблюдатель воспринимает информацию не хуже, чем при просмотре новостей, озвученных реальной ведущей, то тест пройден. Если же наблюдатель при просмотре новостей, озвученных роботом, воспринимает информацию хуже, то тест не пройден. Конкретную имплементацию теста Э.ЛЕНА назовем для краткости «эксперимент».

Введение

Э.ЛЕНА – цифровой аватар, теледиктор

«Что у Э.ЛЕНЫ под капором?»

Вербальная и невербальная коммуникация

Цифровой теледиктор как инструмент для изучения коммуникации человека и машины

Реализационная система

Тестовая программа

Дискуссия и возможные возражения

Заключение.

Библиография

Комментарии

Войти через