Телефонные разговорные диалоговые системы: эффективность использования

В статье рассматриваются сущностные характеристики речевых диалоговых систем, эффективность их использования, а также затрагивается научно-техническая проблема создания адекватных средств для взаимодействия человека с компьютером.

На сегодняшний день речевые технологии предлагают пользователям широкий спектр автоматизированных телефонных услуг. Информационные системы становятся дружественными и понятными даже для обычного пользователя. Современные технические средства позволяют реализовывать диалог компьютера с пользователем на естественном языке. Так называемые, речевые диалоговые системы отличаются следующими функциональными возможностями: распознавание и понимание речи, управление диалогом, формирование речевого потока, «разговор» с пользователем на доступном ему естественном языке. Не секрет, что взаимодействия человека с компьютером отличаются от естественного информационного обмена между людьми по телефону. В этом нет ничего необычного, поскольку распознавание речи у человека неразрывно связано с ее пониманием и анализом смысла высказывания, учетом контекстной информации, мимики и т.п. Однако, пользователи, как правило, находят общий язык с системой и получают нужную для них информацию.


Естественный информационный обмен между людьми по каналам передачи данных с искажениями

Речевые диалоговые системы – это «компьютерные системы, с которыми пользователи взаимодействуют поочередно» [1].

Диалоговый (интерактивный) режим – способ взаимодействия пользователя или оператора с компьютером, при котором происходит непосредственный и двухсторонний обмен информацией, командами или инструкциями между человеком и компьютером. Диалоговый режим подразумевает такую скорость обработки данных, которая не сказывается на технологии действий пользователя [2]. Диалог обычно ведётся в виде вопросов и ответов.

Исследователи определили основные причины, влияющие на эффективность взаимодействия компьютера с пользователем: факторы, окружающей обстановки – условия, в которых находится пользователь (окружающий шум), характеристики каналов связи; факторы автоматизированных систем; факторы, отвечающие на запрос пользователя; контекстно-зависимые факторы (условия доступа, расходы) [1]. Таким образом, от этих факторов зависит результативность, приемлемость, удовлетворенность пользователя и удобство использования данных услуг (рисунок 1, 2).


Взаимодействие человека с разговорной диалоговой системой по каналам передачи данных с искажениями

Современные сети телефонной связи предоставляют пользователям повсеместный доступ к многовидовой информации и службам связи. Для обеспечения комфортной жизнедеятельности клиентов, создаются новые услуги автоматизированного речевого взаимодействия, осуществляющие диалоги, взаимодействие и транзакции между пользователем и компьютером, для передачи информации и осуществления электронной торговли посредством мировой связанной сети (проводной линии связи и мобильных каналов связи).

За последние 20 лет произошел серьезный прогресс в области науки и техники, стремительно развиваются новые информационные технологии. Возможная экономическая польза стала движущей силой этого развития. Согласно исследователям [3] речевые технологии обладают следующими функциональными возможностями:

  • способствуют дифференцированию рынка
  • улучшают качество существующих услуг
  • доступность в использовании
  • снижают затраты на обслуживание

Применение автоматических диалоговых систем

Многие компании применяют речевые технологии благодаря их сущностным характеристикам. Рассмотрим пример, использования речевых технологий в информбюро железнодорожного вокзала. В исследовании участвовало 130 информбюро шести стран [1], было проанализировано более 100 миллионов звонков в год, 10 миллионов звонков осталось без ответа. В результате, выяснилось, что около 91% звонков поступило с целью получения информации и всего лишь 9% - для бронирования билетов на транспорт. Было подсчитано, что автоматическая система может обработать более 90% звонков с возможностью распознавания около 400 названий городов и более 95% - системой с распознаванием 500 городов. Таким образом, автоматическое обслуживание клиентов представляет собой экономически выгодное решение. Преимущества этих технологий заключается в снижении времени ожидания и увеличении часов работы.

Общий обзор диалоговых систем

К настоящему времени новые автоматизированные услуги постепенно вытесняют естественный телефонный обмен информацией между людьми. Традиционная телефонная связь переросла в комплекс по передачи голоса, звука, изображения, видео, текста и информации через стационарные и мобильные приложения. Аналоговая узкополосная проводная линия связи была заменена на комплекс, состоящий из проводной и беспроводной сетей, с аналоговым или цифровым представлением, различной шириной полос пропускания, аудиовизуальными средствами связи, линиями спутниковой связи, электропередачами. Эти изменения сказались как на работе разработчиков речевых диалоговых систем, диспетчеров, так и на конечных пользователях [1].

Самые развитые автоматизированные средства диалогового взаимодействия человек-машина обладают следующими характеристиками: содержат словарь на несколько тысяч слов, которые могут быть произнесены и должны быть распознаны; распознают спонтанную произвольную речь; обрабатывают речевые входные данные пользователя; управляют диалогом; формируют выходные речевые данные (ответ на запрос); решают несколько задач; используются для автоматического информирования [1].

Такие системы ведут пассивный диалог – режим взаимодействия пользователя и программной системы, инициатива ведения которого принадлежит программной системе. При этом программная система ведет за собой пользователя, требуя от него в точках ветвления вычислительного процесса дополнительную информацию, необходимую для принятия заложенных в алгоритм решений. В пассивном диалоге программная система обеспечивает пользователя информационными сообщениями и подсказками, облегчающими использование диалоговой системы. Запросы к пользователю строятся обычно либо в виде меню, либо в виде шаблонов [2].

В настоящее время большое внимание уделяется разработки систем, которые могли бы воспринимать непрерывные речевые входные данные пользователей; позволили бы проявлять инициативу ведения диалога, как пользователю, так и системе; делают выводы; совершают мета общение (письменное эмоциональное общение в сети, сопровождаемое символами выражения эмоций); предвосхищают запрос пользователя. Такие системы получили название разговорные (языковые) диалоговые системы.

Эти технологии необходимо отличать от более простых директивных систем с командным интерфейсом. В командном виде интерфейса человек подает «команды» компьютеру, а компьютер их выполняет и выдает результат человеку.

Интерфейс пользователя – элементы и компоненты программы, которые способны оказывать влияние на взаимодействие пользователя с программным обеспечением. Основу такого взаимодействия составляют диалоги. Под диалогом в данном случае понимают регламентированный обмен информацией между человеком и компьютером, осуществляемый в реальном масштабе времени и направленный на совместное решение конкретной задачи. Каждый диалог состоит из отдельных процессов ввода/вывода, которые физически обеспечивают связь пользователя и компьютера. Обмен информацией осуществляется передачей сообщения [4].

Большинство существующих автоматических диалоговых систем осуществляют целенаправленный диалог, т.е. выполняют заранее запрограммированные задачи, которые могут быть решены только в активном диалоге компьютера с человеком. Активный диалог – режим взаимодействия пользователя и программной системы, который характеризуется равноправием его участников. Обычно для организации активного диалога используются директивные (командные) языки, или языки, близкие к естественным [2].

Возможности таких технологий весьма ограничены: эффективность распознавания естественной произвольной речи далека от совершенства. Это объясняется тем, что речевой сигнал имеет сложную изменчивую структуру: содержит, помимо известных системе слов, незнакомые слова, обрывки речи, акустический шум, одно и то же слово может иметь различные значения. Однако, существующий спрос на целенаправленные диалоговые системы говорит о том, что данные ограничения не сильно влияют на их работу.

Разговорные диалоговые системы представляют собой речевой (голосовой) интерфейс пользователя. При этой технологии команды подаются голосом путем произнесения специальных зарезервированных слов-команд. По своей сути – это моделирование «общения» человека с компьютером.

Конкуренцию речевому интерфейсу составляет графический интерфейс пользователя – компьютерная программа, которая помогает пользователю работать с компьютером посредством простых символов. Система отличается следующими характеристиками:

  • удобство в использовании (возможность прямого манипулирования объектом (окна, кнопки, индикаторы, строки состояния))
  • меню, которые подают команды и открывают окна в программах
  • визуальная обратная связь с пользователем
  • обратимые операции
  • быстрая развёртка изображения
  • свободный просмотр и редактирование информации
  • отличное решение для неопытных (начинающих) пользователей

В свою очередь, речевые интерфейсы пользователя, с одной стороны, обладают рядом преимуществ: естественность, оперативность, смысловая точность ввода, освобождение рук и зрения пользователя. А с другой стороны имеют ограничения: язык пользователя должен быть доступен и понятен системе; пользователь не знает обо всех возможностях системы. В процессе взаимодействия с компьютером, пользователю необходимо быстро улавливать информацию, так как речь носит быстротечный характер восприятия.

К этим вопросам можно подходить с различных точек зрения и толковать их по-разному. Сущность противоречий заключается в научно-технической проблеме создания адекватных средств для взаимодействия человека с компьютером, в воплощении грандиозных идей на практике. Уже решены основные принципы функционирования автоматических систем с графическим интерфейсом, эти достижения могут быть учтены в процессе проектирования моделей с речевым интерфейсом [1].

Таким образом, существующие модели автоматического понимания речи пока еще уступают речевым возможностям человека. В результате стали разрабатывать так называемые системы с многомодальным интерфейсом. Такие интерфейсы позволяют обеспечить наиболее эффективное и естественное для человека взаимодействие с различными автоматизированными средствами управления и коммуникации, позволяют параллельно обрабатывать два или более потока информации, таких как речь, рукописный текст, жесты, движение головы и т.д. [1].

Для того чтобы разработать подходящие, рациональные, удобные в использовании разговорные диалоговые системы необходимо учитывать как технологии передачи, распознавания и синтеза речи, корректное понимание языка, управление диалогом, так и учёт всех составляющих информационного обмена между людьми, позволяющие организовывать взаимодействие компьютера с человеком на естественном языке. Диалоговые системы будут только тогда эффективны, если они будут привычными для пользователя, адаптированы к нему.

Тщательный структурированный подход в разработки разговорных диалоговых систем может также привести к появлению новых усовершенствованных технологий для успешного будущего человека (пример, автомобильная навигационная система, "умная" локальная система сотовой радиосвязи, многомодальные системы). Успех в их реализации будет зависеть напрямую от уровня качества, который они смогут предложить пользователям.

[1] – S. Möller, “Quality of Telephone-based Spoken Dialogue Systems”, Springer Science + Business Media, Inc. Boston, 2005
[2] - http:||www.glossary.ru
[3] – S. Whittaker / D. Attwater, “Advanced speech applications - The integration of speech technology into complex services”, ESCA, In SDS-1995
[4] - http://cs.mipt.ru/docs/comp/rus/os/common/bolshakov/


Все материалы, размещенные на даннном сайте, разрешены к публикации и печати на других ресурсах и печатных издания только при наличии письменного разрешения компании ООО "Речевые Технологии"