На самом ли деле возможно распознавание эмоций?

В данной статье нашего аналитического обзора затронем вопрос возможности и правильности распознавания эмоций говорящего. Главная проблема в обнаружении эмоционального состояния человека состоит в том, что все люди по-разному выражают свои эмоции. Кто-то в порыве злости начинает кричать, кто-то просто молчит. Многие не верят в то, что это на самом деле возможно распознавание эмоций другого человека. Посмотрим на этот вопрос с разных точек зрения.

Взгляд с точки зрения бизнеса

Согласно Википедии [1] слово «эмоция» означает субъективный опыт, ассоциируемый с настроением, темпераментом, индивидуальностью и характером. Поэтому сразу возникает вопрос: «Неужели возможно определить настроение клиента и его эмоциональное состояние только по голосу?».

Действительно, по некоторым акустическим параметрам (таким как тон, громкость, высота голоса и др.) возможно распознать, в каком эмоциональном состоянии находится говорящий. Применение специальных алгоритмов и программного обеспечения позволяет более точно определить эмоции по указанным параметрам.

Как показывает практика многих компаний, некоторые клиенты выглядят очень спокойными, уравновешенными при разговоре, хотя на самом деле они могут быть очень злы [2]. Тем не менее, их настоящее эмоциональное состояние может быть определено при помощи фонетических и просодических свойств их речи. Так экспериментально доказано, что скорость речи возрастает на участках диалога, где возникают переживания беспокойства и тревоги, вызывающие неэффективность саморегуляции речи. Снижение громкости при одновременном возрастании или, наоборот, при резком уменьшении высоты голоса приводит к оцениванию звучащей речи как неприятной. Воспринимаемое на слух возрастание высоты голоса в звучании конца фразы часто интерпретируется либо как неуверенность и уступчивость говорящего, либо как его благожелательность и явный интерес к собеседнику.

Вопрос заключается не в том «работает ли определение эмоций?». Он заключается в вопросе «для чего необходимо определять эмоциональное состояние говорящего?». Каждой эмоции сопутствует полный, неизменный набор отношений и поведения. Как только мы будем знать, в каком эмоциональном состоянии находится говорящий, мы сможем предсказать, как он поведёт себя в большинстве ситуаций и сможем управлять этими ситуациями.
Необходимо отметить, что знание того, взволнован говорящий или нет - не достаточно для определения его эмоционального состояния. Например, из 1000 звонков (диалогов с автоматической системой), поступающих в какую-либо компанию, только в 73 из них может быть обнаружен сигнализируемый уровень эмоционального состояния. Почему так происходит? Одновременно могут быть обнаружены и ложные сигналы, указывающие, что человек находится в «стрессовом» состоянии, а на самом же деле звонок является достаточно позитивным [3].

Сложность эмоционального анализа заключается в том, что одни и те же эмоции у разных людей могут выражаться по-разному. Например, пожилой человек может говорить медленно и тихо, в то время как молодой человек может говорить быстро и громко. Это не означает, что молодой человек сердит или пожилой человек доволен, у них просто различны способы выражения эмоций.
Очень важно учитывать тонкие речевые компоненты и их изменение в процессе разговора. При общении с клиентом по телефону использовать определенные слова и фразы, которые могут помочь достигнуть желаемого результата.

Необходимо стараться достичь взаимопонимания между клиентом и сотрудником компании, иначе может возникнуть конфликтная ситуация. Компании ищут опытных сотрудников, умеющих понимать людей и разрешать конфликты, которые легко могут подстраиваться к стилю речи клиента, что позволяет добиться лояльности клиента и достичь желаемого результата.

В телекоммуникационной сфере ведётся множество споров о возможности и полезности обнаружения эмоции. Обсуждается вопрос - а помогают ли устройства распознавания эмоционального состояния говорящего наладить взаимоотношения с клиентом, понять его отношение к компании, продукту или предоставляемым услугам?

Эмоции являются главным двигателем наших решений и выбора. Именно поэтому, многие компании хотели бы использовать системы «распознавания эмоций» по аналогии с системами «распознавания речи».

Взгляд с точки зрения науки

Научно доказано, что эмоции изменчивы и нестабильны. Людям с нарушением речи или слуха достаточно сложно или даже невозможно понять либо выразить чувства. Интерпретация чужих чувств и эмоций - сложная задача, и даже больше искусство, чем наука.

Определённо, в результате многих проведённых экспериментов, можно сделать вывод, что эмоциональное состояние говорящего по большей части определяется через акустические параметры речи, а также через некоторые слова и фразы, которые использует говорящий.

Для того чтобы избежать отнесения эмоции к какой-либо строго-определённой категории эмоционального состояния, многие исследователи предпочитают использовать непрерывное пространство, такое как показано на рисунке, приведённом ниже [4].

Преимущество такого подхода заключается в возможности выражать огромное количество эмоций, от «средней раздражённости» до «ярого гнева». А так же различать неуловимые отличия между очень схожими эмоциями.

Распознать выражаемые эмоции по речи говорящего легче при непосредственном общении, чем прослушав, например, запись разговора. Выражение лица, язык тела дают нам большую часть информации об эмоциональном состоянии говорящего. Естественно, не существует системы, которая сможет превзойти человеческий ум, когда дело касается определения эмоций. Проводится множество исследований для создания действительно эффективного устройства распознавания эмоционального состояния человека.

Приведем пример изучения 4-х эмоциональных состояний: облегчение, злость, страх, печаль. Во время работы использовали целый ряд реальных телефонных записей звонков, поступающих в учреждение скорой помощи. Для исследований были выбраны именно записи телефонных звонков, поступающих в учреждение скорой помощи, так как именно в чрезвычайных ситуациях более ярко проявляются эмоции. Именно в такие моменты человек не в состоянии управлять своими эмоциями. При этом он, как правило, может испытывать одновременно несколько эмоций. Для их использования было составлено соглашение, гарантирующее анонимность абонентов и не распространение данной записи.

Целью данного исследования являлось выявить явные лексические и паралингвистические особенности речи для определения эмоционального состояния говорящего, проанализировать эмоциональные поведения, учитывая лингвистические и паралингвистические свойства при взаимодействии людей. А затем выяснить, являются ли эти свойства важными при распознавании четырёх исследуемых эмоций, и создать эмоциональную базу, которую возможно будет использовать в call центрах. Исследование проводилось в два этапа. На первом этапе изучали определение эмоции с учётом лингвистических и лексических особенностей речи. На втором этапе распознавали эмоции с учётом паралингвистических особенностей речи (таких как мелодика речи, темп, артикуляция). В результате, с учетом лингвистических и лексических характеристик лучше всего распознавались такие эмоциональные состояния, как облегчение (90 %) и страх (86%). А при прослеживании паралингвистических особенностей большая вероятность верного распознавания наблюдалась для такой эмоции, как страх (60%).

При исследовании ряда реальных телефонных записей звонков, поступающих в учреждение скорой помощи, сложностью являлось идентифицировать соответствующие реплики, которые характерны для конкретного эмоционального состояния, и отделить их от тех, которые просто характерны для непосредственной диалоговой речи. В ходе эксперимента учитывались такие свойства, как длительность разговора, паузы во время разговора (от 200 до 800 мс), особенности потери беглости речи: число пауз и заполненных пауз в разговоре, а также не лингвистические особенности: смех, плач, неразборчивый голос, крик, дыхание [5].

Акустический подход

Акустический подход основывается на измерении определенных особенностей речи, таких как тон голоса, громкость, интенсивность речи. Речь удивленного человека обычно звучит быстрее, громче и выше, в то время как грустный или подавленный человек говорит медленнее и тише [6]. Рассерженный клиент, например, может говорить очень быстро, громко и усиливать уровень ударных гласных. Для того чтобы создать базу данных, определяющих эмоциональное состояние говорящего, которая достоверно будет оценивать выражаемые эмоции, необходим определённый набор записей, идентифицирующий выражаемые чувства.

Очевидно, что call центры страдают от фонового шума. Естественно, это существенно уменьшает процент распознавания эмоционального состояния говорящего по его речи. Качество записи разговоров также влияет на процент распознавания эмоций.

Помимо того, человек часто выражает смешанные эмоции, например, одновременно и сочувствие, и раздражение. Такие смешанные эмоции чрезвычайно трудно распознать. Кроме того, люди одни и те же эмоции выражают по-разному. Например, жители Северо-востока Шотландии бесцеремонны в разговоре, в то время как жители Юго-запада остаются всегда приветливыми и вежливыми, даже когда очень рассержены.

Обнаружение эмоции является ключевым элементом решений речевой аналитики. Распознать выражаемую эмоцию не простая задача. Но, что же необходимо искать? "Эмоцию" (то, что чувствует человек), или “выражение эмоции” (то, что человек показывает другим людям)? Безусловно, существуют весьма сложные отношения между испытываемой эмоцией и её выражением. Их вариации различны и напрямую зависят от многих факторов, таких, например, как культура (в разных культурах различны способы выражения эмоций), ситуация, статус говорящего.
Известно, что между испытываемой и выраженной эмоциями может быть огромная разница. Поэтому для создания устройства автоматического распознавания эмоционального состояния говорящего необходимо создать ряд инвариантных параметров [7].

Возможность распознавания и предугадывания эмоционального состояния говорящего может стать неоценимым инструментом для того, чтобы улучшить качество обслуживания. Именно поэтому, такие устройства необходимо применять в контакт центрах компаний, что обеспечит хорошее взаимодействие с клиентом [3].

[1] - ru.wikipedia.org/wiki
[2] - R.Cowie, E. Douglas-Cowie, S. Savvidou, E. McMahon, M. Sawey, M. Schröder, “Feeltrace: An instrument for recording perceived emotion in real time”, in: Proceedings of the ISCA Workshop on Speech and Emotion, Newcastle, Northern Ireland, UK, 2000.
[3] - www.callcentrehelper.com
[4] - www.businesssystemsuk.com
[5] - ftp://tlp.limsi.fr./public/IS061636.PDF
[6] – For a more detailed description of the accuracy achieved by this approach see, ‘Phonetic Search Technology’ white paper by Nexidia Inc.
[7] – www.nexidia.com/technology


Все материалы, размещенные на даннном сайте, разрешены к публикации и печати на других ресурсах и печатных издания только при наличии письменного разрешения компании ООО "Речевые Технологии"