Распознавание эмоционального состояния человека по его речи

«Только умея слушать и отвечать
можно быть хорошим собеседником.»
Ф. Ларошфуко

  • Интеллектуальная система анализа эмоций по голосу и речи SVQA
  • Мы начинаем цикл статей, посвященных эмоциональному состоянию человека, и его влиянию на компьютерные диалоговые системы. Эмоции и речь тесно взаимосвязаны и играют огромную роль в общении. В связи с этим, автоматическая и объективная диагностика эмоционального состояния человека по его речи представляет большой практический интерес. Исследованием данного феномена занимаются различные научные и коммерческие организации.
    Что же такое эмоции? Существует множество определений. Вот некоторые из них. Эмоции - сильные психические состояния, связанные обычно с возбуждением или высоким уровнем энергии и дающие начало чувствам и страстям [1];. Также, чувствами или эмоциями называют переживание человеком своего отношения к тому, что он познает и делает, к другим людям и к самому себе [2];. Эмоции обычно бывают положительными или отрицательными. Удивление, эйфория, гнев, страх различаются по степени положительности или отрицательности. Эмоции дают нам информацию о том, как говорящий оценивает ситуацию, и какие ответные реакции можно ожидать от него. Необходимо уметь интерпретировать эмоции, уменьшать их интенсивность, направлять или преобразовывать одну эмоцию в другую. Выяснено, что мысли и эмоции влияют на дыхание, выражение лица, положение тела, тон и темп голоса. Голос выражает любые сильные эмоции, он принимает, по закону ассоциации [3], музыкальный мелодичный характер, меняясь по громкости и по качеству, то есть - по резонансу, тембру, высоте звука. Темп речи и её ритмическое (акцентное) членение с помощью пауз и логического ударения также имеют выразительное значение, помогающие уловить эмоции человека.

    В результате проведённых исследований и анализов выявлено, что существует такое понятие как эмоциональный слух, т.е. способность распознавания эмоций по речи человека. Испытуемые разного возраста, пола и профессии показали существенные различия в правильности понимания эмоций — от 10 до 95%, так выявлено, что музыканты обладают более развитым эмоциональным слухом. Для определения эмоций важен эмоциональный фон испытуемого, т.е. какую эмоцию он сам переживает в данный момент. Для результативного и успешного диалога важны мониторинг состояния говорящего и отображение понимания этого состояния. Учёные университета Эль-Пасо (США) выбрали для изучения такое понятие, как уровень уверенности высказывания, т.е. насколько уверенно говорящий произносит то или иное высказывание. Анализ проведённых исследований, основанных на диалоге студентов и преподавателя, а затем студентов и компьютерной записи речи преподавателя, показал, что определить уровень уверенности высказывания легко, если в системе представлено высказывание, содержащее только одну основную идею. Тем не менее, в естественном языке высказывания могут быть очень длинными и редко хорошо и чётко сформулированными. Идея исследования заключалась в том, чтобы создать модель прогнозирования уровня уверенности. Высказывания, на которых практиковалась модель – это высказывания различных уровней уверенности, они взяты из речи носителей английского языка[5].

    Уровень уверенности говорящего определяется тоном и высотой голоса:

    • явно высокий — энтузиазм, радость, заинтересован и проявляет интерес;
    • высокий, в широком диапазоне силы, тональности и высоты — гнев и страх, неуверенность;
    • чрезмерно высокий, пронзительный — беспокойство;
    • мягкий и приглушенный, с понижением интонации к концу каждой фразы — печаль, усталость;
    • форсирование звука — напряжение, обман.
    • в состоянии эмоционального возбуждения обычно возрастает сила голоса, изменяются его высота и тембр, но иногда сильное возбуждение может, наоборот, проявляться в уменьшении силы голоса (человек «шипит от ярости»).

    Ученые Саутгемптонского университета (Великобритания) разработали компьютерные методы, позволяющие прогнозировать ответную эмоциональную реакцию говорящего. В ходе эксперимента было выявлено, что просодическая информация помогает в автоматическом определении степени раздражённости человека. Наиболее полную информацию о внутреннем психоэмоциональном состоянии человека может дать анализ его связной речи: расстановка логических ударений, скорость произнесения слов, конструкция фразы, наличие таких отклонений от нормы, как неуверенный или неверный подбор слов, обрывание фраз на полуслове, изменение слов, появление слов-паразитов, исчезновение пауз и т.д. [4]

    .

    Можно выделить:

    • быстрая речь — очевидная взволнованность, страстное желание убедить или уговорить кого-то;
    • медленная речь — высокомерие, усталость, угнетенное состояние;
    • прерывистая речь — неуверенность;
    • лаконичность и решительность речи — явная уверенность;
    • заикание — напряженность или обман;
    • нерешительность в подборе слов — неуверенность в себе или намерение внезапно удивить чем-то;
    • появление речевых недостатков (повторение или искажение слов, обрывание фраз на полуслове) — несомненное волнение, но иной раз и желание обмануть;
    • опускание речевых пауз — напряжение;
    • слишком удлиненные паузы — незаинтересованность или несогласие;
    • появление в речи пауз, заполняемых словами-паразитами — нерешительность и затруднение в выражении мысли, поиск выхода из положения;
    • возрастание числа тривиальных наборов слов, проговариваемых быстрее, чем обычно, — эмоциональное возбуждение, напряжение;
    • умолкание или скупость в словах — обида.

    Человеческий голос, а также такие звуковые инструменты, как флейта, барабаны влияют на состояние мозга человека, а точнее, на его нейрологическую активность. Голосом можно контролировать и направлять эмоции другого человека, так, например, некоторые шаманы лишь при помощи голоса могут вводить людей в транс. В мозгу зафиксированы различные типы колебаний от медленного альфа ритма до высокочастотного бета ритма.
    Выделяют следующие ритмы:

    • Альфа-волны, 13 Герц - при нормальном состоянии, стрессе, состоянии тревоги.
    • Бета-волны, 8 -12 Герц - при лёгкой релаксации, позитивных настроениях.
    • Тета-волны, 4 - 7 Герц - глубокая релаксация, состояние сосредоточенного внимания.
    • Дельта-волны, 1-3 Герц - глубокий сон, "ясные сновидения.
    • Гамма-волны - до конца не исследованы.

    Для развития стимулирующих, успешных диалоговых систем необходимы исследования по выявлению эмоций человека по его речи. Понимание эмоций другого человека важно как для общения между людьми, так и при взаимодействии человека с системами искусственного интеллекта. Автоматическое распознавание речи и прогнозирование эмоций говорящего нашло бы активное применение, например, в телекоммуникационной сфере и индустрии развлечений, что помогло бы избегать конфликтных ситуаций.

    У всех людей эмоции проявляются по-разному. При определении эмоций по голосу, его тембру и интонации, необходимо учитывать индивидуальные особенности человека. Помимо того, человек может одновременно испытывать сразу несколько эмоций. Распознавание эмоционального состояния человека по его речи не простая задача.

     

    [1] - www.zipsites.ru
    [2] - www.big-library.info
    [3] - www.galactic.org.
    [4] - www.isca-speech.org.
    [5] - Jaime C. Acosta and Nigel G. Ward «Responding to User Emotional State by Adding Emotional Coloring to Utterances»


    Все материалы, размещенные на даннном сайте, разрешены к публикации и печати на других ресурсах и печатных издания только при наличии письменного разрешения компании ООО "Речевые Технологии"