Голосовой и речевой контроль в сложных акустических обстановках для систем безопасности

Контроль речевого трафика, а так же голосовых высказываний составляет особое место в анатомических информационных системах безопасности. Контролируемый поток информации – залог успеха пресечения нежелательных действий и мероприятий. Для реализации таких мероприятий в контуре безопасности необходимо разработать и внедрить специализированные механизмы, алгоритмы аппаратно-программного и исследовательского обеспечения. Вкратце рассмотрим эскиз такого технического и сложно-научного проекта.

Входным и одним из самых важных модулей голосового контроля является съём информации с различных источников. В огромных контурах безопасности, таких как аэропорты, вокзалы, порты наибольший интерес представляют собой микрофонные съёмники, мобильный голосовой трафик и телефонный канал. При этом сложнее всего получить, отследить и анализировать съём информации с внешних микрофонов. Поскольку телефонную связь, относительно доступно можно запросить у операторов связи, а мобильные данные у провайдеров интернет услуг. Остановимся на микрофонных съёмниках, что они из себя представляют, какую аппаратную часть необходимо разработать и внедрить какими научными подходами необходимо оперировать.

На объектах в сложной акустической обстановке с шумными условиями не достаточно  установить микрофоны по всему периметру, записывать звук. Такие  записи будут не приемлемы для слухового анализа и тем более для систем обработки в реальном масштабе времени, т.к. там будут присутствовать множество типов шумов, наводки, посторонние звуки, голоса различных людей, перемешанная речь с разных языков и другие акустические артефакты. Поэтому задачу съёма информации необходимо решать более сложными и интеллектуальными методами, при этом максимально четко сохранить первоначальный сигнал для последующих алгоритмов шумоочистки, при необходимости. Начнем с того, что существуют несколько типов самих микрофонов. Например, узконаправленные микрофоны снимают информацию очень узкого диапазона всего, до 50 см. но их дальность съёма составляет до 10 м. В то время как широко направленные микрофоны снимают с шириной 2-3 метра, но маленькой дальностью. Существует так же кардиоидные или сложно направленные микрофоны, но для простоты мы их опустим. Для акустического мониторинга среды необходимо использовать несколько типов микрофонов с определенным положением для каждого контролируемого помещения с учетом всех внешних факторов воздействия.

Возьмём, для примера небольшое помещение досмотровой зоны аэропорта.  В этом помещении нам необходимо снимать и анализировать информацию о всём проходящем потоке звукового контента. Располагаем несколько типов микрофонов, и заводим их на звуковую панель с возможностью микширования. Мы точно знаем, что в досмотровой зоне работает служба персонала за рабочими стойками, значить устанавливаем узконаправленный микрофон на работников службы, непосредственно в рабочий стойках.  К рабочим стойкам, как правило, подходят пассажиры по одному, поэтому такой же узконаправленный микрофон устанавливаем контролирующий диалог со службой персонала. Узконаправленные микрофоны позволят отсечь все лишнее, и работать, например, в зоне шириной 50 см. За обслуживающим пассажиром находятся так же люди которые могут общаться между собой, значит, устанавливаем несколько дальних микрофона, контролирующие зону скопления людей за стойкой.  Так же, допустим, рабочая стойка крайняя и за ней расположена капитальная стена. По всему периметру за стойкой, и выше стойки устанавливаем микрофоны широкого диапазона, снимающие информацию сбоку. На таком рабочем объекте у нас получилось микрофонная решётка с несколькими областями локализации звуковых источников. При этом мы «знаем» каждую область, ожидаем от неё определённых входных параметров, которые будут накладываться с соседними акустическими зонами, так же азимуты расположения, градусы перекрытия микрофонов, ближние и дальние говорящие, а так же дополнительную информацию с  других аналитических систем (например, с видеоналитики мы можем позаимствовать количество находящихся людей, дикторов в контролируемом периметры). Так же, допустим в зоне досмотра у нас работает некоторое аппаратное сканирующее устройство, создающая стационарную помеху в 50 Гц (как пример, это выяснилось на этапе пред проектного обследования). Следовательно, мы можем либо зафиксировать эту информацию либо поставить дополнительное устройство которое убирает эту не слышимую уху, наводку.  Все эти данные поступают на обработку интеллектуального акустического анализа.  

Интеллектуальный акустический анализ состоит из нескольких блоков. Для начала нам необходимо оценить каждый входной звуковой поток, насколько он приемлем для анализа, классифицировать в нём различные типы шумов, детектировать речевое сообщение, оценить акустическую обстановку с соседними звуковыми потоками.

Каждое речевое сообщение анализируется и детектируется язык говорящего. Если эти один язык, речевое сообщение передается на системе перевода из речи в текст. Если сообщение состоит из несколько разных языков, и как правило несколько, разных личностей, эти данные передаются для анализа каждая своей системе перевода.

С помощью аппаратного разделения на несколько микрофонов и составления интеллектуальной микрофонной решётки мы сможем добиться на разделения каждого источника и дальше отдельной личности.

Таким образом, на выходе интеллектуального акустического анализа в каждый момент времени мы будет иметь детекцию диктора кто говорит, предполагаемый язык разговора, а так же текстовое содержание разговора, используя технологий автоматического транскрибирования.

Киселёв Виталий Владимирович, Частное Предприятие «Речевые Системы»

Все материалы, размещенные на данном сайте, разрешены к публикации и печати на других ресурсах и печатных издания только при наличии письменного разрешения компании ООО "Речевые Технологии"