SPEECH RECOGNITION TECHNOLOGY IN RADIOLOGY (REVIEW
- Authors: Kudryavtsev N.D.1, Bardasova K.A.2, Khoruzhaya A.N.1
-
Affiliations:
- Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies of the Moscow Health Care Department
- Ural State Medical University
- Section: Reviews
- URL: https://jdigitaldiagnostics.com/DD/article/view/321420
- DOI: https://doi.org/10.17816/DD321420
Cite item
Full Text
Abstract
Speech recognition technology is a promising tool for healthcare systems. This technology has a fairly long history of use in US and European healthcare systems, beginning in the 1970s. However, it only became widespread at the beginning of the 21st century, replacing medical transcriptionists. For Russian healthcare system, speech recognition technology is a new tool. Its active development began only in the early 2010s, and its active implementation in healthcare began in the late 2010s. Such a delay is due to the peculiarities of the Russian language and the limitation of computing power present at the beginning of the XXI century.
Currently, speech recognition technology is used to fill out medical reports by voice, it allows you to reduce the preparation time of the protocol of radiological studies in comparison with the traditional (keyboard) text input.
The review described a brief history of the development and application of speech recognition technology in radiology. Key scientific studies confirming the effectiveness of its use in US and European healthcare systems are described. Our experience in the use of speech recognition technology is demonstrated and its effectiveness is evaluated. The prospects for further development and application of this technology in Russian health care are described.
Full Text
ВВЕДЕНИЕ
В настоящее время голосовое управление стало стандартной функцией для многих бытовых «умных» устройств. Это стало возможным благодаря развитию технологии распознавания речи, которая анализирует речь пользователя и трансформирует её в цифровые данные. По мимо управления «умными» устройствами, технология распознавания речи получила широкое распространение в телефонной связи. Сейчас, при звонках во многие государственные и коммерческие организации, пользователя встречает автоответчик, который распознаёт голосовой запрос звонящего и маршрутизирует его на подобранного специалиста. В Москве в 2019 году был запущен проект по уведомлению граждан о записи к врачу и напоминании о диспансерном наблюдении с помощью голосового помощника. Во время подобного звонка гражданин мог записаться, отменить или перенести свою консультацию к медицинскому специалисту, так же система опрашивала пациента о наличии жалоб [1].
В области здравоохранения системы распознавания речи получили широкое распространение при голосовом заполнении медицинской документации. Это связано с тем, что большую часть свою рабочего времени врачи затрачивают на подготовку медицинской документации [2–5]. А перспектива применения технологии связана с сокращением длительности заполнения протоколов диагностических исследований и обеспечению возможности уделять больше времени изучению диагностических изображений, сопроводительной медицинской документации и общению с пациентами. Данный фактор играет негативную роль в качестве оказания медицинской помощи, особенно в условиях ограниченного времени приёма пациента и создания диагностического протокола. Наибольшую популярность системы голосового ввода получили в рентгенологических отделениях, поскольку организация рабочего процесса в них наиболее удобна для внедрения подобной технологии. По результатам современных систематических обзоров [6–8], была продемонстрирована эффективность применения технологии распознавания речи Восприимчивость объяснима большими объёмами текстовой информации, которую врачи-рентгенологи обязаны заносить в протоколы.
Цель работы заключается в изучении развития технологий распознавания речи, от этапа замысла до современной реализации, а также, попытка оценить преимущества и недостатки технологии на сегодняшний день за рубежом и в России.
ИСТОРИЯ ПРИМЕНЕНИЯ ТЕХНОЛОГИИ РАСПОЗНАВАНИЯ РЕЧИ В РЕНТГЕНОЛОГИИ
Ранние годы применения. Первые попытки применения технологии распознавания речи произошли в 70-80ых годах прошлого столетия. В 1975 году был описан прототип технологии распознавания речи, которая распознавала небольшой объём медицинской лексики и терминологии [9]. В отделении лучевой диагностики впервые технология была апробирована в 1981 году. В израильской больнице Beth Israel Hospital была проведена апробация технологии распознавания речи для подготовки протоколов рентгенологических исследований. Изначально врачи этого учреждения использовали систему CLIP (Coded Language Information Processing) – иерархический стандартизированный язык медицинских терминов, разработанный Simon и Leeming [10]. Структура данного языка содержала медицинские термины, закодированные определённым образом. Например, значению А соответствовала anatomic area (анатомическая область), А6 - the lower limb (нижняя конечность), A61 - the thigh (бедро), в свою очередь значениями B, B6, B61, B611 и B612 были закодированы bone (кость), the lower limb bones (кости нижней конечности), the femur (бедренная кость), the lesser trochanter (малый вертел) и the grosser trochanter (большой вертел), соответственно. Набирая различные комбинации кодов с помощью клавиатуры, врач-рентгенолог мог составить протокол любой сложности и объёма [11]. Технологии распознавания речи тех времён имели главный существенный недостаток – ограниченный словарь (около 200 уникальных медицинских терминов), что было связано с малым объёмом оперативной памяти. Этот фактор не позволял в полном объёме описывать диагностические исследования. Одним из решений, позволяющим обойти ограничение объёма рабочей памяти, стало использование технологии распознавания речи совместно с системой CLIP.
В исследовании 1981 года было проведено сравнение клавиатурного и голосового вводов. Оценивались скорость и качество подготовки 60-ти протоколов радиологических исследований. Были получены следующие результаты: объём протокола не зависел от способа заполнения, что косвенно подтверждало и схожую сложность описываемых исследований, длительность заполнения протокола с помощью голосового ввода было в 4 раза дольше, чем с помощью клавиатурного. Протоколы, заполненные голосом, содержали в среднем 12 ошибок распознавания, в то время как протоколы подготовленные с помощью клавиатуры – не имели таковых. Также в ходе этого исследования были описаны дополнительные ограничения технологии распознавания речи. Первые системы не могли полностью подавить внешние шумы, поэтому качество распознавания врачебной речи было низким и влекло появление ошибок [12]. Увеличение длительности заполнения медицинского документа было связано с тем, что технологии могли распознать только раздельно произнесенные слова. Врачу приходилось делать паузу между словами, а в случае с системой CLIP – между кодами. Такой метод голосового заполнения был неудобным и неестественным для человека. Также стоит отметить, что система голосового ввода требовала от 3 до 6 часов предварительной настройки и адаптации под конкретную речь пользователя (врача). Вышеописанные ограничения не позволяли технологиям распознавания речи тех времён получить распространение в здравоохранении. По этой причине привлечение медицинских транскрипционистов было оправдано на тот период времени. Тем не менее, был положен базис, на основе которого учитывались «слабые места» технологии в последующих этапах развития.
Диктофонные центры. Возрастающая доступность рентгенологических исследований, появление КТ и МРТ аппаратов, переход от аналоговых носителей к цифровым привели к повышению рабочей нагрузки на врачей-рентгенологов и увеличению длительности подготовки заключений. Для решения этой проблемы и оптимизации кадровых ресурсов в середине 80-ых годов в западных странах были организованы диктофонные центры. Врачи-рентгенологи диктовали на звукозаписывающие устройства описания рентгенологических находок, выявленных во время интерпретации диагностических изображений. Аудиозаписи передавались в диктофонный центр, где медицинские транскрипционисты расшифровывали аудиозаписи и оформляли протоколы исследований в текстовом виде. Подготовленные протоколы проверял и визировал врач. В некоторых случаях они возвращались транскрипционистам для исправления ошибок [13]. Диктофонные центры были популярными в зарубежных медицинских учреждениях вплоть до 2010-х [6, 14].
Часть авторов провели сравнение эффективности подготовки протоколов рентгенологических исследований с помощью медицинских транскрипционистов и технологии распознавания речи. Были сделаны выводы, что основное преимущество медицинского транскрипциониста – это возможность заметить грамматические ошибки и учесть контекстную информацию о пациенте. Эти преимущества позволяют правильно понять и согласовать аудиозапись врача, даже если она была плохого качества [15]. Однако, в связи с дефицитом медицинских транскрипционистов, зачастую возникали ситуации, когда протокол в печатном виде возвращался врачу только через 16 часов после диктовки [16]. В зависимости от мощности диктофонного центра для расшифровки аудиозаписей требовалось 6-24 часов. Несмотря на то, что технологии распознавания речи уступают в точности распознавания медицинским транскрипционистам, они позволяют сократить ежемесячные экономические расходы отделения лучевой диагностики на 81% и значительно сократить время подготовки протоколов исследований [6, 14, 17]. Дальнейшее развитие технологии распознавания речи со временем вытеснило медицинских транскрипционистов [15].
В отечественной системе здравоохранения так же принимались попытки внедрения диктофонных центров [18]. Однако, в открытом доступе отсутствуют научные исследования, оценивающие эффективность их применения. Также, в связи с отсутствием подобных центров в современной отечественной системе здравоохранения, можно предположить, что их применение оказалось нецелесообразным.
1990ые: новый виток развития инновации
В конце XX века в технологиях распознавания речи был увеличен объём памяти и словарей (до 19,000 рентгенологических терминов), сокращено время предварительной настройки до несколько минут и повышена точность распознавания. В 1995 году в США были представлены первые технологии распознавания речи, позволяющие определять слитную английскую речь. Теперь врач мог диктовать в удобном, разговорном темпе, не делая паузы между словами. На данном этапе они уступали в точности распознавания системам с раздельным вводом [19]. Дальнейшее развитие технологии и повышение точности распознавания речи позволило системам слитного голосового ввода заменить системы с раздельным вводом.
XXI ВЕК
Широкомасштабное внедрение и применение технологии распознавания речи в отделениях лучевой диагностики началось в начале 2000-х годов в западных странах. В зарубежных исследованиях сравнили голосовое заполнение англоязычной медицинской документации с клавиатурным вводом по скорости заполнения, объему медицинского документа и удовлетворенности врачей. Полученные данные показали, что использование технологии ведет к повышению скорости заполнения документации на 26% и увеличению объема протоколов. Также голосовой ввод позволил оптимизировать рабочий процесс, сократив время, необходимое для подготовки медицинской документации, улучшив качество протоколов по содержанию. У врачей повысилась удовлетворенность от работы с документацией [17, 20]. Частота ошибок также сократилась, преимущественно встречались пунктуационные ошибки [8]. Вышеперечисленные факторы позволили сократить время подготовки протоколов исследований с 16 часов до 5 часов [16]. Результаты исследований, оценивающих время, затраченное на подготовку протокола, среднее количество символов в минуту, количество и частоту ошибок отражают позитивную динамику в развитии технологии и внедрении её в отделениях лучевой диагностики. Процент готовых протоколов в течение одного часа увеличился с 26% до 58%, протоколы стали более структурированные по содержанию [21].
Экономические затраты также с течением времени уменьшились. В семи исследованиях систематического обзора [6] оценивались затраты: 5 сообщили об уменьшении и 2 сообщили об увеличении экономических затрат. Похожие результаты были продемонстрированы в эндокринологии и психиатрии, где технология распознавания речи позволила повысить продуктивность и эффективность врачей [22]. Применение технологии в хирургии позволило сократить время подготовки протоколов операций с 4 до 3 дней, а количество подготовленных протоколов в течение одного дня повысилось с 22% до 37% [23].
Участники зарубежных исследований 2019-2020ых годов считают, что технология распознавания речи также экономит им время, повышает их эффективность и позволяет документировать более важные детали при заполнении медицинских документов [24–26]. Однако, основными препятствиями для внедрения технологии среди врачей являются сопротивление переменам и страх перед новыми технологиями [27].
В 2016 году в исследовании Microsoft research было продемонстрировано, что точность систем распознавания речи достигла уровня человеческих возможностей и составила 94% [28]. Сейчас технологии распознавания речи прочно вошли в медицинскую практику в англоязычных странах, а уровень их внедрения в отделениях лучевой диагностики достиг 85% [29]. На сегодняшний день доля рынка, занимаемая ими для нужд здравоохранения, составляет около 25% от общемирового [30]. Лидерами в разработке программных обеспечений для технологии распознавания речи являются компании Nuance Communications, IBM и Philips [31–33].
Технология распознавания речи приобрела всеобщую значимость в медицине в англоязычных странах приблизительно за 45 лет. Она охватила все уровни здравоохранения: от первичного звена и неотложной помощи до высокоспециализированных отделений. Современные медицинские системы распознавания речи для английского языка, обладают точностью до 99%, способны адаптироваться под разные акценты и не требуют предварительное обучение голосовому профилю врача [34].
Как работает современная система распознавания речи?
Как было сказано ранее, технология распознавания речи — это процесс перевода устной речи человека в текст с использованием компьютера. В современных системах голосового ввода применяются алгоритмы искусственного интеллекта, которые позволяют значительно повысить качество и скорость распознавания речи пользователя [35]. Процесс распознавания состоит из нескольких этапов, каждый из которых имеет свои особенности (рис.1.):
- Получение аудио сигнала. Первый этап технологии распознавания речи — это запись звуковой волны. Это может быть выполнено с помощью микрофона или другого устройства записи аудио, такого как смартфон. Затем звуковая волна преобразуется в цифровой формат, чтобы его можно было обработать компьютером.
- Предварительная обработка аудио сигнала. На этом этапе полученные звуковые данные, проходят предварительную обработку, позволяющую устранить посторонние фоновые шумы и выделить речь пользователя. Это позволяет повысить качество распознания речи.
- Разделение на фрагменты. Затем аудиофайл разбивается на небольшие фрагменты, длиной около 10-25 миллисекунд. Это необходимо для оптимизации анализа звуковых данных. Каждый фрагмент анализируется системой распознавания речи отдельно.
- Извлечение характеристик речи. На этом этапе вычисляются характеристики речи, такие как частота, продолжительность и амплитуда звуков. Эти характеристики используются для определения фонем, которые составляют произнесенные слова.
- Сопоставление с моделями распознавания. Сопоставление фонем происходит с помощью акустических моделей, которые обучаются на большом количестве образцов речи. Эти модели могут использовать различные методы, включая скрытые модели Маркова, нейронные сети и другие алгоритмы машинного обучения [36–38].
- Составление слов и текста. На этом этапе языковая модель объединяет фонемы в слова и фразы, а затем в полный текст. Этот текст может потребоваться дополнительной обработки, чтобы исправить орфографические ошибки и другие неточности.
- Вставка сформированного текста. Этот этап является финальным. Сформированный текст вставляется в медицинский документ. Учитывая, что системы распознавания речи еще не достигли 100% точности, в некоторых случаях врачу приходится вручную вносить корректировки в распознанный текст.
Чтобы система распознала звуки вне зависимости от пола, возраста и интонации диктующего, преобразовала их в буквы с большей точностью, акустические и языковые модели используют модули искусственного интеллекта. Разработчики обучают нейронные сети сеть на наборе данных. При этом набор данных включает в себя большое количество разнообразных аудиозаписей и примеров текста. Когда поступает голосовой сигнал, нейронная сеть «ищет» соответствие в базе данных. В процессе использования нейронная сеть продолжает своё обучение и создаёт новые комбинации пар «звук-буква», что позволяет с большей вероятностью воспроизводить задуманный текст без орфографических ошибок. В процессе обучения компьютер распознает наиболее важные признаки произношения фонем и записывает полученные данные в виде профиля пользователя [39, 40].
Рисунок 1. Упрощённая схема работы современной системы распознавания речи. Представлен алгоритм распознавания фразы «Признаки остеохондроза».
Отечественный опыт применения технологии распознавания речи в лучевой диагностике
Первые системы распознавания речи для русского языка появились в середине 2000-ых годов [41, 42]. Однако, применение общеразговорного словаря не позволяло использовать их в медицинской практике. Потребовалось еще несколько лет для разработки технологий распознавания речи, позволяющих определять русскую речь с медицинскими терминами [43]. Активное развитие технологий распознавания речи пришлось лишь на вторую половину 2010-ых годов. Такая задержка развития технологии была связана со сложностями распознавания русской речи.
Русский язык имеет более сложную структуру словообразования по сравнению с английским, так как является синтетическим языком с наличием большого количества словоформ. Чтобы опознать слова, необходимо использовать словари большего объёма. Это замедляет работоспособность системы. Например, современные технологии распознавания речи для английского языка используют словарь, содержащий до 300 тысяч слов и терминов, а для русского языка словарь может содержать более 5 млн слов, словоформ и словосочетаний. Кроме того, большинство словоформ одного и того же слова отличаются только в окончаниях, которые часто произносятся пользователями не четко. Это приводит к ошибке распознавания всей фразы и необходимости корректировки финального документа. Также русский язык представляет больше вариантов порядка расположения слов в предложении, в отличие от английского языка, где используются строгие грамматические структуры. Это затрудняет создание языковых моделей системы распознавания речи и понижает точность их работы.
На сегодняшний день в России ведущей компаний по разработке технологии распознавания речи для здравоохранения является группа компаний «ЦРТ» [44].
Первое исследование эффективности применения технологии распознавания речи в отделениях лучевой диагностике было проведено в 2020 году на базе семи городских поликлиник Департамента здравоохранения города Москвы. В исследовании проводилось сравнение скорости заполнения медицинской документации с помощью клавиатурного ввода с технологией распознавания речи. Врачи-рентгенологи заполняли протоколы КТ и МРТ-исследований. Хронометражное исследование продемонстрировало, что, средняя длительность, необходимая для описания одного исследования с помощью клавиатурного ввода, составила 10 минут 15 секунд, а при использовании технологии распознавания речи – 8 минут 2 секунды. Следует отметить, что в исследовании применялась система распознавания речи «Voice2Med» (Группа компаний «ЦРТ») ранней версии с точностью распознавания 93%.
Рисунок 2. Рабочее место врача-рентгенолога в Московском референс-центре лучевой диагностики, оснащённой системой распознавания речи. Процесс заполнения медицинской документации.
На сегодняшний день точность распознавания медицинской терминологии на русском языке достигла 98%. Это стало возможным благодарю формированию словаря медицинских терминов, разработанном на основе 2,5 млн. протоколов рентгенологических исследований и анализу обратной связи от врачей-рентгенологов [45].
Опрос врачей-рентгенологов, проведённый в 2022 году, продемонстрировал, что 62,8% респондентов отмечают повышение их эффективности при использовании технологии распознавания речи. Большинство врачей, использующих систему в повседневной работе, оценивают качество распознавания рентгенологических терминов как хорошее и отличное. Респондентами отмечено, что возникали ситуации, когда распознавалась чужая речь, случалось некорректное распознавание окончаний слов. Так же было отмечено, что на качество распознавания может негативно влиять посторонний фоновый шум (работа диагностического оборудования, общение медицинского персонала с пациентом или с коллегами) и некачественные устройства для записи звука. Немаловажным фактором в приверженности к использованию новой технологии стал возраст врачей и их заинтересованность инновации. Молодые специалисты более открыты к технологии. Более комплаентными оказались специалисты в возрасте 30-40 лет. Результаты проведенных опросов показали положительную динамику в отношении врачей-рентгенологов к технологии распознавания речи в течении 2 лет с момента начала её применения [46].
Перспективы развития технологии распознавания речи
Дальнейшее улучшение точности распознавания позволит еще больше сократить время подготовки электронных медицинских документов. Одной из основных задач, стоящих перед разработчиками систем распознавания речи, является обеспечение высокой точности определения в сложных акустических условиях, когда на записи присутствует множество шумов или речь посторонних людей.
Как было сказано ранее, из-за особенностей русского языка, одна из сложностей, с которой сталкиваются пользователи — это распознавание окончаний слов. Поэтому для систем распознавания речи русского языка важнейшей задачей является разработка языковой модели, способной с высокой точностью предсказывать и согласовывать слова в предложениях.
Интеграция технологий распознавания речи с медицинскими информационными системами позволит осуществить дистанционное заполнение структурированных электронных медицинских документов. При развитии, система распознает фразы врача и понимает, в каком разделе медицинского документа распознанный текст должен быть размещен. Реализация такого функционала позволит врачам ультразвуковой диагностики, патоморфологам, эндоскопистам, хирургам производить заполнение медицинских документов непосредственно во время выполнения медицинской манипуляции, а не постфактум, что значительно скажется на их качестве и скорости подготовки.
Так же технологии распознавания речи имеют большой потенциал в стандартизации и унификации лексики, используемой при подготовке медицинских документов, в том числе рентгенологических протоколов. На сегодняшний день не существует единого универсального списка терминов для описания одного и того же патологического состояния в рентгенологии [47]. Даже два разных врача-рентгенолога, работающих в одном отделении, могут использовать при подготовке протоколов исследования различные синонимы, описывающие одно и то же патологическое состояние. В ряде работ было отмечено, что использование структурированных и стандартизированных протоколов с унифицированной терминологий упрощает восприятие и получение нужной информации как другим врачам-рентгенологам, так и врачам других специальностей [48–50].
На сегодняшний день предпринята попытка разработать тезаурус, который бы позволил стандартизировать описание патологических изменений, выявленных при КТ-исследований. Тезаурус содержит 120 русскоязычных рентгенологических терминов и примеров их описания [51]. Однако, разработка тезауруса — это сложная задача, требующая согласования большего количества специалистов и рентгенологических обществ.
ЗАКЛЮЧЕНИЕ
В литературном обзоре представлена краткая историческая справка о развитии технологии распознавания речи в отделениях лучевой диагностике, подробно описана эволюция технологии. Приведены ссылки на исследования, оценивающие достоинства и недостатки инновации. Особое внимание уделено применению технологии распознавания речи в российских отделениях лучевой диагностики. Продемонстрировано значительное улучшение точности распознавания медицинской терминологии на русском языке. Перспектива применения данной технологии связана с сокращением времени подготовки медицинской документации и уделению большего времени врача на общение с пациентом и изучение его истории болезни, что открывает новые возможности для развития персонализированной медицины.
Тем не менее, в некоторых случаях сохраняются ошибки распознавания окончаний и согласования слов в предложении, что требует от врачей дополнительного времени на их исправление. В дальнейшем эти проблемы будет решены за счёт улучшения и применения новых алгоритмов искусственного интеллекта.
Полученные результаты продемонстрировали позитивный настрой врачей-рентгенологов к технологии распознавания речи. Приверженность врачей увеличивается. Технология однозначно должна продолжать свое развитие в здравоохранении России, так как пилотные отечественные и устоявшиеся зарубежные опыты ее внедрения свидетельствуют о позитивной динамике применения. Дальнейшее развитие и повышение точности распознавания медицинских терминов позволит найти еще больше сторонников технологии распознавания речи среди медицинских специалистов.
About the authors
Nikita D. Kudryavtsev
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies of the Moscow Health Care Department
Author for correspondence.
Email: KudryavtsevND@zdrav.mos.ru
ORCID iD: 0000-0003-4203-0630
SPIN-code: 1125-8637
Scopus Author ID: 57213148303
ResearcherId: AAG-1869-2020
младший научный сотрудник отдела инновационных технологий
Russian Federation, 24, build. 1, Petrovka st., Moscow, 127051Kristina Alekseevna Bardasova
Ural State Medical University
Email: bardasovakris@mail.ru
SPIN-code: 1156-7627
студент
Russian Federation, 620028, Yekaterinburg, Repin str., 3Anna N. Khoruzhaya
Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies of the Moscow Health Care Department
Email: KhoruzhayaAN@zdrav.mos.ru
ORCID iD: 0000-0003-4857-5404
SPIN-code: 7948-6427
ResearcherId: AAG-5184-2020
младший научный сотрудник отдела инновационных технологий
Russian Federation, 24, build. 1, Petrovka st., Moscow,127051References
Supplementary files
There are no supplementary files to display.
