Революция искусственного интеллекта: парализованная женщина «говорит» при помощи цифрового аватара

Исследователи создали революционный интерфейс «мозг-компьютер» (BCI), который позволяет парализованной женщине общаться через цифровой аватар. Это достижение знаменует собой первый в мире синтез речи или выражений лица непосредственно из сигналов мозга.

Система может преобразовывать эти сигналы в текст с впечатляющей скоростью — почти 80 слов в минуту, превосходя существующие технологии. Исследование представляет собой значительный шаг на пути к восстановлению полноценного общения для парализованных людей.

Исследователи из Калифорнийского университета в Сан-Франциско (UC San Francisco) и Калифорнийского университета в Беркли (UC Berkeley) разработали интерфейс «мозг-компьютер» (BCI), который позволил женщине с тяжелым параличом в результате инсульта ствола мозга говорить через цифровой аватар.

Впервые речь и выражения лица были синтезированы из сигналов мозга. Система также может декодировать эти сигналы в текст со скоростью почти 80 слов в минуту, что является значительным улучшением по сравнению с коммерчески доступной технологией. Эдвард Чанг (Edward Chang), заведующий отделением неврологической хирургии в Калифорнийском университете в Сан-Франциско, более десяти лет работавший над технологией, известной как мозговой компьютерный интерфейс, надеется, что этот исследовательский прорыв, опубликованный в научном журнале Nature, в ближайшем будущем приведет к созданию одобренной FDA системы, которая позволит говорить на основе сигналов мозга.

«Наша цель — восстановить полный, воплощенный способ общения, который действительно является для нас наиболее естественным способом общения с другими», — комментирует Чанг, член Института нейробиологии Калифорнийского университета в Сан-Франциско и заслуженный профессор. «Эти достижения приближают нас к тому, чтобы сделать это реальным решением для пациентов».

Команда Чанга ранее продемонстрировала возможность декодировать сигналы мозга в текст у человека, который много лет назад перенес инсульт ствола мозга. Текущее исследование демонстрирует нечто более амбициозное: декодирование сигналов мозга в речь, а также движения, которые оживляют лицо человека во время разговора. Чанг имплантировал прямоугольник толщиной с бумагу из 253 электродов на поверхность мозга женщины в областях, которые, как обнаружила его команда, имеют решающее значение для речи. Электроды перехватывали сигналы мозга, которые, если бы не инсульт, дошли бы до мышц языка, челюсти и гортани, а также ее лица. Кабель, подключенный к порту, закрепленному на ее голове, соединял электроды с блоком компьютеров.

В течение нескольких недель участница работала с командой ученых над обучением алгоритмов системы искусственного интеллекта распознаванию уникальных сигналов ее мозга для речи. Это включало в себя повторение различных фраз из разговорного словаря, состоящего из 1024 слов, снова и снова, пока компьютер не распознавал модели активности мозга, связанные со звуками. Вместо того, чтобы обучать ИИ распознавать целые слова, исследователи создали систему, которая декодирует слова из фонем. Это субъединицы речи, которые образуют устные слова так же, как буквы образуют письменные слова.

Используя этот подход, компьютеру нужно было выучить всего 39 фонем, чтобы расшифровать любое слово на английском языке. Это одновременно повысило точность системы и сделало ее в три раза быстрее.

«Точность, скорость и словарный запас имеют решающее значение», — комментирует Шон Мецгер (Sean Metzger), который разработал декодер текста вместе с биоинженерами из Калифорнийского университета в Беркли. «Это то, что дает пользователю возможность со временем общаться почти так же быстро, как мы, и вести гораздо более естественные и нормальные разговоры».

Чтобы создать голос, команда ученых разработала алгоритм синтеза речи, который они персонализировали так, чтобы он звучал как ее голос до травмы, используя запись ее выступления на свадьбе. Ученые анимировали аватар с помощью программного обеспечения, которое имитирует и анимирует движения мышц лица, разработанного Speech Graphics, компанией, которая занимается анимацией лица на основе искусственного интеллекта.

Исследователи создали индивидуальные процессы машинного обучения, которые позволили программному обеспечению компании обрабатывать сигналы, посылаемые из мозга женщины, когда она пыталась говорить, и преобразовывать их в движения на лице аватара, заставляя челюсть открываться и закрываться, губы — шевелиться и язык — подниматься и опускаться, а также производить движения лица при ощущении счастья, печали и удивлении.

«Мы восполняем связи между мозгом и речевым трактом, которые были разорваны инсультом», — добавляет Кайло Литтлджон (Kaylo Littlejohn).

«Когда субъект впервые использовал эту систему, чтобы говорить и одновременно двигать лицом аватара, я знал, что это будет иметь реальный эффект». Важным следующим шагом для команды ученых является создание беспроводной версии, которая не потребует от пользователя физического подключения к BCI. «Предоставление людям возможности свободно управлять своими компьютерами и телефонами с помощью этой технологии окажет глубокое влияние на их независимость и социальное взаимодействие», — заключил соавтор исследования Дэвид Мозес (David Moses), профессор нейрохирургии.

Авторы другого исследования заявляют, что беспроводной интерфейс «мозг-позвоночник», возможно, поможет парализованному человеку снова ходить