in

Передайте привет предстоящей разработке интуитивно понятной системы распознавания жестов для смарт-устройств

Вы когда-нибудь оказывались в ситуации, когда вам нужно взаимодействовать с устройством Smart home, Smart TV или Smart Display, но вы не можете к нему прикоснуться?

Представьте, что вы находитесь на кухне с мокрыми или грязными руками, и вам нужно переключиться на следующий эпизод на вашем Smart TV.

В этой ситуации непрактично прикасаться к пульту дистанционного управления или устройству. Аналогично, если ваш телефон начинает звонить и вам нужно быстро приостановить воспроизведение музыки на нем, гораздо удобнее использовать голосовые команды, чем прикасаться к устройству. Благодаря технологии распознавания жестов и голоса пользователи теперь могут управлять своими устройствами несколькими моделями: с помощью жестов или голосового управления.

Facebook-портал с управлением жестами руками

Меня зовут Дарья, и я старший менеджер по продуктам с более чем 5-летним опытом работы в технологической отрасли, работаю над продуктами, связанными с оборудованием, компьютерным зрением и распознаванием голоса, и в этой статье мы углубимся в системы распознавания жестов, почему и как создаются эти сервисы, и что необходимо учитывать как продуктовым, так и техническим командам при их разработке. Я поделюсь личными примерами, собственным опытом и размышлениями об ошибках, которые я допустил вместе со своей командой, когда мы разрабатывали мультимодальную навигацию для интеллектуальных устройств от SberDevices.

Почему?

Используйте сенсорные экраны, которые изменят правила взаимодействия с технологиями. Проведите пальцем, коснитесь и вуаля – сложные действия стали проще, а пользовательский интерфейс улучшен. Но так было не всегда, до выхода iPhone единственным способом взаимодействия с устройством была серия кнопок.

Выпуск iPhone ознаменовал поворотный момент, запустив нас в эру сенсорных экранов, чему способствовали обширные исследования и разработки Apple. С дебютом iPhone появился интуитивно понятный сенсорный интерфейс, который устранил необходимость в стилусе или кнопках, выделив его среди конкурентов. Но сейчас мы находимся на пороге другого перехода: от сенсорных экранов к бесконтактным интерфейсам.

научно-фантастический прототип сенсорного экрана

Сенсорных экранов больше недостаточно для удовлетворения потребностей пользователей, что приводит к появлению управления жестами в качестве дополнительного способа взаимодействия. Разработка этого нового интерфейса – невероятно творческая задача. Первый прототип сенсорного экрана был показан в Star Trek, в то время как Blade Runner и Black Mirror продемонстрировали интерфейсы жестов. Наше вдохновленное научной фантастикой воображение годами представляло бесконтактные интерфейсы, и по мере развития технологий мы с нетерпением ожидаем, какие другие футуристические концепции станут реальностью.

Minority Report и Black Mirror продемонстрировали интерфейсы жестов

Что именно?

Чтобы быть точным, давайте рассмотрим примеры взаимодействия и возникающие варианты использования. Например, устройства Smart TV с камерами, такие как Facebook Portal или SberBox Top, спроектированы с голосовыми интерфейсами благодаря встроенным виртуальным помощникам, которые создают исключительные возможности для оказания помощи. Однако эти устройства по-прежнему поставляются с традиционным пультом дистанционного управления. Наличие камеры добавляет еще одно измерение взаимодействия – жесты.

Пользователи могут совершать движения руками в воздухе, не прикасаясь к экрану или пульту дистанционного управления, создавая сочетание сенсорного экрана и пульта дистанционного управления, при котором система реагирует на жесты. Хотя я верю, что мы в конечном итоге перейдем к полностью бесконтактным интерфейсам, текущие ограничения вычислительных технологий и технологий распознавания ставят нас в переходный период. Мы разрабатываем мультимодальные интерфейсы, позволяющие пользователям выбирать наиболее удобный метод – голосовой, дистанционный или жестовый – для выполнения своих задач.

Как?

Я поделюсь идеями и рекомендациями, полученными в результате работы моей команды по разработке бесконтактных интерфейсов. Эти рекомендации направлены на то, чтобы помочь другим избежать ненужных ошибок при решении аналогичных задач. Используя эти рекомендации в качестве ориентира, вы сможете оптимизировать свой процесс и принимать более обоснованные решения.

  1. Понимание контекста использования: определение ситуаций, в которых пользователям может потребоваться бесконтактное взаимодействие, например, когда их руки мокрые или грязные, или при взаимодействии на расстоянии
  2. Поймите технические ограничения: учитывайте ограничения устройства, такие как методы распознавания, пределы загрузки оборудования, допустимые задержки и рабочие диапазоны при различных условиях освещения.
  3. Сформулируйте корзину жестов: создайте список удобных жестов на основе контекста использования и технических ограничений. Определите интуитивно понятные жесты для конкретных задач, таких как регулировка громкости или приостановка видео.
  4. Проведите итеративное тестирование: усовершенствуйте систему распознавания жестов путем тщательного тестирования в различных условиях и сбора отзывов пользователей для повышения точности и удобства работы пользователя.

Примеры корзины для жестов руками из набора данных HaGRID

При разработке системы распознавания жестов выбирайте движения, которые легко выполнять, которые соответствуют культурным традициям, последовательны и уникальны. Жесты должны быть логически связаны и адаптироваться для будущих дополнений.

Критерии для нашей корзины жестов:

  1. Простота выполнения: жесты должны быть простыми для выполнения одной рукой.
  2. Соответствие культуре: жесты не должны быть оскорбительными или иметь негативные культурные коннотации.
  3. Согласованность: Жесты должны быть узнаваемыми и согласованными для всех пользователей.
  4. Уникальность: Жесты не должны напоминать обычные, случайные движения, совершаемые в повседневной жизни.

Технические аспекты и сбор данных

Одна из самых сложных задач, с которой мы столкнулись при создании нашей системы распознавания жестов, заключалась в работе с данными с обеих сторон: как их собирать и как их комментировать.

При сборе данных у платных респондентов они, как правило, выполняли движения более точно и механически, поскольку следовали определенным инструкциям. Однако в реальной жизни люди ведут себя совсем по–другому – они могут развалиться на диване или в постели, что приводит к более расслабленным и неточным движениям. Это создало значительный разрыв между областями набора данных и реальными сценариями. Чтобы решить эту проблему, мы сотрудничали с актерами, которые могли не торопиться, вживаясь в образ и демонстрируя более естественное поведение, что позволило нам собрать более разнообразный и репрезентативный набор данных.

Различные примеры из реальной жизни

Различные примеры из реальной жизни

Но на этом наши проблемы не закончились! После сбора данных нам пришлось правильно маркировать каждое движение, что само по себе было непростой задачей, поскольку часто было трудно определить, где движение начинается и заканчивается.

Тестирование приложения на основе жестов рук в действии

Мы столкнулись с такими проблемами, как определение последовательных движений, учет фона пользователя и условий освещения, а также балансировка сложности движений с помощью переподготовки модели. Итеративное тестирование помогло нам усовершенствовать нашу систему, собирая данные с разных ракурсов и условий освещения.

Ключевым аспектом нашей работы было итеративное бета-тестирование, которое наша команда начала проводить на ранних стадиях, когда сеть распознавания еще не была совершенной. Мы провели закрытое бета-тестирование с респондентами, используя систему обнаружения ложных срабатываний. Когда сеть распознавала движение, она сохраняла этот кадр на устройстве, и только владелец устройства имел доступ к этим кадрам. Это позволило нам быстро получать отзывы об уникальных реальных случаях, когда мы плохо справлялись. Сразу после получения обратной связи мы собрали новые данные в большем масштабе, чтобы охватить этот конкретный случай. Например, в самом начале сеть распознала удержание чашки в руке как жест “нравится”, и мы собрали данные от людей, держащих чашки, чтобы переобучить сеть.

Разработка системы распознавания жестов – непростая задача, и на этом пути мы столкнулись с несколькими неожиданными проблемами:

  1. Определить согласованный набор движений оказалось непросто, поскольку люди выполняли даже самые простые жесты по-разному.
  2. Из-за разнообразия фона пользователей и условий освещения нашей системе было сложно различать движения и элементы фона.
  3. Мы столкнулись с трудным решением: должны ли мы усложнить движения для пользователей или переобучить модель для учета разнообразия движений?
  4. Итеративное тестирование имело решающее значение для совершенствования нашей системы распознавания жестов, и нам пришлось собирать данные с разных ракурсов и условий освещения, чтобы убедиться в ее эффективности.

Уникальные случаи из реальной жизни, когда мы плохо справлялись

Основные выводы

  1. Контекст является ключевым: при разработке интерфейсов распознавания жестов важно учитывать контекст, в котором пользователи будут взаимодействовать с устройством. Например, пользователи могут находиться в разных физических положениях, иметь разный уровень освещения или носить разные типы одежды. Чтобы учесть эти факторы, нам необходимо разработать интерфейсы, которые были бы адаптируемыми и отзывчивыми к этим различным контекстам.
  2. Итеративное тестирование имеет важное значение: Одной из самых больших проблем при разработке систем распознавания жестов является высокая степень вариативности того, как пользователи выполняют жесты. Это означает, что важно тестировать и совершенствовать наши системы итеративно, как в контролируемых условиях, так и в реальных сценариях. Постоянно собирая отзывы пользователей и совершенствуя наши алгоритмы, мы можем со временем повышать точность и эффективность наших систем распознавания жестов.
  3. Аннотирование данных имеет решающее значение: чтобы обучить алгоритмы машинного обучения распознавать жесты, нам нужны большие объемы аннотированных данных, которые точно представляют диапазон движений, которые могут совершать пользователи. Однако аннотирование этих данных может быть трудоемким процессом, требующим много времени. Для решения этой задачи мы можем использовать автоматизированные инструменты аннотирования или использовать краудсорсинговые платформы для привлечения помощи большого пула аннотаторов.
  4. Отзывы пользователей важны для успеха: Наконец, для создания действительно успешных продуктов распознавания жестов нам необходимо постоянно собирать отзывы наших пользователей. Это может включать проведение опросов пользователей, анализ данных об использовании или даже непосредственное наблюдение за пользователями, когда они взаимодействуют с нашими продуктами. Прислушиваясь к нашим пользователям и включая их отзывы в процесс проектирования и разработки нашего продукта, мы можем создавать интерфейсы распознавания жестов, которые являются интуитивно понятными, эффективными и действительно реагируют на их потребности.

Автор истории Дарья Коновалова @dkmath

What do you think?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

GIPHY App Key not set. Please check settings