in

Какого размера должен быть набор данных для проекта искусственного интеллекта AI

Любой специалист по обработке данных, скорее всего, ответит: «Это зависит» или «Чем больше, тем лучше», если вы спросите его, сколько данных требуется для машинного обучения.

Дело в том, что оба ответа точны.Чтобы получить наилучший результат, всегда полезно увеличить размер набора данных настолько, насколько это возможно. Однако чаще всего наборы данных недостаточно велики, и людям трудно собрать столь необходимые изображения или видео для обучения нейронной сети.

Итак, вот вопрос: насколько большим должен быть набор данных и как вы справляетесь с нехваткой данных?

Что влияет на размер набора данных для проекта ML

Каждый проект машинного обучения (ML) имеет уникальный набор параметров, которые влияют на то, насколько большими должны быть наборы обучающих данных искусственного интеллекта для успешного моделирования. Ниже приведены наиболее важные из них.

Сложность модели ML

Короче говоря, сложность модели машинного обучения заключается в том, сколько параметров она может изучить. Чем больше различных характеристик объекта должна распознать модель, тем больше параметров вам нужно ввести.

Сложность алгоритма обучения

Сложные алгоритмы требуют больше данных, это само собой разумеющееся. Стандартные алгоритмы ML, использующие структурированное обучение, требуют меньше данных для обучения. В этом случае увеличение размера набора данных не улучшит качество распознавания.

С другой стороны, алгоритмам глубокого обучения требуется значительно больше данных. Эти алгоритмы работают без предопределенной структуры и сами определяют параметры при обработке данных.

В этом случае набор данных должен быть намного больше, чтобы вместить категории, сгенерированные алгоритмом.

Приемлемый уровень точности

Несмотря на то, что все проекты искусственного интеллекта заявляют о “высокой точности”, уровни точности на самом деле могут значительно различаться. Некоторые проекты машинного обучения могут допускать более низкую степень точности.

Например, алгоритмы прогнозирования погоды могут быть отключены на 10-20% без существенного влияния на функциональность продукта.

С другой стороны, низкий уровень точности медицинского приложения с искусственным интеллектом может привести к плохим результатам для пациентов, делая приложения в этой области менее терпимыми к ошибкам.

Достижение высокой точности в значительной степени достигается за счет увеличения размера набора данных.

Разнообразие входных данных

Когда входные данные сильно варьируются, набор данных должен отражать как можно больше разнообразия.

Например, обнаружение животных в дикой природе может сопровождаться большой вариабельностью данных. В зависимости от погоды и условий освещения, времени суток, возраста и пола животного, оно может выглядеть очень по-разному.

 

Разнообразие входных данных с использованием rabbits

 

Разнообразие входных данных с использованием rabbits

Важно включить в набор данных как можно больше этих изменений, включая размытые, недоэкспонированные и иным образом ‘искаженные’ изображения в наборе данных.

Чем больше разнообразия в среде, тем больше данных потребуется.

Какой размер набора данных оптимален для обучения нейронной сети?

Многие люди беспокоятся, что их ML-проекты не будут такими надежными, как могли бы быть, потому что у них недостаточно данных. Но очень немногие люди действительно понимают, какого объема данных “достаточно”, “слишком много” или “слишком мало”.

Использование правила 10 раз – наиболее типичный метод определения того, достаточен ли набор данных:

Количество входных данных должно в десять раз превышать количество степеней свободы в модели.

Степени свободы обычно относятся к параметрам в вашем наборе данных.

Итак, для обучения модели требуется 10 тысяч изображений, если, например, ваш алгоритм может отличать изображения кошек от изображений собак на основе 1000 параметров.

Хотя “правило 10 раз” является хорошо известной концепцией в машинном обучении, оно может быть применено только к небольшим моделям.

Более крупные модели не следуют этому правилу, поскольку количество собранных примеров не всегда указывает на количество обучающих данных.

Правильным подходом было бы умножить количество изображений на размер каждого изображения и количество цветовых каналов.

Это правило было бы достаточно хорошей оценкой для запуска проекта, однако единственный надежный способ определить размер набора данных – проконсультироваться с партнером по разработке машинного обучения.

Стратегии увеличения размера набора данных

Есть несколько вещей, которые часто идут не так с набором данных, когда дело доходит до проекта искусственного интеллекта, одна из них – небольшой объем данных. Небольшие наборы данных наносят ущерб конечному продукту, поскольку они являются основой для всей последующей разработки.

Вот список стратегий, которые вы можете реализовать, чтобы увеличить объем данных в наборе данных.

Увеличение объема данных

Увеличение данных – это процесс расширения входного набора данных путем незначительного изменения исходных изображений.

Увеличение объема данных

Увеличение данных – это процесс расширения входного набора данных путем незначительного изменения исходных изображений.

В основном он используется для увеличения наборов данных изображений. Обрезка, поворот, масштабирование, переворачивание и настройка цвета являются распространенными методами редактирования изображений.

 

Увеличение данных собаки

Расширение данных повышает возможности обобщения, устраняет трудности с дисбалансом классов и добавляет более адаптируемые данные к моделям. Тем не менее, дополненные данные также будут искажены, если исходный набор данных равен.

Расширение данных помогает увеличить объем набора данных, сбалансировать классы наборов данных и повышает возможности обобщения нейронных сетей.

Генерация синтетических данных

Некоторые считают генерацию данных типом увеличения данных, результаты которого сильно отличаются. Во время увеличения данных исходные данные изменяются, в то время как во время генерации данных создаются совершенно новые данные.

Синтетические данные имеют несколько важных преимуществ перед ‘обычными’ данными:

  • Синтетические данные могут быть помечены еще до их создания, в то время как обычные данные должны помечаться по одному изображению за раз
  • Синтетические данные могут помочь обойти правила конфиденциальности данных, например медицинских или финансовых, в случаях, когда получение обычных данных затруднено

Как и все хорошее, синтетические данные имеют недостатки, о которых важно помнить.

Баланс реальных и синтетических данных

Использование преимущественно синтетических данных может внести предвзятость в ваш проект искусственного интеллекта. Предвзятость может быть унаследована от исходного набора данных. Эта предвзятость может разбалансировать классы в вашем наборе данных, резко снизив качество распознавания.

Синтетические наборы данных не всегда отражают сложность реальных наборов данных: в них часто опускаются важные детали, необходимые для обучения нейронной сети. Это особенно важно в областях, где ошибки недопустимы, например, в медицине.

Синтетические данные также сложно проверить. Они могут выглядеть реалистично и приближенными к жизни, но трудно сказать наверняка, отражают ли они основные тенденции достоверных данных.

Подводя итоги

Инициативы по машинному обучению должны тщательно учитывать размер наборов обучающих данных искусственного интеллекта. Вы должны принять во внимание ряд переменных, таких как тип проекта, сложность алгоритма и модели, допустимая погрешность и разнообразие входных данных, чтобы определить идеальный объем данных, который вам требуется.

Еще один вариант – правило 10 раз, однако оно не всегда точно при решении сложных задач.

Если вы приходите к выводу, что имеющихся в настоящее время данных недостаточно и что получение необходимых реальных данных непрактично или непомерно дорого, попробуйте использовать одну из стратегий масштабирования.

В зависимости от потребностей и финансовых ограничений вашего проекта, это может включать увеличение объема данных, создание синтетических данных или передачу обучения.

What do you think?

Начинающий

Written by Жендос

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

GIPHY App Key not set. Please check settings