in

Автоматизация : может ли ИИ полностью взять на себя процесс очистки данных?

Сегодня все большее число компаний используют альтернативные источники данных, чтобы получить конкурентное преимущество в ожесточенной глобальной гонке.

Ожидается, что рынок больших данных и аналитики превзойдет 180 миллиардов долларов к 2026 году и достичь 600 миллиардов долларов в 2029 году.

Как показывают цифры, использование данных – дорогостоящее мероприятие. Для этого требуется мощное программное обеспечение для сбора данных и большие команды аналитиков для очистки, обработки и осмысления собранной информации. Чтобы сэкономить немалые деньги, предприятия ищут способы автоматизировать цикл обработки данных и избавиться от зависимости от специалистов по обработке данных.

Итак, неудивительно, что недавняя шумиха вокруг решений на основе генеративного искусственного интеллекта (ИИ) подняла вопрос о том, могут ли современные системы ИИ полностью автоматизировать сбор и анализ веб-данных. Чтобы ответить на этот вопрос, необходимо изучить два разных вопроса – ограничения современных систем искусственного интеллекта и особенности веб-сбора данных.

Переход к универсальному ИИ для очистки веб-данных

Веб-сбор данных включает в себя множество повторяющихся задач и, таким образом, кажется идеальным кандидатом для объединения ИИ и автоматизации роботизированных процессов. Однако усилия по разработке универсального средства извлечения данных ИИ пока не увенчались успехом.

Когда мы говорим о масштабном сборе данных, разработка универсального ИИ является чрезвычайно сложной задачей. Несколько инструментов без кода, предназначенных для очистки веб-страниц, уже существуют, но они имеют ограниченную масштабируемость и обычно служат определенной цели – например, обучению роботов-очистителей. Частично проблема заключается в механике самого искусственного интеллекта, а частично – в конкретных функциях веб-очистки.

Масштабные усилия по маркировке данных

Сегодня почти каждая система искусственного интеллекта построена на различных итерациях технологии машинного обучения (ML), производительность которых зависит от качества, точности и объема обучающих данных. Модель ML может частично обрабатывать данные в реальном времени, например Microsoft Bing, или извлекать уроки из статических наборов данных, которые должны постоянно обновляться.

Получение нужного объема данных высшего качества и очистка их от ошибок и искажений – самая насущная задача для разработчиков ML. Процесс обучения также включает в себя много ручной работы, такой как маркировка. По некоторым оценкам, контролируемому алгоритму глубокого обучения требуется набор данных примерно с 5000 помеченных примеров для каждой категории необходимо достичь приемлемой производительности и не менее 10 миллионов помеченных примеров, чтобы достичь производительности на уровне человека.

В Oxylabs мы столкнулись с этой проблемой непосредственно при обучении наших сотрудников. адаптивная модель синтаксического анализа. Мы пытались передать задачи маркировки на аутсорсинг; однако это требовало постоянного контроля, чтобы избежать мелких ошибок. В конце концов, мы решили, что более экономично возложить обычные задачи по маркировке и категоризации на наших сотрудников. Синтаксический анализ – это лишь часть процесса очистки веб-данных – объем данных и человеческих ресурсов, необходимых для обучения полномасштабного искусственного интеллекта для очистки данных, вряд ли будет разумным с точки зрения затрат.

Контролируемое обучение передаче, обучение с подкреплением и неконтролируемые методы, такие как генеративное моделирование, дают проблеск надежды в решении проблемы ручного труда. Однако у этих методов также есть недостатки, такие как недостаточная точность, трудности при переключении между исходным и целевым доменами, плохая категоризация новых данных и высокие вычислительные затраты. Более того, они требуют очень специфических знаний, что делает их недоступными для многих компаний.

Сложность процесса очистки данных

Вторая часть задачи связана с особенностями процесса очистки веб-данных. Наиболее важной частью масштабного сбора общедоступных веб-данных является качество. Данные должны быть точными и преднамеренными – устаревшие, ошибочные или избыточные данные могут испортить целые наборы данных и привести к неправильным аналитическим выводам.

Однако обеспечение качества данных – трудоемкая задача. Веб-данные разбросаны по нескольким источникам и форматам, часто детализированы и чувствительны к окружающему контексту и варианту использования. Кроме того, Интернет находится в состоянии постоянных изменений. Практически любой веб-сайт отличается от других, и его структура постоянно меняется, что требует тщательного обновления скриптов очистки для поддержания потока данных. Из-за нестабильной природы Интернета со временем неизбежны сбои в конвейерах сбора и синтаксического анализа.

Таким образом, ИИ веб-очистки должен уметь определять, какие данные являются точными и релевантными, обходить меры по предотвращению очистки, адаптироваться к изменениям в структуре страниц (поддерживать и отлаживать код, если необходимо), и, в то же время, ориентироваться в различных правовых нормах, касающихся конфиденциальности данных, Условий обслуживания сайтов и т.д. Также придется принимать решения об облачном хранилище, что может быть довольно странным и дорогостоящим, если ИИ будет неконтролируемым. Даже если масштаб извлечения данных ограничен, машине уже приходится многое учитывать, пока она не достигнет уровня сверхразума.

Допустим, ИИ должен решить, может ли общедоступная информация в учетной записи человека в социальной сети считаться личными данными и, в таком случае, не должна удаляться. Когда дело доходит до регулирования личных данных, возникает много сложностей – необходимо соблюдать существующие законы, юридические прецеденты, Условия предоставления услуг сайта и т.д. Решение часто носит интерпретационный характер и не может быть легко определено с помощью набора прогнозов ML.

Итак, единого оптимального способа очистки любой страницы не существует, поскольку веб-контент шумный, непоследовательный и не подчиняется строгим правилам. Если сбор данных небольшого масштаба и проблемы с качеством или точностью не являются критичными для принятия решений, универсальные решения с ИИ могут работать достаточно хорошо. Если, напротив, веб-сбор данных выполняется в больших масштабах из нескольких источников или чувствительных целей, а качество данных имеет решающее значение, потребуется постоянный человеческий надзор за системами ИИ, что приведет к более высоким затратам и узким местам процесса.

Изучение взаимной выгоды

Даже если еще слишком рано говорить об общем решении ИИ для сбора данных, автоматизация определенных частей процесса извлечения данных является естественным шагом к дальнейшему совершенствованию технологии. Обычные подозреваемые в автоматизации искусственного интеллекта – это синтаксический анализ, снятие отпечатков пальцев с браузера и отображение продукта.

Насколько ИИ может улучшить конкретные процессы извлечения данных, веб-скрапинг может помочь технологии ML, предоставляя разнообразные и высококачественные данные для обучения модели. Таким образом, развитие возможностей веб-очистки приводит к созданию более сложных моделей ML и наоборот.

Искусственный интеллект и ML в продуктах Oxylabs

В Oxylabs мы уже разработали несколько запатентованных решений на базе ML для автоматизации повторяющихся задач очистки веб-страниц. Наиболее продвинутым является Web Unblock, который использует простой прокси с обратным подключением для извлечения общедоступных данных с сайтов с жесткими мерами защиты от очистки.

Продукт работает на паре моделей ML. Первая основана на обучении с подкреплением и динамически обрабатывает уникальные отпечатки пальцев, тестируя, какой набор параметров наиболее эффективен для разблокировки конкретной страницы. Второй выполняет автоматическое распознавание ответов, автоматически проверяя ответы и решая, содержат ли они релевантные данные, а не какой-то скрытый блок или КАПЧУ. Он создает эффективную петлю обратной связи между результатами очистки и механизмом экспериментов для определения качества результата.

Еще одним успешным решением является адаптивный анализатор, который выполняет часть синтаксического анализа в наших процедурах Scraper API. Модель структурирует конкретные элементы данных, размещая их HTML-атрибуты на определенном веб-сайте. По сути, он присваивает части HTML-строк определенным категориям и полям, таким как цена, заголовок, описание и другие.

Разработка этих решений преподала нам несколько уроков. Во-первых, для поддержания достойных показателей успеха необходимо постоянное переобучение моделей ML. Обстоятельства, связанные с веб–данными, динамичны – структуры веб-страниц меняются, что затрудняет распознавание алгоритмом местоположения данных; более того, постоянно появляются новые меры по блокировке IP-адресов на основе ML и борьбе с очисткой.

Во-вторых, найти достаточно качественных данных для обучения ML – самая сложная проблема. Сбор данных не был для нас проблемой, но маркировка данных определенно была, поскольку требовала много ручной работы. Несмотря на это, иногда данные просто редки и труднодоступны. Например, нам нужно было найти примеры сайтов электронной коммерции практически на любом человеческом языке, чтобы обучить наш адаптивный анализатор, поскольку он должен уметь выполнять следующие важные задачи: сначала определить, на английском ли языке представлены данные; если нет, решить, с каким языком он имеет дело, а затем – перевести их на английский.

Несмотря на первоначальные усилия, автоматизация анализа данных впоследствии сэкономила нам значительное время. С ИИ нет необходимости перенастраивать специальный анализатор для отдельной веб-страницы – обученная модель распознает конкретные точки данных даже после изменения макета, поскольку она хранит набор знаний, основанный на использовании HTML-тегов, их взаимном расположении и других атрибутах. Чем больше наборов данных он поглощает во время обучения, тем лучше он структурирует данные, извлеченные с похожих веб-сайтов.

Заключительные соображения

Разработки в области искусственного интеллекта и технологий очистки веб-данных сильно усиливают друг друга – одна технология может предложить значительные прорывы в другой. В Oxylabs мы верим, что искусственный интеллект станет ключевым катализатором прогресса в области очистки веб-данных.

Однако маловероятно, что универсальные решения ИИ заменят специализированное программное обеспечение для очистки веб-страниц и человеческую работу в ближайшем будущем из-за сложной и динамичной природы веб-сайтов, изменчивости источников данных, а также юридических и этических соображений. ИИ может помочь организации улучшить структурирование данных или ускорить некоторые процессы сбора данных, но вряд ли он сможет обеспечить кардинальные изменения, к которым сегодня стремятся предприятия.

Автор истории Julius Černiauskas @cerniauskas

What do you think?

Начинающий

Written by Даниил

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

GIPHY App Key not set. Please check settings