in

Автоматизация: Искусственный интеллект может полностью взять на себя процесс очистки данных.

Сегодня все большее число компаний используют альтернативные источники данных, чтобы получить конкурентное преимущество в ожесточенной глобальной гонке.

Ожидается, что рынок больших данных и аналитики превзойдет 180 миллиардов долларов к 2026 году и достичь 600 миллиардов долларов в 2029 году.

Как показывают цифры, использование данных – дорогостоящее мероприятие. Для этого требуется мощное программное обеспечение для сбора данных и большие команды аналитиков для очистки, обработки и придания смысла собранной информации. Чтобы сэкономить немалые деньги, предприятия ищут способы автоматизации цикла обработки данных и устранения зависимости от специалистов по обработке данных.

Поэтому неудивительно, что недавняя шумиха вокруг решений на основе генеративного искусственного интеллекта (ИИ) подняла вопрос о том, могут ли современные системы ИИ полностью автоматизировать сбор и анализ веб-данных. Чтобы ответить на этот вопрос, нужно рассмотреть две разные темы – ограничения современных систем искусственного интеллекта и особенности очистки веб-страниц.

Переход к универсальному ИИ для очистки веб-страниц

Веб-сбор данных включает в себя множество повторяющихся задач и, таким образом, кажется идеальным кандидатом для объединения искусственного интеллекта и автоматизации роботизированных процессов. Однако попытки разработать универсальный инструмент извлечения данных с помощью искусственного интеллекта пока не увенчались успехом.

Когда мы говорим о масштабном сборе данных, разработка универсального ИИ является чрезвычайно сложной задачей. Несколько инструментов без кода, предназначенных для очистки веб-страниц, уже существуют, но они имеют ограниченную масштабируемость и обычно служат определенной цели – например, обучению роботов-очистителей. Часть проблемы заключается в механике самого ИИ, а часть – в конкретных функциях очистки веб-страниц.

Масштабные усилия по маркировке данных

Сегодня почти каждая система искусственного интеллекта построена на различных итерациях технологии машинного обучения (ML), производительность которых зависит от качества, точности и объема обучающих данных. Модель ML может частично обрабатывать данные в реальном времени, например Microsoft Bing, или извлекать уроки из статических наборов данных, которые необходимо постоянно обновлять.

Getting the right amount of superior-quality data and cleaning it of errors and biases is the most pressing task for ML developers. The training process also involves a lot of manual work, such as labeling. By one estimate, a supervised deep-learning algorithm needs a dataset with around 5,000 labeled examples per category to achieve acceptable performance and at least 10 million labeled examples to reach a somewhat human-level performance.

В Oxylabs мы столкнулись с этой проблемой непосредственно при обучении наших адаптивная модель синтаксического анализа. Мы пытались передать задачи по маркировке на аутсорсинг; однако это требовало постоянного контроля, чтобы избежать мелких ошибок. В конце концов, мы решили, что более экономично возложить обычные задачи по маркировке и категоризации на наших сотрудников. Синтаксический анализ – это лишь часть процесса очистки веб-данных – объем данных и человеческих ресурсов, необходимых для обучения полномасштабного ИИ для очистки данных, вряд ли будет разумным с точки зрения затрат.

Контролируемое обучение передаче, обучение с подкреплением и неконтролируемые методы, такие как генеративное моделирование, дают проблеск надежды в решении проблемы ручного труда. Однако у этих методов также есть недостатки, такие как недостаточная точность, трудности при переключении между исходным и целевым доменами, плохая категоризация новых данных и высокие вычислительные затраты. Более того, они требуют очень специфических знаний, что делает их недоступными для многих предприятий.

Сложность процесса очистки данных

Вторая часть проблемы связана с особенностями процесса очистки веб-страниц. Наиболее важной частью масштабного сбора общедоступных веб-данных является качество. Данные должны быть точными и продуманными – устаревшие, ошибочные или избыточные данные могут испортить целые наборы данных и привести к неправильным аналитическим выводам.

Однако обеспечение качества данных – утомительная задача. Веб-данные разбросаны по множеству источников и форматов, часто детализированных и чувствительных к окружающему контексту и варианту использования. Кроме того, Интернет находится в состоянии постоянных изменений. Почти любой веб-сайт отличается от других, и его структура постоянно меняется, что требует тщательного обновления скриптов очистки для поддержания потока данных. Из-за нестабильной природы Интернета перерывы в конвейерах очистки и синтаксического анализа неизбежны с течением времени.

Таким образом, ИИ веб-очистки должен быть способен определять, какие данные являются точными и релевантными, обходить меры по предотвращению очистки, адаптироваться к изменениям в структуре страниц (поддерживать и отлаживать код, если необходимо), и в то же время ориентироваться в различных правовых нормах, касающихся конфиденциальности данных, Условий обслуживания сайтов и т.д. Также пришлось бы принимать решения об облачном хранилище, что может быть довольно странным и дорогостоящим, если ИИ не контролируется. Даже если масштаб извлечения данных ограничен, машине уже приходится многое учитывать, пока она не достигнет уровня сверхразума.

Допустим, ИИ должен решить, может ли общедоступная информация в учетной записи человека в социальной сети считаться личными данными и, в таком случае, не должна удаляться. Когда дело доходит до регулирования личных данных, возникает много сложностей – нужно соблюдать существующие законы, юридические прецеденты, Условия обслуживания сайта и т.д. Решение часто носит интерпретационный характер и не может быть легко определено с помощью набора прогнозов ML.

Итак, единого оптимального способа очистки любой страницы не существует, поскольку веб-контент шумный, непоследовательный и не подчиняется строгим правилам. Если сбор данных небольшого масштаба, а проблемы с качеством или точностью не критичны для принятия решений, универсальные решения с ИИ могут работать достаточно хорошо. Если, напротив, очистка веб-данных выполняется в больших масштабах из нескольких источников или чувствительных целей, а качество данных имеет решающее значение, потребуется постоянный человеческий надзор за системами ИИ, что приведет к увеличению затрат и узким местам процесса.

Изучение взаимной выгоды

Даже если еще слишком рано говорить об общем решении ИИ для сбора данных, автоматизация определенных частей процесса извлечения данных является естественным шагом к дальнейшему совершенствованию технологии. Обычные подозреваемые в автоматизации ИИ – это синтаксический анализ, снятие отпечатков пальцев с браузера и отображение продукта.

Насколько ИИ может улучшить конкретные процессы извлечения данных, веб-очистка может помочь технологии ML, предоставляя разнообразные и высококачественные данные для обучения модели. Таким образом, развитие возможностей веб-очистки приводит к созданию более сложных моделей ML и наоборот.

Искусственный интеллект и ML в продуктах Oxylabs

В Oxylabs мы уже разработали несколько запатентованных решений на базе ML для автоматизации повторяющихся задач очистки веб-страниц. Наиболее продвинутым является Web Unblock, который использует простой прокси с обратным подключением для извлечения общедоступных данных с сайтов с жесткими мерами защиты от очистки.

Продукт работает на паре моделей ML. Первая основана на обучении с подкреплением и динамически обрабатывает уникальные отпечатки пальцев, тестируя, какой набор параметров наиболее эффективен для разблокировки конкретной страницы. Второй выполняет автоматическое распознавание ответов, автоматически проверяя ответы и решая, содержат ли они релевантные данные, а не какой-то скрытый блок или КАПЧУ. Это создает эффективную петлю обратной связи между результатами очистки и механизмом экспериментов для определения качества результата.

Еще одним успешным решением является адаптивный анализатор, который выполняет часть синтаксического анализа в наших подпрограммах Scraper API. Модель структурирует конкретные элементы данных, размещая их HTML-атрибуты на определенном веб-сайте. По сути, он присваивает части HTML-строк определенным категориям и полям, таким как цена, заголовок, описание и другие.

Разработка этих решений преподала нам несколько уроков. Во-первых, для поддержания достойных показателей успеха необходимо постоянное переобучение моделей ML. Обстоятельства, связанные с веб–данными, динамичны – структуры веб-страниц меняются, что затрудняет распознавание алгоритмом местоположения данных; более того, постоянно появляются новые меры по блокировке IP-адресов на основе ML и борьбе с очисткой.

Во-вторых, поиск достаточного количества данных хорошего качества для обучения ML является наиболее сложной задачей. Сбор данных не был для нас проблемой, но маркировка данных определенно была, поскольку требовала много ручной работы. Несмотря на это, иногда данные просто редки и едва доступны. Например, нам нужно было найти примеры сайтов электронной коммерции практически на любом человеческом языке, чтобы обучить наш адаптивный анализатор, поскольку он должен быть способен выполнять следующие важные задачи: сначала определить, на английском ли языке представлены данные; если нет, решить, с каким языком он имеет дело, а затем – перевести их на английский.

Несмотря на первоначальные усилия, автоматизация анализа данных впоследствии сэкономила нам значительное время. С ИИ нет необходимости перенастраивать выделенный анализатор для отдельной веб-страницы – обученная модель распознает конкретные точки данных даже после изменения макета, поскольку она содержит набор знаний, основанный на использовании HTML-тегов, их взаимном расположении и других атрибутах. Чем больше наборов данных он поглощает во время обучения, тем лучше он структурирует данные, извлеченные с похожих веб-сайтов.

Заключительные мысли

Разработки в области искусственного интеллекта и технологий очистки веб-страниц сильно усиливают друг друга – одна технология может предложить значительные прорывы в другой. В Oxylabs мы верим, что искусственный интеллект станет ключевым катализатором прогресса в очистке веб-страниц.

Однако маловероятно, что универсальные решения ИИ заменят специализированное программное обеспечение для очистки веб-страниц и человеческую работу в ближайшем будущем из-за сложной и динамичной природы веб-сайтов, изменчивости источников данных и юридических и этических соображений. ИИ может помочь организации улучшить структурирование данных или ускорить некоторые процессы сбора данных, но вряд ли он сможет обеспечить кардинальные изменения, которых сегодня ждут предприятия.

Автор истории Julius Černiauskas @cerniauskas.

What do you think?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

GIPHY App Key not set. Please check settings