ChatGPT и сбор данных: какое будущее ждет профильное ПО с точки зрения прокси-сайта

Содержание:

  1. Сбор данных посредством ChatGPT c арендой прокси
  2. Пример сценария для сбора веб-данных с ChatGPT и прокси-сайтом

Быстрое развитие LLM-моделей и внедрение ChatGPT для извлечения веб-данных поднимает естественный вопрос, заменят ли инструменты на основе ИИ существующие программные решения. А также, какое место в будущем займет аренда прокси от Dexodata и других экосистем по повышению качества онлайн-аналитики. Чтобы понять практические последствия подобного технологического прорыва, мы начали с очевидной проблемы и решили проверить, способен ли ChatGPT на скрейпинг веб-сайтов.

Сбор данных посредством ChatGPT c арендой прокси

Dexodata предоставляет лучшие резидентные и мобильные прокси с геотаргетингом. Существует ряд весомых поводов применять прокси для сбора данных, поэтому нас интересовало, может ли ИИ самостоятельно проводить веб-скрейпинг сайтов с их помощью. На это был дан следующий ответ (обратите внимание, алгоритм пока испытывает сложности с общепринятыми формами русского языка):

Роль ChatGPT при сборе данных глазами прокси сайта

Далее наша команда попросила лингвистическую модель написать код для программного обеспечения, собирающего информацию в Интернете. Аренда прокси нередко имеет целью получение информации для развития электронной коммерции, поэтому мы задали более четкие параметры запроса. В качестве примера был использован маркетплейс eBay, и поскольку русский язык не является «родным» для ChatGPT, мы сформулировали просьбу на английском: «Generate code for a web scraper to scrape eBay». В результате мы получили приведенный ниже код на Python с применением BeautifulSoup. Это язык программирования и библиотека, которые задают новые тренды в сборе веб-данных. Отметим, что языковая модель сама предложила подобные инструменты:

import requests
from bs4 import BeautifulSoup

# URL of the eBay page you want to scrape
url = "https://www.ebay.com/"

# Send a GET request to the URL
response = requests.get(url)

# Parse the HTML content using BeautifulSoup
soup = BeautifulSoup(response.content, "html.parser")

# Find and print the titles of the items on the page
items = soup.find_all("h3", class_="s-item__title")
for item in items:
print(item.text)

Мы изучили результат и сделали предварительные выводы о преимуществах сбора веб-данных с ChatGPT.

Во-первых, добиться успехв с первой попытки затруднительно. «От и до», с нуля, ChatGPT проблему не решит. Лингвистическая модель не сможет проанализировать заданный сайт и выделить искомую информацию на основе элементарного предложения. Значит, имеющиеся онлайн-инструменты она полностью не заменит. Зато алгоритм способен поспособствовать в написании кода для внешних приложений, если добавить к запросу вводные сведения и уточнить контекст. 

Выступая в качестве экосистемы сбора и аналитики сетевых сведений с функциями прокси-сайта для eBay и других маркетплейсов, было бы ошибочным описывать ИИ-модель как чат-бот для скрейпинга. Скорее, те, кто применяет аренду прокси, найдут в его лице оперативного, исполнительного и умного ассистента. 

Типичный сценарий автоматизированного сбора онлайн-данных с ChatGPT выглядит следующим образом:

  1. Просим AI написать код, указывая точный целевой URL;
  2. Диалоговые алгоритмы предоставляют строки кода, которые следует скопировать и вставить в сторонний фреймворк. Рекомендуем корректировать запросы, уточняя их детали;
  3. Интеллектуальный ИИ-помощник предоставляет рекомендации по подходящим библиотекам.

Модель обработки естественного языка экономит ресурсы исследователя, поскольку:

  • Требует меньше времени, чем написание кода вручную;
  • Избавляет от необходимости проводить самостоятельное исследование, изучая онлайн-руководства.

Ключевой вывод заключается в том, что ChatGPT не в состоянии заменить ПО для автоматизированного поиска информации в интернете через прокси-сайт. По крайней мере, на данном этапе развития. Он медленно разбирается в контексте и нюансах задачи, и предлагает обобщенные решения. Поиск и отбор лучших резидентных и мобильных прокси также приходится проводить самостоятельно. С другой стороны, ассистент на основе ИИ помогает выбрать и настроить программное обеспечение — в том числе, для сбора онлайн-информации без навыков программирования.

 

Пример сценария для сбора веб-данных с ChatGPT и прокси-сайтом

 

Предположим, что нам понадобились подробности товарной линейки наручных часов с eBay. У нас есть прокси сайт с IP-адресами для социальных сетей и страниц электронной коммерции. Остается сформулировать код и протестировать его. Обратимся к ChatGPT. 

Первый шаг, который делает доверенный прокси-сайт Dexodata, уделяя особое внимание прокси для, — это определение того, что мы собираемся собирать.

Шаг 1. Успешная работа с искусственным интеллектом требует дополнительных сведений, что было продемонстрировано выше. Поэтому предоставим их. Для этого зайдем на искомую страницу eBay и определим нужный элемент. Далее выполним правый клик мышью и выберем команду «Inspect». Особое внимание обратите на класс в коде сайта.

Роль ChatGPT при сборе данных глазами прокси сайта

Шаг 2. Задействуем интеллектуального чат-агента. Задаем ему:

  1. Язык программирования
  2. Совместимую библиотеку
  3. Искомые атрибуты. 

Выглядит запрос следующим образом: «Please, scrape this website via Python and Scrapy. Locate all the elements with «class» attribute name». В нем содержатся адрес, инструменты и указание на конкретный объект. На это получаем следующий ответ:

 import scrapy

class EbaySpider(scrapy.Spider):
name = "ebay"
start_urls = ['https://www.ebay.com/b/Black-GPS-Running-Watches/75230/bn_115254101']

def parse(self, response):
elements = response.css('[class]')
for element in elements:
class_attribute = element.attrib.get('class')
yield {
'class_attribute': class_attribute
}

Шаг 3. Предлагаем ChatGPT больше уточнений. Чем четче прописана задача, тем результативнее будет предложенное автоматизированной системой решение. И тем меньше будут затраты на дополнительные инструменты, в частности, адреса прокси-сайта. Допустим, для работы требуется лишь название товара. Прописываем в интерфейсе ИИ-модели: «Please, scrape this website via Python and Scrapy. Locate all the elements with "class="b-info__title " attribute name». 

Реакция будет такой, как указано ниже:

import scrapy

class EbaySpider(scrapy.Spider):
name = "ebay"

start_urls = ['https://www.ebay.com/b/Black-GPS-Running-Watches/75230/bn_115254101']

def parse(self, response):
elements = response.xpath('//*[@class="b-info__title "]')
for element in elements:
title = element.xpath('text()').get()
yield {
'title': title.strip()
}

Теперь полученный код необходимо протестировать и при надобности скорректировать. Языковая модель ИИ также занимается отладкой, если уточнить параметры, нуждающиеся в исправлении.

Суммарно мы потратили порядка пяти минут на описанные выше действия. Вердикт на данном этапе таков: ChatGPT обладает достаточным потенциалом, чтобы изменить привычные процедуры извлечения веб-информации и автоматизации браузеров для них. Однако полностью заменить людей-экспертов в языках PHP, Python, JS и пр. в обозримом будущем алгоритм не способен. Новый инструмент облегчает работу программиста, но не отнимает ее.

Команда экосистемы для сбора и обработки онлайн-данных посредством аренды прокси из 100+ стран считает ChatGPT полезным помощником при скрейпинге и всем советует поработать с ним. Не более и не менее. Вложить собственные силы, внимание и знания все равно остается обязательным условием при веб-скрейпинге.

Экосистема Dexodata предлагает лучшие резидентные и мобильные прокси по выгодным ценам с геотаргетингом в более чем 100 странах. С точки зрения нашего опыта мы высоко оцениваем вклад автоматизированных систем общения в индустрию сбора и обработки веб-информации. Призываем вас попробовать прокси бесплатно и заодно протестировать возможности ChatGPT. Главное помните, что на данном этапе развития лингвистические ИИ-модели — это производительный помощник, но не полноценный исполнитель. Приложить собственные силы, знания и умения все равно придется как в сетевой аналитике, так и других целях аренды прокси для бизнеса.

Назад


Сбор данных - проще с Dexodata

Попробовать сейчас Написать в Отдел продаж