Москва
Мероприятия
Блог
Корзина
Регистрация Войти
main-bg
Блог

Data mining: выбор приоритетов и нейронные сети

14.09.2018

В течение последнего десятилетия в нефтегазовой отрасли произошла компьютеризация таких процессов, как управление бурением, каротаж высокого разрешения, телеметрия, сбор разнообразных данных на этапе разведки и эксплуатации и многих других. В этом материале мы сосредоточимся на новых аналитических технологиях для нефтедобывающей промышленности.

Построение моделей коллективных данных позволяет изменить способы анализа, моделирования процессов и в целом способствует оптимизации в отрасли. Многие прорывы в поиске месторождений произошли за счет сочетания геологии, петрофизики и геофизики. Сегодня на каждой пробуренной скважине размещены измерительные приборы, которые производят видео, изображения и структурированные данные. Это огромные массивы информации, самой разнообразной, всевозможных типов и масштабов.

Современные технологии data mining и машинного обучения позволяют работать с большими объемами данных, измеренных в разных шкалах: непрерывной, порядковой, категориальной, с разной частотой дискретизации. Классические методы статистики, имеющей дело с фиксированными наборами данных (выборками), устаревают и должны быть дополнены новыми интеллектуальными технологиями, поскольку подлинная революция в технологии анализа данных уже произошла.

Инженерам, работающим в нефтедобывающей промышленности, data mining дает ответы на многие ключевые вопросы, например:

  • в каком направлении следует бурить горизонтальную скважину, чтобы уменьшить риск осложнений;
  • как определить набор параметров, оказывающих максимальное влияние на возникновение осложнений;
  • какую технологию ВИР следует применять в тех или иных условиях;
  • как выбрать смеси для цементирования;
  • как выбрать адекватного поставщика и т.д.

Целевые переменные и атрибуты

Первым шагом в создании моделей data mining является определение целевых переменных (target variables) и факторов, влияющих на них. Целевая переменная в контексте машинного обучения – это переменная, которая описывает результат (цель) процесса. Например, 0 – нет осложнений, 1 – есть осложнения.

В анализе данных мы называем такую переменную откликом или зависимой переменной.

В более общей ситуации имеется несколько значений целевой переменной, указывающих на тип осложнений. Например, 0 – нет осложнений, 1 – есть осложнение типа 1, 2 – есть осложнение типа 2 и т.д.

Актуальной технологической задачей является определение набора параметров, которые оказывают максимальное влияние на возникновение осложнения. Для того, чтобы осуществить отбор атрибутов – то есть определить признаки, имеющие наиболее тесные связи с целевой переменной, – нужно задействовать практических работников, инженеров, технологов.

В качестве примера возьмем проект бурения. Разломы и трещины в породе приводят к потерям бурового раствора, тяжелый раствор может разорвать породу, слишком легкий раствор не позволяет подавлять газопроявление, а это приводит к выбросам. Вибрация колонны может повредить оборудование и привести к разрушениям.  Поэтому в проекте бурения должны быть учтены многие факторы, включая тип колонны, требования по закачиванию, предыстория и параметры бурового станка, подбор инструмента, оборудования, параметры цементирования и т.д. Ключевым моментом является взаимодействие факторов: они не только действуют на целевую переменную, но и взаимодействуют между собой. Так какие именно переменные следует включить в модель data mining?

Хорошая новость состоит в том, что специалисты в предметной области – инженеры и технологи – могут легко освоить нейросетевой инструмент для решения практических задач.

Итак, обратимся к технологии нейронных сетей.

Нейронные сети

Покажем, как строятся нейронные сети в программе STATISTICA, и убедимся, что делается это просто.

Весь анализ проводится в удобном диалоговом режиме, позволяя пользователю видеть основное направление исследования данных. Даже новичок в аналитике может сделать первые успешные шаги. В качестве примера будем прогнозировать наличие или отсутствие нефти по результатам спектрального анализа.

Шаг 1. Открываем структуру исходных данных

Рисунок 1. Предположим, структура выглядит следующим образом

Столбцы в таблице – это переменные, строки конкретные пробы. Целевой переменной является нефтеносность: наличие/отсутствие нефти (первая переменная). Также имеются переменные, описывающие параметры скважин.

Шаг 2. Начало моделирования. Открываем модуль «Нейронные сети Statistica», выбираем метод анализа.

Рисунок 2. Стартовое окно нейронных сетей Statistica

Целевая переменная принимает два значения: 0 и 1, поэтому выбираем метод классификации в разделе Анализ, нажимаем ОК.

Шаг 3. Выбираем переменные и задаем параметры анализа.

Прежде всего указываем, какие переменные являются целевыми, какие факторы влияют на нее. Переменная нефтеносность является целевой, остальные переменные независимые или входные. Задача в том, чтобы оценить, как входные переменные влияют на целевую переменную.

Рисунок 3. Окно выбора переменных

Шаг 5. В следующем окне выбираем подвыборки для обучения сети.

Рисунок 4. Задание подвыборок

Основные принципы обучения и критерии остановки

Это ключевой момент для понимания машинного обучения. Мы не можем обучать сеть до бесконечности, предъявляя все имеющиеся данные, сеть обучается до достижения минимума ошибок. Поэтому нужно разделить исходные данные на выборки: обучающую, контрольную, тестовую.

Отмечу, что эмпирический подход предполагает раннюю остановку процесса обучения сети, чтобы не допустить переобучения. Необходимо использовать набор валидаций для контроля точности обучения, это достигается с помощью контрольной выборки. Как только ошибка на выборке, контролирующей обучение, начинает возрастать, процесс обучения прекращается.

Тестовая выборка провидит проверку построенной и обученной сети, т.е. сети с найденными параметрами, на отдельном тестовом множестве.

Сеть обучается на выборке, составляющей обычно 70% наблюдений, процесс обучения контролируется на контрольной выборке (15% процентов наблюдений), построенная сеть проверяется на тестовой выборке (также 15% процентов наблюдений).

В отдельной вкладке можно выбрать тип сети, количество сетей для обучения и сохранения, функцию ошибок. Обычно используется сумма квадратов отклонений наблюдаемых и предсказанных значений, а также кросс-энтропия.

Рисунок 5. Окно спецификаций сетей

В этом диалоговом окне можно выбрать радиальные базисные функции и многослойные персептроны. Архитектура многослойных персептронов включает три вида нейронных слоёв: входной слой – NeuralInputs, скрытый слой – Hidden_NeuralLayer и выходной слой – NeuralOutputs.

Поток информации проходит от входных нейронов к выходным, формируя результат анализа.

В первых опытах с сетями рекомендуется использовать предопределенные настройки, которые впоследствии можно изменить, например, увеличить сложность сети, изменить число скрытых нейронов в многослойном персептроне, выбрать различные функции активации.

После того как основные параметры сети выбраны, запускаем процесс обучения.

Результаты определения нефтеносности на обучающей выборке показаны на рис. 6.

Рисунок 6. Результаты классификации

В этой таблице показана сеть MLP – многослойный персептрон, имеющий 173 входа и результаты сети на обучающей выборке.

Итак, сеть построена, вы оценили качество ее работы, теперь ее можно сохранить и использовать в деле!

Уверен, работа с нейронными сетями Statistica доставит вам удовольствие.

Углубленные и начальные курсы по анализу данных с помощью нейронных сетей также представлены в Академии Анализа Данных, пишите: academy@statsoft.ru.

Владимир Боровиков

CEO StatSoft
Новости, истории и события
Смотреть все
Академия Softline объявляет о партнерстве с Иркутским национальным исследовательским политехническим университетом (ИРНИТУ) и совместном запуске программ обучения информационной безопасности
Новости

Академия Softline объявляет о партнерстве с Иркутским национальным исследовательским политехническим университетом (ИРНИТУ) и совместном запуске программ обучения информационной безопасности

05.02.2025

«Софтлайн Решения» стал лидером в рейтинге работодателей России-2024 по версии hh.ru среди крупных системных интеграторов
Новости

«Софтлайн Решения» стал лидером в рейтинге работодателей России-2024 по версии hh.ru среди крупных системных интеграторов

05.02.2025

Bell Integrator (ГК Softline) разработала решение для автоматизации процессов подбора персонала для крупной финансовой организации
Новости

Bell Integrator (ГК Softline) разработала решение для автоматизации процессов подбора персонала для крупной финансовой организации

04.02.2025

ГК Softline совместно с АШАН ТЕХ реализовала проект по внедрению системы межсетевого экранирования в торговой сети АШАН Ритейл Россия
Новости

ГК Softline совместно с АШАН ТЕХ реализовала проект по внедрению системы межсетевого экранирования в торговой сети АШАН Ритейл Россия

04.02.2025

HCM-система «БОСС» компании SL Soft (ГК Softline) интегрирована с «1С:ЗУП»
Новости

HCM-система «БОСС» компании SL Soft (ГК Softline) интегрирована с «1С:ЗУП»

04.02.2025

Участники второго этапа обмена ГДР Noventiq, получившие отказ в исполнении заявок из-за ошибки в паспортных данных, смогут получить бонусные акции ПАО «Софтлайн» во время сбора оферт по третьему этапу обмена
Новости

Участники второго этапа обмена ГДР Noventiq, получившие отказ в исполнении заявок из-за ошибки в паспортных данных, смогут получить бонусные акции ПАО «Софтлайн» во время сбора оферт по третьему этапу обмена

03.02.2025

PROF-IT GROUP автоматизирует рутинные процессы предприятий вместе с SL Soft (ГК Softline)
Новости

PROF-IT GROUP автоматизирует рутинные процессы предприятий вместе с SL Soft (ГК Softline)

03.02.2025

ГК Softline и «ИндаСофт» создали импортонезависимый ПАК на базе оборудования «Инферит» для безопасного сбора и передачи технологических данных на предприятиях
Новости

ГК Softline и «ИндаСофт» создали импортонезависимый ПАК на базе оборудования «Инферит» для безопасного сбора и передачи технологических данных на предприятиях

31.01.2025

Система единой аутентификации Avanpost FAM получила сертификат совместимости с ОС «МСВСфера» от «Инферит» (ГК Softline)
Новости

Система единой аутентификации Avanpost FAM получила сертификат совместимости с ОС «МСВСфера» от «Инферит» (ГК Softline)

31.01.2025

Директором SL Soft (ГК Softline) стал Александр Аболмасов
Новости

Директором SL Soft (ГК Softline) стал Александр Аболмасов

30.01.2025

ОС «МСВСфера» (ГК Softline) и Bimeister улучшают бизнес-процессы промышленных предприятий
Новости

ОС «МСВСфера» (ГК Softline) и Bimeister улучшают бизнес-процессы промышленных предприятий

29.01.2025

Softline Digital (ГК Softline) представила собственную no-code платформу AiLine на базе искусственного интеллекта перед главой республики Татарстан
Новости

Softline Digital (ГК Softline) представила собственную no-code платформу AiLine на базе искусственного интеллекта перед главой республики Татарстан

29.01.2025

ГК Softline стала партнером года «Лаборатории Касперского»
Новости

ГК Softline стала партнером года «Лаборатории Касперского»

28.01.2025

Иван Киреев назначен управляющим директором российского ИТ-вендора «Инферит» (ГК Softline)
Новости

Иван Киреев назначен управляющим директором российского ИТ-вендора «Инферит» (ГК Softline)

28.01.2025

«Инферит FinOps» будет включен в список доступных решений в рамках Softline Enterprise Agreement
Новости

«Инферит FinOps» будет включен в список доступных решений в рамках Softline Enterprise Agreement

27.01.2025

ОС «МСВСфера» от «Инферит» (ГК Softline) подтвердила совместимость с платформой управления инженерными данными LITEBIM
Новости

ОС «МСВСфера» от «Инферит» (ГК Softline) подтвердила совместимость с платформой управления инженерными данными LITEBIM

24.01.2025

Совместный пресс-релиз группы компаний Softline  и "Беркс"
Новости

Совместный пресс-релиз группы компаний Softline и "Беркс"

23.01.2025

Провайдер «Инферит Облако» (ГК Softline) представил единую платформу для управления клиентской инфраструктурой
Новости

Провайдер «Инферит Облако» (ГК Softline) представил единую платформу для управления клиентской инфраструктурой

23.01.2025

Программирование без кода: как с помощью No-Code и Low-Code адаптировать Service Desk под любые задачи
Блог

Программирование без кода: как с помощью No-Code и Low-Code адаптировать Service Desk под любые задачи

04.02.2025

Егор Кукушкин (Группа «Борлас»): «Отечественный рынок смог в существенной степени переориентироваться на импортозамещение»
Блог

Егор Кукушкин (Группа «Борлас»): «Отечественный рынок смог в существенной степени переориентироваться на импортозамещение»

04.02.2025

Юрий Латин, Bell Integrator: Будущее заказной разработки перспективное, и не только из-за импортозамещения
Блог

Юрий Латин, Bell Integrator: Будущее заказной разработки перспективное, и не только из-за импортозамещения

04.02.2025

Стек российских технологий из одного «окна»: как выгодно импортозаместить ПО с Softline Enterprise Agreement
Блог

Стек российских технологий из одного «окна»: как выгодно импортозаместить ПО с Softline Enterprise Agreement

04.02.2025

Как технологии no-code ускоряют внедрение цифровых двойников
Блог

Как технологии no-code ускоряют внедрение цифровых двойников

03.02.2025

Как оснастить школу в соответствии с приказом № 838: руководство для строительных компаний
Блог

Как оснастить школу в соответствии с приказом № 838: руководство для строительных компаний

29.01.2025

Рынок BPM-систем вчера, сегодня, завтра
Блог

Рынок BPM-систем вчера, сегодня, завтра

28.01.2025

Дата-центры в России: тенденции и перспективы
Блог

Дата-центры в России: тенденции и перспективы

13.01.2025

Как эффективно внедрить стандарты ГОСТ в организацию: этапы и советы
Блог

Как эффективно внедрить стандарты ГОСТ в организацию: этапы и советы

12.01.2025

Работник кода: как искусственный интеллект может помочь в смене профессии. Нейросети полезны кандидатам с нулевым опытом или возрастным соискателям
Блог

Работник кода: как искусственный интеллект может помочь в смене профессии. Нейросети полезны кандидатам с нулевым опытом или возрастным соискателям

10.01.2025

Атак нельзя: половина библиотек для разработки ПО содержит уязвимости. Как защититься от хакеров и какие методы лучше использовать
Блог

Атак нельзя: половина библиотек для разработки ПО содержит уязвимости. Как защититься от хакеров и какие методы лучше использовать

09.01.2025

Кибербезопасность от А до Я
Блог

Кибербезопасность от А до Я

20.12.2024

Елена Типисова (ГК Softline): «2024-й год стал годом вызовов и возможностей для ИТ-отрасли, заложив фундамент для дальнейшего развития»
Блог

Елена Типисова (ГК Softline): «2024-й год стал годом вызовов и возможностей для ИТ-отрасли, заложив фундамент для дальнейшего развития»

20.12.2024

Мурад Мирзоев, «Инферит»: В рамках бизнес группы Softline мы испытываем здоровую конкуренцию
Блог

Мурад Мирзоев, «Инферит»: В рамках бизнес группы Softline мы испытываем здоровую конкуренцию

20.12.2024

Вместе эффективнее: как объединение крупных игроков ИТ-рынка помогает цифровизации промышленного сектора
Блог

Вместе эффективнее: как объединение крупных игроков ИТ-рынка помогает цифровизации промышленного сектора

18.12.2024

Пилотные проекты по переходу на российское ПО
Блог

Пилотные проекты по переходу на российское ПО

18.12.2024

Как эмоциональный интеллект помогает строить карьеру
Блог

Как эмоциональный интеллект помогает строить карьеру

17.12.2024

4 совета джуну, который хочет построить карьеру в ИТ
Блог

4 совета джуну, который хочет построить карьеру в ИТ

17.12.2024