10 причин перейти на Microsoft SQL Server 2019
Сердце современной платформы обработки данных
За последние 10 лет SQL Server прошел путь от решения для небольших и средних СУБД до мощной платформы данных уровня предприятия, рассчитанной на критичные бизнес-приложения по надежности и отказоустойчивости. С каждым новым релизом SQL Server все больше имеет право называться единым центром управления всеми данными. SQL Server учитывает все современные требования по работе с данными различных форматов и из разнообразных источников и становится естественным выбором для построения платформы интеграции, управления и анализа любых данных.
Требования к современной платформе обработки данных
В последние годы генерируется и обрабатывается все больше данных, увеличивается разнообразие их формы и смысла. Часть данных по-прежнему имеет реляционный формат и генерируется традиционными транзакционными инструментами. Обычно такие данные структурированы, их смысл и ценность хорошо понятны и известны. Но огромное количество данных имеет гораздо более сырой вид. Это данные с датчиков и сенсоров (тот самый Интернет вещей), видеокамер, записывающих устройств. Эти данные, скорее всего, несут ценность, но извлечь ее пока гораздо сложнее.
Роль современной платформы данных – принять такие разнородные данные, интегрировать их, обработать и извлечь ценную для бизнеса информацию. Кроме того, такая платформа должна:
- Обрабатывать данные как в уже существующих локальных инфраструктурах, так и в облаках. Это гибридное состояние будет продолжаться еще неопределенно долгое время.
- Позволять переносить существующие инструменты обработки данных в облачную платформу без серьезных изменений.
- Позволять разрабатывать современные облачные приложения с нуля, задействуя все облачные инструменты.
- Анализировать данные одинаково успешно как в локальной среде, так и в облачной платформе.
Если за облачную часть обработки данных отвечает Azure SQL, то за локальную составляющую платформы Microsoft для хранения и обработки данных – SQL Server 2019.
Эволюция SQL Server
*Поддержка Linux и Docker впервые реализована в SQL Server 2017.
1. SQL Server упрощает развертывание, передачу и интеграцию больших данных
- Решение для обработки больших данных на основе Kubernetes, встроенное в SQL Server, позволяет легко развернуть кластер больших данных и работать с ним. Kubernetes обеспечивает развертывание хранилищ HDFS, реляционного модуля SQL Server и средств аналитики Spark в виде контейнеров в рамках одного удобного пакета.
- В состав SQL Server 2019 входят Spark и HDFS, которые позволяют выполнять чтение и запись непосредственно в HDFS, используя SQL Server или Spark. Архитектура Kubernetes обеспечивает гибкое масштабирование вычислительных мощностей и хранилищ по запросу
2. Интеграция структурированных и неструктурированных данных
Сегодняшние объемы данных делают неразумным и невыгодным конвертацию всех доступных данных в реляционные таблицы для хранения в СУБД. Еще 2 года назад Microsoft представила технологию PolyBase, позволяющую экземпляру SQL Server обрабатывать запросы Transact-SQL, которые обращаются к данным Hadoop и объединять данные из Hadoop и SQL Server. В SQL Server внешняя таблица или внешний источник данных обеспечивает соединение с Hadoop, виртуализируя внешние источники данных без необходимости их прямого импорта в реляционную базу, и потом позволяет обращаться к этим данным с запросами.
Таким образом, данные накапливаются в своем естественном формате, не обязательно реляционном, но могут быть представлены в виде виртуальной таблицы. Виртуализация позволяет интегрировать данные разного формата, из разнородных источников и мест хранения без их репликации и перемещения, создавая единую виртуальную матрицу данных.
3. Высокая производительность
Не первый год Microsoft подтверждает высокую производительность SQL Server транзакционными тестам и тестами производительности хранилищ данных. Версия 2019 отмечена отличными результатами в следующих тестах:
- производительность OLTP;
- производительность DW для 1 ТБ, 10 ТБ и 30 ТБ;
- соотношение цены и производительности OLTP;
- соотношение цены и производительности DW для 1 ТБ, 10 ТБ и 30 ТБ.
4. Поддержка постоянной памяти (РМЕМ)
Постоянная память (Persistent Memory, PMEM) – это быстрая память, обладающая возможностью хранить данные после отключения питания. Она позволяет обрабатывать данные in-memory, избавляя от необходимости передавать данные по каналам передачи и ускоряя обработку запросов на 30% для интенсивных рабочих нагрузок ввода-вывода.
Любой файл SQL Server, помещенный на устройство PMM, теперь доступен напрямую, минуя стек хранения операционной системы, используя эффективные операции memcpy.
5. Гибридная транзакционная/аналитическая обработка (НТАР)
Модель HTAP позволяет одновременно осуществлять операционные транзакции и аналитику на одних и тех же данных в одной и той же памяти, также реализуя подход in memory.
6. Интеллектуальная обработка запросов
Параллелизация запросов и улучшенное масштабирование частых запросов благодаря механизмам интеллектуальной обработки запросов делают производительность значительно выше. Отложенная компиляция табличных переменных более чем на 50% ускоряет обработку запросов.
Семейство функций интеллектуальной обработки запросов
Приложения и инструменты аналитики работают со всеми реляционными и большими данными через ведущий экземпляр SQL Server при помощи T-SQL
7. Безопасность и соответствие требованиям
Защита конфиденциальных данных при помощи технологии Always Encrypted с защищенными анклавами. Шифрование на месте позволяет выполнять криптографические операции с конфиденциальными данными без их перемещения за пределы базы данных.
Криптографические операции включают в себя шифрование столбцов, и эти операции теперь можно выполнять с помощью Transact-SQL, они не требуют перемещения данных из базы данных. Внутри защищенных анклавов поддерживаются все полнофункциональные вычисления, включая сопоставления и сравнения диапазонов, что значительно расширяет возможности их применения
Технология Always Encrypted с защищенными анклавами доступна в Windows Server 2019.
8. Azure Data Studio
Azure Data Studio (бывший SQL Operations Studio) – это упрощенное кроссплатформенное графическое средство управления и редактор кода. Позволяет создавать запросы к реляционным и нереляционным базам данных с поддержкой разных операционных систем и источников данных. Azure Data Studio позволяет подключаться к SQL Server локально и в облаке, в Windows, macOS и Linux.
9. Выбор ОС и контейнеров
SQL Server 2019 отличается гибкостью в отношении выбора платформы, языка программирования и средства доставки.
- Поддержка Red Hat Enterprise Linux, SUSE Linux Enterprise Server, Ubuntu и Windows.
- Контейнеры Docker для Linux и Windows. Установка со встроенной поддержкой инструментов Linux: Yum lnstall, Apt-Get и Zypper.
- Один и тот же уровень абстракции с SQL Server на Linux.
- Возможность использования R, Python и Java при работе с T-SQL. Теперь расширение языка Java доступно для выполнения кода Java в SQL Server.
10. Интеллектуальный анализ данных
Развитие SQL Server пошлo по пути интеграции с другими аналитическими платформами, в частности Spark, которая включена теперь в поставку SQL Server.
Spark является очень популярным инструментом для машинного обучения, для продвинутой аналитики, имеет эффективную in memory машину. И все это интегрировано с SQL, который очень эффективен для визуализации аналитики.
Правильный анализ и эффективное представление результатов напрямую влияет на эффективность анализа данных и возможность принимать на их основе управленческие решения.