
Data Scientist – профессия десятилетия
Специалист по Data Science – самая востребованная и высокооплачиваемая профессия текущего года в США. Согласно отчету компании Glassdoor, средняя годовая зарплата работника составляет 116 000$ в год, а количество открытых вакансий насчитывает более полутора тысяч. Причина такого ажиотажа заключается в том, что современным компаниям стали нужны сотрудники, которые смогут «обуздать» BigData, выявить скрытые зависимости и тренды в потоке информации.
За несколько лет на рынке труда сформировался набор качеств, которыми должен обладать специалист в этой области: знание математического анализа и линейной алгебры, а также опыт программирования на языке Python, включающий готовые инструменты для машинного анализа.
В качестве отдельного научного направления Data Science («наука о данных») появилась ровно полвека назад – в 1966 году. Однако до бума BigData это была редкая академическая дисциплина. С их же появлением «наука о данных» получила развитие в прикладной области, с ее помощью сегодня retail-компании оптимизируют цепочки поставок, прогнозируют продажи и составляют маркетинговые акции. В медицинских учреждениях на основе показаний состояния пациента формируется прогноз развития заболевания. С результатами работы data scientist вы сталкиваетесь каждый раз, когда музыкальный портал рекомендует вам определенную музыку.
Все больше компаний теперь «борются» с информацией, а не работают с ней. Она прибывает в неструктурированном виде, а специалисты подобные объемы ранее не обрабатывали. И это неудивительно: мы постоянно слышим о том, что каждый год в несколько сотни раз возрастает количество цифровых данных, и совсем скоро, их количество сравнится с числом звезд во Вселенной. Так, если организация хранит петабайты данных, но не может их обработать и извлечь коммерческую выгоду, то это является первым сигналом о том, что требуется специалист по Data Science.
Напомним, что «большие данные» – это молодое направление, сам термин появился в 2008 году, и изначально интерес был чисто академическим. Но после того, как объем данных значительно возрос и открылись новые возможности применения Data Science в бизнес-среде, интерес перешел в практическую плоскость. Уже в 2011 году BigData было названо компанией Gartner определяющим технологическим трендом «номер два» (первое место отдали виртуализации). Спустя два года, в качестве учебной дисциплины науку о больших данных стали преподавать университетах. Одним из первых специальность «Управление большими данными» ввел Университет Иннополиса, специализирующийся на подготовке специалистов компьютерных наук различного профиля. Курсы по подготовке кадров присутствуют также в Высшей школе экономики (ВШЭ) и Московском физико-техническом институте (МФТИ).
Основным подходом, который применяют специалисты в науке о данных является машинное обучение – набор методов и алгоритмов, которые позволяют найти неизвестные ранее закономерности и взаимосвязи. Зачастую data scientist приходится решать задачи прогнозирования определенных величин исходя из набора исторических данных со сложной структурой. С помощью различных методов регрессионного анализа мы можем спрогнозировать цены на акции, нагрузку на энергосистемы или телефонные сети и даже результаты футбольных матчей.
Помимо прогнозирования, актуальной задачей является поиск структуры во входящей информации, когда необходимо сгруппировать объекты по схожим параметрам, например, объединить клиентов в группы или отсортировать текстовые статьи со схожей темой. Такие процессы принято называть «кластеризацией». Упорядочить можно не только текстовые материалы или численные параметры, благодаря развитию искусственных нейронных сетей стало возможным распознавание изображений, или, следуя технической терминологии, «компьютерного зрения».
Важно понимать, что специалист data scientist в большинстве случаев исследователь. В процессе работы он находит скрытые закономерности в данных и тренды в реальном мире. Там, где сотрудники по статистике или аналитике сворачивают свою работу, деятельность для специалиста Data Science только начинается. Для решения проблемы он использует сочетание разных алгоритмов и методик, применяет математическое моделирование, что на сегодняшний день для компаний больше экзотика. Но если сейчас мы не можем представить, на что была бы похожа бухгалтерская работа без Excel, то в ближайшее десятилетие мы также изменим свое отношение к работе с данными. Разумеется, профессионалы только появляются на рынке труда, однако с развитием программ обучения Data Science их число еще будет расти.
Подпишитесь на нашу рассылку последних новостей и событий
Подписаться