BA Hiring week 25th-29th October 2021
К списку

Data Scientist – работа настоящего и будущего

14 апреля 2021

Специалисты по данным последние годы становятся все востребованнее. А количество данных, с обработкой и визуализацией которых не справляется простой разработчик – все больше. Множество сервисов и программ собирают данные, которые можно использовать для поиска решений, составления прогнозов и аналитики. И для работы с ними нужны профильные специалисты. Разбираемся, кто такой Data Scientists, чем он занимается и как им стать.

Кто такой Data Scientist?

Давайте начнем наше знакомство с профессией с области, в которой работают Data Scientists. Data Science – это наука о данных, которая занимается изучением данных, их анализом различными методами и последующим преобразованием данных в полезные знания. Раньше обработать данные человек мог вручную, но сейчас их количество стало настолько огромным, что для обработки часто требуется искусственный интеллект. Поэтому наука активно взаимодействует с машинным обучением, математикой, статистикой и анализом данных.

Нас постоянно окружают результаты работы Data Scientists, например, мы ежедневно смотрим прогноз погоды, реклама предлагает нам определенные товары, авиасервисы прогнозируют стоимость билетов, врачи с помощью программ могут предсказать диагнозы, а голосовые помощники выполняют множество наших просьб. Всем этим и многими другими вещами управляет специалист по данным. Data Scientist – это специалист, который занимается поиском закономерностей в больших массивах данных, анализирует и хранит их. Профессия Data Scientist считается одной из самых высокооплачиваемых и сложных в мире ИТ. 

Стоит обратить внимание на то, что Data Science стала неотъемлемой частью будущего. Сейчас ее активно используют в стартапах, IT компаниях, различных бизнесах, чтобы предоставлять наиболее точные данные и прогнозы, быть ближе к пользователю, автоматизировать свои решения и повысить маржинальность бизнеса.

Спрос на Data Scientists ежегодно растет. Например, по информации веб-сайта по поиску работы Indeed, за 2019 год вакансий Data Scientists стало на 29% больше. 

Data Scientists постоянно ищут паттерны и тренды в огромных наборах данных, используя многообразные тулы, техники и критическое мышление, чтобы найти практическое решение для реальных data-centric проблем. Давайте подробнее поговорим о том, что входит в обязанности специалистов по данным.

Чем занимается специалист Data Science?

Задачи специалиста по данным:

  • находит скрытые закономерности и связи во время изучения данных;
  • анализирует данные по необходимому критерию, который покажет эффективность создаваемой модели;
  • визуализирует данные;
  • программирует и тренирует модель машинного обучения;
  • оценивает с коллегами модель с точки зрения экономики;
  • выявляет богатые источники данных, присоединяется к ним с другими потенциально неполными источниками данных и очищает полученный набор;
  • анализирует риски;
  • анализирует внутренние процессы;
  • занимается внедрением моделей в существующие инфраструктуры;
  • дорабатывает модель и следит за процессами;
  • предлагает новые направления для развития бизнеса клиента;
  • занимается разработкой отчетов и прогнозированием;
  • консультирует руководителей и менеджера по продукту, основываясь на полученных данных.

Благодаря работе Data Scientist бизнес принимает правильные решения и опережает своих конкурентов, продукты становятся ближе к пользователям, а жизнь людей становится удобнее.

Чтобы специалистам по обработке и управлению данными преуспеть в этой области, им часто недостаточно быть эффективными просто в преобразовании массы неструктурированных данных в форму, удобную для анализа. Желательно также уметь анализировать сами обработанные объемы данных, проводить фактический анализ.

Data Scientist не равно Data Engineer

Часто в разговорах о Data Scientist упоминают и Data Engineer? Нужно понимать, что это не одно и тоже.

Data Engineers обеспечивают на проектах качественную инфраструктуру данных и уделяют внимание интеграции, моделированию, оптимизации и качеству данных. Эти специалисты влияют и на прикладные программы в оперативном контексте в области аналитики, микросервисной архитектуры и операционной аналитики. Получается, что Data Engineers разрабатывают, тестируют и поддерживают инфраструктуру данных, а также занимаются данными: их очисткой, обработкой и трансформацией. Уже очищенные данные попадают к аналитикам и Data Scientists.

У двух специалистов разные цели: Data Engineers работают над созданием пайплайна обслуживания алгоритма машинного обучения. А Data Scientists проверяют гипотезы в системе данных, и пишут алгоритмы. Оба специалиста хотят сделать данные доступными и качественными и часто работают вместе. Отсюда и постоянная путаница в их обязанностях и ответственности.

Так, Data Scientists извлекают инсайты из данных для стратегии компании, принятия решений и внедрения алгоритмов. А Data Engineers работают в команде над тем, чтобы повысить продуктивность аналитиков и быть связующим звеном между разными участниками разработки ПО.

Говорят, чтобы стать Data Science специалистом нужно постоянно учиться, но так можно сказать про многие профессии. Давайте разберемся, какие знания вам пригодятся в этой профессии, если вы только в нее попали, а также если вы уже работаете на позиции junior и планируете расти.

Требования к профессии

Что должен знать начинающий Data Scientist?

  • Программирование.

Data scientist должен уметь писать код. Специалист по данным занимается написанием модели для оценки гипотез, аналитики или оценки данных. Этого никак не сделать без знаний основных языков программирования, применяемых в области Data Science. Вам пригодятся знания:

  • Java, Hive для работы с Hadoop; 
  • Python – его основы и понимание того, как работать с ним в анализе данных. Также познакомьтесь с инструментами Matplotlib, Numpy, Scikit, Skipy;
  • SQL – для извлечения данных;
  • C++ с инструментами BigARTM, Vowpel Wabbit, XGBoost;
  • языка R, который пригодится для расчетов статистики.
  • Математика.

Аналитик данных должен пройти курсы математического анализа, математической статистики, линейной алгебры, а также знать, что такое теория вероятности. Эти знания пригодятся, для того чтобы составлять прогнозы, работать над поиском закономерностей и построением математических моделей.

В математическом анализе вам понадобятся производные, правило дифференцирования сложной функции и градиенты. Описательная статистика, планирование эксперимента и машинное обучение нужно будет изучить в курсе математической статистики. Линейная алгебра нужна для понимания механизмов машинного обучения, там обратите внимание на векторы и пространства, матричные преобразования. 

  • Машинное обучение.

Без него в вашей работе никуда. Машинное обучение нужно для создания новых моделей и переобучения существующих. Также оно связано не только с искусственным интеллектом, но и с генетическими, эволюционными алгоритмами, кластерными задачами и так далее. Благодаря машинному обучению работа Data Scientist с большими объемами данных становится эффективной.

  • Deep Learning.

Чтобы руководить проектами машинного обучения, вам нужно будет разобраться, как устроены нейронные сети и изучить основы глубокого обучения.

  • Специфику домена.

Для того чтобы понимать, как работает продукт и создавать подходящую модель, необходимы знания о домене, в котором вы работаете. Data Scientists трудятся во всевозможных отраслях, самыми популярными из которых являются маркетинг, здравоохранение и экономика. Если у вас нет нужных профильных знаний заранее, не переживайте, вы точно приобретете их на проекте.

  • Английский язык.

Обязательный пункт для любой специальности в ИТ. Английский пригодится вам в работе при общении с зарубежными клиентами и коллегами в многонациональной команде. Также вы столкнетесь с английским во время работы с различными фреймворками и технологиями, и в своем развитии: много технической литературы выпускается только на английском языке.

Если вы уже работаете в Data Science, то наверняка знакомы со всеми этими требованиями. Для опытных аналитиков данных они, конечно же, другие.

Требования к опытному специалисту по данным

Некоторые специалисты описывают успешного Data Scientist как хакера, аналитика, коммуникатора или доверенного консультанта. Давайте разберемся, какие скиллы вам пригодятся.

Кроме hard skills, которые мы описывали выше, вам нужно иметь:

  • Опыт разработки моделей машинного и глубинного обучения с фреймворками Hadoop, TensorFlow, Keras, PyTorch, Scikit-Learn, Pytorch, MLLib и другими;
  • Глубокие знания одной из областей обучения по прецедентам Machine Learning;
  • Опыт работы с SQL и инструментами BigData, как Spark/Hive;
  • Опыт работы с инструментами визуализации Pandas, Matplotlib, Seaborne.

Конечно, работа в команде требует развитых гибких навыков для Data Scientist. Давайте рассмотрим, какие навыки вам помогут.

Soft skills для Data Scientist

  1. Ассоциативное мышление.
  2. Способность излагать свои мысли так, чтобы их понял другой человек.
  3. Любопытство для погружения в проблему и дальнейшей работы с гипотезами.
  4. Умение находить эффективные решения проблем.
  5. Внимательность.
  6. Умение работать в команде и находить подход к каждому.
  7. Умение задавать хорошие вопросы.
  8. Дотошность.
  9. Умение визуализировать данные.

С требованиями и навыками разобрались. А теперь давайте узнаем, какие нам пригодятся курсы, видео и материалы, чтобы развиваться в Data Science?

Как учиться на специалиста по данным

Полезные для развития материалы 

Книги:

  1. Учебник “Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных”, Петер Флах. Книг на русском языке мало, учебник достойный вариант для погружения в машинное обучение.
  2. Тем, кто только погружается в тему, пригодится книга “Математический анализ” Липмана Берса.
  3. “Наука о данных. Базовый курс”, Джон Келлехер, Брендан Тирни. Книга Массачусетского технологического института познакомит вас с базой науки о данных.
  4. Книга “Machine Learning: A Bayesian and Optimization Perspective” Сергиос Теодоридис.

Онлайн-ресурсы:

  • UCI ML-репозиторий. Там вы найдете много публичных дата-сетов, которые грех не опробовать в домашней практике по машинному обучению.
  • Плейлист с лекциями по машинному обучению профессора Меллона университета Карнеги. Можно включить русские субтитры.
  • На Хабре можно найти много интересных материалов по тегам Data Mining, Data Science и Big Data. Советуем, заглянуть и почитать.
  • Плейлист Deep Learning Семена Козлова, разработчика стартапа Instrumental, бывшего сотрудника Dropbox и Microsoft.
  • Лекции курса по машинному обучению с Юрием Кашницким.
  • YouTube-курс машинного обучения от Яндекса.
  • Майнинг массивных наборов данных. Внутри есть главы, можно скачать pdf, посмотреть презентации, видео и сделать упражнения.

Курсы:

  1. Coursera. На ресурсе много курсов по анализу данных, в котором есть подразделение на теорию вероятности, статистику и машинное обучение.
  2. Google. У платформы есть сайт, который полностью посвятили машинному обучению и искусственному интеллекту. Там вы найдете много полезного. Также предлагаем обратить внимание на курс Machine Learning Crash Course от Google.
  3. EdX. Образовательная платформа предлагает несколько десятков программ по машинному обучению, например.
  4. Введение в Data Science и машинное обучение. Бесплатный курс от Stepik.
  5. Introduction to Probability and Statistics – курс, который поможет разобраться в статистике.

Возможно ли, изучив все материалы и требования, найти работу как junior Data scientist? Как стать Data Scientist и нужно ли на него учиться в вузе? Разберемся дальше.

Где учиться на Data Scientist?

Для того чтобы работать Data Scientist, желательно иметь высшее техническое образование. Мы уже говорили, что для освоения профессии пригодятся математика и программирование, а на гуманитарных специальностям эти дисциплины, увы, не изучают. Но не стоит опускать руки, на самом деле в мире много известных профессиональных Data Scientists, которые оканчивали вуз с гуманитарным уклоном. Поэтому при большом желании можно пойти на специализированные курсы, где вас сначала познакомят с математикой, затем с программированием, и все получится.

В вузах Беларуси нет факультета, который целенаправленно готовит Data Science специалистов, но многие из них приходят в профессию с прикладной математики и информатики. На ФПМИ БГУ однако есть магистратура по профилю “Алгоритмы и системы обработки больших данных”. Поэтому советуем вам обучиться на одном из математических факультетов, чтобы дальше вам было проще вливаться в профессию.

Не стоит забывать о практике. Благо такая возможность есть у всех на платформе Kaggle. Там регулярно проводятся соревнования по машинному обучению. Информацию об участии в таких соревнованиях можно смело вносить в резюме. Также рекомендуем вам присоединиться к сообществу Open Data Science, у которого есть свои проекты, конференции, курсы и соревнования.

Как пройти интервью специалисту по данным?

Как пройти собеседование специалиста Data Science?

  • У вас должен быть опыт.

Даже если вы начинающий Data Scientist, вы должны показать, что уже умеете работать с данными и участвовали в соревнованиях, делали что-то сами и принимали участие в хакатонах. Так работодатель поймет, что вы увлечены профессией, готовы развиваться, уже умеете работать в команде и применять знания.

  • Вы должны будете ответить на вопросы про машинное обучение и статистику.
  1. Разработка ПО: массивы, хэш-таблицы, всевозможные алгоритмы, связные списки, бинарный поиск, рекурсия.
  2. Прикладная статистика: теория вероятности, описательная статистика, регрессии, проверка гипотез, байесовский вывод.
  3. Машинное обучение: метрики классификации, регрессии, выбор статистической модели, переобучение, смещение-дисперсия, сэмплирование, проверка гипотез, модели классификации, модели кластеризации, регрессионные модели.
  4. Обработка и визуализация данных: организация, профайлинг, визуализация, обработка, стандартизация, нормализация.
  5. Глубинное обучение.
  6. Языки программирования.
  • Записывайте, что вы изучали и приходите уверенным в своих знаниях.

Надеемся, что профессия Data Scientist стала вам ближе и интереснее, а наш материал поможет вам стать лучше и ближе к своей цели. Желаем, успехов! А также приглашаем на собеседование в департамент Data & Analytics ISsoft. Если вы начинающий специалист без опыта работы, приглашаем на курсы IT, организованные на базе нашей компании.