Как стать Data Scientist

ds.jpg

Сергей Ширкин, преподаватель образовательного портала GeekBrains, рассказывает про профессию Data Scientist: чем занимается, насколько востребован и что должен уметь исследователь данных.

Data Scientist - это общее название профессии, но специальности, которые за ней стоят, разные. Общий смысл такой - это человек, который строит модели машинного обучения, с целью сделать прогноз или получить интересные выводы из данных.
Объясню на примере. Раньше я работал в финансах, основная задача в этой сфере - определение кредитоспособности заемщика. То есть клиент приходит за кредитом, а банк должен за короткое время сделать вывод, стоит ли его выдавать. Раньше все приходилось делать вручную: специалист просматривал историю, анкетные данные и пытался понять, давать все-таки кредит человеку или нет. С помощью Data Science решить такую задачу можно значительно быстрее и точнее.
На основе данных про кредитную историю, поведение клиента, его транзакции и платежеспособность модель вычисляет вероятность того, что кредит будет погашен. После этого высчитывается скоринговый балл и затем на основе этих выводов специалист в банке решает, насколько можно этому человеку доверять. Модели машинного обучения могут ускорять такой вывод и делать его за доли секунды. С каким бэкграундом приходят в Data Science
Я пришел в Data Science с академическим бэкграундом, еще в университете я начал строить модели машинного обучения. В то время это занятие не было особенно популярно, такие знания в основном применялись в науке. В бизнесе такой подход активно внедряется последние 5-10 лет.
Data Scientist на русский язык можно дословно перевести как "исследователь данных". Но чаще встречается перевод "математик-программист" либо "аналитик данных". Люди именно с такими специальностями становятся дата-сайентистами в первую очередь.
Есть еще несколько очень близких к Data Scientist профессий - это Data Engineer и аналитик. В первом случае, чтобы попасть в Data Science, человеку нужно подтянуть математику. Во втором - программирование и машинное обучение.
Кроме этого, человек может прийти в Data Science из академической сферы, например, раньше он строил модели для науки, а потом начал заниматься этим в компании. У специалиста также может быть бэкграунд программиста, тогда ему нужно добавить знаний по математике и машинному обучению.
Иногда люди приходят из предметной сферы. Например, человек работает в маркетинге и хорошо знает предметную область, ему остается только доучить все, что связано с программированием, математикой, машинным обучением. Этот путь, конечно, самый сложный, потому что фактически человек не был связан с ИТ и ему приходится все учить с нуля. Но если он добавит к своим компетенциям знания по Data Science, то будет в своей предметной сфере очень востребованным. В каких сферах может работать Data Scientist ИТ финансы медицина бизнес наука производство страхование транспорт биоинженерия маркетинг Какими скилами нужно обладать
Дата-сайентист должен обладать такими же навыками, как и программист: усидчивостью, внимательностью, хорошо развитой логикой. Но кроме этого, профессия предполагает частое общение с людьми из разных сфер: с программистами, проджект и продакт менеджерами, специалистами из отделов маркетинга или продаж. Круг общения получается абсолютно разный и нужно уметь донести мысли о полученных выводах в процессе исследований и перевести их на язык других профессий. Важно уметь изъясняться не математическими формулами, а понятно рассказывать про результаты свой работы и их влияние на деятельность компании. Как проходит стандартный рабочий день
Рабочий день проходит по-разному. Какое-то время уходит на исследования, анализ данных, задач, моделей. Еще часть - непосредственно на сам кодинг. Если Data Scientist внедряет модели, то нужно их запрограммировать, чтобы они надежно работали. Также во время рабочего дня бывают обсуждения результатов работы и задач с командой, различные совещания, написание писем, общение с сотрудниками отдела.
Главная задача дата-сайентиста не столько написать программу, сколько придумать различные идеи для модели, понять, какие признаки использовать, чтобы она хорошо работала. Затем тестово их запустить, проверить и обсудить с коллегами. В какой команде работает Data Scientist
Команда у дата-сайентиста бывает совершенно разной, здесь все зависит от компании. Во-первых, нужно взаимодействовать с людьми, которые работают с данными, например, с Data Engineer. Иногда приходится общаться с администратором баз данных. Кроме того, Data Scientist может работать в команде со специалистами своей же профессии, например, над какой-то объемной задачей, которую они делят между собой. Также в команде могут быть бизнес-аналитики, проджект и продакт менеджеры. Иногда к работе подключаются программисты, чтобы внедрить модель, которую сделал дата- сайентист или, например, помочь запрограммировать интерфейс приложения. Насколько эта профессия востребована на рынке
Дата-сайентисты нужны. Постоянно есть вакансии. Особенности в том, что компании ищут разных специалистов под свои задачи. Например, если компания занимается созданием приложения для обработки изображений, то в таком случае Data Scientist может участвовать в создании программы и работать не только с табличными данными, но и с изображениями, с текстами. Если компания создает разговорный чат-бот, соответственно, там нужны другие скилы у специалиста.
В 2016 профессия Data Scientist возглавила рейтинг 25 лучших вакансий в США
Когда специалист разносторонний и хорошо работает как с табличными данными, так и с изображениями или текстом, то ему проще найти работу. Сейчас есть тенденция: в основном компании стараются найти уже хорошо подготовленных специалистов, то есть мидлов или синьоров, но, тем не менее, запрос на джуниоров тоже есть. Как развиваться в профессии
Практически каждому, кто хочет стать дата-сайентистом, потребуется пройти онлайн-курсы по машинному обучению. Такие курсы важно проходить периодически, вне зависимости от квалификации. Обучение необязательно должно идти по нарастающей сложности, это могут быть курсы, которые просто позволят узнать, что нового появилось в машинном обучении. Особенно это касается нейронных сетей, потому что сейчас в компьютерном зрении, в обработке естественного языка изменения происходят буквально каждый месяц. Следить за сферой и новыми направлениями также помогают подписки на тематические Telegram и Youtube-каналы. Кроме этого, можно принимать участие в соревнованиях по машинному обучению, следить за соревнованиями от различных компаний (можно на сайте kaggle.com). Постоянно появляется новая литература, подкасты. Рекомендации
Тelegram-каналы: Small Data Science for Russian Adventures Machinelearning Artificial Intelligence && Deep Learning
Youtube-каналы: Data Science Guy Флесс Компьютерные науки ФКН ВШЭ
Книги: "Распознавание образов и машинное обучение" Бишоп К. М.
"Глубокое обучение" Бенджио Иошуа, Гудфеллоу Ян "Введение в машинное обучение с помощью Python" Андреас Мюллер, Сара Гвидо Сложности и плюсы профессии
На самом деле в работе дата-сайентиста сложного очень много. Во-первых, часто приходится работать со сложными моделями, в которых нужно досконально разобраться. Во-вторых, сложности могут быть связаны именно с бизнес- составляющей работы. Моделей можно создавать очень много, но важно подобрать такие методы оценки результата, которые были бы полезны для бизнеса. Бывают сложности с самими данными, где-то они могут быть искажены либо же неполны. Это бывает очень сложно заметить, а еще сложнее исправить.
Самое увлекательное в этой работе - это ее исследовательский характер. Это похоже на науку, здесь можно пробовать различные модели, рабочие методы. Кроме того, Data Science и машинное обучение открывает двери практически в любую сферу. Например, человек может поработать в финансах, после этого перейти в маркетинг или медицину. При этом совершенно необязательно иметь профильное для этих сфер образование, на первом месте все-таки остается математика и машинное обучение. Записаться на курс
Текст: Наталия Рудаковская Источник: ООО "Р-АДВ", УНП 7718258802