Почему вам не стоит становиться Data Scientist

Прежде всего, это очень самоуверенная статья, в которой я буду ссылаться на свой личный опыт, связанный с моей короткой карьерой, связанной с наукой о данных.

В настоящее время науке о данных уделяется много внимания по разным причинам. Например, ее объявили «самой сексуальной профессией 21-го века» или просто из-за широко распространенного заблуждения, что ИИ и технологии, основанные на данных, станут преобладающими и заберут много рабочих мест из-за слишком автоматизации. А может просто из-за большой зарплаты.

Но, как всегда, не просто слепо следовать хайпу, как это делал я, и избегать своих ошибок.

Наука о данных может быть не вашей чашкой чая

Чтобы стать Data Scientist, нужны очень уникальные навыки и интересы, которые есть не у всех. Очевидно, вам нужно получать удовольствие от математики и статистики, потому что это основа любого хорошего анализа данных. Вы должны обладать этими техническими навыками, а также отличными социальными навыками, потому что как Data Scientist вам придется сообщать свои результаты заинтересованным сторонам.

Необходимо знать навыки:

  • Математика
  • Статистика
  • Базовые знания программирования (Python, R)
  • Коммуникативные и презентационные навыки

Как Data Scientist вы часто будете проводить исследования и выяснять, почему произошло X или как достичь Y. Вот почему вы должны быть человеком, который предпочитает заниматься исследовательской работой, а не реализовывать решение определенных проблем.

Наука о данных может быть скучной

Интересная часть Data Science (для меня) — это построение моделей машинного обучения, чтобы что-то предсказывать. Эти алгоритмы чрезвычайно увлекательны и используют совершенно иной подход к решению задач, чем традиционное программирование.

Но построение этих моделей — это только 10% работы Data Scientist. Основная часть — это обработка и нормализация данных, которые должны быть загружены в эти модели. Обработка, нормализация, преобразование и агрегирование данных означает, что вы, вероятно, пишете много SQL-запросов или что-то подобное и выполняете запрос за запросом. Поскольку в большинстве случаев объем данных довольно велик, выполнение запросов займет много времени.

Я лично испытал ожидание выполнения моего кода от минут до часов. Нередко я писал простой запрос, ждал несколько минут выполнения и повторял его снова и снова. Это было совсем не сложно, как я изначально ожидал.

Наука о данных != Искусственный интеллект

Многим молодым специалистам по данным не терпится начать свою первую работу по созданию суперэффективных моделей машинного обучения, возможно, даже по глубокому обучению. Но затем понимание того, что работа, которую выполняет Data Scientist, может сильно различаться. Некоторые Data Scientist могут на самом деле просто заниматься глубоким обучением и серьезными исследованиями, но многие другие будут просто заниматься SQL, Excel и очень простыми статистическими моделями, такими как линейная регрессия. Большинство специалистов по данным не создают свои собственные модели машинного обучения с нуля, а используют некоторые готовые модели, такие как scikit-learn.

Наука о данных очень нишева

Анализ данных сильно зависит от качества и количества данных. Поскольку данные не являются частью основного бизнеса большинства компаний, многие из них не инвестируют ни в хранилище данных, ни в специалиста по данным, потому что это просто приятное дополнение к бизнесу, но не необходимость. Те компании, которые инвестируют в свои данные и нанимают специалистов по данным, не нанимают много, в том числе и потому, что это не основной бизнес. Вы часто найдете компании, в которых много инженеров-программистов, системных инженеров и т. д., но всего несколько специалистов по данным.

Наука о данных требует высокого уровня образования

Поскольку наука о данных опирается на математику и статистику, для получения работы необходимо высшее образование. Степень магистра является почти обязательным условием, потому что 49% нынешних специалистов по данным имеют степень магистра, а 28% даже имеют докторскую степень. Только 19% имеют степень бакалавра.

Заключение

В заключение, реальность сильно отличается от общих ожиданий. Несмотря на то, что зарплата часто бывает хорошей, входные барьеры огромны, а рынок труда в настоящее время перенасыщен, потому что многие люди хотят заниматься наукой о данных.

Если вы видите, что вам нравится исследовать причины / делать прогнозы по внедрению решений, и у вас есть или вы хотите получить образование более высокого уровня  , тогда дерзайте. Наука о данных определенно не для всех, но может быть именно тем, что вам нужно.

Если вы НЕ видите, что вам нравится исследовать причины / делать прогнозы по внедрению решений, и вы не имеете и не хотите получать высшее образование — тогда НЕ идите для этого. Если вы предпочитаете внедрять решения, вам больше подойдет карьера в области разработки программного обеспечения.