⚠️ Очень самоуверенный!

№1. Собственные комплексные конвейеры машинного обучения.

  • Вы построили модель и имеете весь бизнес контекст.
  • Если у вас нет хорошей документации, множества тестов/аудитов и не предусмотрены ожидаемые случаи сбоев, другой команде инженеров будет очень сложно взять на себя управление конвейером.
  • Используйте и информируйте инфраструктуру
    Подумайте о компонентах, которые могут снизить стоимость владения
  • Отличное чтение: https://applyingml.com/resources/end-to-end/

№ 2. Лучшие инженерные практики предназначены не только для инженеров.

Даже если вы целый день живете в ноутбуке и никогда не пишете прод-код

  • Используйте утверждения, пишите сигнатуры функций и небольшой тестовый набор, прежде чем что-либо реализовывать.
  • Нарисуйте диаграммы того, как ваши компоненты взаимодействуют друг с другом.
  • Не копируйте/вставляйте код (DRY), пишите свои собственные служебные библиотеки и повторно используйте код.

№ 3. Проекты по размеру возможностей и определение целевых показателей на ранней стадии

  • Помогает вам понять, работаете ли вы над правильными проектами
    , а не над теми ли проектами. миллион других вещей, которыми ты мог бы заняться
  • Без цели вы можете застрять в бесконечном цикле оптимизации моделей.

№ 4. Тратьте большую часть своего времени на формулирование проблемы и сбор высококачественных данных.

  • Лучшие данные ›› лучшие модели и бесконечная настройка гиперпараметров
  • Создавайте и используйте инструменты, которые упрощают пересмотр ярлыков
    по сравнению с. рассматривать ваш набор обучения/оценки как статический
  • Потратьте много времени на понимание и формулирование проблемы
    Все это не имеет значения, если вы оптимизируете не ту метрику.

№ 5. Ваш оценочный код должен быть пуленепробиваемым.

  • Ваш причудливый алгоритм статистика лучше, чем случайное предположение?
    Удивительно, но во многих случаях, даже в отрасли, ответ отрицательный 😱
  • Точечные оценки бесполезны для сравнения моделей.
  • Используйте перекрестную проверку, начальную загрузку, t-тесты.

#6- Заработайте свою сложность

  • Исследования в области МО стимулируют противоположное
    что в лучшем случае не очень эффективно в отрасли.
  • Всегда начинайте с линейного метода
    Наличие линейных моделей в разработке должно быть (к сожалению, обычно это не так) знаком почета.
  • Рассмотрите возможность использования подхода чемпион/претендент.
  • Рассматривайте возможность использования претендента только в том случае, если он:
    1. Показатель лучше, чем у чемпиона
    2- Улучшение практически заметно
    3- Улучшение является значительным после поправки на предельные затраты на разработку, обслуживание и вычисления (т. е. рентабельность инвестиций › 0).