⚠️ Очень самоуверенный!
№1. Собственные комплексные конвейеры машинного обучения.
- Вы построили модель и имеете весь бизнес контекст.
- Если у вас нет хорошей документации, множества тестов/аудитов и не предусмотрены ожидаемые случаи сбоев, другой команде инженеров будет очень сложно взять на себя управление конвейером.
- Используйте и информируйте инфраструктуру
Подумайте о компонентах, которые могут снизить стоимость владения - Отличное чтение: https://applyingml.com/resources/end-to-end/
№ 2. Лучшие инженерные практики предназначены не только для инженеров.
Даже если вы целый день живете в ноутбуке и никогда не пишете прод-код
- Используйте утверждения, пишите сигнатуры функций и небольшой тестовый набор, прежде чем что-либо реализовывать.
- Нарисуйте диаграммы того, как ваши компоненты взаимодействуют друг с другом.
- Не копируйте/вставляйте код (DRY), пишите свои собственные служебные библиотеки и повторно используйте код.
№ 3. Проекты по размеру возможностей и определение целевых показателей на ранней стадии
- Помогает вам понять, работаете ли вы над правильными проектами
, а не над теми ли проектами. миллион других вещей, которыми ты мог бы заняться - Без цели вы можете застрять в бесконечном цикле оптимизации моделей.
№ 4. Тратьте большую часть своего времени на формулирование проблемы и сбор высококачественных данных.
- Лучшие данные ›› лучшие модели и бесконечная настройка гиперпараметров
- Создавайте и используйте инструменты, которые упрощают пересмотр ярлыков
по сравнению с. рассматривать ваш набор обучения/оценки как статический - Потратьте много времени на понимание и формулирование проблемы
Все это не имеет значения, если вы оптимизируете не ту метрику.
№ 5. Ваш оценочный код должен быть пуленепробиваемым.
- Ваш причудливый алгоритм статистика лучше, чем случайное предположение?
Удивительно, но во многих случаях, даже в отрасли, ответ отрицательный 😱 - Точечные оценки бесполезны для сравнения моделей.
- Используйте перекрестную проверку, начальную загрузку, t-тесты.
#6- Заработайте свою сложность
- Исследования в области МО стимулируют противоположное
что в лучшем случае не очень эффективно в отрасли. - Всегда начинайте с линейного метода
Наличие линейных моделей в разработке должно быть (к сожалению, обычно это не так) знаком почета. - Рассмотрите возможность использования подхода чемпион/претендент.
- Рассматривайте возможность использования претендента только в том случае, если он:
1. Показатель лучше, чем у чемпиона
2- Улучшение практически заметно
3- Улучшение является значительным после поправки на предельные затраты на разработку, обслуживание и вычисления (т. е. рентабельность инвестиций › 0).