Гомоскедастичность — это постоянная (или однородная) дисперсия набора случайных величин. Вам может быть интересно, как может измениться дисперсия. Это не одно число?

Именно здесь имеет значение идея набора переменных. Мы не рассматриваем одну переменную изолированно, мы рассматриваем взаимосвязь между комбинацией переменных. Например, ваша зависимая переменная имеет фактические и прогнозируемые значения. Говоря о дисперсии в этом наборе, мы имеем в виду дисперсию прогнозируемых значений (или их ошибку) как функцию фактического значения.

Одно из фундаментальных предположений линейной регрессии состоит в том, что ошибка в прогнозах гомоскедастична. Когда это предположение нарушается, меры согласия перестают быть надежными. Гомоскедативность также требуется для тестов дисперсионного анализа (ANOVA).

Гетероцедентичность, как вы уже догадались, представляет собой гетерогенную дисперсию. Это общая характеристика многих отношений в реальном мире. Например, если рассмотреть взаимосвязь между доходом и тем, сколько денег люди тратят на еду, то те, у кого более высокие доходы, будут иметь большую гибкость в выборе того, сколько они тратят. Некоторые могут тратить больше на роскошные ингредиенты или ужинать вне дома, в то время как у других могут быть более простые и скромные привычки, что приводит к высокой дисперсии. С другой стороны, те, у кого меньше доходов, будут иметь гораздо более ограниченные бюджеты и меньшую дисперсию.

Вы можете проверить гетероскедичность для линейной регрессии с помощью теста Бреуша-Пагана, который проверяет наличие зависимости между дисперсией ошибок и независимыми переменными. Этот тест доступен на Python в пакете statsmodel package.

Если какие-либо из ваших независимых переменных имеют гетеросценадность, вы все равно можете использовать их с линейными моделями, применив поправку:

  1. Преобразование отдельной функции в логарифмическую шкалу
  2. Преобразование цели в логарифмическую шкалу или другое подходящее преобразование
  3. Применение весов к обучающим данным в оценке взвешенных наименьших квадратов
  4. Используйте оценку стандартной ошибки, совместимой с гетероскедастичностью (HCSE).

Эти альтернативы обычной оценке методом наименьших квадратов доступны в пакете statsmodel, который также содержит подробное руководство по WLS.

Гомосцедативность, гетероцедальность и другие ключевые понятия для работы с моделями в реальных условиях описаны в моей колоде Карточки по машинному обучению: основные концепции моделирования. Посмотрите на Etsy!