Алгоритм K-ближайших соседей

Реализация КНН

K-Nearest Neighbours — очень простой алгоритм обучения с учителем. Его можно применять как к задачам классификации, так и к задачам регрессии. Хотя он был введен в 1950-х годах, он все еще используется сегодня.

Давайте воспользуемся простым 2D-примером, чтобы лучше понять. У нас есть помеченный набор данных, содержащий 3 группы. Наша цель — выяснить, к какой группе принадлежит данное новое наблюдение.

Сначала находятся расстояния данной новой точки до других точек.

Существуют различные методы расчета расстояний. Наиболее часто используются евклидово расстояние и манхэттенское расстояние.

Евклидово расстояние

Вы знаете это из начальной школы. Гипотенузу вы нашли в теореме Пифагора.

Предположим, у вас есть 2 точки в m измерениях. Вычтите значения двух точек в каждом измерении друг из друга и сложите квадраты этих значений. Возьмите квадратный корень из общей суммы.

Манхэттен Расстояние

Манхэттенское расстояние (другими словами, расстояние такси) рассчитывается по сеткам.

Представьте себе, что вы можете добраться из одной точки в другую на карте, используя только дороги. Самый короткий маршрут — Манхэттенское расстояние. Расстояние с высоты птичьего полета — это евклидово расстояние.

После вычисления расстояний мы сортируем каждое из них от меньшего к большему. Учитывается количество расстояний до выбранного значения k. В каком бы классе ни было большинство, это и будет группа нашей новой точки.

В задаче регрессии берется среднее значение k ближайших выбранных значений точек.

Алгоритм KNN чувствителен к выбросам и несбалансированным наборам данных.

Значение K контролирует баланс между переоснащением и недообучением.

Малый K: низкое смещение, высокая дисперсия -> переобучение
Большой K: высокое смещение, низкая дисперсия -> недообучение

Код Python

Реализация Sklearn

Давайте используем набор данных Iris для демонстрации.

from sklearn import datasets
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, accuracy_score

iris = datasets.load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=1234
)

Выше кода (с нуля)

model = Knn()
model.fit(X_train, y_train)
y_pred = clf.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
print(cm)
print("Manual Accuracy:", accuracy(y_test, y_pred))
#OUT
[[ 9  0  0]
 [ 0 12  1]
 [ 0  0  8]]
Manual Accuracy: 0.9666666666666667

Склерн

model = KNeighborsClassifier(n_neighbors=5)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
print(cm)
print("Manual Accuracy:", accuracy(y_test, y_pred))
#OUT
[[ 9  0  0]
 [ 0 12  1]
 [ 0  0  8]]
Manual Accuracy: 0.9666666666666667

Выбор правильного значения K

Пробуются разные значения, чтобы выбрать правильное значение k, и в соответствии с ошибкой выбирается наилучшее значение k. Значение k, которое всегда дает наименьшую ошибку, не выбирается. это может вызвать переоснащение. Применяется так называемая тактика локтя. При каком значении k улучшение уменьшилось, на этом останавливаются и выбирают соответствующее значение k.

k_list = list(range(1,50,2))
cv_scores = []
for k in k_list:
    knn = KNeighborsClassifier(n_neighbors=k)
    scores = cross_val_score(knn, X_train, y_train, cv=10, scoring='accuracy')
    cv_scores.append(scores.mean())
MSE = [1 - x for x in cv_scores]
plt.figure()
plt.figure(figsize=(15,10))
plt.title('K vs Error', fontsize=20, fontweight='bold')
plt.xlabel('K', fontsize=15)
plt.ylabel('Error', fontsize=15)
sns.set_style("whitegrid")
plt.plot(k_list, MSE)
plt.show()

Мы можем выбрать k равным 9.

Спасибо за чтение.

Читать далее…

ANOVA with Python
Упрощенный функциональный тест ANOVA с базовым кодом Pythontowardsdev.com

Алгоритм наивной байесовской классификации
Объяснение полиномиального и гауссовского наивного байесовского алгоритмаawstip.com

Моделирование взаимодействий и поведения
Очень краткое введение в моделирование диаграммtowardsdev.com

https://www.ibm.com/topics/knn

материалы по теме:

Новые материалы

Прогрессивная транспиляция

В последние годы программисты JavaScript (он же EcmaScript) часто используют компиляторы исходного кода , также известные как транспиляторы , для преобразования более усовершенствованной или..

Алиса в стране машинного обучения — инициатива «100 дней кода машинного обучения»

Covnets, регрессия, классификация, ReLU, предвзятость… — все это интригующие жаргоны, которые я слышал от своих сверстников, выбравших курс машинного обучения, по касательной во время обычного..

Иногда учитель, всегда ученик

Учение Йоды в применении к развитию разработчиков «Делай или не делай. Нет никакой попытки.” Обучение программированию превратилось в современное «создание группы» или «написание книги»...

Как создать файл конфигурации сборки в Xcode | Серия настроек проекта Xcode

Эта статья шаг за шагом расскажет вам, как создать новый файл конфигурации сборки в вашем проекте Xcode. Что такое файл конфигурации сборки? Файл конфигурации сборки — это обычный..

Venv против Virtualenv в Python — что использовать?

Когда дело доходит до создания виртуальных сред в Python, есть два популярных варианта: venv и virtualenv. Оба инструмента служат одной цели — созданию изолированных сред для ваших проектов..

Реализация персептрона на Python (для абсолютных новичков)

Введение За последние пару десятилетий было довольно много шумихи вокруг искусственного интеллекта и его приложений. В этой статье мы обсудим, что такое искусственный интеллект и его основное..

С помощью javascript мы можем сделать это в одну строку.

С помощью javascript мы можем сделать это в одну строку. let x = 5; let y = 7; y = [x, x = y][0]; Но то, что мы можем , не обязательно означает, что мы должны это делать.

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Computer Science Typescript Javascript Development Javascript Tips Cybersecurity Tech Development Data Learning Algorithms ChatGPT Angular Productivity NLP CSS Neural Networks Startup Golang Developer Vuejs Reinforcement Learning Reactjs Computer Vision