Проклятие размерности; Больше - не всегда лучше!

Люди учатся у машин: часть 1

Проклятие размерности; Больше - не всегда лучше

Философские выводы из концепций искусственного интеллекта и машинного обучения

За годы своего пути в качестве специалиста по искусственному интеллекту я заметил, что некоторые концепции искусственного интеллекта, которым мы обучаем машины, можно применять и в жизни для улучшения нашего благополучия и производительности. Люди учатся у машин — это серия, в которой я пытаюсь представить некоторые интересные концепции искусственного интеллекта и обсудить их философскую значимость в нашей жизни.

В мире, где машины становятся умнее, а люди ленивее, давайте извлечем несколько уроков из того, чему люди учат машины, и применим их в нашей жизни! Потому что в конечном итоге ИИ так же хорош, как и люди, которые его запрограммировали!

Начиная с одной из моих любимых цитат Стив Джобс;

Каждый должен научиться программировать компьютер, потому что он учит думать

– Стив Джобс

PS: Эту же цитату я использовал в одной из своих предыдущих статей 10 принципов кодирования, которым вас никто не научит. Ну, цитата здесь тоже актуальна :P

Давайте начнем!

1. Проклятие размерности

С появлением технологий, от Alexa до автономных автомобилей, все подпитывается технологиями, управляемыми данными. По данным Statista, ожидается, что к 2025 году объем генерируемых данных вырастет до огромных 181 трлн ГБ!!! Это число увеличилось в геометрической прогрессии, так что 90% всех данных было создано за последние три года.

Интуитивно мы предполагаем, что чем больше данных, тем лучше модели обучаются и можно получить больше информации. Ну, больше всегда лучше, верно?

Ответ….. Не всегда!

Это обычно упоминается как Проклятие размерности! Давайте посмотрим, как больше данных может повлиять на обучаемость с точки зрения вычислительной нагрузки, объема пространства, визуализации и оценки параметров.

1.1 Вычислительная нагрузка и объем пространства

Рассмотрим такой сценарий, когда вы садовник и хотите посадить розы на расстоянии 1 метра друг от друга в 100-метровом линейном саду. Это просто, верно? Посадите 100 роз, и все готово. Садоводство - это так весело! Это просто вопрос страсти ... Я люблю это !!! Запустил канал на YouTube под названием Fun with Gardening, рассказывающий о том, как заняться садоводством без какого-либо опыта! :П

Что, если бы сад был квадратным со 100 метрами с каждой стороны? В данном случае нам нужно посадить 100 х 100 роз. Сложность просто увеличилась в 100 раз. Садоводство — утомительная работа, но если вы увлечены и последовательны, то вы справитесь! Как побеждать в жизни, будучи последовательным, опубликовано видео на YouTube! :П

Как насчет кубического сада в 100 кубометров? В данном случае нам нужно посадить 100х100х100 роз. Ну, я внезапно потерял интерес к садоводству! Это невозможно! Новое видеопод названием Знать, когда бросить курить! Вышли уроки садоводства, и подписчики разочарованы :P

А теперь представьте, если бы садовник оставил лопату где-то в вышеперечисленных садах и ему нужно ее найти. Ему нужно пройти не более 100 метров, 10000 метров (10 км) и 1000000 метров (1000 км уаааа!!) соответственно для каждого сада.

Таким образом, вычислительная сложность и объем пространства экспоненциально возрастают с увеличением размеров. Мы обсудим последствия этого объема пространства в следующих разделах.

1.2 Визуализация и оценка параметров

Мы можем визуализировать данные до 4-х измерений

Что происходит после этого? Математики могут легко представить даже бесконечномерные данные, используя уравнения. По касательной, интересный ответ Бруно Джояля в MathExchange сказал

Когда кто-то говорит, что «многомерное пространство трудно визуализировать», они имеют в виду визуализацию глазами. Но математики визуализируют мозгом!

Один из величайших математиков всех времен, Леонард Эйлер, был слеп последние семнадцать лет своей жизни. Удивительно, но половина его вклада в мир пришла после его слепоты. Подобные интересные истории вы можете прочитать в Мир слепых математиков.

Есть очень интересная статья Micheal Simmons о построении моделей жизни в 4-х измерениях. Нажмите control/command и нажмите здесь, чтобы прочитать ее позже, после завершения этой статьи :P

Поскольку мы не можем видеть данные более высокого измерения, мы пытаемся экстраполировать наши интуитивные представления на данные вплоть до 4D. Так как же ведут себя данные в высших измерениях? Похоже ли это на то, что мы знаем о нем до 4 D?

Наша геометрическая интуиция терпит неудачу в Высших Измерениях

Попробуем понять это, рассмотрев d-мерную сферу.

Итак, исходя из нашей человеческой интуиции, мы предполагаем, что если мы удалим чуть меньшую сферу из большей сферы, большая часть информации будет потеряна, верно? Потому что в идеале мы будем покидать только поверхностный слой большей сферы. Давайте подойдем к этому математически, взяв относительную разницу в объемах.

В 3D, если мы предположим сферу с радиусом 3 единицы и 𝛿как0,1, относительная разница в объеме составит 0,096. Таким образом, более 99 процентов данных теряются при удалении внутренней сферы. В то время как в более высоких измерениях, скажем, в 100-мерной сфере, относительная разница в объеме составляет 0,966, а потеря информации составляет менее 1 процента при удалении внутренней сферы. Таким образом, мы можем видеть, что объем имеет тенденцию концентрироваться вокруг краев в более высоких измерениях.

1.3 Последствия

Как такое поведение данных в более высоких измерениях влияет на нас?

Доступные данные становятся скудными. Объем пространства, необходимого для представления данных, увеличивается экспоненциально, а плотность уменьшается с увеличением размеров. Это мы можем сделать из метафоры садоводства из раздела 1.1.
Относительная разница между «самой дальней» и «ближайшей» парой
объектов уменьшается.

Поскольку размеры стремятся к бесконечности, такие факторы сравнения, как «близко» или «далеко», становятся бессмысленными. Это напрямую влияет на все алгоритмы, основанные на сходстве, такие как кластеризация.

Будет невозможно обнаружить похожие точки данных на основе их относительного расстояния, поскольку они представлены, занимая такой огромный объем пространства, следовательно, это будет похоже на попытку выполнить K означает кластеризацию, где K равно количеству векторов признаков, каждая строка будет идентифицировать себя как новый кластер, что сделает информацию неактуальной.

1.4 Как справиться с проклятием размерности

Теперь вы можете увидеть последствия наличия данных более высокого измерения. Больше - не всегда лучше. Иногда мы ошеломлены количеством данных, поступающих в наш мозг. существование бесконечных возможностей заставляет нас терять фокус и ошеломляться.

Бесконечные фильмы/сериалы для просмотра, ролики, курсы, варианты карьеры, видео на YouTube… Борьба за выбор реальна!! Внезапно нам всем нужно хорошо питаться, зарабатывать деньги с помощью биткойнов, беспокоиться о фондовом рынке, заканчивать работу, проводить время с семьей, заниматься спортом, общаться и заниматься хобби…

Эта ошеломляющая информация, по сути, утомляет наш мозг, и в конечном итоге мы ничего не делаем. Беспокойство о бесконечных возможностях жизни доходит до нас, и в итоге мы впадаем в грусть и депрессию. Проклятие размерности — это проклятие и в жизни.

Как разобрать вещи, когда голова завалена мыслями? Как справиться с проклятием размерности?

Ответ тот же. Мы просто меняем нашу точку зрения и пытаемся увидеть вещи под другим углом. С новой точки зрения мы могли расставить приоритеты в том, какая информация имеет значение, а какая — просто шум! Это называется анализом основных компонентов, и именно его мы обсудим в следующей статье этой серии. Измените свои точки зрения, чтобы понять общую картину в этом мире информационной перегрузки! Люди учатся у машин: часть 2

Уменьшение размерности — Чем больше у вас есть, тем меньше вы видите!

Вы можете найти это здесь".

Большое спасибо за то, что потратили ваше драгоценное время… Надеюсь, мои взгляды помогли вам! Пожалуйста, дайте мне знать ваши ценные предложения и отзывы на LinkedIn или по электронной почте.

Кредиты: Технологические аспекты проклятия размерности Я узнал из лекций доктора Иэн Стайлз и доктора Кашиф Раджпут, факультет компьютерных наук, Бирмингемский университет. Воспользуюсь моментом, чтобы выразить свою благодарность за их бесценную службу! :D

Как всегда,

Удачного обучения :D

материалы по теме:

Новые материалы

Полное руководство по классам Java.

Введение: В сфере программирования Java зарекомендовала себя как доминирующая сила, поддерживающая бесчисленное множество приложений и систем в различных отраслях. Чтобы по-настоящему..

Почему вам не стоит становиться Data Scientist

Почему вам не стоит становиться Data Scientist Прежде всего, это очень самоуверенная статья, в которой я буду ссылаться на свой личный опыт, связанный с моей короткой карьерой, связанной с..

Почему вы должны изучать Rust

Rust - это современный язык программирования, ориентированный на безопасность и производительность памяти. Здесь нет виртуальной машины, сборщика мусора или другой ерунды, которую вы найдете в..

Разве все это не подмножество?

Начнем с утренней рутины, Алекса, выключи будильник! Чистим зубы, выбираем зубную пасту по отзывам и качеству. Начните день с выбора подходящего транспортного средства: автобуса,..

Не соглашайтесь на меньшее: улучшите свою карьеру с помощью этих сертификатов веб-разработчиков

Веб-разработка превратилась в одну из самых востребованных карьерных возможностей в современном цифровом мире. Квалифицированный Full-Stack разработчик пользуется большим спросом, поскольку..

1 — Серия интервью ML Algo: Логистическая регрессия

Одна из основных статистических моделей в своей базовой форме использует логистическую функцию для моделирования бинарной зависимой переменной . Логистическая регрессия затрагивается в..

Сделайте свой первый плагин Vite

Руководство о том, как сделать простой плагин Vite Vite — невероятный инструмент для сборки современных веб-проектов. Помимо базовой конфигурации, Vite также позволяет нам делать больше со..

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding AI Deep Learning React Software Engineering Nodejs Java Front End Development Javascript Tips Typescript Tech Cybersecurity Learning Javascript Development Development Computer Science Data Developer Golang NLP Angular CSS Algorithms Neural Networks ChatGPT Productivity Vuejs Programming Languages Reinforcement Learning Startup NPM

Проклятие размерности; Больше - не всегда лучше!

Люди учатся у машин: часть 1