Частота термина — Обратная частота документа

TF-IDF — это сокращение от термина «частота, обратная частоте документа». Это метод векторизации, используемый в области обработки естественного языка. Да, я знаю, это пугающая фраза, но поверьте мне, она намного проще, чем кажется.

Использование TF-IDF

Обработка естественного языка или НЛП — это область машинного обучения, которая занимается обработкой данных на естественном языке, включая, помимо прочего, комментарии пользователей, обзоры, анализ настроений и перевод текста.

Одно общее препятствие для всех формулировок задач, связанных с НЛП, заключается в том, что входные данные являются текстовыми. Небольшое напоминание для всех вас, ребята из Machine Learning 101 — для алгоритма нужны числа! Он не может обрабатывать текстовые данные. И что теперь? Как мы поступим?

Одной из представленных инновационных технологий была векторизация. Это включало связывание каждого предложения с вектором числовых значений, и этот вектор становился входными данными, которые вводились в модель. TF-IDF является одним из таких методов векторизации. Теперь, когда мы знаем «что?» и «почему?», давайте углубимся в «как?»

Предпосылки

Вам, ребята, необходимо узнать немного больше, прежде чем погрузиться в работу TF-IDF. Да, я мог бы включить его сюда, но это сделало бы статью длинной и скучной. Не волнуйтесь, это очень быстро читается. Он охватывает все основы обработки данных в текстовом формате. Вот ссылка — Обработка текстовых данных

Работа TF-IDF

TF-IDF обычно применяется к группе документов, каждый из которых состоит из группы предложений, чтобы понять значение слова в документе и в наборе документов. Для простоты понимания рассмотрим 3 документа и скажем, что в каждом из документов есть 1 предложение. Предположим, что каждое из этих предложений прошло через методы токенизации и нормализации, упомянутые в статье о предварительных требованиях.

Документ 1: бегите быстро

Документ 2: бегите медленно

Документ 3: иди быстро, беги быстро

Здесь мы сначала вычисляем «Частоту термина», а затем «Частоту обратного документа» для каждого слова и умножаем эти 2 значения, чтобы получить вектор для предложения.

Давайте сначала составим частотную таблицу, соответствующую всем уникальным словам:

Срок Частота

Он рассчитывается следующим образом:

Термин Частота прямо пропорциональна важности слова. Эта мера придает равное значение всем терминам.

Обратная частота документа

IDF рассчитывается следующим образом:

IDF использует логарифмические функции для обеспечения обратной зависимости между важностью слова и его частотой. Значение, возвращаемое IDF для конкретного слова, обратно пропорционально его частоте в документе, т. е. чем реже слово, тем важнее оно для документа. (log10 здесь означает - журнал по основанию 10)

Окончательные векторы

Произведение как TF, так и IDF устанавливает правильный баланс и дает число, которое может быть связано со словом, и, следовательно, позволяет нам представить предложение в виде вектора.

Затем эти векторы передаются в соответствующую модель машинного обучения, где каждый вектор действует как точка данных. Ниже приведен лишь один из методов векторизации. Есть и другие методы, такие как Мешок слов и Word2Vec.

На этом все! Счастливого обучения!

Полное раскрытие: я работаю на https://www.ml-concepts.com/, и эта статья была впервые опубликована там.

материалы по теме:

Новые материалы

Отслеживание состояния с течением времени с дифференцированием снимков

Время от времени что-то происходит и революционизирует часть моего рабочего процесса разработки. Что-то более забавное вместо типичного утомительного и утомительного процесса разработки. В..

Я предполагаю, что вы имеете в виду методы обработки категориальных данных.

Я предполагаю, что вы имеете в виду методы обработки категориальных данных. Пожалуйста, проверьте мой пост Инструментарий специалиста по данным для кодирования категориальных переменных в..

Игра в прятки с данными

Игра в прятки с данными Я хотел бы, чтобы вы сделали мне одолжение и ответили на следующие вопросы. Гуглить можно в любое время, здесь никто не забивается. Сколько регионов в Гане? А как..

«Раскрытие математических рассуждений с помощью Microsoft MathPrompter и моделей больших языков»

TL;DR: MathPrompter от Microsoft показывает, как использовать математические рассуждения с большими языковыми моделями; 4-этапный процесс для улучшения доверия и рассуждений в математических..

Раскройте свой потенциал в области разработки мобильных приложений: Абсолютная бесплатная серия

Глава 6: Работа в сети и выборка данных Глава 1: Введение в React Native Глава 2: Основы React Native Глава 3: Создание пользовательского интерфейса с помощью React Native Глава 4:..

Все о кейсах: Camel, Snake, Kebab & Pascal

В программировании вы сталкивались с ними при именовании переменной, класса или функции. Поддержание согласованности типов и стилей случаев делает ваш код более читабельным и облегчает совместную..

Как работает дистанционное парное программирование и почему оно может изменить вашу жизнь

Серебряная пуля от одиночества и отвлекающих факторов во время обучения программированию Независимо от того, работаете ли вы или учитесь удаленно, велика вероятность, что одиночество и..

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Tech Javascript Development Javascript Tips Cybersecurity Data Development Learning ChatGPT Angular Algorithms Neural Networks CSS NLP Productivity Golang Developer Startup Vuejs Reactjs Reinforcement Learning Computer Vision