Понимание НЛП и BERT

С удивительным прогрессом в области ИИ за последнее десятилетие мы прошли долгий путь. Разработано множество моделей, и результаты исследований доступны для обычных людей. Как и во многих областях исследований, у нас есть НЛП, область обработки естественного языка.

Сегодня в этом конкретном блоге мы поговорим о BERT, двунаправленной модели, разработанной Google. Это один из исторических скачков в области НЛП, сделанный исследователями, работающими в этой области на протяжении многих лет.

Фон

Давайте лучше разберемся с BERT (вау, берт лучше). Чтобы показать, мы начнем с понимания НЛП.

НЛП — это процесс понимания значения слова в предложении и представления их в числах, чтобы компьютеры могли их понять.

НЛП может быть специфичным для конкретной задачи (области) или может быть общим. Хотя для конкретных задач нам требуется сравнительно небольшой набор данных, есть одно но. Модель лучше обучается на больших наборах данных. Итак, вот двухэтапная концепция предварительной подготовки и тонкой настройки.

Затем идет модель BERT, невероятно мощная модель, которая сегодня используется в большинстве задач НЛП.

НЛП

Я думаю, что было бы неразумно описывать BERT, не говоря о том, как работает НЛП. Вы можете пропустить эту часть, если вы уже знакомы.

В основном НЛП состоит из трех важных фаз:

Обработка текста
Извлечение признаков
Моделирование

Сначала давайте разберемся с частью обработки текста. По сути, это процесс преобразования необработанного текста в лучший формат. Это может состоять из таких процессов, как:

Очистка данных: чтобы удалить специальные символы, html-теги в тексте
Нормализация регистра: преобразование Car, car, CAR =› car
Нормализация пунктуации: заменить знаки препинания пробелами.
Токенизация: преобразование текста в отдельные слова
Удаление стоп-слов: удаление «a», «the», «is» и т. д.
Вывод: преобразование run,run,running => run

И после обработки мы выполняем извлечение признаков. По сути, на этом этапе мы преобразуем текст в вектор, который можно передать в модели машинного обучения. Но вот что. Как эффективно преобразовать текст в вектор?
Есть много способов сделать это. Это может быть использование таких методов, как Bag of Words или Term Frequency — обратная частота документа.

Но есть ограничения для вышеперечисленных методов. Поэтому нам нужен лучший способ с именем Word2Vec. Чтобы быть точным, этот метод использует векторное пространство для размещения разных слов и установления отношений между ними в векторном пространстве (расстояние между ними).

И появляется современная языковая модель, такая как BERT, которая полностью произвела революцию в пространстве НЛП.

БЕРТ

Представление двунаправленного кодировщика от Transformer — мощная модель от Google. По сути, в нем есть несколько важных частей, и мы собираемся понять их.
Во-первых, двунаправленная часть. Модель может быть контекстно-независимой или контекстно-зависимой. Кроме того, контекстуальная модель может быть разветвлена на две подчасти, однонаправленную и двунаправленную. Например: слово «банк» может быть разным в другом контексте, финансовом учреждении или берегу реки. Если его контекстуальное значение получено или понято из слов, предшествующих ему, или только слова после него, то оно однонаправленное, а если оно с обеих сторон, то двунаправленное. И, конечно, двунаправленный лучше, чем однонаправленный.

Он основан на работе недавней модели, в которой использовалось обучение последовательности с полуучителем, однако это модель без учителя. И результат показал, что сочетание контролируемых методов обучения с неконтролируемой предварительной подготовкой работает очень хорошо.

Кроме того, он предварительно обучен с использованием только корпуса простого текста (Википедия), в отличие от предыдущего, в котором использовалось генеративное предварительное обучение с большим корпусом.

Вот изображение, показывающее сравнение модели BERT с другой современной моделью контекстной предварительной подготовки:

Стрелки указывают на поток информации от одного уровня к другому. Зеленые прямоугольники вверху показывают окончательное контекстуальное представление каждого входного слова:

Чтобы узнать больше о BERT: Бумага

материалы по теме:

Новые материалы

Легкие индексные файлы с кодом VS

Зачем использовать индексные файлы? Если в повседневном кодировании вы будете сильно полагаться на Javascript / Typescript, вы будете хорошо осведомлены о боли, связанной с импортом...

Как показать загрузчик при переходе между страницами в Next.js

В этой статье мы реализуем компонент NavigationLoader , который будет отображаться при переходе между двумя страницами Next.js. TLDR, просто покажите мне уже рабочий код! код и демо..

Интерпретируемые и компилируемые языки программирования

Это первая часть серии сообщений в блоге об основах науки о данных с использованием Python. Языки программирования можно разделить на две основные категории: компилируемые и..

Работа с нейронными процессами, часть 1 (машинное обучение)

Авторегрессионные условные нейронные процессы (arXiv) Автор: Вессел П. Бруинсма , Стратис Марку , Джеймс Реквиема , Эндрю Ю. К. Фунг , Том Р. Андерссон , Анна Воан , Энтони Буономо ,..

Я получил хорошо оплачиваемую работу веб-разработчика за 3 месяца. Вот что я сделал.

От нулевого опыта до получения работы в Web Dev всего за 3 месяца Название звучит слишком хорошо, чтобы быть правдой? Что ж, с большим трудом и четким планом каждый, кто хочет потратить..

Итак, что такое MLOps?

Согласно Представляя MLOps: «MLOPs — это стандартизация и оптимизация управления жизненным циклом машинного обучения». Это особенно интересное определение, потому что его разделение..

Прогрессивная транспиляция

В последние годы программисты JavaScript (он же EcmaScript) часто используют компиляторы исходного кода , также известные как транспиляторы , для преобразования более усовершенствованной или..

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Computer Science Typescript Javascript Development Cybersecurity Javascript Tips Tech Development Data Learning Algorithms Angular ChatGPT Neural Networks Productivity CSS NLP Developer Startup Golang Vuejs Reactjs Reinforcement Learning Computer Vision