ЗАКАЗАТЬ ЗВОНОК
Центр
системно-инженерных компетенций
Необходимые для зачисления в группу документы: паспорт, СНИЛС, диплом о высшем или среднем специальном образовании, заключенный договор об образовании.
75 000 руб.
Стоимость:
5 дней (40 академических часов).
Длительность:
г. Москва, Ленинградский просп., 68/24;
Место проведения:
14 октября 2024
Дата проведения:

Использование инструментов для анализа текста (Bert, Natascha, Gensim)

На курсе слушатели познакомятся с основными предобученными сетями для анализа текста, научатся проводить точную настройку сети и классифицировать текст, используя возможности и библиотеки Python.

Bert – языковая модель, основанная на архитектуре трансформер, предназначенная для предобучения языковых представлений с целью их последующего применения в широком спектре задач обработки естественного языка.

Gensim – это библиотека с открытым исходным кодом на Python, которая используется для тематического моделирования без учителя и обработки естественного языка (NLP). Она предназначена для извлечения семантических тем из документов.

Natasha — набор качественных открытых инструментов для обработки естественного русского языка.
Описание курса
Целевая аудитория
Начинающие специалисты в области создания нейронных сетей, применимые в распознавании и анализе текста.
14.10.2024
Расписание открытых форматов курса
Дистанционный формат — 75 000 ₽.
Очный формат — 75 000 ₽.
Стоимость обучения одного слушателя
В результате освоения курса вы:
применять Bert для задач классификации текста;
устанавливать библиотеку Bert;
загружать и подготавливать текстовые данные;
обучать модели Bert и анализировать результат;
создавать корпуса из заданного датасета;
создавать биграммы и триграммы с помощью Gensim;
использовать модели Word2Vec и Doc2Vec из Gensim;
использовать библиотеку Razdel;
использовать библиотеку Slovnet;
сравнивать системы для русскоязычного NLP с помощью Naeval;
визуализировать разметку именованных сущностей с помощью Ipymarkup.
что такое Bert;
семейство готовых предобученных моделей Bert;
особенности архитектуры модели Bert;
что такое Gensim;
как создавать тематически модели LDA и LSI;
как анализировать метрики подобия;
что такое большой проект Natascha;
как использовать компактные эмбеддинги для русского языка из Navec;
как применить Nerus и Corus;
как извлекать структурированную информацию с помощью Yargy-парсера.

Научитесь
Узнаете
Основная информация
14 октября 2024
пн–чт 10:00–17:30
75 000 руб.
м. Аэропорт,
Ленинградский проспект 68/24
Верхотуров Марк Валерьевич
Беляев Александр Владимирович
Порядок записи на курс
Консультация
Выбор курса
Заключение договора
Оплата обучения.
Подробная программа курса
1 Модель Bert

1.1 Что такое Bert
1.2 Применение Bert к задачам классификации текста
1.3 Готовые предобученные модели Bert
1.4 Представление данных
1.5 Токенизация
1.6 Архитектура модели
1.7 Обучение - метрика качества
1.8 Анализ результата

2 Модель Gensim

2.1 Что такое Gensim
2.2 Создание корпуса из заданного датасета

2.2.1 Предварительная обработка данных
2.2.2 Создание словаря

2.3 Матрицы TFIDF в Gensim
2.4 Создание биграммы и триграммы с помощью Gensim
2.5 Модели Word2Vec, с использованием Gensim
2.6 Модели Doc2Vec, с использованием Gensim
2.7 Создание тематической модели с LDA
2.8 Создание тематической модели с LSI
2.9 Метрики подобия

3 Модель Natascha

3.1 Natascha — большой проект из 9 репозиториев
3.2 Natasha — качественный компактный NER для русского языка
3.3 Библиотека Razdel — сегментация русскоязычного текста на токены и предложения
3.4 Библиотека Slovnet — deep learning моделирование для обработки естественного русского языка
3.5 Navec — компактные эмбеддинги для русского языка
3.6 Nerus — большой синтетический датасет с разметкой морфологии, синтаксиса и именованных сущностей
3.7 Библиотека Corus — коллекция русскоязычных NLP-датасетов
3.8 Naeval — количественное сравнение систем для русскоязычного NLP
3.9 Yargy-парсер — извлечение структурированной информации из текстов на русском языке с помощью грамматик и словарей
3.10 Библиотека Ipymarkup — визуализация разметки именованных сущностей и синтаксических связей
Возможные форматы обучения и размеры групп
очно (до 15 слушателей);
дистанционно в составе очной группы (без ограничения числа подключений);
корпоративный формат (для групп от 10 до 45 слушателей).
Документы об окончании
Удостоверение о повышении квалификации
Ответы на часто задаваемые вопросы
Требуемый уровень предварительной подготовки
Уверенное владение языком Python; знание основных библиотек Python для научных расчетов Numpy, Pandas, Matplotlib; уверенное владение алгоритмами машинного обучения и глубокого обучения.

Верхотуров Марк Валерьевич

Руководитель IT проектов, Разработчик Python, Data Scientist, ML-engineer
Разработка на Python
Сбор и анализ данных
Преобразование "сырых" данных в полезную информацию для бизнеса
Создание и обучение предиктивных моделей с помощью алгоритмов машинного обучения и нейросетей
Помощь бизнесу в нахождении скрытых закономерностей, прогнозировании развития событий и оптимизации ключевых бизнес-процессов
Консалтинг
Коучинг
Специализация
Должность
Дополнительные услуги

Тренер курса

Ведёт 13 курсов в ЦЕСИНКОМ

Беляев Александр Владимирович

Руководитель IT проектов, Разработчик Python, Data Scientist, ML-engineer
Разработчик информационных систем, системный аналитик, аналитик данных
Консалтинг
Специализация
Должность
Дополнительные услуги

Тренер курса

Ведёт 19 курсов в ЦЕСИНКОМ
Разработка курса или траектории обучения под вашу задачу
Центр готов взять на себя разработку курсов и траекторий обучения под уже сформированную модель компетенций или просто под список знаний и навыков, которые нужно освоить специалистам организации.
Рекомендуемые курсы
Список курсов, которые дополняют данный курс
Список категорий каталога, в которые включён курс
Траектории, в которые входит данный курс
Список курсов, требующихся для прохождения данного курса