Необходимые для зачисления в группу документы: паспорт, СНИЛС, диплом о высшем или среднем специальном образовании, заключенный договор об образовании.

75 000 руб.

Стоимость:

5 дней (40 академических часов).

Длительность:

г. Москва, Ленинградский просп., 68/24;

Место проведения:

13 октября 2025

Дата проведения:

Использование инструментов для анализа текста (Bert, Natascha, Gensim)

На курсе слушатели познакомятся с основными предобученными сетями для анализа текста, научатся проводить точную настройку сети и классифицировать текст, используя возможности и библиотеки Python.

Bert – языковая модель, основанная на архитектуре трансформер, предназначенная для предобучения языковых представлений с целью их последующего применения в широком спектре задач обработки естественного языка.

Gensim – это библиотека с открытым исходным кодом на Python, которая используется для тематического моделирования без учителя и обработки естественного языка (NLP). Она предназначена для извлечения семантических тем из документов.

Natasha — набор качественных открытых инструментов для обработки естественного русского языка.

Описание курса

Начинающие специалисты в области создания нейронных сетей, применимые в распознавании и анализе текста.

Целевая аудитория

Оставить заявку

13.10.2025

Расписание открытых форматов курса

Дистанционный формат — 75 000 ₽.

Очный формат — 75 000 ₽.

Стоимость обучения одного слушателя

что такое Bert;
семейство готовых предобученных моделей Bert;
особенности архитектуры модели Bert;
что такое Gensim;
как создавать тематически модели LDA и LSI;
как анализировать метрики подобия;
что такое большой проект Natascha;
как использовать компактные эмбеддинги для русского языка из Navec;
как применить Nerus и Corus;
как извлекать структурированную информацию с помощью Yargy-парсера.

✓

Узнаете

применять Bert для задач классификации текста;
устанавливать библиотеку Bert;
загружать и подготавливать текстовые данные;
обучать модели Bert и анализировать результат;
создавать корпуса из заданного датасета;
создавать биграммы и триграммы с помощью Gensim;
использовать модели Word2Vec и Doc2Vec из Gensim;
использовать библиотеку Razdel;
использовать библиотеку Slovnet;
сравнивать системы для русскоязычного NLP с помощью Naeval;
визуализировать разметку именованных сущностей с помощью Ipymarkup.

✓

Научитесь

В результате освоения курса вы:

✓

Основная информация

13 октября 2025

Записаться

пн–чт 10:00–17:30

75 000 руб.

м. Аэропорт,
Ленинградский проспект 68/24

Верхотуров Марк Валерьевич
Беляев Александр Владимирович

Консультация

Порядок записи на курс

Выбор курса

Заключение договора

Оплата обучения.

очно (до 15 слушателей);
дистанционно в составе очной группы (без ограничения числа подключений);
корпоративный формат (для групп от 10 до 45 слушателей).

Возможные форматы обучения и размеры групп

Получить программу курса

1 Модель Bert

1.1 Что такое Bert
1.2 Применение Bert к задачам классификации текста
1.3 Готовые предобученные модели Bert
1.4 Представление данных
1.5 Токенизация
1.6 Архитектура модели
1.7 Обучение - метрика качества
1.8 Анализ результата

2 Модель Gensim

2.1 Что такое Gensim
2.2 Создание корпуса из заданного датасета

2.2.1 Предварительная обработка данных
2.2.2 Создание словаря

2.3 Матрицы TFIDF в Gensim
2.4 Создание биграммы и триграммы с помощью Gensim
2.5 Модели Word2Vec, с использованием Gensim
2.6 Модели Doc2Vec, с использованием Gensim
2.7 Создание тематической модели с LDA
2.8 Создание тематической модели с LSI
2.9 Метрики подобия

3 Модель Natascha

3.1 Natascha — большой проект из 9 репозиториев
3.2 Natasha — качественный компактный NER для русского языка
3.3 Библиотека Razdel — сегментация русскоязычного текста на токены и предложения
3.4 Библиотека Slovnet — deep learning моделирование для обработки естественного русского языка
3.5 Navec — компактные эмбеддинги для русского языка
3.6 Nerus — большой синтетический датасет с разметкой морфологии, синтаксиса и именованных сущностей
3.7 Библиотека Corus — коллекция русскоязычных NLP-датасетов
3.8 Naeval — количественное сравнение систем для русскоязычного NLP
3.9 Yargy-парсер — извлечение структурированной информации из текстов на русском языке с помощью грамматик и словарей
3.10 Библиотека Ipymarkup — визуализация разметки именованных сущностей и синтаксических связей

Подробная программа курса

Удостоверение о повышении квалификации

Документы об окончании

Ответы на часто задаваемые вопросы

Требуемый уровень предварительной подготовки

Уверенное владение языком Python; знание основных библиотек Python для научных расчетов Numpy, Pandas, Matplotlib; уверенное владение алгоритмами машинного обучения и глубокого обучения.

Записаться

Руководитель IT проектов, Разработчик Python, Data Scientist, ML-engineer

Верхотуров Марк Валерьевич

Разработка на Python
Сбор и анализ данных
Преобразование "сырых" данных в полезную информацию для бизнеса
Создание и обучение предиктивных моделей с помощью алгоритмов машинного обучения и нейросетей
Помощь бизнесу в нахождении скрытых закономерностей, прогнозировании развития событий и оптимизации ключевых бизнес-процессов

Консалтинг
Коучинг

Специализация

Должность

Дополнительные услуги

Подробнее о тренере

Тренер курса

Ведёт 13 курсов в ЦЕСИНКОМ

Руководитель IT проектов, Разработчик Python, Data Scientist, ML-engineer

Беляев Александр Владимирович

Разработчик информационных систем, системный аналитик, аналитик данных

Консалтинг

Специализация

Должность

Дополнительные услуги

Подробнее о тренере

Тренер курса

Ведёт 19 курсов в ЦЕСИНКОМ

Разработка курса или траектории обучения под вашу задачу

Центр готов взять на себя разработку курсов и траекторий обучения под уже сформированную модель компетенций или просто под список знаний и навыков, которые нужно освоить специалистам организации.

Оставить заявку

Рекомендуемые курсы

Список курсов, которые дополняют данный курс

Анализ данных с использованием языка R

Основы Data Science и Big Data, часть 1

Основы SQL. PostgreSQL. Взаимодействие с базой данных в Pyhton

Разработка приложений PyQT 5

Разработка WEB-приложений на Flask

Список категорий каталога, в которые включён курс

Траектории, в которые входит данный курс

Специалист по машинному обучению

Список курсов, требующихся для прохождения данного курса

Программирование на Python, часть 1

Программирование на Python, часть 2

Программирование на Python, часть 3. Numpy для Data Science

Программирование на Python, часть 4. Pandas для Data Science. Высокопроизводительная обработка и анализ данных в Pandas

Машинное обучения на Python, часть 1

Машинное обучения на Python, часть 2

Глубокое обучение (нейронные сети) на Python, часть 1

Глубокое обучение (нейронные сети) на Python часть 2

Глубокое обучение (нейронные сети) на Python часть 3

Машинное обучение, нейросети, искусственный интеллект (AI, ML, NLP, Data Science)