Центр
системно-инженерных компетенций
ЗАКАЗАТЬ ЗВОНОК

Использование инструментов для анализа текста (Bert, Natascha, Gensim)

5 дней (40 академических часов).
Длительность:
г. Москва, Ленинградский просп., 68/24;
Место проведения:
16 января 2023
Дата проведения:
75 000 руб.
Стоимость:
Необходимые для зачисления в группу документы: паспорт, СНИЛС, диплом о высшем или среднем специальном образовании, заключенный договор об образовании.
На курсе слушатели познакомятся с основными предобученными сетями для анализа текста, научатся проводить точную настройку сети и классифицировать текст, используя возможности и библиотеки Python.

Bert – языковая модель, основанная на архитектуре трансформер, предназначенная для предобучения языковых представлений с целью их последующего применения в широком спектре задач обработки естественного языка.

Gensim – это библиотека с открытым исходным кодом на Python, которая используется для тематического моделирования без учителя и обработки естественного языка (NLP). Она предназначена для извлечения семантических тем из документов.

Natasha — набор качественных открытых инструментов для обработки естественного русского языка.
Описание курса
Целевая аудитория
Начинающие специалисты в области создания нейронных сетей, применимые в распознавании и анализе текста.
Расписание открытых форматов курса
Стоимость обучения одного слушателя
16.01.2023
Очный формат — 75 000 ₽.
Дистанционный формат — 75 000 ₽.
В результате освоения курса вы:
применять Bert для задач классификации текста;
устанавливать библиотеку Bert;
загружать и подготавливать текстовые данные;
обучать модели Bert и анализировать результат;
создавать корпуса из заданного датасета;
создавать биграммы и триграммы с помощью Gensim;
использовать модели Word2Vec и Doc2Vec из Gensim;
использовать библиотеку Razdel;
использовать библиотеку Slovnet;
сравнивать системы для русскоязычного NLP с помощью Naeval;
визуализировать разметку именованных сущностей с помощью Ipymarkup.
что такое Bert;
семейство готовых предобученных моделей Bert;
особенности архитектуры модели Bert;
что такое Gensim;
как создавать тематически модели LDA и LSI;
как анализировать метрики подобия;
что такое большой проект Natascha;
как использовать компактные эмбеддинги для русского языка из Navec;
как применить Nerus и Corus;
как извлекать структурированную информацию с помощью Yargy-парсера.

Научитесь
Узнаете
Основная информация
16 января 2023
пн–чт 10:00–17:30
75 000 руб.
м. Аэропорт,
Ленинградский проспект 68/24
Верхотуров Марк Валерьевич
Беляев Александр Владимирович
Порядок записи на курс
Консультация
Выбор курса
Заключение договора
Оплата обучения.
Подробная программа курса
1 Модель Bert

1.1 Что такое Bert
1.2 Применение Bert к задачам классификации текста
1.3 Готовые предобученные модели Bert
1.4 Представление данных
1.5 Токенизация
1.6 Архитектура модели
1.7 Обучение - метрика качества
1.8 Анализ результата

2 Модель Gensim

2.1 Что такое Gensim
2.2 Создание корпуса из заданного датасета

2.2.1 Предварительная обработка данных
2.2.2 Создание словаря

2.3 Матрицы TFIDF в Gensim
2.4 Создание биграммы и триграммы с помощью Gensim
2.5 Модели Word2Vec, с использованием Gensim
2.6 Модели Doc2Vec, с использованием Gensim
2.7 Создание тематической модели с LDA
2.8 Создание тематической модели с LSI
2.9 Метрики подобия

3 Модель Natascha

3.1 Natascha — большой проект из 9 репозиториев
3.2 Natasha — качественный компактный NER для русского языка
3.3 Библиотека Razdel — сегментация русскоязычного текста на токены и предложения
3.4 Библиотека Slovnet — deep learning моделирование для обработки естественного русского языка
3.5 Navec — компактные эмбеддинги для русского языка
3.6 Nerus — большой синтетический датасет с разметкой морфологии, синтаксиса и именованных сущностей
3.7 Библиотека Corus — коллекция русскоязычных NLP-датасетов
3.8 Naeval — количественное сравнение систем для русскоязычного NLP
3.9 Yargy-парсер — извлечение структурированной информации из текстов на русском языке с помощью грамматик и словарей
3.10 Библиотека Ipymarkup — визуализация разметки именованных сущностей и синтаксических связей
Возможные форматы обучения и размеры групп
очно (до 15 слушателей);
дистанционно в составе очной группы (без ограничения числа подключений);
корпоративный формат (для групп от 10 до 45 слушателей).
Документы об окончании
Удостоверение о повышении квалификации
Ответы на часто задаваемые вопросы
Какие форматы обучения?
Первый формат — «открытые» курсы. Их слушателем может стать любой, кому это интересно. Приходить нужно в наш офис. Занятия ведутся по расписанию и заранее определенной программе.
Второй формат — курсы, организованные по желанию Заказчика. На них присутствует только его группа. Дату определяет Заказчик. Программа может адаптироваться.
Кто проводит обучение?
Обучающие курсы проводят тренеры, за плечами которых большой опыт в том или ином направлении деятельности. Это признанные эксперты, применяющие действенные методики интенсивной подготовки по реализуемым программам. Под руководством наших тренеров можно получить знания и навыки, которые окажутся полезными в дальнейшей деятельности.
Какой документ выдается после прохождения обучения?
После успешного освоения пройденной программы выдается Удостоверение о повышении квалификации. Это документ государственного образца, который можно предоставлять по требованию. Записи в нем — на русском языке. Данные о документе включаются в федеральную информационную систему ФИС ФРДО.
Можно ли перед заказом корпоративного обучения познакомиться с тренером или увидеть, как он проводит обучение?

Да, это возможно. Более подробное представление о работе тренера можно получить, посетив его занятие в нашем офисе. Все моменты относительно обучения и выбранной программы можно уточнить, связавшись с тренером по телефону или пообщавшись с ним онлайн.
Требуемый уровень предварительной подготовки
Уверенное владение языком Python; знание основных библиотек Python для научных расчетов Numpy, Pandas, Matplotlib; уверенное владение алгоритмами машинного обучения и глубокого обучения.

Верхотуров Марк Валерьевич

Руководитель IT проектов, Разработчик Python, Data Scientist, ML-engineer
Разработка на Python
Сбор и анализ данных
Преобразование "сырых" данных в полезную информацию для бизнеса
Создание и обучение предиктивных моделей с помощью алгоритмов машинного обучения и нейросетей
Помощь бизнесу в нахождении скрытых закономерностей, прогнозировании развития событий и оптимизации ключевых бизнес-процессов
Консалтинг
Коучинг
Специализация
Должность
Дополнительные услуги

Тренер курса

Ведёт 13 курсов в ЦЕСИНКОМ

Беляев Александр Владимирович

Руководитель IT проектов, Разработчик Python, Data Scientist, ML-engineer
Разработчик информационных систем, системный аналитик, аналитик данных
Консалтинг
Специализация
Должность
Дополнительные услуги

Тренер курса

Ведёт 19 курсов в ЦЕСИНКОМ
Разработка курса или траектории обучения под вашу задачу
Центр готов взять на себя разработку курсов и траекторий обучения под уже сформированную модель компетенций или просто под список знаний и навыков, которые нужно освоить специалистам организации.
Рекомендуемые курсы
Список курсов, которые дополняют данный курс
Список категорий каталога, в которые включён курс
Траектории, в которые входит данный курс
Список курсов, требующихся для прохождения данного курса