Открытое образование

Методы и алгоритмы компьютерной лингвистики

  • Начальный уровень
  • Наставник: Нет
  • Сертификат: Есть
  • Формат: Online
  • Рассрочка: Нет
  • Язык: Русский
  • Осталось мест: не ограничено
Записаться

Методы и алгоритмы компьютерной лингвистики

Организатор курса: НГУ

Из онлайн-курса «Методы и алгоритмы компьютерной лингвистики» вы узнаете об основных методах “классического” машинного обучения, научитесь решать задачи классификации текстов (в частности, задачу анализа тональности высказывания), морфологического анализа, распознавания именованных сущностей с использованием методов машинного обучения. Также вы овладеете техникой разработки компьютерных моделей машинного обучения на языке программирования Python

Инновационная система карьерного планирования

Программа обучения
Модуль 1. Что такое разговорный искусственный интеллект?
  • О чём этот курс?
  • Машинное обучение. Когда оно бывает вредным?
  • Виды машинного обучения
  • История развития искусственного интеллекта
Модуль 2. Умеет ли искусственный интеллект общаться?
  • Умеет ли искусственный интеллект общаться?
  • Как анализировать целые тексты?
  • Обучение с учителем. Классификация и регрессия
Модуль 3. Как передать текст компьютеру? Лингвистический аспект
  • Какие признаки бывают у объектов?
  • Стемминг: как отсекать лишнее?
  • Лемматизация: что делать с морфологическими омонимами?
  • Токенизация и лемматизация русских текстов с помощью библиотеки spaCy. Практическое занятие
Модуль 4. Как передать текст компьютеру? Статистический аспект
  • Ищем устойчивые сочетания слов. Статистика VS лингвистика
  • Выбор значимых элементов из «мешка слов» на основе критерия ?2
  • Векторизация текстов на основе TF-IDF и сокращение «мешка слов» на основе критерия ?2. Практическое занятие
  • Применение коллокатора для «умного» выявления наиболее частотных словосочетаний. Практическое занятие
Модуль 5. Как научить компьютер понимать тексты?
  • Методы обучения с учителем. Логистическая регрессия
  • Как обучать логистическую регрессию?
  • Что делать, если компьютер переучился?
  • Как оценить качество логистической регрессии?
  • Точность, полнота и F-мера для оценки качества классификации
  • Регуляризация и подбор гиперпараметров логистической регрессии
  • Применение библиотеки scikit-learn для анализа тональности твитов методом логистической регрессии. Практическое занятие
  • Оценка качества алгоритма классификации. Практическое занятие
  • Как улучшить качество классификатора? Практическое занятие
  • Как выбрать оптимальные гиперпараметры? Практическое занятие
Модуль 6. Как вырастить деревья решений?
  • Для чего нужны деревья решений?
  • Базовый алгоритм
  • Алгоритм ID3
  • Как бороться с переобучением деревьев?
  • Дискретизация количественных признаков
  • Выращиваем деревья решений для анализа тональности сообщений. Практическое занятие
  • Выращиваем деревья решений без ограничений по глубине. Практическое занятие
Модуль 7. Вместе мы сила! Равноправное голосование решающих алгоритмов
  • Теоретические основы ансамблирования
  • Бэггинг. Как повысить разнообразие алгоритмов в коллективе?
  • Бэггинг и дилемма смещения-разброса
  • Построение ансамбля алгоритмов для задачи анализа тональности сообщений. Практическое занятие
  • Использование бэггинга для логистической регрессии. Практическое занятие
Модуль 8. Вместе мы сила! Голосование с учётом компетентности
  • Бустинг
  • Градиентный бустинг
  • Градиентное усиление деревьев решений. Практическое занятие
  • Смесь экспертов
  • Многоярусное обобщение. Стекинг
  • Иерархический ансамбль. Стекинг. Практическое занятие
Модуль 9. Проблема объяснимости модели
  • Интерпретируемость машинного обучения
  • Значимость признаков на основе перестановок
  • Вектор Шепли
  • Значимость слов для классификации текстов: «белый ящик» и «черный ящик». Практическое занятие
Модуль 10. Проблема объяснимости корпуса текстов
  • Вероятностная тематическая модель
  • Вероятностный латентно-семантический анализ
  • Латентное размещение Дирихле
  • Использование вероятностных тематических моделей для анализа текстового корпуса. Практическое занятие
  • Подводим итоги

Инновационная система карьерного планирования