Аналитический дайджест
25 September 2023 Агаси Тавадян
Наука о данных Медиа

Аналитический дайджест

Веб-скрейпинг Анализ тональности Армения 2 мин

В течение трех месяцев осуществляется регулярное представление экономических обзоров. Еженедельная рассылка данных аналитических материалов охватывает около 1600 электронных адресов.

На текущей неделе произошла утрата значимого элемента идентичности и достоинства.

Длительное время рассматривалась возможность проведения актуального статистического анализа. Было установлено, что для создания ценности требуется содействие со стороны.

В настоящий момент актуальным представляется проведение широкомасштабного анализа медийного пространства Армении. Данное исследование предусматривает проведение сентиментального анализа, который позволит оценить динамику отношения ключевых средств массовой информации (СМИ) к значимым темам, определяя положительную или отрицательную тональность публикаций. Также будет проанализировано их влияние на общественное мнение в динамике.

Предусматривается исследование трех категорий СМИ:

  • поддерживающие текущее правительство СМИ (например, armtimes.com);
  • выступающие против текущего правительства СМИ (например, 168.am/);
  • и максимально беспристрастные СМИ.

Проведение данного анализа позволит определить относительную тональность (негативную или позитивную) в отношении определенных ключевых слов, используемых данными СМИ на протяжении исследуемого периода. Среди таких слов могут быть «Арцах», «Армения» и другие (например, «Россия», «Азербайджан», «Никол», «Франция», «США»).

Основа данного анализа была заложена еще в начале 2022 года, когда были загружены и проанализированы материалы, опубликованные информационным агентством «Арменпресс» с 2010 по 2022 год. Результаты работы представлены на специально разработанном веб-сайте. Данный веб-сайт позволяет подсчитывать количество определенных слов, используемых в заголовках новостей, а также другие параметры их применения. Предусмотрена возможность выбора одного или нескольких слов для расчета, а также временного периода и метода анализа.

Исследование было проведено на основе материалов сайта информационного агентства «Арменпресс». Была разработана программа, которая начиная с 2010 года загрузила все интернет-ссылки данного сайта; их количество превысило полмиллиона (19 Гб текстовых данных). Впоследствии ссылки на новости были очищены, и была создана база данных, включающая дату размещения новости, место, ссылку, текст заголовка и текст статьи. На основе полученных данных было проведено исследование и разработан интерактивный веб-сайт.

Пример:

Для продолжения анализа требуется финансовая и интеллектуальная поддержка. В числе актуальных задач — вопрос нормализации армянского языка, то есть приведение каждого слова к его исходной форме (лемматизация). Это требует глубокого понимания логики армянского языка. Другая проблема связана с тем, что каждый веб-сайт СМИ обладает собственной уникальной структурой, что обуславливает сложности при работе с ним.

Цитирование

Тавадян, А. (2023, September 25). Аналитический дайджест. Tvyal Newsletter. https://tvyal.com/newsletter/ru/2023/2023-09-25/

Код анализа доступен на GitHub.

По теме

2 миллиона армян в Армении в 2100 году Apr 2024
Уровень долларизации и монетизации в Армении Oct 2023
Укрепление российского рубля: Возможный приток валюты из России в Армению Oct 2023
Отток российского капитала: перспективы экономического развития Армении Feb 2025
Expanding Our Services and Team - Join Us in Shaping Armenia’s Data Future Jul 2024
Электрическая Армения: сокращение производства и экспорта электроэнергии May 2024

Loading…