АЛГОРИТМЫ АВТОМАТИЧЕСКОЙ ЭКСТРАКЦИИ ОТРАСЛЕВЫХ ТЕРМИНОВ В ДВУЯЗЫЧНЫХ ПАРАЛЛЕЛЬНЫХ ТЕКСТАХ И ОПРЕДЕЛЕНИЯ ИХ СЕМАНТИЧЕСКОЙ ЭКВИВАЛЕНТНОСТИ

Авторы

  • Zumrad Gafarova Международный университет Азии Author

Ключевые слова:

параллельные корпуса, моно- и мультиязычные эмбеддинги, нейронные подходы, двуязычные термины, выравнивание, сопоставление семантических эквивалентов.

Аннотация

В данной статье предлагается интегрированная алгоритмическая модель для автоматического извлечения терминов (Automatic Term Extraction, ATE) и сопоставления их семантических эквивалентов (bilingual term alignment / bilingual lexicon induction) в двуязычных параллельных и сопоставимых корпусах. Мы объединяем традиционные статистические и морфологические методы (C-value, TF–IDF, Alban) с современными нейронными подходами (моно- и мультиязычные эмбеддинги, контекстуальные трансформерные модели, выравнивание слов). В экспериментальной части представлен анализ на основе метрик precision, recall и MAP с использованием параллельных корпусов и предметно-ориентированных сопоставимых корпусов.

Библиографические ссылки

1. Rigouts Terryn, A., Hoste, V., Lefever, E. In no uncertain terms: a dataset for monolingual and multilingual automatic term extraction from comparable corpora. Language Resources and Evaluation. 2019. – P. 12-20.

2. Jiaji Huang, Xingyu Cai, Kenneth Church. Improving Bilingual Lexicon Induction for Low Frequency Words. EMNLP 2020. – P. 45-58.

3. Chris Dyer, Victor Chahuneau, Noah A. Smith. (2013). A Simple, Fast, and Effective Reparameterization of IBM Model 2 (fast_align). 2013. – P. 178.

4. Jingshu Liu, Emmanuel Morin, Peña Saldarriaga. Towards a unified framework for bilingual terminology extraction of single-word and multi-word terms. COLING. 2018. – P. 34.

5. Véronique Hoste. In no uncertain terms (dataset paper). awesome-align, neural aligner based on mBERT. 2019. – P. 57.

Опубликован

2026-03-05