АЛГОРИТМЫ АВТОМАТИЧЕСКОЙ ЭКСТРАКЦИИ ОТРАСЛЕВЫХ ТЕРМИНОВ В ДВУЯЗЫЧНЫХ ПАРАЛЛЕЛЬНЫХ ТЕКСТАХ И ОПРЕДЕЛЕНИЯ ИХ СЕМАНТИЧЕСКОЙ ЭКВИВАЛЕНТНОСТИ
Ключевые слова:
параллельные корпуса, моно- и мультиязычные эмбеддинги, нейронные подходы, двуязычные термины, выравнивание, сопоставление семантических эквивалентов.Аннотация
В данной статье предлагается интегрированная алгоритмическая модель для автоматического извлечения терминов (Automatic Term Extraction, ATE) и сопоставления их семантических эквивалентов (bilingual term alignment / bilingual lexicon induction) в двуязычных параллельных и сопоставимых корпусах. Мы объединяем традиционные статистические и морфологические методы (C-value, TF–IDF, Alban) с современными нейронными подходами (моно- и мультиязычные эмбеддинги, контекстуальные трансформерные модели, выравнивание слов). В экспериментальной части представлен анализ на основе метрик precision, recall и MAP с использованием параллельных корпусов и предметно-ориентированных сопоставимых корпусов.
Библиографические ссылки
1. Rigouts Terryn, A., Hoste, V., Lefever, E. In no uncertain terms: a dataset for monolingual and multilingual automatic term extraction from comparable corpora. Language Resources and Evaluation. 2019. – P. 12-20.
2. Jiaji Huang, Xingyu Cai, Kenneth Church. Improving Bilingual Lexicon Induction for Low Frequency Words. EMNLP 2020. – P. 45-58.
3. Chris Dyer, Victor Chahuneau, Noah A. Smith. (2013). A Simple, Fast, and Effective Reparameterization of IBM Model 2 (fast_align). 2013. – P. 178.
4. Jingshu Liu, Emmanuel Morin, Peña Saldarriaga. Towards a unified framework for bilingual terminology extraction of single-word and multi-word terms. COLING. 2018. – P. 34.
5. Véronique Hoste. In no uncertain terms (dataset paper). awesome-align, neural aligner based on mBERT. 2019. – P. 57.