Лингвистическая алгебра спасовала перед реальными текстами

Группа лингвистов из Австралии показала, насколько точно можно описывать семантические связи между двумя словами, если представлять их в виде векторов и рассчитывать их суммы и разности. Например, представьте выражение («король» — «мужчина» + «женщина») = «королева». Авторы выяснили, насколько общим является такой подход, и где заканчивается область его применимости. Препринт исследования выложен на .Ученые рассматривали четыре хорошо известных представления, в которых каждому слову сопоставляется вектор. Его размерность определяется количеством контекстов, которые учитываются в данном представлении. В самом простом случае, например, слово «чай» чаще встречается в контексте «напиток» и реже в контексте «животные». В рамках дистрибутивной семантики предполагается, что при использовании достаточно большого числа контекстов каждое слово можно с достаточной степенью описать контекстным вектором.Далее авторы проверяли гипотезу, согласно которой разность двух контекстных векторов несет достаточную информацию о семантической связи между соответствующими словами. Например, вектор («Париж» — «Франция») должен быть похож на вектор («Копенгаген» — «Дания»). Для проверки гипотезы ученые проводили два эксперимента: в первом кластеризовали разности векторов, чтобы узнать, насколько «тесные» группы они образуют в векторном пространстве. Во втором эксперименте авторы при помощи машинного обучения классифицировали пары слов по их связи друг с другом, используя в качестве признаков разность векторов. Например, пара «самолет» — «кабина» должна быть связана признаком «одно является частью другого».Оказалось, что разности векторов хорошо подвергались кластеризации, хотя встречались и исключения. Как правило, ими были слова с несколькими значениями. Что касается классификации, результаты оказались очень хороши для случая «закрытой системы», когда все анализируемые пары гарантированно принадлежали к одной из 18 заранее определенных связей. Если же в исследуемую выборку добавить случайные пары слов, между которыми нет определенной связи, результаты классификации значительно ухудшались. Например, программа причислила пару (took,turn) к связи «прошедшее время», хотя эти два слова на самом деле никак не связаны.В итоге ученые отмечают, что разница контекстных векторов действительно является удобным признаком для семантического анализа. Тем не менее этот метод не очень хорошо подходит для анализа «сырых» данных, в которых много шума, так как классификатор находит связи там, где их нет, опираясь на контекст, но пропуская какие-либо другие признаки.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND