Лингвистическая алгебра спасовала перед реальными текстами

Лингвистическая алгебра спасовала перед реальными текстами

Группа лингвистов из Австралии показала, насколько точно можно описывать семантические связи между двумя словами, если представлять их в виде векторов и рассчитывать их суммы и разности. Например, представьте выражение («король» — «мужчина» + «женщина») = «королева». Авторы выяснили, насколько общим является такой подход, и где заканчивается область его применимости. Препринт исследования выложен на .Ученые рассматривали четыре хорошо известных представления, в которых каждому слову сопоставляется вектор. Его размерность определяется количеством контекстов, которые учитываются в данном представлении. В самом простом случае, например, слово «чай» чаще встречается в контексте «напиток» и реже в контексте «животные». В рамках дистрибутивной семантики предполагается, что при использовании достаточно большого числа контекстов каждое слово можно с достаточной степенью описать контекстным вектором.Далее авторы проверяли гипотезу, согласно которой разность двух контекстных векторов несет достаточную информацию о семантической связи между соответствующими словами. Например, вектор («Париж» — «Франция») должен быть похож на вектор («Копенгаген» — «Дания»). Для проверки гипотезы ученые проводили два эксперимента: в первом кластеризовали разности векторов, чтобы узнать, насколько «тесные» группы они образуют в векторном пространстве. Во втором эксперименте авторы при помощи машинного обучения классифицировали пары слов по их связи друг с другом, используя в качестве признаков разность векторов. Например, пара «самолет» — «кабина» должна быть связана признаком «одно является частью другого».Оказалось, что разности векторов хорошо подвергались кластеризации, хотя встречались и исключения. Как правило, ими были слова с несколькими значениями. Что касается классификации, результаты оказались очень хороши для случая «закрытой системы», когда все анализируемые пары гарантированно принадлежали к одной из 18 заранее определенных связей. Если же в исследуемую выборку добавить случайные пары слов, между которыми нет определенной связи, результаты классификации значительно ухудшались. Например, программа причислила пару (took,turn) к связи «прошедшее время», хотя эти два слова на самом деле никак не связаны.В итоге ученые отмечают, что разница контекстных векторов действительно является удобным признаком для семантического анализа. Тем не менее этот метод не очень хорошо подходит для анализа «сырых» данных, в которых много шума, так как классификатор находит связи там, где их нет, опираясь на контекст, но пропуская какие-либо другие признаки.

Нейрофизиологи нашли «клеточный календарь»

Нейрофизиологи нашли «клеточный календарь»

Нейрофизиологи из Манчестерского университета обнаружили в листовидном выросте, окружающем ножку гипофиза () особые клетки, реагирующие на изменения продолжительности светового дня. В летний и зимний период эти клетки вырабатывают совершенно разный набор белков. По мнению ученых, они играют роль своеобразного «биологического календаря», регулирующего длительные годовые циркадианные ритмы у млекопитающих (в частности у овец). Работа опубликована в журнале .

Яшма сдвинула кислородную катастрофу на 830 миллионов лет назад

Яшма сдвинула кислородную катастрофу на 830 миллионов лет назад

Геохимики из Висконсинского университета в Мадисоне обнаружили свидетельства наличия кислорода в эпоху архея – 3,23 миллиарда лет назад – задолго до кислородной революции (также известной как кислородная катастрофа или  «Великое кислородное событие»), начало которой датируется ранним протерозоем (2,45 миллиарда лет назад). По их мнению, единственным источником такого количества кислорода могла быть только жизнедеятельность цианобактерий. Если это предположение верно, то способность к фотосинтезу возникла у бактерий на 600 миллионов лет раньше, чем считалось до сих пор. Работа опубликована в журнале .

Энтропия MIDI-файлов разделила музыкальные эпохи

Энтропия MIDI-файлов разделила музыкальные эпохи

Ученые из Венесуэлы разделили музыкальные произведения по стилям, проанализировав содержимое соответствующих MIDI-файлов так, как если бы они были осмысленным текстом. Используя понятие информационной энтропии и методы лингвистического анализа, в работе удалось разделить несколько сотен композиций по автору и времени написания. Препринт исследования выложен на .Авторы рассматривали цифровую запись каждого из 453 исследуемых произведений в формате MIDI, который представляет собой линейную последовательность чисел. Она кодирует общие характеристики произведения (темп, тональность), а также какие ноты должны звучать в каждый момент времени, и каким тембром и громкостью они должны обладать. Рассматривая каждый MIDI-файл как текст, авторы подбирали к нему свой «язык». В качестве «слов» выступали различные комбинации из нескольких чисел. «Словарь» составляли так, чтобы у получившегося «языка» была минимально возможная информационная энтропия — мера неопределенности языка. Ее можно рассчитать следующим образом: для каждого из D «слов» рассчитать частоту p, с которой оно встречается в «тексте», а затем просуммировать произведения p log(p).

Физики научились управлять пузырьками в кипящей воде

Физики научились управлять пузырьками в кипящей воде

Ученые из Массачусетского технологического института научились «включать» и «выключать» по желанию образование пузырьков на поверхности водонагревателей. При помощи нового метода можно точно управлять процессом кипения, добиваясь таким образом максимальной эффективности и избегая опасности перегрева. Исследование опубликовано в .Для контроля образования пузырьков авторы изменяли смачиваемость поверхности нагревателя. Это достигалось за счет адсорбции-десорбции поверхностно-активных веществ (ПАВ) с незаряженным гидрофобным «хвостом» и заряженной «головой». Варьируя заряд нагревателя, ученые заставляли молекулы ПАВ садиться на поверхность или удаляться от нее.Если нагреватель покрывался молекулами ПАВ, их гидрофобные «хвосты» торчали наружу, ухудшая смачиваемость поверхности. Из-за этого улучшалось образование пузырьков. В том случае, когда нагреватель был заряжен тем же знаком, что и «головы» молекул ПАВ, они покидали поверхность, смачиваемость улучшалась, и образование пузырьков вновь становилось невыгодным.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND