Форум ИГШ

Старое место
Текущее время: 17 ноя 2018 16:45

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 6 ] 
Автор Сообщение
 Заголовок сообщения: Семантические координаты
СообщениеДобавлено: 10 ноя 2012 15:41 
Не в сети
Аватара пользователя

Зарегистрирован: 11 апр 2010 20:18
Сообщения: 2737
Откуда: Новокузнецк
Возьмем словарь синонимов и антонимов. Для каждого слова (или значения слова) даются синонимические значения и противоположные. Какую интересную информацию о языке можно выделить, механически получить, переработав этот словарь? В статье [1] описывается удивительно простой и изящный подход, приведший к получению весьма нетривиального результата.

Возьмем все слова из словаря, расположим их в вершинах графа, и проведем ребра в соответствии с отношениями синонимии/антонимии. Затем доработаем граф так, чтобы все отношения были симметричными (если глокий синоним кузявого, то и кузявый синоним глокого). На этом этапе будут устранены некоторые ошибки словаря: если пара слов записана и синонимами, и антонимами, то такое ребро графа стирается. Иными словами, если глокий записан в словаре синонимом кузявого, а кузявый числится антонимом глокого, то сочтем это ошибкой и уберем обе ссылки этих слов друг на друга.

Вполне вероятно, что граф наш распадется на несколько компонент связности: каждая компонента — подмножество графа, по ребрам которого можно дойти из одной вершины в другую. Самую большую из этих компонент авторы называют ядром, и, для всех исследованных словарей, следующая за ней по размеру компонента довольно мала. Размер ядра для английских словарей составил 15—20 тыс. слов. От любого слова до любого можно добраться по связям: пустой — антоним полного, полный — синоним толстого, худой — антоним толстого, добрый — антоним худого, и так далее.

Затем авторы разворачивают полученный граф в многомерном пространстве (скажем, 25-мерном), так что каждая вершина получает свое положение в пространстве, радиус-вектор xi. Затем определяется функционал энергии системы этих точек в пространстве, следующим образом:

[img]http://www.codecogs.com/eq.latex?H=-\frac%7B1%7D%7B2%7D\sum_%7Bi,j=1%7D%5E%7BN%7DW_%7Bi%20j%7D\mathbf%7Bx%7D_i\cdot\mathbf%7Bx%7D_j+\frac%7B1%7D%7B4%7D\sum_%7Bi=1%7D%5E%7BN%7D\left\%7C\mathbf%7Bx%7D_i\right\%7C%5E4[/img],

где значение Wi,j=Wj,i равно 1, если слова i и j суть синонимы, −1, если антонимы, и 0 в противном случае. Иными словами, W есть матрица связности нашего графа, где веса ребер равны 1 для синонимов и −1 для антонимов.

Первый член суммы определяет стремление синонимов кучковаться по одну сторону начала координат, так что их радиус-векторы сонаправленны (в этом случае скалярное произведение максимально, и данная пара синонимов, при коэффициенте W=1, вносит наибольший отрицательный вклад в суммарную энергию (а ищется минимум этой энергии). Точно так же, радиус-векторы антонимов стремятся выстроиться в линию, но противопоставленно, благодаря смене знака W=−1. Второй член — простая регуляризация, она тянет центр всей системы частиц к началу координат, и не дает ей разбегаться. Чем выше степень при норме вектора, тем круче возрастает энергия за пределами гиперсферы единичного радиуса.

В результате численного решения уравнения, мы найдем все координаты (25-мерный вектор) для каждого из, скажем, 20 тыс. слов. Поскольку формула сферически симметрична, то это решение может выстроиться в пространстве в любой ориентации, и, к тому же, зеркально отраженным по любой из координат. Чтобы разобраться в том, что у нас вышло, следует упростить решение, выбросив из него незначащую информацию. Математически это делается методом главных компонент (МГК, англ. PCA). Этот метод позволяет существенно сократить размерность данных, если данные «спюснуты» вдоль одной или нескольких осей. Например, если наши точки выстроятся вдоль диагонали трехмерного куба, то на самом деле это не трехмерные данные, а одномерные: проведем новую ось X вдоль диагонали, а оси Y и Z нам и не потребуются, потому что новые эти координаты все равно окажутся нулевыми. На практике, значения координат по «лишним» осям ненулевые, но и невелики; обычно это экспериментальный шум, которым можно пренебречь. МГК дает ответ также, какую точность мы потеряем, уменьшив число координат до некоего взятого. Например, если оказывается, что в 20-мерном наборе данных самая главная новая координата опишет 55% информации, две первых опишут 70%, три — 99,5%, а четыре и более все больше приближают нас к исходным 100%, то мы можем смело отбросить последние 17 координат и разглядеть в данных трехмерный набор — выбросив тем самым только 0,5% информации (которая может быть полезной, а может и просто шумом).

Так вот, после того, как авторы обработали полученное решение с помощью МГК, выяснилось, что данные можно сжать до трехмерных с точностью 95%, или четырехмерных с точностью 99%. Иными словами, сопоставив каждому слову в решении только 4 независимых числа, можно сохранить практически все свойства этого решения (максимальное сближение синонимов и расхождение антонимов).

До сих пор мы рассматривали только математический трюк, позволивший нам сопоставить 4 числа (тяготеющих к диапазону [-1, 1] благодаря регуляризации) с каждым словом. Но неожиданно оказывается, что у каждой из этих 4 осей имеется явный смысл, причем (для первых 3) один и тот же в разных языках! Первая, самая главная ось, раскладывает слова по шкале «хороший-плохой» по их эмоциональным коннотациям. Вторая ось — шкала «возбуждения», от «успокаивающего» до «возбуждающего», а третья — шкала «свободы», от «закрытого» до «открытого». Первые три оси несут 95% информации из решения. Четвертая ось имеет переменный смысл, в зависимости от языка и словаря. В целом, интервал значений по каждой оси уменьшается с ее номером, то есть слова собираются в более тесные группы ближе к 0. Выходит, что наибольшее количество информации, заключенное в слове, соответствует тому, насколько «хорошее/плохое» обозначается этим словом.

По построению, оси перпендикулярны и независимы: «успокаивающее» слово может быть и «хорошим», и «плохим», а «плохое» — и «успокаивающим», и «возбуждающим». Например, первые две координаты «успокаивающих» слов soothing, умиротворяющий равны (0,69; −1,19), а boring, скучный — (−1,31; −0,94): слово умиротворяющий, таким образом, весьма положительного значения, «хорошее», а скучный — отрицательного, «плохого». Авторы численно сопоставили эти значения с корпусом аффективных норм, где слова оценены респондентами по разным шкалам, и получили замечательную корреляцию со своими механически вычисленными осями.

Не следует думать, будто бы перед нами способ квантифицировать, описать числами любое слово. Мы можем сопоставить числа слову, но перейти от чисел к слову нельзя, информация теряется: вблизи одного слова оказывается другое, совершенно не близкое ему по значению (например, рядом со злым могут оказаться квадратный и фиолетовый). Семантизированные корпуса пока что вычисляются только для узких смысловых областей, и включают в себя векторы очень высоких (десятки-сотни координат) размерностей.

(продолжение в ответе)


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Семантические координаты
СообщениеДобавлено: 10 ноя 2012 15:41 
Не в сети
Аватара пользователя

Зарегистрирован: 11 апр 2010 20:18
Сообщения: 2737
Откуда: Новокузнецк
Как и любое интересное открытие, большое и малое, данная находка ставит больше вопросов, чем дает ответов. Интересно поразмыслить, что же именно здесь обнаружено, какого рода это явление?

Одна крайняя точка зрения базируется на произвольности знака. Поскольку отношения синонимии все-таки определяются между значениями, а не знаками, то обнаруженное явление лишь артефакт метода. Эта точка зрения неверна, потому что многие значения одного слова связаны не произвольно. Например, слово худой будет иметь антонимами два разных слова, толстый и добрый, в двух разных значениях. Но значения эти собраны в одном слове не произвольным образом — не следует произвольность знака возводить в абсолют в любой ситуации. Безусловно, значения худой в смысле плохой и тонкий (фигурой) связаны, и этимологически, и семантически.

Другой крайностью было бы утверждать, что обнаружено некое языковое явление. Нужно сказать, что возразить против нее нечего, но нечем ее и подтвердить. Слишком уж много стоит на пути от языка до словаря синонимов. Словарь составляется человеком, который следует определенной, разработанной им же или другими людьми методологии, на основе неким методологическим же образом отобранного корпуса текстов, и так далее. Что в интересной обнаруженной закономерности от языка, а что от мышления человека, составляющего словарь? На эти вопросы ответа нет. Если бы у нас был способ автоматического, вычислительного составления словаря синонимов, это дало бы хороший способ разделить факторы, влияющие на конечную модель. Но такие способы пока еще неизвестны.

Узкопрактически метод можно применять для верификации словарей синонимов и нескольких других вещей (в статье они описаны), но в теоретической части, можно сказать, обнаружено что-то очень интересное, но непонятное. В понимании языка мы продвинулись, конечно, несколько дальше греческих грамматиков, но, увы, отнюдь не так далеко, как хотелось бы.
_________________________________
1. Samsonovic AV, Ascoli GA (2010) Principal Semantic Components of Language and the Measurement of Meaning. PLoS ONE 5(6): e10921. doi:10.1371/journal.pone.0010921

Мораль, которую я вывел по прочтении текста, — речь есть немногим более, чем развёрнутое во времени выражение трёх основных эмоций. По крайней мере, если не приложить особых усилий.

http://alex-mashin.livejournal.com/442774.html


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Семантические координаты
СообщениеДобавлено: 12 ноя 2012 18:14 
Не в сети
Аватара пользователя

Зарегистрирован: 11 апр 2010 16:25
Сообщения: 12779
обожают люди объяснять сложные теории простыми фактами... :)

если "заданы координаты" - это значит "на этой алгебре задана операция расстояния". если способ вычисления расстояния не определен - значит и координаты не могут быть описаны - они просто смысла физического не имеют.

первично напластовать массив данных можно какими угодно способами.
проблемы начинают множиться ежели "итить углубь".

вот скажем попытка задать "как бы семантические координаты классы" для глаголов:

Изображение

где, например:

Цитата:
ГЛАГОЛЫ:
...
2. ПЕРЕМЕЩЕНИЯ ОБЪЕКТА
2.1. НАПРАВЛЕННОГО ПЕРЕМЕЩЕНИЯ
2.1.1. однонаправленного перемещения, ориентированного относительно исходного и конечного пунктов
2.1.2. однонаправленного перемещения, ориентированного относительно исходного пункта
2.1.3. однонаправленного перемещения, ориентированного относительно конечного пункта
2.1.4. однонаправленного перемещения, ориентированного относительно промежуточного пункта

2.2. НЕНАПРАВЛЕННОГО ПЕРЕМЕЩЕНИЯ
2.2.1. кругового и вращательного перемещения
...


ну и т.д. и т.п. (полный список: http://ko444evnik.livejournal.com/21616.html)

т.е. расщеплять слова по оттенкам смысла можно довольно глубоко. но "вычислить расстояние" между ними это не помогает никак.

кроме того реальное употребления конкретного слова в конкретной фразе и в конкретном контексте - это слишком текучая субстанция.

получается что "даже если мы очень очень очень точно замерили координату, все равно тут же очень очень очень быстро изменится сам ландшафт"...


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Семантические координаты
СообщениеДобавлено: 14 ноя 2012 11:39 
Не в сети
Аватара пользователя

Зарегистрирован: 11 апр 2010 20:18
Сообщения: 2737
Откуда: Новокузнецк
В статье описан способ преобразования связей в координаты с помощью физической модели. Масштаб расстояний предопределён параметрами модели, отношения между разными расстояниями — характером связей.


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Семантические координаты
СообщениеДобавлено: 14 ноя 2012 15:19 
Не в сети

Зарегистрирован: 14 апр 2010 08:36
Сообщения: 10517
Вообще говоря, если Вас, Александр, судьба занесет в компанию двух-трех текок бальзаковского возраста, то Вы увидите и услышите полное подтверждение Вашему тезису. Когда они общаются это не речь (обмен информацией) в привычном понимании, это иименно что обмен эмоциями, в котором речь выступает носителем, но и только.


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Семантические координаты
СообщениеДобавлено: 15 ноя 2012 03:12 
Не в сети

Зарегистрирован: 15 апр 2010 05:17
Сообщения: 8435
Я когда разговор женщин слышу, мне почему-то вспоминается стадо коров... Тоже самое: "Му. Му-Му" Особенно если говорят по якутски.

_________________
Fly, fly through a troubled sky
Up to a new world shining bright, oh, oh.


Share on FacebookShare on TwitterShare on RedditShare on VKShare on Google+
Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Часовой пояс: UTC + 3 часа


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 2


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Topic attributes:

Найти:
Перейти:  
cron
Создано на основе phpBB® Forum Software © phpBB Group
Русская поддержка phpBB