Microsystems, Ltd/
 Home  | News | Technology | Products | Downloads | Contact Us |   11 December 2017

 

 

Technology

Technology Home Page
Approach

Text analisis

Bibliography
Interim Review by Colleen E. Crangle

Search

© 2001 Microsystems, Ltd.
 All rights reserved.
Terms of use
.

    

Технология автоматического анализа текстов

Прежде всего, изучив предложенный материал, TextAnalyst формирует семантическую сеть - интегральное представление смысла текста, служащее основой для всех видов дальнейшего анализа. 

Семантическая сеть - это множество понятий текста - слов и словосочетаний, связанных между собой по смыслу. В семантическую сеть включены не все слова текста, а лишь наиболее значимые, несущие основную смысловую нагрузку. При этом в сеть не входят обще употребимые слова, а также слова, очень редко встречавшиеся в тексте (этот параметр - частоту встречаемости, вы сможете настраивать по своему желанию). Поэтому, с одной стороны семантическая сеть достаточно точно представляет смысл текстов, а с другой позволяет отбросить несущественную информацию. Содержание предстает в агрегированном виде, так называемым смысловым портретом. При этом каждое понятие, многократно повторявшееся в различных местах текстов, представляется в сети единственным элементом. Для отображения в один элемент сети различные формы слов, приводятся к общей грамматической форме. К каждому понятию сети предлагается список других понятий, в сочетании с которыми оно встречалось в предложения текста, а также список всех предложений, в которых понятия употреблялось. Таким образом, происходит аккумулирование информации, касающейся понятий, которая ранее была разбросана по всему тексту. 

В результате по каждому понятию - теме текста - можно увидеть сразу всю информацию, буквально бросив единственный взгляд на набор его связей в семантической сети. В результате, передвигаясь по смысловым связям от понятия к понятию, можно находить и прицельно исследовать лишь интересующие места текстов, не затрудняя себя просмотром всей имеющейся информации. 

Однако, это еще не все! Каждое понятие семантической сети характеризуется числовой оценкой - так называемым смысловым весом. Связи между парами понятий, в свою очередь, также имеют характеристики - веса связей. Эти оценки позволят сравнить относительный вклад различных понятий и их связей в общий смысл текста, выявить более или менее подробно проработанные темы, задать способ сортировки информации, и наконец, исследовать текстовый материал по пластам - смысловым срезам различной глубины - снимая сливки с содержания или глубоко погружаясь в детали. 

Семантическая сеть представляется в окне 1 в виде списка понятий. Щелкнув мышью на значке <+> возле выбранного понятия, вы можете раскрыть список всех понятий, связанных с ним. Щелчком мыши на значке <-> возле понятия с раскрытым списком вы закроете его обратно. Чтобы просмотреть всю информацию по интересующему понятию, щелкните мышью на первом пункте <все> раскрытого списка. В окне 2 появятся все предложения текстов, включающие понятие. Само понятие выделяется цветом. Если же вас интересует не вся информация по понятию, а лишь та, которая касается его связи с одним из понятий раскрытого списка, щелкните мышью по второму понятию. В окне 2 появятся все предложения текстов, в которых встречалась эта пара понятий. Оба понятия выделены цветом. Выбрав интересующее предложение в окне 2, просто щелкните по нему мышью – и в окне 3 появится соответствующий фрагмент исходного текста. 

Обратите внимание на числа в сети, стоящие рядом с понятиями. Ближайшее к понятию число представляет его смысловой вес. Значение варьируется от 1 до 100 и отражает важность понятия для смысла всего текста – как много информации в тексте касается данного понятия. Максимальное значение, равное 100, говорит о том, что понятие является ключевым и представляет важнейшую тему текста. Маленькое, близкое к единице значение показывает, что соответствующая тема лишь вскользь упомянута в тексте, и в тексте мало информации, относящейся к данному понятия. Второе число представляет вес связи от вершинного понятия раскрытого списка к данному понятию. Вес связей также может принимать значение от 1 до 100. Большое значение веса связи от одного понятия к другому, близкое к 100, указывает на то, что подавляющая часть информации в тексте, касающаяся первого, касается в тоже время и второго понятия – первая тема почти всегда излагается в контексте второй. Малое единичное значение отражает тот факт, что первое понятие слабо связано со вторым и очень мало информации по первой теме касается в тоже время и второй. 

Cвязь между парой понятий сети всегда двустороння, однако связь от первого понятия ко второму далеко не всегда имеет тот же самый вес, что и обратная, от второго к первому. Как говорится, “всякая селедка – рыба, но не всякая рыба - селедка” 

Вы можете настраивать вид семантической сети на экране, изменяя количество отображаемых понятий и связей, а также способ их сортировки. Для этого выберите пункт “настройка вида” в меню “вид” и установите требуемые значение параметров. 

Дополнительные настройки TextAnalyst позволяют вам самим задавать интересующие понятия, которые выделяются в семантической сети при анализе. 

 

 

 

 

Home | News | Technology | Products | Download | Contact Us

 

Яндекс.Метрика