Семантический подход это: Функционально-семантический анализ как основа системного исследования языковых единиц. Функционально-семантическая категория сравнения

Содержание

Реализация семантического новостного агрегатора с широкими поисковыми возможностями

Цель этой статьи — поделиться опытом и идеями реализации проекта, основанного на полном преобразовании текстов в семантическое представление и организации семантического (смыслового) поиска по полученной базе знаний. Речь пойдет об основных принципах функционирования этой системы, используемых технологиях, и проблемах, возникающих при ее реализации.

Зачем это нужно?

В идеале, семантическая система «понимает» содержание обрабатываемых статей в виде системы смысловых понятий и выделяет из них главные («о чем» текст). Это дает огромные возможности по более точной кластеризации, автоматическому реферированию и семантическому поиску, когда система ищет не по словам запроса, а по смыслу, который стоит за этими словами.

Семантический поиск – это не только ответ по смыслу на набранную в поисковой строке фразу, а в целом способ взаимодействия пользователя с системой. Семантическим запросом может быть не только простое понятие или фраза, но и документ — система при этом выдает семантически связанные документы. Профиль интересов пользователя – это тоже семантический запрос и может действовать в «фоновом режиме» параллельно с другими запросами.

Ответ на семантический запрос в общем случае состоит из следующих компонентов:

  • Прямой ответ на вопрос и другая информация, касающаяся запрошенных и связанных с ними понятий.
  • Семантические понятия, семантически связанные с понятиями запроса, которые могут представлять собой как ответ на вопрос, так и средство для «уточнения» запроса.
  • Текстовые документы, мультимедийные объекты, ссылки на сайты по теме, которые раскрывают и описывают запрашиваемое смысловое понятие.

Новостной агрегатор – наиболее удобное информационное приложение для отработки такого семантического подхода. Можно построить работающую систему при относительно небольшом объеме обрабатываемого текста и высоком допустимом уровне ошибок обработки.

Онтология

При выборе онтологии основным критерием было удобство ее использования как для построения семантического парсера текста, так и для эффективной организации поиска. Для упрощения системы было сделано допущение, что можно не обрабатывать, или обрабатывать с большим допустимым уровнем ошибок часть содержащейся в тексте информации, которая предполагается не очень важной для поисковых задач (вспомогательная информация).

В нашей онтологии, простые семантические понятия (объекты) можно разделить на следующие классы:

  1. Материальные предметы, люди, организации, нематериальные объекты (например, фильмы), географические объекты и т.п.
  2. Действия, показатели («продать», «инфляция», «сделать»).
  3. Характеристики («большой», «синий»), назовем их атрибутами.
  4. Периоды времени, числовая информация.

Основа информации, содержащейся в тексте, – это «узлы», образованные смысловыми сочетаниями понятий второго класса (действия) и первого класса. Объекты различных типов заполняют свободные валентности (роли) (например, цена –

на какой товар? где? у какого продавца?

). Можно сказать, что объекты первого класса уточняют, конкретизируют действия и показатели (цена – цена

на нефть

). В качестве «узлообразующего» объекта могут выступать не только объекты-действия, но и объекты первого класса («

российские

компании»). Этот подход аналогичен широко известным в западной компьютерной лингвистике фреймам (

Framenet

).

Узлы могут входить один в другой, когда один узел заполняет пустую роль в другом узле. В результате, текст преобразуется в систему вложенных друг в друга узлов.

Характеристики, примененные к семантическим понятиям первого и второго класса, как правило можно считать «второстепенной» информацией применительно к поисковым задачам. Например, в выражениях «сохраняются низкие цены на нефть»,»стабильные поставки нефти в Европу» выделенные курсивом атрибуты имеют меньшую значимость, тем другие объекты. Такая информация не входит в узлы, а привязывается к ним в привязке к определенному месту в документе. Аналогично к узлам привязываются числовая информация и периоды времени.

Рисунок ниже иллюстрирует семантическое преобразование двух несложных фраз. Цветные прямоугольники – это элементы шаблонов узлов, а прямоугольники над ними – элементы узла, построенного по этому шаблону.


При таком подходе мы имеем два сорта информации:

  • Определенный узел существует («цены на нефть»). Накопитель таких узлов назовем «Базой знаний».
  • Этот узел существует в определенных местах документов с определенными атрибутами, числовыми значениями и периодами времени.

Такое разделение мы делаем для упрощения и ускорения поиска информации, когда, как правило, сначала ищем релевантные запросу узлы, а потом полученные данные фильтруем по вспомогательным параметрам.

Преобразование текста в семантическое представление

Основная задача семантического преобразования текста – структурировать содержащиеся там объекты в виде совокупности подходящих узлов. Для этого применяем систему шаблонов узлов, в которой для каждого элемента установлено условие на допустимый тип объекта. Типы формируют древовидный граф. Когда в шаблоне узла установлен для данной роли определенной тип объекта, то на эту роль могут подойти все объекты того же типа или «подчиненных» типов.

Например, в узле «торговые операции» активным объектом (продавцом или покупателем) может быть объект типа «человек или организация», а также объекты всех нижележащих типов (компании, магазины, культурные учреждения и т.д.). В шаблонах узлов заводим и синтаксические ограничения. В отличие от большинства других систем семантического анализа текстов, мы не делаем предварительный синтаксический разбор с формированием сети синтаксических зависимостей, а применяем синтаксические ограничения параллельно с семантическим анализом.


Кратко поясню основные этапы.

Сначала производится идентификация простых объектов, которые определяются отдельными словами или известными словосочетаниями. Далее, определяются комбинации имен и фамилий как указания на людей, и работает алгоритм анализа отдельных слов и последовательностей слов, которые могут быть неизвестными системе объектами.

На втором этапе формируем узлы на основе объектов класса 1 с уточняющими их объектами. Фразы типа «генеральный директор московской торговой компании «Рога и копыта» свертываются в один объект. Содержащаяся в этих узлах дополняющая информация («московская» как признак расположения и «торговая» как признак отрасли в этом примере) может быть добавлена в граф семантических связей для указанной компании. В следующей главе граф семантических связей рассмотрим подробнее.

Затем, текст нужно структурировать в виде последовательности независимых фрагментов, каждый из которых обычно содержит определенную фразу на основе глагола, и в идеале должен свернуться в один узел, который может включать в себя другие узлы. Обрабатываем причастные обороты и другие конструкции, а перечисления объектов класса 1, в том числе уже сформированные узлы, сворачиваем в специальные объекты.

После этого, для каждого фрагмента идет поиск подходящих узлов на основе объектов класса 2. Если для одного узлообразующего объекта сформировалось несколько узлов, остаются те, которые включают в себя максимальное количество объектов в данном фрагменте. Таким образом, на основе типа окружающих объектов происходит переход от семантически широких объектов вроде «идти» к узлу, имеющему ясный семантический смысл. Если при первичной обработке на месте омонимов возникли несколько параллельных объектов, то после этой обработки остаются только те объекты, которые вошли в узлы (т.е. семантически согласуются с соседними объектами).

Последний блок преобразования в семантическое представление – учет объектов, которые в тексте удалены от узлообразующих объектов, но по смыслу подразумеваются. Например, «В Москве тепло, идет дождь. Завтра похолодает, и пойдет снег». Семантический анализ конца предложения оставляет вакантной роль географического объекта, и по ряду признаков можно определить, что подходит «Москва».

Когда узлы полностью сформированы, к ним привязываем атрибуты, числовую информацию и периоды времени. Типична ситуация, когда период времени указывается только в одном месте текста, но относится к нескольким узлам по всему тексту. Приходится использовать специальный алгоритм для «распределения» периодов по всем узлам, где «не хватает» периода времени исходя из их семантического значения..

Наконец, в каждом документе определяем основные объекты («о чем» этот документ). Помимо количества вхождений, учитывается участие объектов в узлах разных типов.

Имея богатую семантическую информацию, можно построить достаточно точную меру семантической близости документов. Объединение документов в кластер делаем при превышении мерой семантической близости определенного порога. Формируем семантические профили кластеров (основные объекты кластера, по ним обычно идет поиск) и сеть семантических связей между кластерами, позволяющую выводить «облако» документов, связанных по смыслу с определенным документом.

Как работает семантический поиск

Алгоритм семантического поиска состоит из следующих основных блоков:

Во-первых, если текстовый запрос, то нужно преобразовать его в семантическое представление. Отличия от описанного выше алгоритма обработки текстов документов диктуются, прежде всего, необходимостью очень быстрого выполнения поискового запроса. Поэтому, никакие узлы не формируем, а выделяем один или несколько блоков, состоящих из потенциально узлообразующего объекта и ряда объектов, которые, исходя из их типа и положения в запросе, могут относиться к этому узлообразующему.

При этом может быть сформировано несколько параллельных комбинаций, в одной из которых на следующем этапе нужно раскрывать через базу знаний комбинации типа «московские компании» в список конкретных объектов, а в другой не надо.


Следующий этап – поиск семантически связанных объектов и узлов. Для одиночных объектов класса 1 это выборка семантически связанных объектов. В случае комбинации «действие + объекты» идет поиск узлов, имеющих такой же или подчиненный тип узлообразующего объекта, и при этом имеющих в своем составе объекты, совпадающие или семантически связанные с объектами запроса. Также, производится раскрытие в список конкретных объектов комбинаций типа «московские компании» или «страны Европы».

Здесь используется древовидный граф семантических связей между объектами. Принцип его построения прост — к определенному объекту привязываются те «подчиненные» объекты, которые должны учитываться в поиске по данному объекту. Например, города подчинены государствам, политические деятели тоже подчинены государствам, компании подчинены странам или городам, руководители компаний подчинены компаниям. Для материальных предметов этот граф строится от более общих понятий к частным и частично совпадает с графом типов.

Для ряда объектов количество «подчиненных» может быть очень велико и возникает необходимость в выборе наиболее значимых. Для этого между элементами графа установлен числовой коэффициент семантической связи, который рассчитывается на основе значимости объектов. Для разных типов объектов значимость определяется по-разному, например, для компаний – исходя из экономических показателей (оборота) или количества сотрудников, для географических объектов – по количеству населения.

Далее, простые объекты и узлы, которые получены на выходе предыдущего этапа, ищем в объектных профилях кластеров. Если найдено мало кластеров, то идет поиск в объектных профилях документов.

Если поисковый запрос содержит объекты-атрибуты (характеристики), идет дополнительная фильтрация найденных документов по наличию привязанных к найденным узлам искомых атрибутов. Если в запросе есть лексемы, для которых в базе нет перехода к семантическим объектам, семантический поиск дополняется обычным текстовым поиском по лексемам.

Наконец, ранжируем найденные кластеры и документы, формируем сниппеты и прочие элементы выдачи (ссылки на связанные объекты и др.). Ранжирование обычно идет по степени семантической связи между объектами запроса и объектами, через которые найдены документы. Также, при ранжировании может быть учтен семантический профиль интересов пользователя.

Перед началом выполнения сложного запроса нужно делать анализ сложности обработки разных его компонентов, и строить порядок его выполнения таким образом, чтобы в процессе обработки возникало меньше промежуточных объектов или документов. Поэтому, порядок обработки не всегда может соответствовать описанному выше. Иногда может быть выгодно сначала найти документы на основе части запроса, а потом содержащиеся в них объекты фильтровать по отношению к оставшейся части запроса.

Отдельный алгоритм требуется для «широких» запросов – «экономика», «политика», «Россия» и т.п., которые характеризуются очень большим количеством связанных объектов и релевантных документов.

Например, с объектом «политика» связаны:

  • Люди-политики – занимающие высшие государственные посты или авторитетные эксперты
  • Организации — политические партии, органы гос. власти.
  • Ряд событий и действий (выборы, назначения на определенные должности, деятельность Госдумы и др.).

В этом случае поиск ведем по относительно небольшому количеству актуальных кластеров с высокой степенью значимости, и ранжируем их по количеству свежих документов в кластере.

Основные проблемы реализации данного подхода и их решения


Проблема 1. Система должна «знать» все объекты, которые встречаются в текстах.

Возможные решения включают следующие:

  • Применение семантической системы в области, где незнание или ошибки идентификации редких и малоизвестных объектов не критичны.
  • Закачка объектов из существующих баз структурированной информации (DBpedia, Росстат и др.)
  • Использование несложных алгоритмов автоматической идентификации типа объекта по уточняющим словам (например, «фильм «Марсианин»»), автоматического определения персон, а также словосочетаний, которые могут быть неизвестными системе объектами. При низкой вероятности ошибки объекты заводятся в базе автоматически, в случаях высокой вероятности ошибки используем систему ручной проверки.
  • Для идентификации объектов рассматриваем возможность использовать машинное обучение, обучая систему по выборке уже известных объектов и опираясь на семантический тип объектов, окружающих неизвестный объект.

Проблема 2. Как сформировать шаблоны для всех возможных семантических узлов.

В решающих аналогичные проблемы распределения объектов по семантическим ролям англоязычных системах SRL (Semantic Role Labeling) используются алгоритмы машинного обучения с использованием уже размеченных корпусов. В качестве системы конструкций «действие + роли» используется, например, Framenet. Однако, для русского языка нет подходящего размеченного корпуса. Кроме того, реализация этого подхода имеет свои проблемы, обсуждение которых выходит за рамки этой короткой статьи.

В нашем подходе, как было описано выше, распределение объектов по ролям идет на основе соответствия типов объектов семантическим ограничениям, установленным для ролей в шаблоне узлов. Всего в системе сейчас около 1700 шаблонов узлов, большинство которых было сформировано полуавтоматически на основе фреймов Framenet. Однако, семантические ограничения для ролей приходится в основном устанавливать вручную, по крайней мере для наиболее часто встречающихся узлов.

Можно попробовать автоматическое формирование узлов с помощью машинного обучения на основе уже сформированных. Если есть некая комбинация объектов и слов (неизвестных системе) с определенными синтаксическими характеристиками, то можно формировать узлы, аналогичные уже существующим. Хотя по этим узлам все равно нужно будет вручную делать шаблоны, наличие такого узла все равно будет лучше, чем его отсутствие.

Проблема 3. Высокая вычислительная сложность выполнения многих семантических запросов.

Некоторые запросы могут включать в себя обработку очень большого количества промежуточных объектов и узлов и выполняться медленно. Эта проблема вполне решаема техническими методами.

  • Необходима параллельность выполнения запросов.
  • Анализ сложности различных путей выполнения запроса и выбор наиболее оптимального.
  • Использование числовых коэффициентов в графе семантических связей позволяет ограничивать количество объектов, участвующих на промежуточных стадиях обработки запросов.

Рекомендуемая литература


  • Цикл статей на Хабре по технологии ABBYY Compreno.
  • Хорошая обзорная книга: «Semantic Role Labeling», Martha Palmer, Daniel Gildea, and Nianwen Xue, 2010.
  • Dipanjan Das, Desai Chen, André F. T. Martins, Nathan Schneider, Noah A. Smith (2014) Frame-Semantic Parsing.

Семантика — что это такое

Обновлено 22 июля 2021 Просмотров: 189 112 Автор: Дмитрий Петров
  1. Семантика — это…
  2. История семантической науки
  3. Значение языковой единицы как объект семантики

Здравствуйте, уважаемые читатели блога KtoNaNovenkogo.ru. Школьная программа по русскому языку по большей части ориентирована на изучение грамматики.

В центре внимания стоит оболочка или, как скажут сами лингвисты, «план выражения». «План содержания», в свою очередь, чаще остается за кадром.

За него отвечает семантика – раздел языкознания, о котором мы сегодня и поговорим. О сути, предмете, истории развития – в этой статье.

Семантика — это…

Чтобы понять, что такое семантика, уместно обратиться к происхождению этого слова. Оно имеет древнегреческие корни: σημαντικός, что читается в знакомой нам транслитерации (что это?) как sēmantikos, буквально переводится на русский как «значительный» или «обозначающий».

В любом случае в термине присутствует элемент «значения». В качестве термина это слово было использовано во французском языкознании (semantique). Его автор – Мишель Бреаль. В русскую же лингвистику термин попал путем калькирования.

На данный момент его толкование таково:

Семантика – это раздел лингвистической науки, который изучает смысловое значение языковых единиц.

Материальные единицы языка делятся на две категории – одно- и двусторонние. Первые имеют только план выражения. Вторые же обладают собственным значением, то есть наделены семантикой. К таким единицам относятся:

  1. морфемы,
  2. слова,
  3. грамматические формы слова,
  4. фразеологические единицы,
  5. словосочетания (что это такое?),
  6. предложения (что это?).

Набор этих единиц может быть оспорен. К примеру, некоторые современные ученые опускают словосочетания. А Ю.С.Степанов (видный российский семиотик) не включал в этот перечень морфемы, составляя статью для энциклопедии «Русский язык» (1979).

Термин имеет и другое значение – исторически и логически первичное:

Семантика – это значение или значения языковых единиц, их содержательная сторона.

Это тот случай, когда придется допустить тавтологию (что это такое?): семантика как наука изучает семантику как значение.

Ну и частный случай трактования термина, связанный с интернетом и созданием сайтов:

Семантика в SEO — это набор слов или фраз, под которые будут писаться новые статьи сайта.

Под каждую статью составляется такой набор фраз исходя из частоты использования этих фраз пользователями поисковых систем. Чем чаще пользователи задают запрос именно так, тем больше резона оптимизировать статью именно под такую фразу.

Кроме этого учитывается возможность совмещения различных фраз в одной статье, путем анализа поисковой выдачи по этим запросам. Если успешные конкуренты (находящиеся в Топе выдачи) их совмещают, то и вы можете это сделать.

История семантической науки

Смысл слов, а тем более – словосочетаний и предложений, — вопрос довольно субъективный. И если основные значения слов сегодня зафиксированы в словарях, то трактовать более сложные единицы часто можно по-разному.

Вопрос об истинном смысле сказанного, о происхождении значений, о соотношении словесной оболочки с бытием и мышлением волновал наших предков с давних времен.

Дискуссии (что это такое?) античных философов, труды средневековых схоластов, работы их более поздних коллег – всё это примеры постановления и обсуждения именно семантических проблем.

Как отдельный раздел языкознания семантика стала оформляться гораздо позже. Это произошло во второй половине 19 века. Именно тогда лингвисты затронули изучение «психологии» языка, обратились к аспекту когниции.

Перед учеными тех лет встали вопросы о правильном понимании произносимого или записанного.

Их работы не были чисто языковыми, больше углублялись в психологию, а значит их объективность ставилась под сомнение.

На семантическую сторону единиц более пристально обратили внимание в 20-е годы уже двадцатого века. На этом этапе актуальны были такие положения:

  1. Объективный мир – совокупность событий и фактов, а не вещей. В качестве основной семантической единицы в связи с этим было избрано предложение вместо слова.
  2. Слова делятся на те, которые имеют экстралингвистические связи, апеллируют к реальности и могут быть объяснены через ее демонстрацию (заяц бежит). Другие же – порождение языка, в большинстве они могут быть преобразованы до первичных (бег зайца).
  3. Основная задача семантики на тот момент – описать исходные значения, к которым можно возвести все остальные. Эти значения имеют название – это «семантические примитивы».

В 50-70-е годы в семантической науке стали применяться общие для лингвистики того времени методы – основанные на логическом анализе. К примеру, Витгенштейн (философ) писал о том, что значение слова кроется в его использовании, а не в закреплении связи с определенным объектом.

Наконец, к семидесятым сформировался комплексный подход. Для исследования связи языковых единиц с внеязыковыми явлениями применялись методы оппозиции, компонентного анализа.

Для обозначения связи между единицами актуален стал дистрибутивный и трансформационный анализ. На этом строится и современный подход к семантике или, как ещё её называют, семасиологии.

Значение языковой единицы как объект семантики

Главное для семантики – это значение слова или другой языковой единицы.

Остановимся на этом подробнее. Ввиду огромного количества этих единиц, а тем более – их смыслов, существует и ряд распределений. Наиболее востребованы такие классификации языковых значений:

  1. По функции:
    1. Номинативные.
    2. Сигнификативные.
    3. Дейктические.
    4. Экспрессивные.
    5. Коммуникативные.
  2. По источнику информации, которая выражается внешней оболочкой единицы:
    1. Объективные (источник – объективный мир).
    2. Субъектные (источник – сознание).
    3. Структурные (структура языка).
  3. По соотношению внутри языковой системы выделяются такие категории (в отличие от пунктов выше, эти – не противопоставлены друг другу между позициями):
    1. Синонимы – антонимы.
    2. Однозначные – многозначные.
    3. Производные – производящие.
    4. Мотивированные – немотивированные.
    5. Прямые – переносные.
    6. Речевые – языковые.
  4. По соотношению со структурой социума, с профессиональной деятельностью человека актуальные оппозиции:
    1. Литературные – жаргонные (в том числе сленговые) – диалектные.
    2. Общеупотребительные – профессионализмы (что это?).
    3. Термины – образные выражения.

Слово с одним и тем же планом выражения – оболочкой – может в смысловом плане соотноситься с разными категориями.

План содержания всегда сложнее, субъективнее в изучении. Тем и интересна семантика как наука.

Максимально логичный подход к её изучению обречен на провал. Поэтому самую сильную связь этот раздел языкознания имеет с настолько популярными сегодня когнитологией и психолингвистикой.

Но это уже совсем другая история…

Хорошую, но длинную лекцию об истории и современности семантики можно посмотреть здесь:

Удачи вам! До скорых встреч на страницах блога KtoNaNovenkogo.ru

Эта статья относится к рубрикам:

Социология 040201, Социальная работа 040101 Нижний Новгород 2010

Нижегородский государственный университет им. Н.И.Лобачевского

Национальный исследовательский университет

Учебно-научный и инновационный комплекс
«Социально-гуманитарная сфера и высокие технологии:
теория и практика взаимодействия»

Иудин А.А.


Рюмин А.М.

Контент-анализ текстов:


компьютерные технологии
(Учебное пособие)

Мероприятие 1.2. Совершенствование образовательных технологий,


укрепление материально-технической базы учебного процесса

Учебная дисциплина: Методы анализа документов в социологии


Специальности, направления: Социология – 040201,
Социальная работа – 040101

Нижний Новгород – 2010


УДК 316.77

ББК 60.56


Традиционные и компьютерные методы анализа документов в социологии. Учебное пособие. Нижний Новгород, ННГУ, 2010. 37 с.

  1. Учебное пособие подготовлено в соответствии с государственным образовательным стандартом высшего профессионального образования. В нем изложены теоретические основы и практические рекомендации, описывающих работу с документами с использованием традиционных и новых методов анализа. Предназначено для студентов дневной и заочной формы обучения по специальности 040201 (Социология) и 040101 (Социальная работа).

_________________________________________________________

ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ 3

ЧАСТЬ I. ИСТОРИЧЕСКИЕ И МЕТОДОЛОГИЧЕСКИЕ


ОСНОВАНИЯ КОНТЕНТ-АНАЛИЗА 6

1.1. Из истории метода 6

1.2. Назначение, область применения
и особенности контент-анализа 10

ЧАСТЬ II. МЕТОДОЛОГИЯ, МЕТОДИКА


И ТЕХНИКА КОНТЕНТ-АНАЛИЗА 16

2.1. Основные методологические категории метода 16

2.2. Организация исследования 22

2.3. Процедура проведения контент-анализа в пакете Lekta 32

ЛИТЕРАТУРА 35

ПРИЛОЖЕНИЕ. ЗАРУБЕЖНЫЕ КОМПЬЮТЕРНЫЕ ПАКЕТЫ


КОНТЕНТ-АНАЛИЗА 36
ВВЕДЕНИЕ

Самым распространенным видом информации является информация, представленная в виде текстов на языке данной страны, поэтому анализ текстов является одним из наиболее распространенных видов научного и научно-практического анализа. Более того, существуют науки, которые целиком или в основном описаются именно на анализ текстов. Наиболее распространенным направлением анализа текстов является сжатие информации – возможность выделить из совокупности текстов наиболее существенные, концептуальные моменты, важные для данного конкретного направления исследований. Традиционные формы сжатия информации – аннотирование, конспектирование, реферирование – уже давно не считаются какими-то специфическими видами работы с информацией и ими владеют любые специалисты.

Понятие анализ текстов иногда употребляется как синоним понятия контент-анализ, хотя последнее понятие шире. Контент-анализ относится к более широкой области исследований, затрагивающих не только текст, но информацию различного рода — изображения, аудио и видеоинформацию. Кроме того, контент-анализ, в отличие от других способов изучения документов, позволяет вписать содержание документа в социальный контекст, осмыслить его как проявление или как оценку социальной жизни. Понимание социального контекста документа предполагает выявление того, что именно получило в нем отражение, какой резонанс этот документ получил или может получить в общественной жизни и, наконец, степень оригинальности документа, отличие его от других документов такого рода.

Контент-анализ — это метод количественного систематического подхода к изучению текста. Важным является то, что он формализован. Формализованность, систематичность и строгость контент-анализа проявляется в том, что исследование проводится на основании методологически обоснованной программы, по определенным процедурам и служит для получения информации, отвечающей некоторым критериям качества.

С помощью контент-анализа изучались религиозная символика и популярные песни, устанавливались отличия эротических кинокартин от порнографических, устанавливалась мера эффективности политических слоганов, реклам и вражеской пропаганды, определялись особенности суицидального поведения, проявившиеся в предсмертных записках самоубийц, стереотипы сознания различных социальных групп, выявлялась направленность демонстрации людей определенной национальности на телеэкранах, идеологическая подоплека передовиц газет, отличия в трактовках одного и того же события в разных СМИ, исследовались многие другие темы.

В последние десятилетия данный социологический метод заимствовали и активно используют представители социогуманитарных наук, заинтересованные в установлении объективных признаков разнообразных человеческих коммуникаций. Сюда следует отнести юристов, историков, журналистов, языковедов, литературоведов, культурологов, политологов, психологов, экономистов, социальных работников. Среди множества профессиональных областей использования метода можно выделить прикладную лингвистику, историю, искусствоведение, антропологию, связи с общественностью, коммуникативистику, педагогику, криминологию, этнографию, нарратологию.

Разработка методов анализа текстов в настоящее время идет в четырех направлениях:



  • определение соотношения и взаимодействия информационных методов с методами опроса и другими методами сбора данных при постановке исследуемых задач;

  • разработка технических разновидностей методик анализа информации применительно к специфике текстовых источников в различных отраслевых социологиях;

  • обогащение методов анализа информации методологическими и методическими принципами смежных наук с развитыми методами анализа различных видов источников;

  • разработка специализированного программного обеспечения для проведения контент-анализа.

В данном учебном пособии описаны общие принципы работы с методом контент-анализа, представлена история его развития, теоретические и практические сведения о нём. Важной особенностью современного этапа генезиса как качественных, так и количественных методов работы является их компьютеризация. Повышая эффективность работы, скорость обработки данных, увеличивая точность анализа, позволяя затрачивать меньше усилий на механические этапы исследований, постоянно развиваясь и создавая ряд других важных возможностей для исследователя, такая тенденция ставит и ряд дополнительных актуальных задач. Среди них особо стоит выделить необходимость совершенствования навыков работы с компьютерным программным обеспечением, в силу чего в методическом пособии предоставлено описание особенностей обработки текстовых массивов на примере компьютерного пакета ЛЕКТА. Программа позволяет производить контент-анализ текстового материала, прослеживая основные эксплицитные сюжетные линии, идентифицировать латентные идеи, стереотипы и т.д. Её исключительно важной и оригинальной особенностью является не простой подсчёт частотности использования индикаторов, дающий сравнительно мало данных для анализа, а установление групп корреляций между ними, определяемой возможностью проведения факторного анализа инструментами пакета. Также в приложении к пособию приведены краткое описание функционала нескольких иностранных пакетов, предназначенных для аналитической работы с текстовыми массивами.

Сегодня специалисту-социологу необходимо знать теоретические основы контент-анализа, обладать навыками работы с описанным в пособии и аналогичным программным обеспечением, в силу широкой востребованности метода и очевидных перспектив расширения областей его использования и развития функционала.

Курс носит обязательный характер. Освоение курса требует знания программ университетского курса по дисциплинам «Методика и техника социологических исследований», «Статистика и теория вероятностей», «Информатика», «Статистические методы обработки экспериментальных данных», «Социальное моделирование и программирование». Курс предназначен для освоения студентами основных навыков анализа вербальной информации. Лекционные и практические занятия направлены на формирование у студентов целостного понимания анализа информационных потоков и освоения ими навыков контент-анализа. В результате изучения курса студент должен:


  • знать основные этапы развития анализа документов и вклад различных исследовательских школ в развитие контент-анализа;

  • изучить основные теоретические и методологические направления изучения документов в социологии;

  • иметь представления о типах методов анализа документов и применяемом программном обеспечении;

  • уметь на практике использовать изученные методы;

  • провести от начала до конца один учебный проект.

В рамках курса проводится серия лабораторных работ. Она нацелена на выработку у студентов творческого подхода к решению конкретных задач и сознанного применения различных методов анализа. В ходе выполнения курсовой работы студент должен применить на практике все методы анализа, с которыми он был ознакомлен в ходе аудиторных занятий.

ЧАСТЬ I. ИСТОРИЧЕСКИЕ И МЕТОДОЛОГИЧЕСКИЕ


ОСНОВАНИЯ КОНТЕНТ-АНАЛИЗА

1.1. Из истории метода

В советской социологической литературе происхождение контент-анализа связывалось с именами У. Томаса и Ф. Знанецкого, однако ныне многие отечественные исследователи отмечают, что он возник сто и более лет тому назад. Первый упоминаемый в литературе опыт использования метода, очень близкого к этому (прикладная цель которого выглядит очень узнаваемой) Г.Г. Почепцов1 относит к XIII в., когда в Швеции был осуществлен анализ сборника из 90 церковных гимнов, прошедших государственную цензуру и приобретших большую популярность, но обвиненных в несоответствии религиозным догматам. Наличие или отсутствие такого соответствия и определялось подсчетом в текстах этих гимнов религиозных символов и сравнения их с другими религиозными текстами, в том числе тех, которые считались еретическими. Частота использования определённых заранее собранных слов и тем позволяла судить о том, насколько корректен текст с точки зрения официального учения церкви.

Важно отметить, что простой подсчёт частотности употребления какого-либо слова давал сравнительно мало материала для точного и глубокого анализа проблемы. Установление семантических связей между отдельными единицами контент-анализа позволяет получить более полную картину.

В конце XIX – начале XX вв. в США появились первые контент-аналитические исследования текстов массовой информации. Их мотивация выглядит удивительно знакомой: авторы задавались целью продемонстрировать прискорбное пожелтение тогдашней нью-йоркской прессы. На рубеже XIX и XX веков развитие средств массовой коммуникации, увеличение количества информационных каналов и потоков и, как следствие, их дезориентирующее влияние на человека потребовали метода систематизации материала, его обобщения. Сам термин контент-анализ (content-analysis) впервые был использован в США журналистами Д.Уипкинсом, А.Тенни, Д.Спиидом, Б.Мэттью. Принципы методики также были частично описаны французским журналистом Ж.Кайзером.

Контент-анализ как сформировавшийся метод исследований изучения массовых коммуникаций первоначально был количественно-ориентированным. Впервые он был использован Максом Вебером в 1910 году для анализа освещаемости прессой политических акций в Германии. Позднее, в 1937 году метод контент-анализа был использован в США в исследовании инаугурационных речей американских президентов, в рамках которого были изучены наиболее общие категории, отражающие национальные, исторические, фундаментальные и оценочные аспекты.

Чтобы получить материалы для своей книги о судьбе польских крестьян, эмигрировавших в США, У. Томас и Ф. Знанецкий2 провели колоссальную работу по сбору личной документации. Одним из путей решения этой задачи была публикация, объявленная в газете с просьбой к полякам, приехавшим в США, присылать свои жизнеописания и письма родственников по определенному адресу за незначительную плату   10 центов за материал.

Этот метод сбора материала, точнее методологические позиции авторов, были раскритикованы спустя почти 20 лет американским социологом Блумергом. Он отметил, что эти материалы носили лишь иллюстративный характер и никоим образом не могли быть использованы в качестве доказательства конкретной точки зрения. После этого экспертная комиссия Национального совета по социальным исследованиям США создала специальный комитет, на котором анализировались проблемы, связанные со степенью искажения материала при передаче мысли и при записи. В этой связи ставился вопрос о том, в какой мере само оформление того или иного личного документа – заявления или дневника – соответствует реальным намерениям этого автора и действительному положению дел.

Опыт первой мировой войны сформировал большую группу серьезных исследователей в области пропаганды, и паблик рилейшнз. Тогда в США был создан комитет под руководством Джорджа Криля, который занимался составлением пропагандистских материалов.

Во время второй мировой войны, в США и Великобритании контент-анализ использовался государственными структурами в военных целях и в целях исследования направлений пропагандистской деятельности. В это же время в Великобритании сотрудники радио BBC анализировали пропагандистские материалы нацистов и составляли прогнозы по поводу ведения ими внешней и внутренней политики. Один из самых замечательных примеров использования контент-анализа принадлежит британским аналитикам, верно предсказавшим время запуска крылатых ракет «ФАУ-1» и баллистических ракет «ФАУ-2» Германией против Великобритании.

В исследования пропаганды значительный вклад внес Гарольд Лассуэлл.3 В 1927 г. вышла его докторская диссертация под названием «Техники пропаганды в мировой войне». Эта книга была качественной (с точки зрения методологии), в ней оценивались техники пропаганды двух сторон военных действий. В частности он произвёл анализ содержания газеты «истинный американец» и привёл аргументированные доказательства того, что она поддерживает фашизм, после чего публикация газеты была запрещена. При этом Лассвелла критикуют за некорректное соотнесение качественных и количественных методов, не позволяющее провести верификацию результатов.

Г. Лассуэл сформулировал три основные функции коммуникации в обществе:



  1. Наблюдение над окружающим миром: эта роль масс-медиа позволяет индивиду видеть гораздо больше, чтобы узнавать о событиях во всем мире.

  2. Корреляция ответа общества на события в окружающем мире: масс-медиа рассказывает индивидууму как интерпретировать происходящие события.

  3. Передача культурного наследия, например: дети изучают жизнь других людей, что такое хорошо и что такое плохо, чем они отличаются от других людей.

Широко известна формула Лассуэлла из пяти вопросов: «Кто и что говорит, по какому каналу, кому и с какими эффектами?», дающая простой и четкий формат описания коммуникации.

Накопленный опыт лёг в основу создания книги, написанной Б. Берелсоном в начале 1950-х годов XX века «контент-анализ в коммуникационных исследованиях». Она до сих пор считается фундаментальным трудом, описывающим наиболее общие положения этой молодой методики исследований. После её появления метод приобрёл большую популярность и стал широко использоваться и совершенствоваться в самых разных сферах. Так, например, появилась методика связанности символов Ч. Осгуда4, позволявшая определить коррелирующие между собой части содержания текста. Европейские исследователи опирались главным образом на опыт американских специалистов в области контент-анализа.

В начале 1960-х гг. Г. Лассуэлл осуществил попытку политологического анализа СМИ, исходя из учета формальных критериев. Он ввел в научный оборот абстрактную единицу – слово. Целью работы Лассуэлла было получение собственно социологического результата на нетипичном для социологии материале – текстах печатных изданий. Исследователь проделал огромную работу, но, поскольку в методике Лассуэлла качественные оценки не были адекватно соотнесены с количественными, результаты его трудов с трудом поддавались верификации.

В этот же период Ж. Кайзер разработал новую методику статистического анализа периодических изданий, в основе которой лежал подход к тестовому массиву, как информационной системе. Тем самым Кайзер сформулировал теоретическую базу последующего распространения социологических методов в сферы изучения всех нарративных источников, включая эпиграфический и эпистолярный материал. В работе Ж. Кайзера акцентировалось внимание на внешней форме организации материала: его расположении, оглавлении, оформлении и т.д. Кайзер разработал целый комплекс исследовательских процедур, обеспечивающих полную формализацию, как единичного газетного номера, так и совокупности однотипных периодических изданий. Тем самым Ж.Кайзер сформулировал систему, позволяющую фиксировать развитие тенденций в публикациях СМИ.

Дальнейшее развитие кайзеровское направление методологии контент-анализа получило в работах Э. Морэн, которая ввела в научный оборот термин единица информации – семантический блок, содержание которого отвечает на вопрос: «О чем говорится?» Последнее обстоятельство сделало возможным изучение любых форм организации текстового материала, причем, как на терминологическом уровне, так и на уровне фразы, абзаца, статьи и даже целых книг. Тем самым, Э. Морэн разрушила критерий однородности, применявшийся ранее при статистической обработке нарративов. Взамен, она предложила идеологию семантических групп, которые, по ее мнению, должны учитываться по тематическому признаку. Кроме того, Э. Морэн разработала концепцию тона материала, который определялся социометрически: положительная информация, отрицательная, нейтральная.

Следующим этапом в развитии метода в области проведении исследований, имеющих дело с большими объёмами текста, стало использование ресурсов ЭВМ. Так в 1974 году в Италии на конференции, посвящённой проблемам контент-анализа, было представлено несколько проектов, реализуемых посредством машинной обработки данных. Они заключались в анализе заголовков статей опубликованных в большом количестве газет и сравнении степени внимания в них к региональным, общегосударственным и международным проблемам; в сравнении интереса американских и европейских СМИ к тенденциям развития «общего рынка» и т.д. На этом собрании Германия выступала с проектом создания словаря, который мог бы быть использован в проведении контент-анализа текстов.

В СССР метод контент-анализа стал использоваться с конца 1960-х годов. Например, это исследования А.В. Баранова, направленные на изучение степени обращения к субъективным интересам читателей в газете «Известия»; исследования Б.А. Грушина по изучению информированности читателей ряда СМИ о существующих проблемах.

Наиболее широкое распространение контент-анализ получил в теории массовой коммуникации, политологии и социологии. Этим отчасти объясняется тот факт, что иногда этот термин используется как обобщающий для всех методов систематического и претендующего на объективность анализа политических текстов и текстов, циркулирующих в каналах массовой коммуникации. Однако такое расширительное понимание контент-анализа неправомерно, поскольку существует ряд исследовательских методов – либо специально разработанных для анализа политических текстов (например, метод когнитивного картирования), либо применимых и применяемых для этой цели (например, метод семантического дифференциала или различные подходы, предполагающие изучение структуры текста и механизмов его воздействия), – которые не могут быть сведены к стандартному контент-анализу даже при максимально широком его понимании.

Становление и распространение приобретающей всё большую популярность всемирной глобальной сети Интернет также дало много ресурсов для развития метода контент-анализа и усилило потребность в нём. Сегодня контент-анализ широко используется именно в этой коммуникативной среде, и развитие программного обеспечения, способного в той или иной мере автоматизировать процесс проведения метода, остаётся приоритетной задачей для расширения диапазона его применения. Его разработкой занимаются главным образом в США, Великобритании и Германии. К сожалению, уникальные отечественные разработки программного обеспечения практически неизвестны зарубежным исследователям, использующим метод контент-анализа. Подробнее о зарубежных компьютерных пакетах, применяемых для проведения контент-анализа можно узнать из Приложения №1.

1.2. Назначение, область применения и особенности контент-анализа

Виды документов. Прежде чем приступить к рассмотрению способов анализа документов, необходимо дать определение и классификацию документов. Документом в социологии называется специально созданный человеком предмет, предназначенный для передачи или хранения информации.

По способу фиксирования информации различают рукописные и печатные документы; записи на кино- или фотопленке, на магнитной ленте. Сегодня, в связи с широким распространением и универсализацией электронных средств хранения, передачи и обработки информации, решающее значение приобретает классификация документов на цифровые (машинно-читаемые) и аналоговые (не читаемые с помощью компьютера).

С точки зрения целевого назначения, выделяют материалы, которые были провоцированы самим исследователем (к примеру биография эмигранта в работе Томаса и Знанецкого — в числе использованных документов была уникальная автобиография одного из крестьян, написанная по просьбе исследователей и составившая около 300 страниц). Эти документы называют целевыми. Но социолог имеет дело и с материалами, составленными независимо от него, ради каких-то других целей, т.е. с наличными документами. Обычно эти материалы называют собственно документальной информацией в социологическом исследовании.

По степени персонификации документы делятся на личные и безличные. К личным относят карточки индивидуального учета (например, библиотечные формуляры или анкеты и бланки, заверенные подписью), характеристики и рекомендательные письма, выданные данному лицу, письма, дневники, мемуарные записи. Безличные документы — это статистические или событийные архивы, данные прессы, протоколы собраний.

В зависимости от статуса документального источника выделим документы официальные и неофициальные. К первым относятся правительственные материалы, постановления, заявления, коммюнике, стенограммы официальных заседаний, деловая корреспонденция, протоколы судебных органов и прокуратуры, финансовая отчетность. Неофициальные документы — это многие личные материалы, упомянутые выше, а также составленные частными гражданами безличные документы (например, статистические обобщения, выполненные другими исследователями на основе собственных наблюдений). Особую группу документов образуют многочисленные материалы средств массовой информации: газет, журналов, радио, телевидения, кино, видеоматериалы.

По источнику информации документы разделяют на первичные и вторичные. Первичные составляются на базе прямого наблюдения или опроса, на основе непосредственной регистрации совершающихся событий. Вторичные представляют обработку, обобщение или описание, сделанное на основе данных первичных источников.

Помимо этого, можно, конечно классифицировать документы по их прямому содержанию, например литературные данные, исторические и научные архивы, архивы социологических исследований, видеохроники общественных событий.

Определения контент-анализа. Существует множество определений контент-анализа, но при этом большинство из них едва ли полно отражает его сущность. Приведём наиболее часто употребляемые определения контент-анализа.


  • Это методика объективного качественного и систематического изучения содержания средств коммуникации (Д. Джери, Дж. Джери).

  • Это систематическая числовая обработка, оценка и интерпретация формы и содержания информационного источника (Д. Мангейм, Р. Рич).

  • Это качественно-количественный метод изучения документов, который характеризуется объективностью выводов и строгостью процедуры и состоит в квантификационной обработке текста с дальнейшей интерпретацией результатов (В. Иванов).

  • Это исследовательская техника для получения результатов путем анализа содержания текста о состоянии и свойствах социальной действительности (Е. Таршис).

  • Контент-анализ состоит в нахождении в тексте определенных содержательных понятий (единиц анализа), выявлении частоты их встречаемости и соотношения с содержанием всего документа (Б. Краснов).

Наиболее компактное формальное определение контент-анализа звучит так: «Любая систематическая редукция потока текста (или других символов) к стандартном набору статистически обрабатываемых символов, отражающих присутствие, интенсивность или частоту характеристик, значимых для социальной науки».5

Эти определения дают фрагментарное представление о методе и не учитывают новых возможностей многомерного статистического анализа. Все эти определения могут быть сгруппированы следующим образом:



  • статистическая семантика;

  • техника для объективного количественного анализа содержания коммуникации;

  • техника для разработки обобщений при помощи объективного и систематического установления характеристик сообщений.

Как нам представляется, одним из наиболее адекватных является определение контент-анализа, разработанное психологами. КОНТЕНТ-АНАЛИЗ (англ. сontent – содержание) – метод выявления и оценки специфических характеристик текстов и других носителей информации (видеозаписей, теле- и радиопередач, интервью, ответов на открытые вопросы и т.д.), при котором в соответствии с целями исследования выделяются определенные смысловые единицы содержания и формы информации. Затем производится систематический замер частоты и объема упоминаний этих единиц в определенной совокупности текстов или другой информации. Контент-анализ дает возможность выявлять отдельные психологические характеристики коммуникатора, аудитории, сообщения и их взаимосвязи. В отличие от элементарного содержательного анализа, контент-анализ, как научный метод, используется для получения информации, отвечающей некоторым критериям качества (объективность, надежность и валидность). Заметную роль в повышении качества контент-анализа играет возможность использования методов многомерного статистического анализа данных. Особенно широко используется факторный анализ, способствующий выявлению скрытых факторов, определяющих содержание текстов. Такое определение несколько громоздко и, по сути, представляет собой описание исследовательской техники, тем не менее оно позволит нам отойти от представлений о контент-анализе как простом пересчете слов в текстах.

Специфика метода. Специфика анализа текстов как метода раскрывается через пары понятий, описывающих основные контрасты метода. Дедукция или индукция: от общего к частному или от частностей к общим закономерностям? Количественная или качественная стратегия: количественная стратегия предполагает более формальный подход и применение статистических методов, тогда как качественная опирается на способность человека понимать и интерпретировать смыслы.

Денотация и коннотация: денотация и коннотация связаны с социальным значением слов, а не с грамматическими правилами их употребления. Денотация – это фиксированное отношение слова к объектам, которые оно описывает (одно слово может иметь несколько денотаций, например, в языке разных социальных групп). Коннотация – это контекстно-зависимое значение слова или ценностная (оценочная) нагрузка. Примеры: окно – отверстие в стене, форточка – часть окна, но также окно компьютерной программы, окна, форточки – сленговое обозначение ОС Windows (вторичная денотация). Слово социализм или демократия будет иметь разные коннотации для молодого и старшего поколения, как в смысле социального опыта, так и в смысле оценки.

Открытое или скрытое значение, смысл слов – описание и интерпретация: различение открытого, непосредственно выраженного смысла и скрытого смысла, значения. Данное противопоставление напоминает различие открытого и скрытого смысла слов, но относится к текстам в целом. Описательный, дескриптивный анализ концентрируется на таких вопросах, как насколько часто и каким образом слово встречается в тексте, тогда как интерпретационный анализ задается вопросами значения слова и причин его употребления в том или ином контексте.

Область применения. Важной особенностью этого метода является систематизация большого по объёму тематически связанного, но не структурированного массива (чаще всего текстового). Предварительная систематизация такого материала позволяет сократить время на его обработку. В этой связи существенную важность имеет грамотный подбор источников получения информации, например печатных и электронных СМИ нужных тематических групп, ориентированных на определённые целевые аудитории. Роль и функции их варьируются в зависимости от особенностей освещения экономико-политических аспектов общественной жизни, идеологической, религиозной и многих других её составляющих, по типу социализирующей и образовательной деятельности, по методам воздействия на целевую аудиторию, по степени объективности публикуемой информации и т.д. Для исследователя крайне важно чётко идентифицировать позиции медиа при отборе массива, в противном случае противоречивость, размытость результатов могут помешать в полной мере, убедительно подтвердить либо опровергнуть гипотезы исследования.

Сферы социологических исследований коммуникации, в которых может применяться анализ текстов:


  • Анализ содержания коммуникации;

  • Анализ формы коммуникации;

  • Анализ производителей коммуникации;

  • Анализ аудитории;

  • Анализ эффектов коммуникации.

Три типа гипотез, которые могут быть протестированы с помощью анализа текстов:

  1. гипотезы относительно частоты встречаемости тех или иных терминов, понятий;

  2. гипотезы о связи понятий в тексте, отдельных частях текста или совокупностях текстов;

  3. гипотезы, касающиеся соотношения между текстуально-аналитическим исследованием и другими видами исследований; гипотезы такого типа используются для сравнения результатов исследований, проведенных с помощью различных методов или для установления связей между текстуальными и не-текстуальными явлениями (например, для сравнения высказываний и реальных действий людей).

Ограничения анализа текстов как метода:

  • для количественного анализа необходимо статистически значимое количество текстуальной информации, он не предназначен для анализа уникальных текстов;

  • анализируемые тексты должны поддаваться формализации, поэтому данный метод лишь ограниченно пригоден для анализа художественной литературы и совсем не пригоден для анализа поэзии;

  • качественный анализ позволяет глубже понять текст, но он требует значительного количества времени и усилий; таким образом, традиционный качественный анализ малопригоден для исследования больших объемов текста. Последнее ограничение ныне снимается посредством создания программных средств, осуществляющих лексический анализ текстов. В последние годы предпринимаются попытки и семантического машинного анализа вербальной информации;

  • главным ограничением является то обстоятельство, что текст менее сложен, чем индивидуальное или общественное сознание, которыми он порожден; текст является упрощенным, редуцированным отражением социальной реальности.

Метод занимает особое место среди других в силу своей эффективности при анализе больших информационных массивов. Чаще всего он используется при анализе текста и заключается либо в подсчёте наиболее часто встречающихся в нём слов, словосочетаний, самостоятельных тем, выраженных, например, целостными абзацами, и других лексических единиц, либо единицами контент-анализа выступают такие величины как протяжённость текста, численность строк, абзацев, колонок, страниц. Метод также применяется и при изучении видео и аудио материала и единицами анализа становятся графическая составляющая, сопровождающая тексты, метраж аудио и видео плёнки с материалами, интересующими исследователя, объём эфирного времени, время суток, в которое материал транслируется аудитории. С помощью этого метода можно изучать такие материалы как, например, статьи в СМИ, речи политиков, партийные программы, программы общественных движений, видеоматериалы массовых мероприятий, съездов и митингов, нормативно-правовые акты, рекламные сообщения, произведения художественной литературы, исторические тексты, письма и многое другое. Обязательным условием проведения контент-анализа является фиксация материала на материальном носителе. Только при его соблюдении возможно использование этого метода.

Часто результаты контент-анализа дополняются использованием других методов. Интересен он также и тем, что не требует больших материальных затрат, несложен в использовании, не подразумевает ощутимых технических и других трудностей при использовании специализированного компьютерного программного обеспечения. Полевой этап исследования более прост, чем при использовании многих других методов. Так, проведение простого (хотя и неглубокого) контент-анализа доступно даже при использовании базовых средств Microsoft Office или его аналогов.

ЧАСТЬ II. МЕТОДОЛОГИЯ, МЕТОДИКА
И ТЕХНИКА КОНТЕНТ-АНАЛИЗА

2.1. Основные методологические категории метода

Контент-анализ как метод предоставляет исследователю богатые и разнообразные возможности, но требует тщательного формирования исследовательской стратегии путем выбора из нескольких альтернатив. Рассмотрим эти альтернативы.

Основа контент-анализа – это подсчет встречаемости некоторых компонентов в анализируемом информационном массиве, дополняемый выявлением статистических взаимосвязей и анализом структурных связей между ними, а также снабжением их теми или иными количественными или качественными характеристиками. Отсюда понятно, что главная предпосылка контент-анализа – это выяснение того, что считать; иными словами, определение единиц текста.

Единицы текста. Единица – это отдельная группа слов, рассматриваемая как целое. Выделяется несколько типов единиц.

Единицы анализа – это единицы, составляющие основу анализа, единицы, которые исследователь стремится охарактеризовать. Пример: слово, газетная статья.

Единицы выборки – части наблюдаемой реальности или потока текста, которые рассматриваются как независимые друг от друга. Они имеют ясно различимые границы, им могут быть присвоены уникальные номера и они могут включаться в выборку с заранее известной вероятностью.

Единицы кодирования (также единицы записи или единицы текста) – это отдельные сегменты текста, помещаемые в ту или иную категорию. Для каждой единицы кодирования исследователь принимает решение, имеет ли она те или иные атрибуты, которые интересуют его в данном исследовании, относятся ли они к теме исследования. Пример: идея превосходства мужчин над женщинами (идея, формирующая категорию) может быть выражена в таких единицах кодирования, как слово, смысл слова, предложение, тема, абзац, текст целиком.

Единицы контекста – это та совокупность текстов, которую необходимо принять в расчет, характеризуя единицу кодирования. Они формируют контекст, который определяет значение, смысл единиц кодирования, в том случае, если этот смысл контекстно-зависим. Например, в статье, посвященной финансовым вопросам, слово долг будет иметь другое значение, чем в тексте, посвященном религиозным вопросам. При анализе текстов без применения компьютера контекст обычно легко распознаваем. В компьютерном анализе контекст, как правило, определяется через анализ слов, окружающих в тексте единицу кодирования.

Единицы счета – это те единицы, с помощью которых квантифицируются атрибуты текста. Они совпадают с единицами кодирования, если исследователь заинтересован в подсчете количества слов или других элементов текста. Другими словами, единицы счета – это именно то, что подсчитывается в процессе исследования, то, к чему относятся числа в матрице данных. Примеры: 5 слов были идентифицированы как относящиеся к агрессии (попадающие в данную категорию). В матрицу ставится число 5 – в данном случае единица кодирования совпадает с единицей счета. Пример несовпадения этих единиц: анализ пространства на страницах газеты, отданного под освещение определенной темы. Статья, идентифицированная как относящаяся к теме – это единица кодирования, а число квадратных сантиметров (в которых измерена площадь статьи и полученный результат занесен в матрицу) – единица счета.

Физические единицы имеют отдельную физическую форму (например, отдельный номер газеты).

Синтаксические единицы – те, которые являются естественными для грамматики соответствующего средства коммуникации (например, слово во фразе или отдельная новость во фразе выпуска новостей). Единицы референции – те, которые описывают разными словами один и тот же объект (например, «глава государства», «президент», «Путин», в определенном контексте – просто «он»). Пропозиционные единицы – это части сложных предложений, имеющие собственную структуру, описания конкретных положений дел (ситуаций). Такие единицы используются для того, чтобы избежать сложности естественного языка. Например, фраза «Агрессивный вор угрожает полицейскому» распадается на два простых предложения «Вор агрессивен» и «Вор угрожает полицейскому».

Единицы различного рода могут пересекаться и включать друг друга. Например, при анализе книг первая единица анализа – это книга, вторая – главы в книгах, третья – параграфы или абзацы. В случае если параграф – наименьшая из единиц, на которые исследователь разбил текст, он также служит и единицей кодирования. Однако можно продолжить делить тест дальше вплоть до предложений или грамматических частей предложений. В таком случае единицей выборки может стать абзац. Каждая единица, которая больше, чем составляющие ее части, может служить единицей контекста: фраза для слова, глава для параграфа и т.д.

Концептуальные категории. Концепт – это единица смысла, отдельная идея. Концептуальные категории – это агрегации единиц текста, основанные на общей идее, релевантной для теоретической основы исследования. Иными словами, категории – результат операционализации идей с помощью слов и фраз. Концепты могут быть образованы дедуктивно (на основе теории) или индуктивно (на основе исследуемых текстов).

Количественный или качественный подход. Количественный контент-анализ в первую очередь интересуется частотой появления в тексте определенных характеристик (переменных) содержания. Качественный контент-анализ позволяет делать выводы даже на основе единственного присутствия или отсутствия определенной характеристики содержания.

Различие двух подходов довольно легко проиллюстрировать примерами. В 1950-е годы западные аналитики на основе количественного анализа статей газеты «Правда» обнаружили резкое снижение числа ссылок на Сталина. Отсюда они сделали вывод, что последователи Сталина стремятся дистанцироваться от него. С другой стороны, качественный аналитик мог бы сделать аналогичный вывод на основе единственного факта, что в публичной речи одного из партийных функционеров, посвященной победе СССР в Великой Отечественной войне, Сталин вообще не был упомянут. Прежде такое было бы немыслимо.

Качественный контент-анализ не слишком высоко оценивается позитивистски ориентированными исследователями. На западе ему отдают предпочтение исследователи, придерживающиеся феминистских, а также критических или интерпретативных подходов. Сторонники количественного подхода также иногда включают качественный контент-анализ в свой методологический арсенал с целью усилить надежность количественных исследований в исследовании содержания текста. В дискуссии о качественном или количественном контент-анализе существует и объединяющая точка зрения, которая представляется наиболее продуктивной. Ее защитники6 утверждают, что должно использоваться некоторое сочетание количественного и качественного анализа.




Поделитесь с Вашими друзьями:

Семантический сервер | Алтимета

Семантический сервер (Semantics Server) компании Алтимета позволяет значительно улучшить интеграцию сложных данных и оптимизировать доступ к ключевой информации в масштабе всей организации. Наши семантические технологии позволяют в реальном времени превратить разрозненные данные организации в полноценную бизнес-информацию, пригодную для принятия эффективных решений.

Алтимета является одной из первых компаний, продвигающих проверенные и надежные семантические технологии из фазы исследования в производство и применяющих их для решения реальных проблем в реальных масштабах. Прогнозируется, что потребность в интеллектуальных системах реального времени будет расти экспоненциально, и наша компания предлагает уникальные решения, покрывающие эту потребность рынка.

Семантика – флаг революционных инноваций, успешно продвигаемых в наших решениях. Семантические технологии лежат в самой основе нашей программной платформы и применяются почти во всех наших продуктах – порталах, информационных системах, интеграционных системах. Наши семантические технологии, и Семантический сервер в частности – это результат нескольких лет инновационных исследований в этой области, начиная с самого момента зарождения технологий Semantic Web.

Подробнее о семантике, перспективах и преимуществах семантических технологий вы можете прочитать в нашей библиотеке НИОКР в разделе Семантические технологии.

Семантический сервер Алтимета может использоваться совместно с нашим Интеграционным сервером, что позволяет обеспечить интеграцию данных и приложений в масштабе всей организации.

Интеграционный сервер обеспечивает интеграцию приложений с использованием архитектуры SOA и подхода интеграционных процессов (BPEL, BPMN). Этот традиционный подход, используемый всеми крупнейшими поставщиками интеграционных решений, имеет известные ограничения, обусловленные семантической бедностью используемой модели данных XML, среди которых:

  • сложная и дорогостоящая поддержка для масштабных систем с разнородными данными
  • достаточно хрупкие правила трансформации данных, ограничивающие динамику системы
  • отсутствие решения проблем качества данных, дублирования данных и пр.

Семантический сервер преодолевает эти барьеры, применяя лучшие семантические стандарты к SOA-архитектуре. Он дополняет возможности Интеграционного сервера, позволяя кардинально увеличить эффективность и применимость традиционного подхода, обеспечить интеграцию и качество информации вашей организации.

Чтобы лучше понять роль Семантического сервера в архитектуре интеграции систем, вспомним, что в традиционном подходе к интеграции выделяется такой компонент как система нормативно-справочной информации (НСИ). За счет централизации справочных данных система НСИ позволяет в некоторой степени гарантировать качество информации. Семантический сервер – это революционно новое решение на основе семантического подхода, встающее на замену ограниченных традиционных систем НСИ, позволяя:

  • консолидировать не только справочники и классификаторы, а вообще всю информацию, которую необходимо совместно использовать интегрируемым системам
  • объединить, интегрировать информацию и гарантировать качество данных
  • обеспечить получение информации из слабоструктурированных источников
  • производить автоматическую классификацию данных и логический вывод
  • и многое другое…

Более подробно о возможностях Семантического сервера и преимуществах внедрения этой технологии Вы можете узнать в разделах:

Наша компания предлагает вам услуги по интеграции ваших данных и систем, а также по проектированию и разработке распределенных интегрированных информационных систем, с использованием возможностей наших продуктов Интеграционный сервер и Семантический сервер.

Мы обладаем многолетним опытом в областях интеграции и создания распределенных интегрированных информационных систем. На основе НИОКР в этой области нашими сотрудниками защищено несколько диссертаций на соискание степеней кандидата физико-математических и технических наук.

Подробнее о наших услугах по интеграции систем читайте в разделе Услуги » Интеграция систем
.

Введение в семантическое моделирование | by Dmitriy Monakhov

Эта статья содержит простое описание идеи семантического моделирования для решения задачи обработки запросов на естественном языке (NLP).
Так как семантическое моделирование часто сравнивается с лингвистическим, лучше всего начать со сравнения обоих подходов.

Linguistic vs. Semantic

Семантические и лингвистические модели определяют формальный способ кодирования понятий естественного языка. Упрощенно говоря, основное различие в подходах заключается в типе кодируемой информации. Лингвистическая модель оперирует лингвистическими категориями, такими как существительные, глаголы и так далее, а семантическая — смысловыми, такие как ПЕРСОНА или КОМПАНИЯ.

И лингвистический и семантический подходы к анализу текстов появились примерно в одно и тоже время, в семидесятых годах. Лингвистическое моделирование постоянно развивается и на протяжении многих лет является основополагающей базой для общего развития NLP.
Семантическое моделирование, в свою очередь, вызвало первоначальный всплеск интереса, но быстро отступило на задний план из-за технических сложностей реализации. Тем не менее, в последние годы интерес к семантическому моделированию возрождается. На сегодняшний день данный подход является основой почти всех коммерческих NLP ассистентов, таких как Google assistant, Cortana, Siri, Alexa и так далее. Данный подход является базовым и для компании ​​DataLingvo (компания, развивающая идею семантического моделирования, в которой работает автор статьи).
Самый простой способ понять разницу между семантической и лингвистической грамматикой — рассмотреть следующую иллюстрацию:

Один и тот же текст здесь разбирается согласно разным критериям.

Нижняя часть анализируется с использованием традиционной лингвистической грамматики, и как результат мы видим набор POS тегов (Point of of Speech): NN для существительных, JJ для прилагательного и так далее.

Верхняя часть — результат использования семантической модели, и вместо отдельных слов, с POS тегами, слова и словосочетания образуют более высокоуровневые семантические категории, такие как DATE или GEO.

Эта способность группировать отдельные слова в высокоуровневые семантические сущности была введена для разрешения важной проблемы, характерной для ранних NLP система — лингвистической неопределенности.

Примечание — на картинке представлена лишь часть информации, извлекаемой из текста посредством лингвистического анализа, фактически приведена лишь часть работы морфологического анализатора — разметка слов POS тегами. Для упрощения в стороне оставлены прочие данные морфологического разбора, данные лексического и синтаксического анализаторов, анализ именованных сущностей, дат и так далее.

Лингвистическая неопределенность

Посмотрите на картинку внизу

Пусть наша задача найти в тесте строку по существующему шаблону.

На картинке представлены два предложения со схожей структурой на выходе лингвистического анализатора.

POS теги у них практически совпадают, но предложения совершенно не похожи друг на друга. Поиск/сопоставление предложений с совпадающими или схожими тегами ничего нам не даст.

Прийти на помощь могут синтаксические деревья и сложный контекстный анализ. Но даже если такой контекст и будет всегда доступен на этапе разбора предложения, процесс сопоставления предложений на основании подобного анализа все равно не удается сделать детерминированным.

С другой стороны, семантическое моделирование позволяет разрешить подобные неоднозначности простым и гарантированно надежным способом. Используя правильно построенную семантическую грамматику, слова “friday” и “Alexy” будут отнесены к разным элементам модели, как следствие в данных предложениях не будет найдено ничего общего.

Мы снова значительно упростили пример и оставили за его рамками то, что кроме схожих POS тегов эти предложения будут иметь разные обнаруженные поименованные сущности, а также проигнорировали распознанную на этапе лингвистического разбора дату в первом предложении. В принципе, для данного примера, этого было бы достаточно, чтобы сразу развести данные предложения в две разные категории. В более сложных примерах, даже дополнительный учет поименованных сущностей, дат и так далее уже мог бы не быть столь эффективным.

Пример использования семантической грамматики

Рассмотрим максимально простой вариант семантического моделирования.
Независимо от типа конфигурации, грамматика модели определяется как совокупность семантических сущностей, где каждый объект имеет (как минимум) имя и список синонимов, с помощью которых этот объект может быть обнаружен в тексте.
Пример. Простейшее определение объектов WEBSITE и USER с их синонимами:

<WEBSITE>:
- website,
- http website,
- https website,
- http domain,
- web address,
- online address,
- http address<USER>:
- user,
- web user,
- http user,
- https user,
- online user

Учитывая введенную грамматику, все последующие предложения, такие как

  • Website user
  • HTTP address online user
  • Website online user

будут поняты и представлены как те же две семантические сущности:

<WEBSITE> <USER>

Далее, последовательность семантических сущностей может быть привязана к определяемому пользователем intents. Поиск таких intents является конечной целью NLP ассистентов.

Реальные системы, конечно же, поддерживают гораздо более сложное определение грамматики. Существует множество различных способов определения синонимов, семантические сущности могут иметь типы данных, они могут быть организованы в иерархические группы для обработки их диалоговой памятью и так далее — все это выходит за рамки этой заметки. Здесь вы можете найти примеры поддержки такой грамматики.

Предопределенность против вероятности

Задача NLP ассистента — разобрать предложение и обнаружить в нем сущности, определяющие intent.

Мы уже упоминали то, что семантическому моделированию свойственен детерминированный характер поиска сущностей. Хотя конкретные реализации приложений, использующих лингвистическое и семантическое моделирование могут быть как детерминированными, так и вероятностными, использование семантического подхода почти всегда подразумевает детерминированную обработку.

Причина кроется в самой природе семантической грамматики, основанной на простом сопоставлении синонимов. Правильно определенная семантическая модель позволяет осуществлять полностью детерминированный поиск семантической сущности. Семантическая сущность либо обнаружена, либо нет, система не старается угадывать.

Как результат, семантическая грамматика гарантирует качество системы.

Вероятностный подход может прекрасно работать для многих задач, таких как категоризация документов, разметка текстов по настроению, поддержка некоторых чатботов и так далее — но все это просто невозможно использовать например, для основанных на NLP / NLU систем построения отчетов и выдачи данных бизнес аналитики.

На самом деле зачастую не имеет большого значения, верно ли вы определили настроение текста — с точностью 85% или 86%, главное в данном случае правильно определенный вектор. Но отчет о продажах, должен на все 100% соответствовать данным системы учета. Даже результат с высокой степенью вероятности, такой как «ваши продажи за последний квартал составляли XXX долларов с вероятностью 97%», почти всегда бесполезен.

При всех преимуществах семантического моделирования есть одно явное ограничение, которое мешало его развитию (по крайней мере так было изначально), а именно тот факт, что оно может быть применено только к совершенно узкой области данных.

Универсальность или Данные узкого профиля

В отличии от лингвистической грамматики, универсальной для всех областей данных (поскольку она имеет дело с универсальными лингвистическими конструкциями, такими как глаголы и существительные), семантическая грамматика, сопоставляющая данные на основе синонимов, ограничивается определенной, зачастую очень узкой, предметной областью. Причиной этого является то, что для создания семантической модели нужно определить исчерпывающий набор всех ее сущностей и, самое сложное, множество всех их синонимов.
Для конкретной области данных это сложная, но решаемая задача, особенно когда на помощь приходят современные компьютерные системы. Но для общего случая, когда вам нужно понять любого собеседника, поднимающего любые темы, семантическое моделирование просто не работает.
Имеется ряд довольно успешных попыток продвижения идеи семантического моделирования в совокупности с курированием процесса обработки текста (контролем и разрешением коллизий со стороны человека), а также процессом контролируемого самообучения системы. Но несмотря на это, на сегодняшний день, факт остается фактом — семантическое моделирование может быть успешно применено только при работе с определенной, четко очерченной, узкой и хорошо описанной областью данных.

Стоит отметить, что популярный подход Deep Learning (DL) на сегодняшний день тоже недостаточно эффективно используется в NLP / NLU для работы даже с узкопрофильными данными. Это связано с отсутствием больших тренинговых наборов, необходимых для обучения модели DL, их просто неоткуда пока взять. Поэтому и по сегодняшний день семантическое моделирование чаще используется с более традиционными системами, использующими контроль коллизий и контролируемые самообучающиеся алгоритмы.

Курирование и контролируемое самообучение

Человеческий контроль (курирование) и контролируемые алгоритмы самообучения — два взаимосвязанных метода, помогающих решить проблему недостаточного для полноценной работы набора семантических сущностей и всех необходимых синонимов, при использовании новой семантической модели на начальном этапе ее разработки.

Как это работает:
Вы начинаете с создания семантической модели с базовым набором синонимов для тех семантических сущностей, которые можно относительно легко сконфигурировать и описать. После того, как приложение NLP / NLU, использующее эту модель, начинает работу, пользовательские запросы, которые не могут быть автоматически обработаны моделью, перейдут к Куратору. Во время процесса курирования пользовательский запрос будет скорректирован так, чтобы он мог быть обработан системой автоматически на базе существующей модели, а алгоритм самообучения учтет эту “поправку“ и автоматически использует ее при следующем таком же или подобном запросе уже без участия человека.

Последовательность работы:

  • Куратор во время работы изменяет запрос пользователя таким образом, что система сможет ответить на скорректированный вопрос автоматически с помощью существующей версии семантической модели. Как правило, это исправление орфографических ошибок, просторечных и прочих выражений, сленга, удаление стоп-слов или добавление отсутствующего или нераспознанного содержимого.
  • Это изменение пользовательского запроса запоминается алгоритмом самообучения и используется при повторном обращении с этим же или “схожим“ запросом. Поскольку изменение первоначально выполнялось человеком, подобное самообучение является контролируемым процессом, позволяющим избежать кумулятивных ошибок.

Особенно важно то, что система развивается и становится ”умнее” с каждой такой итерацией. Каждая процедура курирования (помощь при разборе неотвеченного автоматически запроса) и последующее самообучение делают модель все более полной. Таким образом разработчик модели может начать с малого, далее модель будет развиваться и настраиваться с помощью пошагового взаимодействия с человеком — процесс непохожий на большинство AI приложений.

Выводы

За последние 50 лет семантическое моделирование прошло через целую серию подъемов и спадов. Благодаря техническому прогрессу последних лет, а также новым методам самообучения и технологиям разрешения коллизий и курирования результатов, семантический подход стал на сегодняшний день основной технологией для большинства современных NLP / NLU систем. Когда вы в следующий раз спросите что-либо у Siri или Alexa — знайте, что где-то на серверах Apple или Amazon уже идет обращение к семантическим моделям, помогающим подобрать ответ.

Семантический подход к научным теориям

‘) var head = document.getElementsByTagName(«head»)[0] var script = document.createElement(«сценарий») script.type = «текст/javascript» script.src = «https://buy.springer.com/assets/js/buybox-bundle-52d08dec1e.js» script.id = «ecommerce-scripts-» ​​+ метка времени head.appendChild (скрипт) var buybox = document.querySelector(«[data-id=id_»+ метка времени +»]»).parentNode ;[].slice.call(buybox.querySelectorAll(«.вариант-покупки»)).forEach(initCollapsibles) функция initCollapsibles(подписка, индекс) { var toggle = подписка.querySelector(«.цена-варианта-покупки») подписка.classList.remove («расширенный») var form = подписка.querySelector(«.форма-варианта-покупки») если (форма) { вар formAction = form.getAttribute(«действие») document.querySelector(«#ecommerce-scripts-» ​​+ timestamp).addEventListener(«load», bindModal(form, formAction, timestamp, index), false) } var priceInfo = подписка.querySelector(«.Информация о цене») var PurchaseOption = переключатель.родительский элемент если (переключить && форма && priceInfo) { toggle.setAttribute(«роль», «кнопка») toggle.setAttribute(«tabindex», «0») toggle.addEventListener («щелчок», функция (событие) { var expand = toggle.getAttribute(«aria-expanded») === «true» || ложный toggle.setAttribute(«aria-expanded», !expanded) форма.скрытый = расширенный если (! расширено) { покупкаOption.classList.add(«расширенный») } еще { покупкаOption.classList.remove(«расширенный») } priceInfo.hidden = расширенный }, ложный) } } функция bindModal (форма, formAction, метка времени, индекс) { var weHasBrowserSupport = окно.выборка && Array.from функция возврата () { var Buybox = EcommScripts ? EcommScripts.Buybox : ноль var Modal = EcommScripts ? EcommScripts.Modal : ноль if (weHasBrowserSupport && Buybox && Modal) { var modalID = «ecomm-modal_» + метка времени + «_» + индекс var modal = новый модальный (modalID) модальный.domEl.addEventListener(«закрыть», закрыть) функция закрыть () { form.querySelector(«кнопка[тип=отправить]»).фокус() } вар корзинаURL = «/корзина» var cartModalURL = «/cart?messageOnly=1» форма.setAttribute( «действие», formAction.replace(cartURL, cartModalURL) ) var formSubmit = Buybox.перехват формы отправки ( Buybox.fetchFormAction(окно.fetch), Buybox.triggerModalAfterAddToCartSuccess(модальный), функция () { form.removeEventListener («отправить», formSubmit, false) форма.setAttribute( «действие», formAction.replace(cartModalURL, cartURL) ) форма.представить() } ) form.addEventListener («отправить», formSubmit, ложь) document.body.appendChild(modal.domEl) } } } функция initKeyControls() { document.addEventListener («нажатие клавиши», функция (событие) { если (документ.activeElement.classList.contains(«цена-варианта-покупки») && (event.code === «Пробел» || event.code === «Enter»)) { если (document.activeElement) { событие.preventDefault() документ.activeElement.click() } } }, ложный) } функция InitialStateOpen() { var buyboxWidth = buybox.смещениеШирина ;[].slice.call(buybox.querySelectorAll(«.опция покупки»)).forEach(функция (опция, индекс) { var toggle = option.querySelector(«.цена-варианта-покупки») var form = option.querySelector(«.форма-варианта-покупки») var priceInfo = option.querySelector(«.Информация о цене») если (buyboxWidth > 480) { переключить.щелчок() } еще { если (индекс === 0) { переключать.щелчок() } еще { toggle.setAttribute («ария-расширенная», «ложь») form.hidden = «скрытый» priceInfo.hidden = «скрытый» } } }) } начальное состояниеОткрыть() если (window.buyboxInitialized) вернуть window.buyboxInitialized = истина initKeyControls() })()

фреймово-семантический подход к метафорическому значению

Аннотация

Метафора возникает, когда слово или фраза используются таким образом, который противоречит их обычному (буквальному) значению, так что часть их значения применяется к другой семантической области.Например, время истолковывается как деньги в «Этот гаджет сэкономит вам часы» (Лакофф и Джонсон, 1980). Существует связь между понятиями времени и денег, которая лежит в основе многих выражений в английском языке; поэтому это считается концептуальной метафорой. Концептуальная теория метафор (CMT) доминировала в исследованиях метафор со времен Lakoff и Johnson (1980), но исследователи (например, Croft 2009, Sullivan 2013) обращаются к другим когнитивным лингвистическим теориям, таким как семантика фреймов (Fillmore 1982) и когнитивная грамматика (Langacker 1987). для устранения проблем, присущих этому подходу.CMT не предоставляет инструментов для системного определения метафорических понятий и их компонентов, что препятствует анализу внутреннего смысла метафоры. Он рассматривает метафору как наложение значения из одной области (например, денег выше) на другую (например, время). Данные корпуса улучшили методы исследования метафор, но для выбора метафор для изучения необходима более здравая методология. В этой диссертации используется новый подход к метафоре, заключающийся в том, что данные берутся из семантически аннотированного корпуса, где их семантические домены уже назначены.Основной набор данных состоит из естественной группы связанных метафор, которые интерпретируют осознание как восприятие. Используя понятие фрейма из Frame Semantics (Fillmore, 1982), реализованное в лексикографической базе данных FrameNet (Atkins et al. 2003), для определения семантических доменов и их внутренних компонентов (элементов фрейма; аналогично семантическим ролям), эта диссертация анализирует метафоры из фреймово-семантически аннотированная база данных немецкого языка SALSA (Burchardt et al. 2006, 2009), чтобы исследовать, как согласуются смысловые элементы (семантические роли) из двух семантических доменов метафоры.Я показываю, что семантические роли согласуются друг с другом, хотя не каждая семантическая роль имеет аналог в другой области. Я утверждаю, что использование семантической и синтаксической информации, связанной с одной областью, но не связанной с другой, позволяет создавать эмерджентное значение в метафоре. Анализ поддерживает представление о метафоре как о смешанном пространстве, независимом от какой-либо семантической области, как описано Fauconnier and Turner (2002).

Семантический подход против прямого

В повседневной жизни новые взаимодействия постепенно заменяют стандартную компьютерную клавиатуру и мышь, используя жесты человеческого тела (руки, пальцы, голова и т. д.).) как варианты взаимодействия на поверхности и в воздухе. Другой тип взаимодействия заключается в манипулировании повседневными объектами для взаимодействия с цифровыми системами. Интерактивные столешницы появились в качестве новых платформ в нескольких областях, предлагая лучшее удобство использования и облегчая совместную работу нескольких пользователей благодаря большой поверхности дисплея и различным технологиям взаимодействия на их поверхностях, таким как мультитач и осязание. Следовательно, улучшение взаимодействия на этих устройствах и объединение его (соответственно их) с другими концепциями может оказаться более полезным и полезным в повседневной жизни пользователей и дизайнеров.Тема этой диссертации сосредоточена на изучении взаимодействия пользователей с реальными интерактивными столами в контексте использования, установленного в среде двойной реальности. Материальные пользовательские интерфейсы предлагают пользователям возможность постигать и понимать значение цифровой информации, манипулируя проницательными материальными представлениями в нашем физическом мире. Эти метафоры взаимодействия соединяют обе среды, составляющие двойную реальность: физический мир и виртуальный мир. С этой точки зрения эта работа представляет собой теоретический вклад наряду с ее приложениями.Мы предлагаем объединить осязаемое взаимодействие на столе и двойную реальность в концептуальной структуре, в основном предназначенной для разработчиков приложений, которая моделирует и объясняет взаимодействия и представления, которые работают в установках двойной реальности. В первую очередь мы выставляем различные работы, проводимые в сфере материального взаимодействия в целом, затем делаем акцент на уже существующих работах, проводимых на столешницах. Также предлагаем перечислить 112 интерактивных столешниц, классифицированных и охарактеризованных по нескольким критериям. Далее мы представляем концепцию двойной реальности и возможные области ее применения.Во-вторых, мы разрабатываем наше предложение по структуре, иллюстрируем и объясняем ее составные элементы, а также то, как она может адаптироваться к различным ситуациям двойной реальности, особенно с интерактивными столешницами, оснащенными технологией RFID. Наконец, в качестве вклада в приложение мы показываем тематические исследования, которые мы разработали на основе нашего предложения, которые иллюстрируют реализацию элементов из предложенной нами структуры. Перспективы исследования, наконец, освещены в конце рукописи.

На пути к семантической совместимости электронных медицинских карт

Цели: В области открытых электронных медицинских карт (EHR) openEHR как подход, основанный на архетипах, получает все большее признание.Целью данной статьи является краткое описание этого подхода и анализ того, как архетипы openEHR влияют на медицинских работников и семантическую интероперабельность.

Методы: Анализ современных подходов к системам ЭМК, разработка терминологии и стандартов. В дополнение к обзору литературы мы организовали личные и дополнительные телефонные интервью и телеконференции с членами соответствующих организаций и комитетов.

Результаты: Подход архетипов openEHR обеспечивает синтаксическую интероперабельность и семантическую интерпретируемость — обе важные предпосылки для семантической интероперабельности. Архетипы позволяют клиницистам формально определить клиническое содержание. Чтобы обеспечить всестороннюю семантическую совместимость, необходимо координировать разработку и поддержание архетипов на международном уровне и между медицинскими работниками.Управление знаниями в предметной области включает в себя набор процессов, которые обеспечивают создание, разработку, организацию, совместное использование, распространение, использование и постоянное обслуживание архетипов. Она должна поддерживаться информационными технологиями.

Выводы: Для включения электронных медицинских карт необходима семантическая совместимость. Подход архетипов openEHR обеспечивает синтаксическую интероперабельность и семантическую интерпретируемость.Однако без скоординированного развития и поддержки архетипов «рост ранга» архетипов поставил бы под угрозу семантическую совместимость. Поэтому мы считаем, что архетипы openEHR и управление знаниями предметной области вместе создают среду знаний, необходимую для внедрения электронных медицинских карт.

%PDF-1.4 % 374 0 объект > эндообъект внешняя ссылка 374 63 0000000016 00000 н 0000002693 00000 н 0000002904 00000 н 0000002940 00000 н 0000003352 00000 н 0000003496 00000 н 0000003637 00000 н 0000004690 00000 н 0000005867 00000 н 0000007043 00000 н 0000008013 00000 н 0000009039 00000 н 0000010071 00000 н 0000010363 00000 н 0000010574 00000 н 0000010848 00000 н 0000010951 00000 н 0000011332 00000 н 0000019132 00000 н 0000019631 00000 н 0000020010 00000 н 0000020349 00000 н 0000027768 00000 н 0000028217 00000 н 0000028600 00000 н 0000028917 00000 н 0000029755 00000 н 0000030607 00000 н 0000031405 00000 н 0000032200 00000 н 0000032491 00000 н 0000033314 00000 н 0000034044 00000 н 0000034840 00000 н 0000035482 00000 н 0000036659 00000 н 0000037014 00000 н 0000037086 00000 н 0000037573 00000 н 0000037784 00000 н 0000038070 00000 н 0000038866 00000 н 0000039335 00000 н 0000043479 00000 н 0000044064 00000 н 0000047505 00000 н 0000051835 00000 н 0000054611 00000 н 0000058742 00000 н 0000058814 00000 н 0000058960 00000 н 0000059084 00000 н 0000059233 00000 н 0000059348 00000 н 0000059485 00000 н 0000059620 00000 н 0000059802 00000 н 0000059962 00000 н 0000060106 00000 н 0000060250 00000 н 0000060393 00000 н 0000060550 00000 н 0000001556 00000 н трейлер ]/предыдущая 559330>> startxref 0 %%EOF 436 0 объект >поток hb«`e«{ Ab,KO]Ȑ!4Ob2idlmL??\{ RNsx]`2>hUYpƖ{9dsw~WΏNN[Ҷj0cRMf=:ZSx)O8″y;!W|Q+u.F%S$6\*eQVÄ9G NRpkq>֭aH=

Информационный синтаксис и семантика: Vol. 1: основы

Рецензент: Джон Абель Мойн

Эта книга является попыткой объединить лингвистические теории того, что можно назвать лингвистикой Западного побережья: категориальную, лексическую функциональную, функциональную унификацию, реляционную обобщенную структуру фраз и другие грамматики (все они не были фактически разработаны на Западе). Однако в этом подходе есть много терминов и концепций лингвистики Восточного побережья, в частности хомского правительства и связывания (GB) и параметрической лингвистики, как и во всех других современных подходах.Особый вклад авторов заключается в разработке и поддержке структурной грамматики фраз, управляемой головой (HPSG). Книга опубликована в серии конспектов лекций Центра изучения языка и информации (CSLI) в Стэнфорде. Ряд важных книг, опубликованных в этой серии и распространяемых издательством Чикагского университета по лингвистике, вычислительной лингвистике, логике и вычислениям, должны представлять интерес для читателей . Авторы настоящей книги выражают свои цели в первом абзаце первой страницы: Что представляет собой человеческий язык__ __ Какова связь между звуком слова или фразы, его грамматической структурой и его сообщением или содержанием__ __ Что представляют собой языковые звуки, грамматические структуры и фрагменты информации, которые лингвистические высказывания передают__ __ Что значит знать язык, и что такого в языке, который позволяет людям, знающим его, обмениваться информацией__ __ Цель этой книги — представить определенный набор понятий, инструментов и методов для поиск ответов на подобные вопросы.В частности, мы постараемся внедрить и развить информационный подход к изучению синтаксиса и семантики естественного языка, подход, рассматривающий объекты, составляющие человеческий язык, как носители информации внутри сообщества людей, умеющих ими пользоваться. Информационная лингвистика уходит своими корнями в ряд различных исследовательских традиций в лингвистике и смежных дисциплинах, таких как философия, логика и информатика. . . . Теория HPSG, напоминающая другую разработку Западного побережья конца 1950-х (грамматика зависимостей), в значительной степени основывается на формализме «лингвистики, основанной на унификации», которая подробно обсуждалась в главе 2.Этот формализм, по мнению авторов, предоставляет мощные инструменты для объяснения теоретических принципов и разработки компьютерных систем обработки естественного языка. Заявление о вычислительной полезности основано на представлениях о том, что формализм (а) является логическим и математическим и (б) основан на информации и опирается на принципы представления знаний и манипулирования ими. В связи с этим этот подход считается более семантически ориентированным, чем другие текущие предложения (за исключением, по крайней мере, так называемого концептуального подхода некоторых исследователей искусственного интеллекта, которые отрицают какую-либо значительную роль синтаксиса в обработке языка и понимание).Авторы, признав, что многие, «возможно, большинство» конструкций и гипотез HPSG заимствованы или приняты из других теорий, отмечают: «В одном важном отношении HPSG отличается от всех синтаксических теорий, которые повлияли на ее развитие, ибо по сути это не теория синтаксиса. Скорее, он касается взаимодействия между всеми формами информации, которые имеют отношение к лингвистическому смысловому отношению, включая (помимо прочего) как синтаксическую информацию, которую несут знаки (грубо говоря, их синтаксическую категорию и составляющую структуру), так и их семантическое содержание. .(стр. 16) Идея грамматики, управляемой головой, или «принцип признаков головы», не нова. Это представление о том, что некоторые особенности заголовков фраз (таких как словосочетания с существительными, предложными фразами, глагольными фразами и предложениями) являются общими с другими составляющими фразы. Эти функции включают падеж, число, пол, лицо и т. д. На самом деле определенные свойства головы часто контролируют функции некоторых других составляющих фразы. Например, в следующих двух предложениях: (1) Иоанн уговорил Мэри пойти.(2) Джон пообещал Мэри пойти. свойство, присущее глаголам убедить и обетование заставляет Марию стать предметом перейти в (1), а Джон быть предметом войти (2). Таким образом, используя терминологию британской лингвистики, убедить и обещания называются глаголами управления объектом и глаголами управления субъектом соответственно. Эта книга является первым томом из двухтомника и содержит частые ссылки на второй том, который готовится к выходу.Настоящий том состоит из восьми глав и более восьми страниц богатой и современной библиографии, но без указателя. Введение, глава 1, содержит обзор взглядов и гипотез авторов относительно их подхода и других лингвистических теорий. В главе также дается обзор HPSG. Глава 2 содержит «не слишком технические термины» основополагающие концепции для «основанных на унификации» лингвистических теорий, которые обеспечивают основу для HPSG. Глава 3 посвящена синтаксическим характеристикам и категориям.Глава 4 дает основные семантические понятия для этого подхода. Глава 5 посвящена подкатегории. В стандартной лингвистической теории подкатегоризация касается природы элементов, которые могут объединяться в составные части. Например, глагол give имеет три аргумента, подлежащее и два дополнения, но глагол чихание имеет один аргумент словосочетания существительного (подлежащее), и ограничение подкатегории для этого аргумента состоит в том, что он должен иметь функцию оживить. Примеры в предложениях (1) и (2), которые я привел выше, также имеют отношение к подкатегоризации или «распределению тета-ролей», если использовать другой термин ГБ.Однако в HPSG эти роли рассматриваются «не как синтаксические единицы, а скорее как составляющие семантического содержания» (стр. 116). Главы с 6 по 8 посвящены грамматическим правилам, принципам порядка составляющих, лексической иерархии и лексическим правилам. Книга представляет собой хорошо написанный и подробный вводный текст по лингвистике, имеющий большое отношение к компьютерной лингвистике. Следует, однако, предупредить учащегося, что он в значительной степени представляет собой частную и узкую точку зрения.

границ | Доверие и недоверие как артефакты языка: латентно-семантический подход к изучению их лингвистических коррелятов

Введение

Исследовательская цель

Допуская, что социализированное знание встроено в язык также благодаря тенденции слов встречаться вместе в соответствующих документах, это исследование утверждает, что такие лингвистические корреляты могут многое рассказать о доверии и недоверии — ключевых убеждениях социализации.Это предположение подкрепляется проецированием вопросов анкеты о доверии и недоверии, их предпосылке знакомства и поведенческому результату в семантическом пространстве (обсуждаемом ниже), которое было построено на основе соответствующего корпуса трех учебников по психологии (Myers, 1998), а затем анализом ответов. результирующая матрица косинусных расстояний этих пунктов вопросника. Анализ показывает, что не только поддерживаются ожидаемые теоретические корреляции, но также и то, что доверие и недоверие могут быть статистически дифференцированы таким образом, что с трудом удалось сделать в ходе опросных исследований с использованием вопросников.Способность извлекать такие знания из языка может быть еще одним инструментом для изучения человеческого поведения с помощью анализа текста в тех случаях, когда опросы не могут быть проведены с людьми, когда им неизвестен контекст и когда трудно различить такие конструкции, как доверие и недоверие нужно изучать. Чтобы уточнить, мы не утверждаем, что этот метод заменяет опросы, а только то, что он может дополнить исследование опросов.

Важность доверия и недоверия в человеческом поведении

Межличностное доверие является ключевым двигателем человеческого поведения и ключевым фактором, определяющим межличностные отношения, поскольку оно позволяет людям предполагать, правильно или нет, что они знают, как будут вести себя те, кому они доверяют (Blau, 1964; Rotter, 1971; Sztompka, 1999). .В основе теории доверия (Luhmann, 1979) лежит признание того, что люди являются независимыми агентами, которых нельзя полностью контролировать, и что эти люди даже не всегда рациональны в своем поведении. Следовательно, утверждает теория доверия, попытка понять, как будут вести себя другие, может привести к такой большой социальной неопределенности, что будет когнитивно подавляющей до такой степени, что люди могут воздерживаться от взаимодействия с другими, которым они не доверяют, потому что они не понимают, что происходит. Зная, как будет вести себя доверенная сторона, т.е.т. е., доверяя им, позволяет людям уменьшить эту в противном случае непосильную социальную сложность до более управляемого уровня, предполагая, что доверенная сторона будет вести себя ожидаемым социально приемлемым образом, а не каким-либо другим неожиданным социально неприемлемым образом (Gefen et al., 2003a).

. Поскольку межличностное доверие позволяет снизить чрезмерную социальную сложность до управляемого уровня и при этом позволяет людям предположить, что существует общее понимание того, какое поведение разрешено, межличностное доверие является ключевым двигателем социальных и экономических структур (Williamson, 1985; Фукуяма, 1995; Зак и Нэк, 2001).Доверие также определяет предпочтение одного поставщика или компании перед другим в договорных отношениях, опять же, по-видимому, потому, что доверяющая сторона предполагает, что она знает, как будет себя вести доверенная сторона (Gulati, 1995; Kumar, 1996; Gefen et al., 2008b; Greenberg et al. al., 2008), и произойдет ли какое-либо взаимодействие, потому что, когда риск не знать, что будет делать доверенная сторона, слишком велик, люди воздерживаются от взаимодействия (Fukuyama, 1995). По этим причинам доверие также является ключевым фактором, определяющим внедрение новых ИТ (Gefen, 2004) многих видов, включая электронную коммерцию (Gefen et al., 2003b), виртуальные команды (Jarvenpaa et al., 1998), онлайн-сообщества (Ridings et al., 2002), онлайн-рынки программного обеспечения (Gefen and Carmel, 2008), потребительские онлайн-рынки, такие как eBay (Pavlou and Gefen, 2004, 2005; Pavlou and Fygenson, 2006), электронный банкинг (Kaabachi et al., 2017; Ofori et al., 2017), электронное правительство (Warkentin et al., 2018) и другие. Доверие даже является определяющим фактором восприимчивости к фишингу (Moody et al., 2017). По сути, доверие является ключевой конструкцией человеческого поведения (Schoorman et al., 2007).

Доверие, как часто определяется в управленческих документах, означает «готовность стороны быть уязвимой по отношению к действиям другой стороны, основанной на ожидании, что другая сторона совершит конкретное действие, важное для доверителя, независимо от возможности контролировать или контролировать эту другую сторону» (Mayer et al., 1995, стр. 712). Эта готовность доверять основана, согласно Mayer et al. (1995) на убеждениях о благонадежности — способности, доброжелательности и честности — доверенной стороны.Эта оценка надежности моделируется Mayer et al. (1995) как следствие предыдущих взаимодействий с доверенной стороной. Как показали исследования, такая оценка благонадежности также может быть результатом склонности доверчивого человека к доверию, часто моделируемой как первоначальное доверие, основанное на социализации на протяжении всей жизни (Rotter, 1967; McKnight et al., 1998, 2002; Gefen et al. ., 2003b), склонность, которая находится под влиянием социализации и национальной культуры (Fukuyama, 1995).В технологическом контексте, например, для электронной коммерции, это первоначальное доверие может быть даже более важным, чем предполагаемая полезность и простота использования ИТ (Gefen et al., 2003a).

Недоверие тесно связано с доверием и является неотъемлемой частью теории доверия, но оно не является просто противоположностью доверия. Уже на раннем этапе изучения доверия было признано, что нарушение доверия приводит не только к снижению уровня доверия, поскольку такое нарушение часто приводит к трансформации отношений в отношения избегания (Blau, 1964). .Концептуально недоверие — это полностью отдельная от доверия конструкция (Blau, 1964; Kramer, 1999; McKnight and Choudhury, 2006), имеющая дело с негативными убеждениями о другой стороне. Хотя исследование, основанное на данных опросов, показало, что статистически сложно провести различие между доверием и недоверием (Benbasat et al., 2008), нейробиология показала, что нейронные корреляты доверия и недоверия явно различаются (Dimoka, 2010; Riedl et al., 2010b), при этом доверие в основном связано с нейронными коррелятами, связанными с вознаграждением, такими как скорлупа (внешняя часть чечевицеобразного ядра мозга), и с обработкой информации, такой как дорсолатеральная префронтальная кора (ДЛПФК), в то время как недоверие связано с вознаграждением. нейронные корреляты, связанные с отвращением, такие как островковая кора, и со страхом, такие как миндалевидное тело.Таким образом, в то время как доверие сближает людей в основном на основе рациональных причин, недоверие разъединяет их на основе страха и отвращения. Способность нейронауки выявлять это различие там, где опросное исследование не могло этого сделать, была одной из причин, по которой нейробиология была предложена для включения нейробиологии в основное русло исследований в области социальных наук (Dimoka et al., 2012). Как покажет это исследование, способность анализа текста также проводить это различие заслуживает рассмотрения.

Доверие, недоверие, знакомство и цель этого исследования

Ключевая причина, по которой люди доверяют или не доверяют, а также контекст этого исследования, заключается в том, что люди социализированы и доверяют незнакомцам (Rotter, 1971) или определенной группе незнакомцев (Zucker, 1986) или не доверяют им, в зависимости от обстоятельств. быть (Фукуяма, 1995), через социализацию и историческую и социальную информацию, которую эта социализация передает (Фукуяма, 1995).В двух словах, социализация — это «выученное» знакомство с людьми в целом или с определенной группой людей, с которыми он еще не сталкивался. Этот вид обучения через социализацию обычно изображается как жизненный опыт, начиная с детства через образование и взаимодействие с другими людьми. Людей учат, кому доверять, а кому не доверять, иногда даже на чисто иррациональной и исторически и социально совершенно не относящейся к делу основе, как неотъемлемую часть их «воспитания» ученых предрассудков и «трюизмов».

В бизнес-контексте знакомство является важным предиктором доверия. Знакомство с доверенной стороной означает, что доверенная сторона лучше знает, чего ожидать, каковы правила поведения, как может отреагировать доверенная сторона, и имеет разумное представление о честности, доброжелательности (или, по крайней мере, заботе) доверенной стороны, и возможности, основанные на прошлой производительности. Знакомство с другой стороной раскрывает многие причины, по которым необходимо доверие: способность оценить благонадежность доверенной стороны как способ снижения риска (Mayer et al., 1995), способность лучше понимать, что происходит, планировать и реагировать соответствующим образом (Luhmann, 1979, 1988; Gefen et al., 2003b), а также снижать недоверие между социальными группами (Gefen and Ridings, 2003).

Действительно, выбор знакомой стороны для заключения договора может быть настолько убедительным аргументом, что часто люди предпочитают заключить договор со стороной, с которой они знакомы, независимо от цены (Gefen and Carmel, 2008). Дело не только в том, что доверенные поставщики могут взимать надбавку к цене (Ba and Pavlou, 2002).Дело в том, что в некоторых случаях, особенно в контрактах с низкой стоимостью на разработку программного обеспечения и сопутствующих услуг, доверенная сторона всегда выигрывает торги у незнакомых сторон независимо от цены (Gefen and Carmel, 2013). И когда цена действительно играет роль, например, в крупных контрактах на программное обеспечение, подписанных банком, тогда знакомая сторона в среднем получает контракт на условиях, требующих меньшего контроля, таких как заключение контракта на основе времени и материалов, а не на фиксированной основе. ценовой контракт (Gefen et al., 2008б; Бенароч и др., 2016).

Социализация и знакомство, которое она создает, являются мощным инструментом, но не все ее учения являются прямыми и открытыми. Некоторые сообщения, которые транслирует социализация, незаметны и скрыты в языке, на котором мы говорим. Действительно, как бы аморально это ни было, словарное определение многих слов, например, расовой или социальной классификации, несет в себе такую ​​социальную похвалу или клеймо, что заставляет людей чувствовать, что они в некоторой степени «знакомы» с другой стороной на основании того, чему их учили. и, таким образом, заставляет их доверять или не доверять совершенно незнакомым людям на основе этой социализации.Довольно безобидным примером является тот, который Цукер (1986) приводит о банковском деле США в начале 1900-х годов, когда люди доверяли банкирам, исходя из социального класса тех банкиров, которые, по-видимому, потому, что их учили, что они принадлежат к «лучшему» социальному классу, могут быть доверенным. Другими словами, фамильярность также может вызвать недоверие. Важность знакомства для укрепления доверия и, как следствие, уменьшения недоверия, по-видимому, актуальна для любого делового контекста. Это относится к заключению договоров между организациями (Williamson, 1985; Gambetta, 1988; Gulati, 1995; Bolton and Dewatripomt, 2005; Ha and Perks, 2005; Gefen et al., 2008б; Gulati and Sytch, 2008), а также электронной коммерции (Gefen, 2000; Pavlou and Fygenson, 2006) и рекомендательных агентов по электронной торговле (Komiak and Benbasat, 2006), как это происходит в повседневной жизни (Blau, 1964; Luhmann, 2000).

Соответственно, цель этого исследования состоит в том, чтобы аргументировать лингвистическую социализацию и ее последствия в новом и расширенном контексте. Мы утверждаем, что доверие и недоверие регистрируются в самом языке, на котором мы говорим , и что поэтому некоторые аспекты социализации в доверие и недоверие можно изучать с помощью анализа текста.Чтобы подчеркнуть это зарегистрированное социализированное встроенное знание, мы обозначаем его лингвистическими коррелятами . Технически это то же самое, что анализировать, как слова и векторы слов соотносятся (или появляются вместе), расширяя логику Гефена и Ларсена (2017).

В следующих разделах будет показано, что анализ текста в семантическом пространстве, построенном путем анализа корпуса, созданного из абзацев трех учебников по психологии (Myers, 1998) — возможно, разумного надежного хранилища теорий человеческого поведения — поддерживает это предположение. .Это семантическое пространство было выбрано потому, что оно доступно в открытом доступе по адресу lsa.colorado.edu вместе с интерфейсом, который позволяет проецировать комбинации целых предложений на это семантическое пространство. Результатом этой проекции является матрица косинусных расстояний, которую можно извлечь для дальнейшего анализа. Этот дальнейший анализ в моделировании структурными уравнениями на основе ковариаций (CBSEM) покажет, что проектирование предложений, состоящих из пунктов измерения опроса, касающихся доверия, недоверия и связанных с ними конструкций, позволяет реконструировать статистическую модель на основе косинусных расстояний между каждой парой этих предложения.И что при этом могут быть реконструированы известные психологические отношения доверия и недоверия.

Получение лингвистических коррелятов доверия и недоверия через семантическое пространство

Подобно тому, как выводы, сделанные о социологических событиях, и интерпретация социальных конструктов будут различаться в зависимости от читаемых источников, так же признано, что результаты анализа текста будут зависеть от анализируемого корпуса, его надежности и связи с изучаемая тема.Соответственно, поскольку изучение доверия и недоверия явно находится в сфере психологии и, несомненно, многих других социальных наук, связанных с психологией, мы выбрали семантическое пространство, полученное из корпуса, основанного на учебниках по психологии.

Семантическое пространство «психология», используемое в данном исследовании, было создано на основе 13 902 абзацев учебника, содержащих 30 119 уникальных терминов. Подход зависит от представления в виде набора слов, в котором порядок слов в каждом абзаце опускается, а часто используемые термины перевешиваются до того, как матрица термин-документ подвергается разложению по сингулярным числам (SVD), как описано в Larsen and Monarchi (2004).В общей практике сохраняется 300–500 измерений (Arnulf et al., 2014). При создании этого специфического семантического пространства было создано 398-мерное пространство. Это означает, что каждое слово, являющееся частью одного из учебников, представлено 398-мерным вектором того, что термин означает в контексте всех остальных слов. Значение предложения выводится путем сложения векторов для каждого слова в предложении, процесс, известный как проекция. Это сематическое пространство доступно в открытом доступе через интерфейс lsa.colorado.edu, показанный на рисунке 1.

Рисунок 1. Получение корреляций LSA между элементами анкеты на lsa.colorado.edu.

В частности, в это семантическое пространство были спроецированы вопросы из предыдущих исследований, посвященные доверию, вместе с вопросами, касающимися непосредственно недоверия. Косинусные расстояния между спроецированными элементами опроса, подготовленными lsa.colorado.edu, затем были проанализированы с использованием CBSEM. Результаты, обсуждаемые в следующих разделах, соответствуют предсказаниям теории.В частности, элементы анкеты были скопированы в lsa.colorado.edu, как показано на рисунке 1, а производные косинусные расстояния, показанные на рисунке 2, затем были скопированы и представлены в виде матрицы, готовой для анализа с помощью Mplus, как показано в таблице 1. Пункты анкеты приведены в таблице 2.

Рисунок 2. Результирующие семантические расстояния корреляций LSA между элементами анкеты на lsa.colorado.edu.

Таблица 1. Элементы измерения косинусов семантического расстояния, выдаваемые lsa.колорадо.эду.

Таблица 2. Элементы измерения , спроецированные на семантическое пространство учебника Майерса (1998).

Возможности изучения лингвистических коррелятов в изучении доверия и недоверия

Демонстрация, как показано в этом исследовании, что изучение словесных ассоциаций доверия и недоверия дает такие же результаты, как и исследование доверия, повышает вероятность того, что необходимы дополнительные исследования, прежде чем такой аргумент может быть однозначно выдвинут, что изучение лингвистической регистрация доверительного поведения в соответствующем источнике (в данном случае учебнике по психологии человека) может открыть новые возможности для изучения доверия и недоверия.Такие возможности могут позволить изучать доверие и недоверие также в контекстах, которые невозможно изучить или которые больше не существуют. Контекст мог измениться и люди больше не доступны, но, по крайней мере, их изучение, поскольку они зарегистрированы лингвистически, все еще может быть сделано. Сюда могут входить такие исследования, как то, как значение и важность доверия и недоверия, регистрируемые через словесные ассоциации, менялись с течением времени. Учитывая, что нельзя раздать анкеты людям, которые жили в Лондоне 150 лет назад, но есть легкий доступ к книгам, написанным Чарльзом Диккенсом и другими авторами того периода, такая возможность может открыть двери для нового понимания.

Такой подход к изучению доверия и недоверия — и, в более широком смысле, других конструкций, убеждений, отношений, поведения и т. д. — может также выявить в более широком контексте, почему люди, не являющиеся носителями английского языка, по-разному отвечают на одни и те же вопросы на английском и на английском языках. их родной язык, даже если опросы являются точным переводом друг друга (Harzing, 2005). Этот подход потенциально может также указывать на возможные причины социальных различий в отношении доверия и недоверия и обеспечивать поддержку гипотетического влияния истории на доверие и недоверие, как показано Фукуямой (1995).В самом деле, сравнение словесных ассоциаций доверия и недоверия и значения, раскрытого в книгах Чарльза Диккенса, с Генриком Ибсеном может быть весьма показательным.

Кроме того, и, возможно, это происходит по касательной, если действительно часть нашей социализации как людей регистрируется в языке, на котором мы говорим, посредством соотнесения слов, то это может быть особенно важно для предсказания того, как люди могут понять роль доверия и недоверия. в пока еще не совсем там технологиях.Чтобы представить это в перспективе, исследование того, как мы, люди, доверяем и не доверяем другим, касалось другой стороны, которая является человеком или состоит из группы людей. В частности, в этом прошлом исследовании доверенной стороной мог быть человек [например, Blau (1964)], сообщество [например, Ridings et al. (2002)], рынок, населенный людьми [например, Pavlou and Gefen (2004)], организация [например, Mayer et al. (1995)], правительство [например, Warkentin et al. (2018)] или человекоподобный ИТ-интерфейс, такой как аватар (Bente et al., 2008; Килинг и др., 2010). Но как насчет доверенной стороны, чьи намерения и интеллект не являются человеческими или связаны с людьми?

Способность понять, даже если только через знания, заложенные в языке, почему люди доверяют или не доверяют в таком случае, может оказаться необходимым с растущим притоком ИИ в повседневную жизнь, где ИИ создает среду, которая иногда находится за пределами человеческого понимания, как недавно продемонстрировал случай, когда ИИ-самоучка победил чемпиона мира в гос. , причем чемпион мира даже не понял некоторых стратегий, применяемых ИИ (Economist, 2017).Лингвистические корреляты доверия и недоверия могут позволить смоделировать человеческую реакцию также в таких случаях взаимодействия с ИИ, где приведенные выше причины важности доверия и недоверия не всегда применимы. В конце концов, нет ни рациональных оценок поведения агента ИИ, играющего в , ни , ни соображений риска, знакомства, соображений социальных слоев, социальной идентификации и т. д. Тем не менее, возможность статистического моделирования реакции человека для такого мира может быть показательным.

В следующих разделах будет описан метод, который мы применили для изучения лингвистических коррелятов доверия и недоверия, почему теоретически можно ожидать наличия лингвистических коррелятов, а также некоторые подробности о методе, а затем отчет о статистическом анализе и обсуждение результатов и их потенциал.

Материалы и методы

Воспроизведение установленных гипотез о том, что знакомство создает доверие, и добавление к этому того, что знакомство также может привести к обратному, т.е.т. е., недоверие, как описывает Фукуяма (1995), и дальнейшее расширение как доверия, так и недоверия как основных соображений при принятии решения о покупке в Интернете (Gefen, 2000; Dimoka, 2010), модель исследования представлена ​​на рисунке 3. Этот рисунок показывает результат стандартизированного анализа модели Mplus. Прямоугольники представляют элементы измерения, которые в данном случае являются элементами анкеты, спроецированными на семантическое пространство. Эти элементы и их коды представлены в таблице 2. Ковариация среди всех пар этих элементов измерения ограничена в CBSEM, так что выражаются только значения ковариации, связанные с путями, которые показаны в модели в виде стрелок.Все остальные значения ковариации фиксируются на нуле. Фиксация этих путей к нулю освобождает достаточно степеней свободы, чтобы включить в модель также скрытые переменные, то есть конструкции, которые, хотя и не могут быть измерены напрямую, отражаются элементами явного измерения, а также тем, как эти конструкции соотносятся друг с другом. В этой формализации каждый элемент измерения является функцией скрытой переменной, которой он назначен, кружков и члена ошибки. Например, fm1, являясь одним из элементов измерения знакомства, предсказывается конструктом «знакомство» с оценкой пути, равной 0.946 и стандартной ошибкой 0,006, а также случайным членом ошибки с оценкой пути 0,106 и стандартной ошибкой 0,012. Модель путей, ведущих к элементам измерения, известна как модель измерения. Пути среди скрытых переменных известны как структурная модель. Структурная модель – это то, о чем говорит теория. Например, то, что доверие влияет на использование, показано путем между кружком, помеченным как доверие, и кружком, помеченным как использование. Эти последние пути представляют лежащее в основе предположение о том, что модель результатов, т.е.т. е., подтвержденные гипотезы, как было выявлено в предыдущем опросе, и методы исследования архивных данных могут быть извлечены с помощью лингвистических коррелятов, полученных из соответствующего корпуса.

Рисунок 3. Модель исследования и стандартизированные оценки, полученные Mplus.

Подготовка модели к исследованию

Модель была протестирована путем проецирования шкал [предполагаемого] использования, доверия и знакомства на основе Gefen et al. (2003b) и ad hoc пункта недоверия к психологии семантического пространства в lsa.колорадо.эду. Эти элементы вопросника показаны в таблице 2 с последующей оценкой Mplus стандартизированных нагрузок каждого элемента на связанную с ним латентную переменную (конструкт). Первый столбец содержит код товара. Этот код также присутствует в Таблице 1 и в коде Mplus в Приложении. Во втором столбце показана формулировка каждого элемента с заголовком, чтобы было легче определить, какие элементы относятся к какой конструкции. Третий столбец содержит стандартизированную нагрузку этого элемента на скрытую переменную, т.е.э., конструкция, полученная с помощью анализа Mplus.

Сайт lsa.colorado.edu получает на вход набор предложений (или отдельных слов), которые необходимо спроецировать на одно из нескольких ранее существовавших семантических пространств. См. рис. 1. Затем он строит матрицу косинусных расстояний каждого предложения от другого предложения, запустив процесс латентного семантического анализа (LSA). См. рис. 2. Процесс включает в себя проецирование каждой возможной пары предложений в виде двух векторов, каждый из которых содержит все слова в одном из предложений, на выбранное ранее существовавшее семантическое пространство.Идея LSA заключается в том, что слова («термины» на языке LSA), которые обычно появляются вместе, имеют общие измерения значения.

Что делает LSA, так это сначала создает термин для документирования [частотной] матрицы (TDM) исходного корпуса, возможно, предварительно подготавливая данные с помощью стемминга и других методов, взвешивая термины, а затем применяя SVD к TDM для уменьшения размерности. данных (Dumais et al., 1988; Deerwester et al., 1990). Затем предполагается, что слова, которые появляются вместе в одном и том же главном компоненте (измерении) после этого упражнения по уменьшению размерности, имеют некоторое общее значение (Landauer and Dumais, 1997; Landauer et al., 1998). Слова могут состоять из многих основных компонентов, что свидетельствует о богатстве языка и о том, что одно и то же слово может иметь множество значений. Результат SVD известен как семантическое пространство. Анализируемое семантическое пространство уже существует на сайте lsa.colorado.edu. Затем векторы предложений могут быть спроецированы на это сематическое пространство, даже если сами предложения никогда не существовали в исходных текстах. Сравнение этих векторов позволяет вычислить косинусное расстояние между ними.

По своей сути LSA — это совпадение слов. Это подход, основанный на данных, и поэтому некоторые считают его более объективным (Evangelopoulos et al., 2012). Как уже говорилось, некоторые слова, такие как «доверие» и «покупка», имеют тенденцию использоваться вместе, поэтому слова приобретают значения как в терминах слов, с которыми они встречаются, так и в терминах слов, с которыми они не сочетаются. — встречаются часто, например, «небо» и «покупка». Часто встречающиеся слова имеют тенденцию иметь меньшее косинусное расстояние между ними, и, соответственно, два предложения, каждое из которых содержит слова, которые часто встречаются в другом предложении, также будут иметь небольшое косинусное расстояние между ними.Важно отметить, что LSA работает в случаях отношений второго и третьего уровня, когда слова даже не обязательно должны встречаться одновременно, но оба они встречаются вместе с одними и теми же словами. Например, LSA будет склонен распознавать, что такие термины, как «недоверие» и «доверие», связаны между собой, даже если эти слова никогда не встречались в анализируемом тексте одновременно, например, потому что оба могут встречаться вместе со словом «транзакция» или словом «отношение.»

Поскольку эти совпадения отражают язык, используемый для описания мира, векторы слов LSA содержат в себе отражение нашего общего восприятия того, как устроен мир.Много работы было потрачено на то, чтобы понять, как LSA работает по отношению к человеческому разуму, и Ландауэр (2007, стр. 31) даже утверждал, что LSA «демонстрирует вычислительный метод, с помощью которого можно достичь основного компонента изучения и использования языка». Применимость LSA для частичного воспроизведения ответов людей на опросы с помощью текстового анализа, по-видимому, подтверждает это утверждение (например, Arnulf et al., 2014, 2018; Gefen and Larsen, 2017). Не вдаваясь в дебаты о том, что делает или не делает LSA [см., например, Valle-Lisboa and Mizraji (2007)], мы используем LSA для решения конкретного вопроса математически строгим способом, который может быть воспроизведен любой, кто разбирается в статистических методах.

Более подробная информация о том, как запустить LSA в R, а также обсуждение методологических и статистических соображений достоверности доступны по адресу Gefen et al. (2017). Поскольку в настоящее время LSA широко используется в качестве исследовательского метода с сотнями применений в психологии и информационных системах, мы не будем углубляться в этот процесс. Читатели, интересующиеся этим процессом, могут обратиться к одному из многих подробных описаний, начиная от математических вступлений (например, Ларсен и Монархи, 2004; Мартин и Берри, 2007) до концептуальных объяснений (например,грамм. Евангелопулос и др., 2012 г.; Арнульф и др., 2014).

Мы выбрали LSA по нескольким причинам. Во-первых, это устоявшийся и проверенный метод, который применялся в течение последних двух десятилетий (Tonta and Darvish, 2010; Evangelopoulos et al., 2012). Во-вторых, было показано, что он имитирует мыслительные процессы человека, давая результаты опроса, которые иногда соответствуют тому, как люди отвечают на одни и те же вопросы анкеты (Larsen et al., 2008; Arnulf et al., 2014; Gefen and Larsen, 2017), в том числе оценка значения слов через их ассоциации с другими словами (Yeari and van den Broek, 2014; Bhatia, 2017) и даже имитация эффектов прайминга посредством выбора слов (Günther et al., 2016). LSA даже применялся в этом контексте для подтверждения предположения о том, что значение слова выводится из его ассоциаций с другими словами (Kintsch and Mangalath, 2011), и подтверждал это предположение даже путем сравнения семантического значения слова LSA с глазом. отслеживание (Huettig et al., 2006). И, в-третьих, метод, который мы применяем, проводя анализ CBSEM корреляций, полученных из семантических пространств LSA, ранее применялся, чтобы показать, что широко поддерживаемая модель внедрения ИТ, модель принятия технологии (TAM) (Davis, 1989), может поддерживаться путем проецирования существующих масштабов этой модели на семантическое пространство, созданное из несвязанных между собой газетных статей (Gefen and Larsen, 2017).

Идея, лежащая в основе лингвистических коррелятов

Как указано, идея, пропагандируемая в этом исследовании, состоит в том, что знание социализации в некоторой степени укоренено в языке, на котором мы говорим и пишем. И что это применимо также к отношениям совпадения слов. В результате этого укоренения анализ отношений совпадения слов в соответствующем тексте может выявить некоторые из этих знаний о социализации. Такой аргумент подтверждается значимым и последовательным воспроизведением взаимосвязей между воспринимаемой полезностью и воспринимаемой простотой использования шкал ТАМ (Davis, 1989) как в модели измерения (как предметы значительно нагружаются только на назначенные им конструкции, а не на другие конструкты) и корреляции между конструктами в структурной модели путем проецирования ее пунктов анкеты на два газетных семантических пространства (Gefen, Larsen, 2017).

Аргумент в пользу укоренившихся знаний в языке, расширяющий предложение, выдвинутое Гефеном и Ларсеном (2017), заключается в том, что если определенные слова или сочетания слов имеют тенденцию встречаться вместе, то эти тенденции совместного появления могут лингвистически регистрировать социализированные знания. Так, например, если слова «недоверие» и слово «избегать» имеют тенденцию встречаться вместе значительно чаще, чем «доверие» и «избегать», тогда как «доверие» чаще встречается вместе со словом «покупка», чем «недоверие». Значит ли это, что это совпадение свидетельствует о том, что люди склонны избегать того, чему они не доверяют, но склонны покупать у тех, кому они доверяют?

Этот вид анализа может на самом деле также потенциально раскрывать самоцензурированные знания, решая известную проблему с анкетами. Хорошо известно, что люди, заполняющие опросы, даже анонимные, учитывают как то, что, по их мнению, хочет услышать администратор опроса, так и то, что они сами подразумевают под своими ответами (Cook and Campbell, 1979; Shadish et al., 2002). Таким образом, выявить честные неполиткорректные предубеждения будет довольно сложно, поскольку люди, заполняющие анкету, знают, что общество избегает открытого выражения таких мыслей, а значит, в таких данных есть необъективность, если они собираются посредством опросов.Однако, поскольку LSA анализирует также косвенные ассоциации между словами, он может выявить такие предубеждения. Действительно, было показано, что косвенные ассоциации терминов, идентифицированных с помощью LSA, полезны в случае анализа медицинских записей для выявления важных закономерностей в изучаемой популяции (Gefen et al., 2018), а также того, как битвы за ИТ-дизайн развиваются в прессе. (Миллер и др., 2018). Более того, термины, которые нелегко отличить друг от друга при статистическом анализе пунктов опросных листов, заполненных людьми, тем не менее могут быть дифференцированы при анализе текста, поскольку каждый из них имеет свои собственные отчетливые ассоциации с другими терминами.Это различие действительно будет показано в следующем разделе.

Это не аргумент причинно-следственной связи. Это не означает, что люди ведут себя так из-за этого лингвистически укоренившегося знания, как подразумевается в «гипотезе Сепира-Уорфа» (Hill and Mannheim, 1992) о том, что язык определяет мысли и поведение, или в оруэлловском контроле мысли посредством . новояз язык (Оруэлл, 1948). Скорее, аргумент в пользу корреляции. Люди ведут себя так по множеству причин, и язык, который они и другие используют, отражает эти тенденции.Возможно, их поведение — и, точнее, в данном случае рассказывание историй о своем поведении — отражает их социализацию через язык, но вполне может быть и так, что язык регистрирует общие аспекты их рассказов и рассказов многих других.

Результаты анализа

Процесс анализа

Матрица косинусов элементов измерения, созданная lsa.colorado.edu, была введена в качестве входных данных в Mplus версии 7.4 и проанализирована как отражающая CBSEM. В нашей модели измерения отражающие элементы измерения CBSEM моделируются как отражающие скрытую переменную, иначе известную как конструкция.Таким образом, DT1, DT2 и DT3 отражают латентную переменную (конструкт) Недоверие и никакой другой конструкт, в то время как USE1 и USE2 отражают латентную переменную Use и никакую другую и т. д. Если есть значительные перекрестные нагрузки, т. е. загрузка элемента измерения в конструкцию, которой он не был назначен, тогда CBSEM идентифицирует эту перекрестную загрузку в таблице индексов модификации вместе с предполагаемым улучшением χ 2 , а также заметным изменением общих индексов соответствия модели. . Часть модели измерения модели CBSEM определяет этот образец элементов измерения для построения нагрузок.Затем структурная модель определяет взаимосвязь между этими конструкциями. Mplus анализирует как модель измерения, так и структурную модель вместе, выделяя любые проблемы с неопределенной ковариацией или с элементами измерения, ковариация которых перекрывается. Стандартной процедурой CBSEM является удаление элементов с такими проблемами (SAS, 2013), но об этом следует сообщать (Gefen et al., 2011), как мы делаем здесь.

Элементы TR5 и TR6 были удалены, так как косинусное расстояние между ними и между каждым из них и TR4 было равно 1.000, что означает, что с точки зрения алгоритма максимального правдоподобия, который CBSEM применяет по умолчанию для непрерывных переменных, эти три элемента практически неотличимы друг от друга. Будучи неотличимыми друг от друга, математически Mplus приводит к наблюдению, что «выборочная ковариационная матрица не может быть инвертирована», когда эти элементы были включены. Никакие другие пары элементов измерения не имели между собой косинус 1.000. Пункт TR3 был исключен для улучшения соответствия модели (включая TR3, который не изменил общий шаблон модели, но привел к RMSEA, равному 0.138). Давно считается приемлемой практикой отбрасывать элементы в CBSEM по таким причинам (Боллен, 1989; Йорескуг и Сёрбом, 1989).

Анализ Mplus был запущен с указанием размера выборки 400, что представляет собой округленное число измерений, созданных lsa.colorado.edu для учебников при создании семантического пространства. Как это принято в Mplus для элементов непрерывного измерения, мы сохранили анализ максимального правдоподобия по умолчанию. Общее соответствие модели было приемлемым (Gefen et al., 2011): χ 2 48 = 187,853, RMSEA = 0,085, CFI = 0,985, TLI = 0,979. Код Mplus доступен в Приложении.

Интерпретация анализа

Стандартизированная структурная модель показала, что использование в значительной степени предсказывалось доверием (β = 0,52, p < 0,001), недоверием (β = 0,18, p < 0,001) и знакомством (Γ = 0,34, p < 0,001). ). 2 То, что доверие является более сильным предиктором использования, чем знакомство, согласуется с антропологическими исследованиями, в которых знание исторического контекста определяет уровни доверия и недоверия, которые, в свою очередь, определяют поведенческие намерения [e.г., Фукуяма (1995)]. Эти значимые предикторы использования согласуются с цитируемой выше литературой. Знакомство значительно предсказывало доверие (Γ = 0,79, p <0,001) и недоверие (Γ = 0,82, p <0,001). Это также согласуется с приведенной выше литературой.

Модель CBSEM смоделировала Доверие и Недоверие как коррелирующие, поскольку эти два конструкта теоретически изображаются как непересекающиеся противоположные убеждения/оценки друг друга с непересекающимися противоположными последствиями для поведенческих намерений (Blau, 1964; Luhmann, 1979; Штомпка, 1999).Теоретическое различие между конструкциями доверия и недоверия также подтверждается исследованиями фМРТ (Dimoka, 2010; Riedl et al., 2010b). Различие между Доверием и Недоверием как отдельными конструкциями поддерживается в модели CBSEM за счет очень низких значений индекса модификации среди элементов конструкций Доверие и Недоверие. Доверие и недоверие как конструкции значительно коррелированы (θ = 0,32, p <0,001).

значений R были 0,97 для использования, 0,72 для доверия и 0.66 за недоверие. Перекрестные загрузки были низкими, на что также указывают приемлемые уровни статистики RMSEA. Обратите внимание, что LSA не определяет знак (плюс или минус) косинусных расстояний. Следовательно, модель Mplus показывает, что отношения между недоверием и всеми остальными конструктами положительны. Это известное ограничение LSA, заключающееся в том, что он измеряет семантическую близость слов или векторов слов, таких как целые предложения элемента анкеты, как угол, но в тех случаях, когда направление этого угла не имеет значения.

Специальный анализ

В качестве дополнительного анализа ad hoc для установления того, что различие между Доверием и Недоверием действительно дает значительно лучшую модель, модель, объединяющая эти две конструкции, сравнивалась с исходной моделью. В частности, χ 2 исходной модели (χ 2 48 = 187,853) сравнивали с χ 2 альтернативной модели, в которой Доверие и Недоверие были объединены в один конструкт.Полученное χ 2 этой альтернативной модели (χ 2 51 = 1073,722) было значительно хуже (Δχ 2 3 = 855,869), показывая, что разделение доверия и недоверия дает значительно лучшую модель.

Обсуждение

Сводка результатов

Предположение, выдвинутое в этом исследовании, заключалось в том, что социализированное знание также укоренено в языке и что это зарегистрированное знание может быть извлечено с помощью инструментов анализа текста, таких как LSA, и последующего статистического анализа.Эти лингвистические корреляты, как мы их называем, могут быть проанализированы как для реконструкции существующих гипотез, так и для того, чтобы сделать это исключительно посредством анализа текста и без обращения к распространению опросов среди людей, а также могут быть применены к дополнительным анализам, которые нелегко выполнить с помощью опросных исследований. Это предположение было продемонстрировано в контексте изучения доверия и недоверия, поскольку они относятся к знакомству как антецеденту и к покупке (помеченной как «использование» в других исследованиях) как результату.

Анализ поддерживает это предположение, но также подчеркивает некоторые нюансы анализа текста, которые следует учитывать.Анализ показывает, что лингвистические корреляты могут быть проанализированы для поддержки модели измерения, показывая, что косинусные расстояния между парами элементов вопросника, которые проецируются на соответствующее семантическое пространство, могут затем анализироваться с помощью CBSEM для поддержки ожидаемых значительных нагрузок этих элементов вопросника на скрытая переменная, которую они теоретически отражают. Лингвистические корреляты также позволили провести статистическую дифференциацию между доверием и недоверием (см. анализ ad hoc в разделе «Интерпретация анализа»), что было трудно сделать при проведении опросов (Gefen et al., 2008a), даже несмотря на то, что это различие предполагается в теории (например, Fukuyama, 1995; Blau, 1964) и показано в неврологии (например, Dimoka, 2010; Riedl et al., 2010b). Анализ также поддерживает следующую часть утверждения о том, что закономерности корреляции между этими конструкциями, т. е. структурной моделью, согласуются с теорией. Анализ, однако, также показывает, что косинусное расстояние между некоторыми парами элементов равно 1000, т. е. идеальное совпадение, что дает результат, который редко можно увидеть в данных, собранных в ходе опросов, проводимых среди людей, и требует соответствующего исключения элементов.

Вывод состоит в том, что некоторые аспекты социализированного знания о доверии и недоверии укоренены в языке, на котором мы говорим, и что регистрация этого социализированного знания может быть извлечена через лингвистические корреляты в той мере, в какой это позволяет воссоздать отношения, которые предполагает теория.

Последствия для теории доверия и возможная роль лингвистических коррелятов

Теория доверия и английский язык четко различают доверие и недоверие, показывая, что, хотя эти два термина связаны в своем контексте, они не совпадают и даже не пересекаются по своему значению.Такая разница показана и в этом исследовании, где и доверие, и недоверие коррелируют с знакомством и употреблением, а также друг с другом, но их элементы существенно не отражают один и тот же, один, латентный конструкт. То, что изучение лингвистических коррелятов могло бы показать эту разницу, в то время как исследования, в которых анализируются ответы людей на анкеты, не могли, и тем самым, возможно, создавая неверную интерпретацию того, что доверие и недоверие перекрываются по смыслу, показывают потенциальный вклад в анализ лингвистических коррелятов или, по крайней мере, что лингвистические корреляты могут значительно расширить знания, полученные в ходе опросных исследований.

Более конкретно, с точки зрения теории доверия, то, что Доверие оказывало более сильное стандартизованное влияние на Использование (β = 0,52, p < 0,001), чем Знакомство (Γ = 0,18, p < 0,001), предполагает, что, как и предыдущие модели [например, Gefen (2000)] показывают, что в основном знакомство создает доверие и что в основном именно доверие, а не знакомство определяет поведение. Продолжая эту логическую линию, стандартизированный эффект Доверия значительно сильнее, чем эффект Недоверия (β = 0.34, p < 0,001) предполагает, что доверие важнее в определении поведения, чем недоверие в контексте предоставления информации онлайн (см. Аналогичным образом, Знакомство влияет как на Доверие (Γ = 0,85, p < 0,001), так и на Недоверие (Γ = 0,82, p < 0,001) с почти одинаковым стандартизованным коэффициентом, и эти коэффициенты значительно выше, чем стандартизированная корреляция между Доверием и недоверие (θ = 0.32, p < 0,001), предполагает, что знакомство влияет на доверие и недоверие по двум, в основном, не связанным между собой каналам. Такое наблюдение согласуется с тем, как Фукуяма (1995) по-разному описывает эволюцию доверия и недоверия в разных культурах на основе их истории. То, что создает доверие, не вызывает недоверия.

Такая способность различать доверие и недоверие была привнесена десять лет назад расцветающей дисциплиной NeuroIS. (NeuroIS — это название, данное дисциплине и обществу, которое изучает нейробиологию применительно к информационным системам).В NeuroIS использовалась та же потребность различать доверие и недоверие (например, Dimoka, 2010; Riedl et al., 2010b). Затем NeuroIS использовала эту проверку различия доверия и недоверия с помощью нейронных коррелятов, чтобы доказать, что, поскольку нейробиология может сделать это, а исследование данных анкеты не может, для выдвижения ключевого аргумента в пользу важности таких нейробиологических исследований (Riedl et al., 2010a; Dimoka). и др., 2012). Тот же самый аргумент может быть применим к анализу текста, а также к языковым коррелятам.Изучение лингвистических коррелятов может не только поддерживать поведенческие гипотезы через закономерности совпадения слов, но даже поддерживать гипотезы, которые не могут быть подтверждены данными опросов. Нейронаука и анализ текста явно не одно и то же, и они, несомненно, измеряют разные данные. Тем не менее, основываясь на том же аргументе о способности изучить, могут ли две конструкции не быть одинаковыми, даже если опросное исследование не может этого показать, анализ текста действительно имеет преимущество перед нейронаукой в ​​том, что он дешевле и быстрее.Потенциально существует много других подобных интересных конструкций, которые можно было бы изучить.

Более широкие последствия для анализа текста с точки зрения лингвистических коррелятов

Как ранее предполагали Гефен и Ларсен (2017), анализ лингвистических коррелятов может также добавить еще один инструмент в набор инструментов, которые социологи применяют для оценки и, возможно, статистического контроля прайминга (Кук и Кэмпбелл, 1979), а также к неизбежному введению общих метод дисперсии данных, собранных в ходе опросов (Podsakoff et al., 2003; Малхотра и др., 2006). Более того, текстовый анализ, даже если его результаты не полностью совпадают с результатами опроса, проведенного с живыми субъектами, также может предоставить более дешевый вариант предварительного тестирования существующих вопросников, прежде чем приступать к более дорогостоящему сбору данных с субъектами. К этому в данном исследовании добавляется также возможность статистически показать дискриминантную валидность, т. е. провести различие между конструкциями, которые теоретически и лингвистически не совпадают, но которые опросное исследование не смогло показать их дискриминантной валидности.

Кроме того, такой метод может быть особенно применим к изучению контекстов, которые не могут быть изучены с помощью опросов, например, не связанных с текущим реальным опытом. Изучение лингвистических коррелятов может позволить заглянуть в то, как люди думали в прошлом, и, следовательно, как интересующие понятия менялись в своем лингвистическом значении и ассоциациях с течением времени. Бесспорно, общение с реальными людьми или изучение реальных ответов на опросы имеет свои преимущества, но не существует известной современной технологии, которая позволила бы нам спросить Чарльза Диккенса или Генрика Ибсена об их доверии.Изучение их сочинений — очевидная альтернатива. Этот метод позволяет делать это полуавтоматически. Точно так же такой метод может позволить изучить, как эти языковые корреляты менялись с течением времени, путем сравнения современной литературы с литературой прошлого.

Сравнение лингвистических коррелятов может также выявить подсказки относительно того, почему, как показано во введении, лица, не являющиеся носителями английского языка, отвечают на одни и те же вопросы на английском языке по-разному по сравнению с ответами на опросы на своем родном языке, даже если опросы представляют собой точный перевод друг друга (Harzing, 2005).Вполне возможно, что часть ответа заключается в том, что лингвистические корреляты конструктов, изучаемых в этих опросах, различаются в зависимости от языка.

Изучение лингвистических коррелятов может также частично показать, как люди в настоящем могут реагировать на технологии будущего. То есть изучение лингвистических коррелятов может дать частичную картину социализированного знания, заключенного в языковом аспекте того, почему люди делают то, что они делают. Может оказаться невозможным изучить, как люди будут реагировать на новые технологии, такие как новые аспекты ИИ, которые еще не доступны, и почему в контексте этого исследования они могут доверять или не доверять им, но изучение языковых коррелятов людей может выявить по крайней мере, социализированное знание включает в себя языковой аспект этого вопроса.Это также может дать некоторые намеки на то, почему некоторые культуры могут быть более открытыми, чем другие, к принятию и доверию к такому ИИ. Такой взгляд может иметь большое значение, учитывая, что современные теории доверия ориентированы на человека, группу людей или антропоморфизированную партию. Современные теории доверия обращаются к такой цели, обсуждая такие причины, как контроль риска и понимание социальной среды. Сомнительно, если и как любая из этих причин может относиться к ИИ. Изучение лингвистических коррелятов могло бы, по крайней мере, выявить возможные мотивы и побуждения, которые социализируются в языке.Это также предлагает путь для возможных будущих исследований того, почему люди могут доверять или не доверять, даже если причины, вытекающие из текущих исследований, такие как контроль риска (Mayer et al., 1995) или упрощение социальной среды до управляемого уровня (Luhmann, 1979; Gefen et al., 2003b), явно не применимы. Возможно, такое исследование доверия и недоверия с помощью моделей использования языка, выявленных в результате анализа текста достаточно экспертного источника, такого как учебники, может позволить оценить, как люди могут доверять и не доверять также в контекстах, которые находятся за пределами их способности оценивать риски или понимать .

Ограничения

Исследование продемонстрировало предположение о лингвистических коррелятах с помощью, по общему признанию, простой модели. Но сам факт того, что модель вообще может быть воспроизведена, предполагает, что действительно по крайней мере некоторые аспекты социального знания фиксируются в языке посредством словесных ассоциаций. Предположительно, как обсуждалось выше, это укоренившееся знание соответствует тому, как люди думают, либо потому, что они выучили или социализировали это встроенное в язык знание, либо потому, что это встроенное в язык знание записало, как люди ведут себя.Очевидно, что повторение с другими соответствующими корпусами необходимо, но то, что анализ подтвердил это предложение, показательно.

Ограничения, применимые к CBSEM, применимы и к этому методу. Если бы модель была слишком сложной, то «шум» ковариаций, не включенных в модель, в конечном итоге привел бы к общим индексам плохого соответствия. Аналогичным образом, многие общие индексы соответствия, такие как χ 2 и RMSEA, подвергаются негативному влиянию по мере увеличения размера выборки. Поскольку тенденция LSA состоит в том, чтобы иметь от 300 до 500 измерений, и, следовательно, анализ будет моделироваться как размер выборки между 300 и 500 точками данных, риск наличия общих индексов соответствия, которые не соответствуют критериям, которые мы применяем к опросу исследования могут стать проблемой.

Точно так же, как и в случае других типов сбора данных, крайне важно, чтобы источник данных был надежным, достоверным и актуальным. Это применимо в данном контексте так же, как и при опросе экспертов или проведении опросов. Выбор правильной совокупности (или корпуса в данном случае) имеет решающее значение.

Возможно, ограничение, которое в наибольшей степени ограничивает данное и подобные ему исследования, заключается в том, что семантическое расстояние, в данном случае косинусное расстояние, означает силу отношения, но не его направление, т.е.д., является ли отношение положительным или отрицательным. Таким образом, путь от Недоверия к Пользованию положительный, тогда как по теории он должен быть отрицательным. Текущий метод не решает эту проблему. Необходимы уточнения, чтобы добавить значение знака к значениям косинуса, полученным с помощью LSA или любого другого метода анализа текста, который применяется для извлечения семантических расстояний.

Заключение

Это исследование продемонстрировало возможность совместного применения LSA и CBSEM для исследования лингвистических коррелятов доверия и недоверия.Исследование также показало, что анализ лингвистических коррелятов может быть применен для различения доверия и недоверия, что было трудно сделать исследователям. Ясно, что концепция лингвистических коррелятов и возможность моделирования их роли в принятии решений человеком не ограничивается только доверием и недоверием. И этот потенциал не ограничивается изучением только настоящего. Тексты прошлого могут быть так же легко проанализированы с помощью метода, продемонстрированного в этой статье, открывая через лингвистические корреляты представление о прошлом и о том, как могли думать люди в давно минувшие периоды.На практике это также открывает окно для возможного изучения того, как мы, люди настоящего, можем реагировать на будущие технологии и контексты, основанные на наших текущих языковых коррелятах.

Заявление о доступности данных

Наборы данных, созданные для этого исследования, доступны по запросу соответствующему автору.

Вклад авторов

DG инициировал идею, создал раздел теории, провел анализ CBSEM и возглавил проект и написание. JF внес свой вклад в интерпретацию АЛП, а также в обсуждение и написание.KL провела анализ АЛП и участвовала в обсуждении и написании АЛП.

Финансирование

Работа выполнена при поддержке Школы менеджмента Мартина Тачмана при Технологическом институте Нью-Джерси.

Конфликт интересов

Авторы заявляют, что исследование проводилось при отсутствии каких-либо коммерческих или финансовых отношений, которые могли бы быть истолкованы как потенциальный конфликт интересов.

Сноски

Каталожные номера

Арнульф, Дж.К., Ларсен, К.Р., Мартинсен, О. Л. и Бонг, Ч. Х. (2014). Прогнозирование ответов на опросы: как и почему семантика формирует статистику опросов об организационном поведении. PLoS One 9:e106361. doi: 10.1371/journal.pone.0106361

Реферат PubMed | Полный текст перекрестной ссылки | Академия Google

Арнульф, Дж. К., Ларсен, К. Р., Мартинсен, О. Л. и Эгеланд, Т. (2018). Неудачное измерение отношения: как семантические детерминанты индивидуальных ответов на опросы приходят на смену измерениям силы отношения. Поведение. Рез. Методы 50, 2345–2365. doi: 10.3758/s13428-017-0999-y

Реферат PubMed | Полный текст перекрестной ссылки | Академия Google

Ба, С., и Павлоу, П.А. (2002). Доказательства влияния технологии построения доверия на электронные рынки: ценовые надбавки и поведение покупателей. МИС В. 26, 243–268.

Академия Google

Бенароч, М., Лихтенштейн, Ю., и Финк, Л. (2016). Выбор дизайна контракта и баланс предварительных и фактических транзакционных издержек при аутсорсинге разработки программного обеспечения. МИС В. 40, 57–82. doi: 10.25300/misq/2016/40.1.03

Полнотекстовая перекрестная ссылка | Академия Google

Бенбасат, И., Гефен, Д., и Павлоу, П.А. (2008). Введение в специальный выпуск JMIS о доверии в онлайн-среде. JMIS 25, 5–12.

Академия Google

Бенте Г., Рюггенберг С., Кремер Н. К. и Эшенбург Ф. (2008). Сеть, опосредованная аватаром: увеличение социального присутствия и межличностного доверия в сетевом сотрудничестве. Гул. коммун. Рез. 34, 287–318. doi: 10.1111/j.1468-2958.2008.00322.x

Полнотекстовая перекрестная ссылка | Академия Google

Блау, П. М. (1964). Обмен и власть в общественной жизни. Нью-Йорк, штат Нью-Йорк: Wiley.

Академия Google

Боллен, К.А. (1989). Структурные уравнения со скрытыми переменными. Нью-Йорк, штат Нью-Йорк: Джон Уайли и сыновья.

Академия Google

Болтон, П., и Деватрипомт, М. (2005). Контрактная теория. Кембридж, Массачусетс: MIT Press.

Академия Google

Кук, Т.Д., и Кэмпбелл, Д.Т. (1979). Квазиэксперимент: вопросы дизайна и анализа для полевых настроек. Бостон, Массачусетс: Houghton Mifflin.

Академия Google

Дэвис, Ф. Д. (1989). Воспринимаемая полезность, воспринимаемая простота использования и принятие пользователями информационных технологий. МИС В. 13, 319–340.

Академия Google

Дирвестер, С., Дюме, С. Т., Furnas, G.W., Landauer, T.K., and Harshman, R. (1990). Индексирование с помощью скрытого семантического анализа. Дж. Ам. соц. Инф. науч. 41, 391–407.

Академия Google

Димока, А. (2010). Что мозг говорит нам о доверии и недоверии? Данные функционального нейровизуализирующего исследования. МИС В. 34, 373–396.

Академия Google

Димока А., Бэнкер Р. Д., Бенбасат И., Дэвис Ф. Д., Деннис А. Р., Гефен Д. и соавт. (2012). Об использовании нейрофизиологических инструментов в исследовании ИС: разработка программы исследований для НейроИС. МИС В. 36, 679–702.

Академия Google

Dumais, S.T., Furnas, G.W., Landauer, T.K., Deerwester, S., and Harshman, R. (1988). «Использование скрытого семантического анализа для улучшения доступа к текстовой информации», в документе , представленном на конференции по человеческому фактору в вычислительных системах: материалы конференции SIGCHI по человеческому фактору в вычислительных системах , Вашингтон, округ Колумбия.

Академия Google

Эвангелопулос, Н., Чжан, X., и Прибуток, В.Р. (2012). Латентный семантический анализ: пять методических рекомендаций. евро. Дж. Инф. Сист. 21, 70–86. doi: 10.1057/ejis.2010.61

Полнотекстовая перекрестная ссылка | Академия Google

Фукуяма, Ф. (1995). Доверие: социальные добродетели и создание процветания. Нью-Йорк, штат Нью-Йорк: The Free Press.

Академия Google

Гамбетта, Д. (1988). «Можем ли мы доверять доверию?» в Trust: создание и разрыв отношений сотрудничества , изд. Д. Гамбетта (Нью-Йорк, штат Нью-Йорк: Блэквелл), 213–237.

Академия Google

Гефен, Д. (2004). Что делает отношения внедрения ERP полезными: связывание механизмов доверия и полезности ERP. Дж. Манаг. Инф. Сист. 23, 263–288. дои: 10.1080/07421222.2004.11045792

Полнотекстовая перекрестная ссылка | Академия Google

Гефен, Д., Бенбасат, И., и Павлоу, П.А. (2008a). Программа исследований доверия в онлайн-среде. Дж. Манаг. Инф. Сист. 24, 275–286. doi: 10.2753/mis0742-1222240411

Полнотекстовая перекрестная ссылка | Академия Google

Гефен, Д.и Кармель, Э. (2008). Действительно ли мир плоский? Взгляд на оффшоринг на рынке онлайн-программирования. МИС В. 32, 367–384.

Академия Google

Гефен, Д., и Кармель, Э. (2013). Почему первый провайдер берет все на себя: последствия низкой культуры доверия для ценообразования и рейтингов на рынках онлайн-сорсинга. евро. Дж. Инф. Сист. 22, 604–618. doi: 10.1057/ejis.2012.49

Полнотекстовая перекрестная ссылка | Академия Google

Гефен, Д., Эндикотт, Дж., Фреснеда, Дж., Миллер, Дж., и Ларсен, К.Р. (2017). Руководство по анализу текста со скрытым семантическим анализом в r с аннотированным кодом, изучающим онлайн-обзоры и сообщество по обмену стеками. Комм. доц. Инф. Сист. 41, 450–496. doi: 10.17705/1cais.04121

Полнотекстовая перекрестная ссылка | Академия Google

Гефен Д., Караханна Э. и Штрауб Д. В. (2003a). Неопытность и опыт работы с интернет-магазинами: важность ТАМ и доверия. IEEE Trans. англ. Управление 50, 307–321. doi: 10.1109/тем.2003.817277

Полнотекстовая перекрестная ссылка | Академия Google

Гефен Д., Караханна Э. и Штрауб Д. В. (2003b). Доверие и ТАМ в онлайн-покупках: интегрированная модель. МИС В. 27, 51–90.

Академия Google

Гефен, Д., и Ларсен, К.Р. (2017). Контроль лексической близости в опросных исследованиях: демонстрация модели принятия технологии. J. Assoc. Инф. Сист. 18, 727–757. дои: 10.17705/1jais.00469

Полнотекстовая перекрестная ссылка | Академия Google

Гефен, Д., Миллер, Дж., Армстронг, Дж. К., Корнелиус, Ф. Х., Робертсон, Н., Смит-Маклаллен, А., и соавт. (2018). Выявление закономерностей в медицинских записях с помощью латентного семантического анализа. Комм. АСМ 61, 72–77. дои: 10.1145/3209086

Полнотекстовая перекрестная ссылка | Академия Google

Гефен, Д., и Райдингс, К. (2003). Принятие ИТ: управление границами между пользователями и ИТ-группами. База данных ACM SIGMIS 34, 25–40.дои: 10.1145/937742.937746

Полнотекстовая перекрестная ссылка | Академия Google

Гефен Д., Ригдон Э. и Штрауб Д. В. (2011). Обновление и расширение рекомендаций SEM для административных и социальных исследований. МИС В. 35, III–XIV.

Академия Google

Гефен Д., Висс С. и Лихтенштейн Ю. (2008b). Знакомство с бизнесом как снижение рисков в контрактах на аутсорсинг разработки программного обеспечения. МИС В. 32, 531–551.

Академия Google

Гринберг, П.С., Гринберг Р. Х. и Антонуччи Ю. Л. (2008). Роль доверия в управлении отношениями аутсорсинга бизнес-процессов Подход к экономике транзакционных издержек. Автобус. Управление процессами J. 14, 593–608. дои: 10.1108/14637150810

1

Полнотекстовая перекрестная ссылка | Академия Google

Гулати, Р. (1995). Порождает ли знакомство доверие? Последствия повторяющихся связей для договорного выбора в альянсах. акад. Управление Дж. 38, 85–112. дои: 10.5465/256729

Полнотекстовая перекрестная ссылка | Академия Google

Гулати, Р.и Ситч, М. (2008). Порождает ли знакомство доверие? Пересмотр предшественников доверия. Управление. Реш. Экон. 29, 165–190. doi: 10.1002/mde.1396

Полнотекстовая перекрестная ссылка | Академия Google

Гюнтер Ф., Дудшиг К. и Кауп Б. (2016). Косинусы латентного семантического анализа как мера когнитивного сходства: данные предварительных исследований. QJ Exp. Психол. 69, 626–653. дои: 10.1080/17470218.2015.1038280

Реферат PubMed | Полный текст перекрестной ссылки | Академия Google

Га, Х.-Ю., и Перкс, Х. (2005). Влияние потребительского восприятия бренда в Интернете: знакомство с брендом, удовлетворенность и доверие к бренду. Дж. Консум. Поведение 4, 438–452. doi: 10.1002/cb.29

Полнотекстовая перекрестная ссылка | Академия Google

Харзинг, А.-В. (2005). Скрывает ли использование англоязычных вопросников в межнациональных исследованиях национальные различия? Междунар. Дж. Кросс-культ. Управление 5, 213–224. дои: 10.1177/1470595805054494

Полнотекстовая перекрестная ссылка | Академия Google

Хилл, Дж.Х. и Мангейм Б. (1992). Язык и мировоззрение. год. Преподобный Антропол. 21, 381–404.

Академия Google

Huettig, F., Quinlan, P.T., McDonald, S.A., and Altmann, G.T. (2006). Модели многомерного семантического пространства предсказывают опосредованные языком движения глаз в визуальном мире. Acta Psychol. 121, 65–80. doi: 10.1016/j.actpsy.2005.06.002

Реферат PubMed | Полный текст перекрестной ссылки | Академия Google

Ярвенпаа, С. Л., Нолл, К.и Лейднер Д.Э. (1998). Кто-нибудь там? Предпосылки доверия к глобальным виртуальным командам. Дж. Манаг. Инф. Сист. 14, 29–64. дои: 10.1080/07421222.1998.11518185

Полнотекстовая перекрестная ссылка | Академия Google

Йорескуг, К.Г., и Сёрбом, Д. (1989). LISREL7: Руководство по программе и приложениям , 2-е изд. Чикаго, Иллинойс: SPSS Inc.

Академия Google

Каабачи, С., Бен Мрад, С., и Петреску, М. (2017). Первоначальное доверие потребителей к интернет-банкам во Франции. Междунар. Дж. Банк Марк. 35, 903–924. doi: 10.1108/ijbm-09-2016-0140

Полнотекстовая перекрестная ссылка | Академия Google

Килинг, К., МакГолдрик, П., и Битти, С. (2010). Аватары как продавцы: стиль общения, доверие и намерения. Дж. Автобус. Рез. 63, 793–800. doi: 10.1016/j.jbusres.2008.12.015

Полнотекстовая перекрестная ссылка | Академия Google

Кинч, В., и Мангалат, П. (2011). Построение смысла. Верх. Познан. науч. 3, 346–370.doi: 10.1111/j.1756-8765.2010.01107.x

Полнотекстовая перекрестная ссылка | Академия Google

Komiak, SYX, и Benbasat, I. (2006). Влияние персонализации и знакомства на доверие и принятие рекомендательных агентов. MIS Q. 30, 941–960.

Академия Google

Крамер, Р. М. (1999). Доверие и недоверие к организациям: новые перспективы, непреходящие вопросы. год. Преподобный Психолог. 50, 984–993.

Реферат PubMed | Академия Google

Кумар, Н.(1996). Сила доверия в отношениях между производителем и продавцом. Гарв. Автобус. Ред. 74, 92–106.

Академия Google

Ландауэр, Т.К. (2007). «LSA как теория значения», в Handbook of Latent Semantic Analysis , eds T.K. Landauer, D.S. McNamara, S. Dennis, and W. Kintsch (Mahwah, NJ: Larence Erlbaum Associates, Publishers), 3–34.

Академия Google

Ландауэр, Т.К., и Дюме, С.Т. (1997). Решение проблемы Платона: теория скрытого семантического анализа приобретения, индукции и представления знания. Психология. Ред. 104, 211–240. doi: 10.1037/0033-295x.104.2.211

Полнотекстовая перекрестная ссылка | Академия Google

Ландауэр Т.К., Фольц П.В. и Лахам Д. (1998). Введение в латентный семантический анализ. Дискуссионный процесс. 25, 259–284.

Академия Google

Ларсен, К.Р., и Монархи, Д.Е. (2004). Математический подход к категоризации и маркировке качественных данных: метод скрытой категоризации. Соц. Методол. 34, 349–392. doi: 10.1111/j.0081-1750.2004.00156.x

Полнотекстовая перекрестная ссылка | Академия Google

Ларсен, К.Р., Нево, Д., и Рич, Э. (2008). Изучение семантической валидности опросных шкал. Доклад, представленный на Гавайской международной конференции по системным наукам , Вайколоа, Гавайи.

Академия Google

Луманн, Н. (1979). Trust and Power , изд. TF German (пер.). Брисбен: Джон Уайли и сыновья.

Академия Google

Луманн, Н.(1988). «Доверие: создание и разрыв отношений сотрудничества», в Знакомство, уверенность, доверие: проблемы и альтернативы , изд. Д. Гамбетта (Оксфорд: Бэзил Блэквелл), 94–107.

Академия Google

Луманн, Н. (2000). Знакомство, уверенность, доверие: проблемы и альтернативы», в Доверие: установление и разрыв отношений сотрудничества , изд. Д. Гамбетта (Оксфорд: Оксфордский университет), 94–107.

Академия Google

Малхотра, Н.К., Ким, С.С. и Патил А. (2006). Общим методом дисперсии является исследование: сравнение альтернативных подходов и повторный анализ прошлых исследований. Управ. науч. 52, 1865–1883 ​​гг. doi: 10.1287/mnsc.1060.0597

Полнотекстовая перекрестная ссылка | Академия Google

Мартин, Д. И., и Берри, М. В. (2007). «Математические основы скрытого семантического анализа», в Handbook of Latent Semantic Analysis , eds DSM Thomas, K. Landauer, S. Dennis и WK Mahwah (Mahwah, NJ: Lawrence Erlbaum Associates).

Академия Google

Mayer, R.C., Davis, J.H., and Schoorman, F.D. (1995). Интегративная модель организационного доверия. акад. Управление Ред. 20, 709–734. doi: 10.5465/amr.1995.9508080335

Полнотекстовая перекрестная ссылка | Академия Google

Макнайт, Д. Х., и Чоудхури, В. (2006). «Недоверие и доверие к электронной коммерции B2C: отличаются ли они?», Proceedings of the International Conference on Electronic Commerce , Фредериктон.

Академия Google

Макнайт, Д.Х., Чоудхури В. и Качмар К. (2002). Разработка и проверка мер доверия для электронной коммерции: интегративная типология. Инф. Сист. Рез. 13, 334–359. doi: 10.1287/isre.13.3.334.81

Полнотекстовая перекрестная ссылка | Академия Google

Макнайт, Д.Х., Каммингс, Л.Л., и Червани, Н.Л. (1998). Первоначальное формирование доверия в новых организационных отношениях. акад. Управление Ред. 23, 473–490. doi: 10.5465/amr.1998.926622

Полнотекстовая перекрестная ссылка | Академия Google

Миллер, Дж., Нараянан, В.К., Гефен, Д., и Ларсен, К.Р. (2018). «Исследование битвы за дизайн с использованием латентного семантического анализа», в документе , представленном в Academy of Management Proceedings , Чикаго, Иллинойс.

Академия Google

Муди, Г. Д., Галлетта, Д. Ф., и Данн, Б. К. (2017). Какой фиш поймать? Предварительное исследование восприимчивости людей к фишингу. евро. Дж. Инф. Сист. 26, 564–584. doi: 10.1057/s41303-017-0058-x

Полнотекстовая перекрестная ссылка | Академия Google

Майерс, Д.Г. (1998). Психология , 5-е изд. Нью-Йорк, штат Нью-Йорк: Worth Publishers.

Академия Google

Офори, К.С., Боатенг, Х., Окое, А.Ф., и Гвозданович, И. (2017). Изучение намерений клиентов продолжать использование интернет-банкинга. Марка. Интел. Строить планы. 35, 756–773. дои: 10.1108/мип-11-2016-0214

Полнотекстовая перекрестная ссылка | Академия Google

Павлоу, П.А., и Файгенсон, М. (2006). Понимание и прогнозирование внедрения электронной коммерции: расширение теории запланированного поведения. МИС В. 30, 115–143.

Академия Google

Павлоу, П.А., и Гефен, Д. (2004). Создание эффективных онлайн-рынков с институциональным доверием. Инф. Сист. Рез. 15, 37–59. doi: 10.1287/isre.1040.0015

Полнотекстовая перекрестная ссылка | Академия Google

Павлоу, П.А., и Гефен, Д. (2005). Нарушение психологического контракта на онлайн-рынках: предпосылки, последствия и модерирующая роль. Инф. Сист. Рез. 16, 372–399.doi: 10.1287/isre.1050.0065

Полнотекстовая перекрестная ссылка | Академия Google

Podsakoff, P.M., Lee, J.Y., and Podsakoff, N.P. (2003). Распространенные предубеждения в методах поведенческих исследований: критический обзор литературы и рекомендуемые средства правовой защиты. J. Appl. Психол. 88, 879–903. дои: 10.1037/0021-9010.88.5.879

Реферат PubMed | Полный текст перекрестной ссылки | Академия Google

Райдингс, К., Гефен, Д., и Аринзе, Б. (2002). Некоторые предпосылки и последствия доверия в виртуальных сообществах. Дж. Стратег. Инф. Сист. 11, 271–295. doi: 10.1016/s0963-8687(02)00021-5

Полнотекстовая перекрестная ссылка | Академия Google

Ридл Р., Бэнкер Р. Д., Бенбасат И., Дэвис Ф. Д., Деннис А. Р., Димока А. и соавт. (2010а). Об основах NeuroIS: размышления о ретрите в Гмундене, 2009 г. Комм. доц. Инф. Сист. 27, 243–264.

Академия Google

Ридл Р., Хьюберт М. и Кеннинг П. (2010b). Существуют ли нейронные гендерные различия в онлайн-доверии? МРТ-исследование надежности предложений eBay. МИС В. 34, 397–428.

Академия Google

Роттер, Дж. Б. (1967). Новая шкала измерения межличностного доверия. Дж. Перс. 35, 651–665. doi: 10.1111/j.1467-6494.1967.tb01454.x

Полнотекстовая перекрестная ссылка | Академия Google

Роттер, Дж. Б. (1971). Обобщенные ожидания от межличностного доверия. утра. Психол. 26, 443–450.

Академия Google

САС (2013 г.). SAS/СТАТ ® 13.1 Руководство пользователя Процедура CALIS. Кэри, Северная Каролина: SAS Institute Inc.

Академия Google

Шорман, Ф. Д., Майер, Р. К., и Дэвис, Дж. Х. (2007). Интегративная модель организационного доверия: прошлое, настоящее и будущее. акад. Управление Ред. 32, 344–354. doi: 10.5465/amr.2007.24348410

Полнотекстовая перекрестная ссылка | Академия Google

Шадиш, В. Р., Кук, Т. Д., и Кэмпбелл, Д. Т. (2002). Экспериментальные и квазиэкспериментальные планы для обобщенного причинно-следственного вывода. Бостон, Массачусетс: Houghton Mifflin.

Академия Google

Штомпка, П. (1999). Доверие: социологическая теория. Кембридж: Издательство Кембриджского университета.

Академия Google

Тонта, Ю., и Дарвиш, Х. Р. (2010). Распространение латентного семантического анализа как исследовательского инструмента: подход к анализу социальных сетей. Журнал Информетр. 4, 166–174. doi: 10.1016/j.joi.2009.11.003

Полнотекстовая перекрестная ссылка | Академия Google

Валье-Лиссабон, Дж.К. и Мизраджи Э. (2007). Раскрытие скрытых структур с помощью латентного семантического анализа. Инф. науч. 177, 4122–4147. doi: 10.1016/j.ins.2007.04.007

Полнотекстовая перекрестная ссылка | Академия Google

Варкентин М., Шарма С., Гефен Д., Роуз Г. М. и Павлоу П. (2018). Социальная идентичность и доверие к интернет-голосованию. Правительственная инф. Вопрос 35, 195–209. doi: 10.1016/j.giq.2018.03.007

Полнотекстовая перекрестная ссылка | Академия Google

Уильямсон, О.Э. (1985). Экономические институты капитализма. Нью-Йорк, штат Нью-Йорк: The Free Press.

Академия Google

Йери, М., и ван ден Брук, П. (2014). Роль текстовых семантических ограничений в формировании выводов на основе знаний во время понимания прочитанного: вычислительный подход. Память 23, 1193–1214. дои: 10.1080/09658211.2014.968169

Реферат PubMed | Полный текст перекрестной ссылки | Академия Google

Цукер, LG (1986). «Производство доверия: институциональные источники экономической структуры, 1840-1920 гг.», в Research in Organizational Behavior , Vol.8, ред. Б. М. Став и Л. Л. Каммингс (Гринвич, Китай: JAI Press), 53–111.

Академия Google

Приложение

Mplus Код

.

Post A Comment

Ваш адрес email не будет опубликован.