Контент-анализ экономической информации - (курсовая)
Дата добавления: март 2006г.
МИНИСТЕРСТВО ВЫСШЕГО И ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ ИРКУТСКАЯ ГОСУДАРСТВЕННАЯ ЭКОНОМИЧЕСКАЯ АКАДЕМИЯ Центр Психологии КУРСОВАЯ РАБОТА по Психологии управления на тему: Контент-анализ экономической информации Выполнил: Проверил: студент М-95-1 к. п. н. Четвериков С. Вяткин А. П. Иркутск, 1999 ВВЕДЕНИЕ
Через один год обозреватели и журналисты будут гадать, каким символом обозначить уходящий век. Уже предложено несколько названий: атомный век, электрический, космический, информационный. Думаю, на этот вопрос не может быть однозначного ответа, так как столетие–это не один миг, оставляющий только одно впечатление в сознании человеке. Это–путь эволюции всего человечества: от удовлетворения своих потребностей в пище и крове над головой, облегчения быта и труда до удовлетворения интеллектуальных потребностей каждого человека в знаниях, самовыражении, образовании. До недавнего времени возможности такого образования были ограничены наличием печатной литературы, близостью культурных и научных центров, скоростью чтения читателя. Но с появлением электронных средств коммуникации становится все больше способов получения информации. Достаточно иметь доступ в Internet, чтобы бесплатно получать оперативную информацию о происшествиях в мире, состояниях рынков, настроениях общественности. Также существует много платных информационных агентств: Сибирское Информационное Агентство (СИА), АК&М, Прайм-ТАСС, РосБизнесКонсалтинг; из иностранных это прежде всего REUTERS, TeleForm, DowJones Telerate, Bloomberg, CNN. Эти компании поставляют информацию в режиме "реального времени", то есть как только она становится известна репортерам агентства, вы получаете ее на ваш компьютер. Из-за большой сети бюро этих агентств поток информации в последнее время стал превышать адаптационные возможности человека: один даже специально подготовленный сотрудник не может отследить весь поток информации на интересующую его тему, настолько он велик. В связи с этим стала насущной задача создания такого метода автоматической обработки данных, который позволил бы без ущерба для целостности информации выделять только главные компоненты сообщения, то есть формировать "доминанту" текста. Одной из практических разработок, способных выполнять такую работу с текстом, является метод контент-анализа. Создание компьютерных программ на основе контент-анализа позволит автоматически резюмировать поток новостей, отфильтровывать основные–главные- новости по определенному пользователем контексту, будь то информация о политике, экономике, рынке акций или валюты, новых разработках в компьютерной сфере или другое. Отсюда и берет начало название метода: как пользователь задаст значимость контекста искомых понятий, так он и будет получать результат. В рамках этого курсового проекта я рассмотрю историю проблемы обработки текстовой информации, опишу найденную мной методику проведения контент-анализа, а также приведу пример проведения контент-анализа, взятый мной из экономического журнала.
ИСТОРИЯ ПРОБЛЕМЫ
Одной из интенсивно развивающихся отраслей использования машиночитаемых письменных источников в целях хранения и обработки является применение семантических языков разметки текста. Первоначально понятие разметки текстов использовалось для описания ссылок и других отметок в тексте как инструкция для наборщика или машинистки по правилам печати и оформления. После того, как создание текстов было компьютеризировано, понятие разметки было расширено для обозначения всех кодов, вставленных в электронные тексты для управления форматированием, печатью и прочими видами обработки. В этом смысле разметка является кодировкой для ясного указания на то, как следует понимать текст. Удобство данного вида работы с электронными текстами состоит в том, что можно изменять коды без изменения источника. Язык разметки указывает правила кодирования документа, правила отличия знаков кода от знаков текста и что коды означают. Все языки разметки основаны на трех основных положениях. Во-первых, на самом примитивном уровне все тексты без исключения состоят из линий символов. Например, из букв или байтов данных, пометок на страницах или графики. Они получили название "явления". По сути, это минимальная частица текста типа слова или точки, рассматриваемая вне зависимости от структурной или категориальной классификации. В базе данных из свободного текста "явления" представлены набором байтов для хранения и обработки. Во-вторых, на следующем уровне абстракции всякий текст рассматривается как совокупность объектов различного свойства. Данные объекты появляются в тексте закономерно в определенном отношении к прочим объектам. Объекты могут включать друг друга, иметь связи или быть последовательно представлены. На этом уровне описания текст составлен из структурно определенных объектов, называющихся "элементами". Однако тексты не являются простой чередой слов или байтов. Они содержат примеры объектов, такие как параграфы, заголовки, имена, даты, представленные последовательностью "явлений". Все схемы разметки текстов, в большей или меньшей степени, направлены на описание этих компонентов. Рассмотрение схем указывает по крайней мере три важных аспекта текстовых объектов, которые нуждаются в распознании. Прежде всего, это "протяжение" позиции в текстовом потоке, на которых формы объекта начинаются и заканчиваются; за ними следует "тип" - категория, которой предназначены формы объекта, после которой возникает "контекст" - связи текстовых объектов с формами другого объекта в документе. Таким образом, и в-третьих, "тип документа" получается на основе грамматики, определяющей правила объединения классов текста. Подобным образом природа текста представляется как упорядоченная иерархия объектов содержания. Различаются два основные типа языка разметки текстов: процедурный и описательный. Процедурный язык состоит из знаков, которые изначально ясно указывали на то, как размеченные элементы текста должны быть распечатаны. Документы, размеченные процедурным языком, обыкновенно имеют начальную секцию, заголовок, который иногда хранится в отдельном файле. Заголовок определяет характер знаков, допущенных для описания текста, и значки, указывающие на отличие знаков процедурного языка от текста источника- оригинала. В подавляющем большинстве случаев используются значки {.... }, \.... \, <.... >. Заголовки также могут содержать заданные пользователем условные символы, с помощью которых сложные последовательности знаков процедурного языка могут сокращаться для легкости использования. Подобная разметка текста требует специального программного обеспечения, которое изначально разрабатывалось для издательских целей. Различие между процедурным и описательным языками заключается в том, что описательный язык определяет скорее элементы и характерные черты документа, чем процедуры обработки. Задачей этого языка является определение различных феноменов в тексте, например, параграфов, предложений, действующих лиц. Данное различие описательного и процедурного языков рассмотрено в работах специалистов в области лингвистики и компьютерных технологий, гипертекста, гипермедиа, глобальных компьютерных сетей. Остановимся несколько более подробно на выдвинутой общей теории разметки текста. Всякий раз, когда автор пишет что-либо, он размечает текст. К разметке относится промежутки между словами, отмечающие их границы, запятые, отмечающие границы фраз или точки, отмечающие границы предложений. Обыкновенно, автор постоянно использует два типа разметки текста в рукописи: пунктуационный и презентационный. Под рукописью будем понимать любой вид текста. Пунктуационный язык разметки текста, например, указывает на концы предложений с помощью пробела. Презентационный язык может содержать, для сравнения, нумерацию страниц рукописи. Приведенные два типа разметки текста не могут быть игнорированы из-за того, что на них построена вся система европейского письма, русского в частности. Пунктуационный язык разметки текста состоит из набора средств, обеспечивающих первичную синтаксическую информацию о написанных высказываниях. Из-за относительной стабильности пунктуации она доступна для большинства читателей. Однако ее характеризуют сложность в использовании в зависимости от стилистических вариаций авторов. Социальное разнообразие пунктуации делает язык богаче, чем усложняет компьютерную обработку текста. Презентационный язык, по сравнению с пунктуационным, имеет подчиненный характер. С его помощью делается ясное представление текста. Он включает в себя горизонтальные и вертикальные границы текста, номера томов и страниц, цитат и примечаний, а также указания на концы страниц или специальные символы. Пунктуационный и презентационный языки относятся к разряду естественных. К разряду электронных языков разметки отнесены языки описания полнотекстовых баз данных, хранящих информацию в машиночитаемом виде: процедурный, описательный, референциальный и метаязык. Разработчики теории семантических языков делали ставку, прежде всего, на их создание и использование. Упомянутый ранее процедурный язык в компьютерный системах обработки текстов заменил презентационный. Процедурный язык часто стал набором компьютерных команд, определяющих, каким образом следует форматировать текст в конкретных программах. Принцип использования описательного языка изложен выше. Остановимся на референциальном языке. Он обращен к задаче замены пунктуации на ее описание, например "точка" вместо ". " или "тире" вместо "-". Это может упростить процедуру компьютерную интерпретации текстов, отличающихся разнообразием пунктуации. Референциальный язык также использует библиотеки замен, хранимых в отдельном файле или другой компьютерной системе. Строго говоря, в этом он сближается с описательным языком. Наконец, метаязык предоставляет пользователю возможность контролировать и интерпретировать все языки обработки текстов. Для историков, имеющих целью анализ текста, более всего подходит описательный язык. Документы, размеченные описательным языком, также как и закодированные с помощью процедурного, имеют заголовок, содержащий допущенные знаки описания. Однако знаки разных описательных языков могут отличаться от процедурного и между собой. Для того, чтобы было возможно переформулировать тексты, размеченные разными языками, существует метаязык Standard Generalized Markup Language (SGML) - стандартный обобщенный язык разметки. В середине 1980-ых SGML как инструмент текстологии получил официальное признание Международной Организацией Стандартов. В 1987 для простоты использования электронных текстов в исследованиях возник международный научный проект Text Encoding Initiative (TEI). Для стандартизация обработки электронных источников TEI использует SGML. Среди разработчиков большинства программ обработки текстов преобладали математики и лингвисты, из-за которых программное обеспечение стало отвечать прежде всего задачам лингвистического и литературного анализа. Проблема историчности текстов разработчиками не ставилась и не решалась. Поэтому конкретно историческое изучение текстовых источников с помощью компьютерного контент- анализа обычно сопровождается классической научной критикой: определением временных и пространственных факторов, прямо и косвенно присутствующих в документах, их социальной направленности, общественного контекста возникновения источника, изменением смыслового содержания понятия во времени, "эзопова языка", - то есть учетом совокупности факторов, лежащих за пределами вычислительной лингвистики. В этом случае большую роль начинают играть исследования по теории и практике аргументации, риторике, социальной семиотике, психолингвистике, лингвистической семантике, прагмалингвистики и теории массовой коммуникации. Разметка текста языками семантических маркеров не может полностью решить задачи анализа социальной информации. Понятие "анализ текста" в большинстве случаев использовалось исследователями для обозначения всего, что не является просто поиском в документе и проверкой правописания. Среди формальных методов обработкисоциальных текстов на первом месте обычно упоминается контент-анализ. Обычно термин "контент-анализ" используется для обозначения двух разных вещей: метода для автоматической классификации документов по содержанию и метода для раскрытия значения слов и идей. Автоматическая классификация документов в течение ряда лет используется в историко-социальных науках и библиографических системах поиска. Текст, его резюме или заголовок служат основными основами классификации. Напротив, семантический контент- анализ нацелен на определение организации слов вокруг идей или понятий в большей степени, чем на организации текста. Суть подхода заключается в сведении изучаемого текста к ограниченному набору определенных элементов, которые затем подвергаются счету и анализу на базе фиксации частоты повторяемости символов и их корреляции друг с другом. Слова в тексте при этом классифицируются в соответствии с их дистанционными связями между собой. Для этого используется лингвистическая и статистическая техника, например кластерный анализ или анализ связей. В распоряжении текстологов находится ряд программ автоматизированного анализа для компьютеров IBM Контент-анализ в литературных и лингвистических расчетах начал интенсивно развиваться в 1950-х годах. Он оказался приемлемым для изучения широкого круга проблем гуманитарного знания и социальных наук. Контент-анализ нашел эффективное применение в исследованиях этно- культурных, политических явлений, истории мысли. Социологи, специализировавшиеся на исследованиях массовой коммуникации, приступили к разработке контент- анализа в основном в США. В дальнейшем при участии математиков его применили в политологии, философии, лингвистике. Применение контент-анализа в истории оказалось ограничено потребностью в сильной классической традиции в значительно большей степени, чем в эмпирической социологии или психологии, построенных на методическом фундаменте непосредственных наблюдений и экспериментов. Кроме того, контент-анализ, несмотря на видимую интердисциплинарность, был разработан прежде всего в связи с потребностями социологических исследований содержания массовой коммуникации. Социологи сформулировали общие теоретические принципы формализации эмпирических данных, приемов анализа текстов, которые с тех пор стали совокупно называться контент-анализом. Некоторые проблемы применения данного типа анализа в истории оказались внешними проявлениями ряда теоретико-методологических расхождений между исторической наукой и социологией, как близких, но самостоятельных социальных наук. Социологизированность контент-анализа - специфическая черта - осложнилась прямой зависимостью результатов исследования от того, что именно в тексте исследователь считает возможным подвергнуть формализации, подсчету, а также какими теоретико методологическим принципами при этом он намерен воспользовался. В классической статистике данная проблема решается на первом этапе составления формуляра для сбора эмпирических данных. В текстологии ее решают в ходе анализа эмпирического материала. Проблема формализации в текстологии более сложна. Вопрос о корректности изучения формализованных текстов в значительно большей степени открыт для критики по сравнению с методикой в изучении хорошо структурированных источников типа переписей или фабрично-заводской статистики. Однако проблема теоретического анализа, проведенного до и после вычислений, остается общей. Моделирование в политической и социально- экономической истории постоянно испытывает ее влияние как результат фундаментальных объектно-субъектных отношений в области эпистемологии. В количественном анализе повествовательных источников интересный вопрос также представляет теоретическая возможность выборочного научного изучения материалов. В ряде случаев не представляется возможным выработать универсальный критерий и метод отбора внутри единого корпуса документов, то есть выборки из генеральной совокупности, в отличие от ряда статистических данных, характеризующихся массовостью и повторяемостью. Использование всеобщего принципа представительных выборок не выдерживает критики в текстологии из-за отсутствия однородности содержания документов единого корпуса. Теоретически трудно исключить при правовом анализе документов аграрной политики, например, какой-либо проект из единого портфеля законодательных реформ Думы. Методы контент-анализа привлекались при исследованиях различных по времени и характеру повествовательных источников. Ближе всего к социологическому фундаменту этого метода оказались исследования исторической прессы. Именно для периодики контент-анализ был разработан, и благодаря интересу к процессам массовой коммуникации историки получили возможность формального анализа текстов. Благодаря постоянному поиску методов текстологии, появились исследования политического мышления с помощью когнитивного картирования, преобразующего линейную аргументацию в иерархическое древо. Несмотря на ряд нерешенных проблем формализации рассуждений, данные исследования сохранили методологическую значимость. Отход от принципа линейности стал удобным способом перестройки информации в дальнейших лингвистических, исторических, философских исследованиях, разработках программного обеспечения для анализа письменных источников. Вообще, методологические проблемы применения когнитивных методов в исследованиях заняли особое место среди специалистов в области моделирования социального взаимодействия, социальной психологии и политического мышления из-за того, что формальный анализ в перечисленных социальных науках развивался под определяющим влиянием американского математика Аксельрода и группы исследователей во главе с Бонемом и Шапиро, увлекавшимся французским структурализмом под влиянием Фуко. Обращение к ментальным категориям основано на стремлении объяснить процесс принятия решения с помощью методов понимания текста, теоретически-игрового моделирования. Подробно проблемы когнитивного картирования и операционного кодирования как взаимодополняющих методов анализа процесса принятия решения рассматрены в статье известных норвежских политологов Херадствейта и Нарвесена. Они разобрали ряд методологических вопросов использования кодирования и картирования как методов когнитивной репрезентации политического мышления при помощи компьютера. Ко времени написания статьи исследования по компьютерному моделированию политического мышления носили экспериментальный характер. Начало им положили работы профессора Йельского университета Абельсона. Абельсон стал известен рядом междисциплинарных работ по применению методов компьютерного моделирования к изучению политического мышления и развитию когитологии. Им была создана одна из первых иерархических моделей понятийных структур. Работа Абельсона в области "когнитивного диссонанса" положила начало сотрудничеству с Шенком, результатом которого стала совместная книга и ряд систем интерпретации политических текстов . Резюмируя, отметчу, что компьютерный анализ текстов вобрал в себя достижения нескольких научных подходов. Выяснилось, например, что при обработке и анализе текста для исследователей важное значение имеет показ частоты встречаемости различных классов лексики (concordances). Это позволяет точно определять значение конкретных слов и фраз в контексте. Совместная встречаемость частей речи впервые была использована на практике при изучении точного значения слов Бога и пророков в библейских текстах. Первое компьютеризированное исследование в данной гуманитарной области было проведено священником Бузой для составления частотного словаря работ Фомы Аквинского. В дальнейшем католические теологи, вставшие у истоков исторической количественной филологии, создали самостоятельную школу компьютеризированного анализа сакральной литературы с центром во французском католическом университете г. Лувен. В 1968 при нем был образован Центр электронной обработки документов CETEDOC. Стоит отметить, что совместная встречаемость, исследованная впервые теологами, не является статистической мерой. Это реорганизация текстологической информации для выделения контекста использования определенных слов. Компьютерный показ совместной встречаемости слов является, по-существу, самым старым и наиболее распространенным способом применения компьютера в гуманитарной области. Начиная с 1950-х годов большинство современных и старых европейских языков были подвергнуты подобной обработке, что привело к включению анализа встречаемостей в состав расхожих методов текстологии и исчезновению представления о нем как о новом и экспериментальном. Одним из способов демонстрации совместной встречаемости может являться перечень слов с указанием на местонахождения, причем ключевые слова показываются справа или слева от контекста. В данном случае перечень не может расцениваться как достаточная для историка перестройка текста, при которой желательно демонстрировать семантическое окружение для каждой встречаемости. Без этого исследователь, использующий подготовленные результаты, не может избежать необходимости постоянного обращения к оригиналу для проверки использования слова. С подобной формой изложения результатов на границе контекста связан формат демонстрации совместной встречаемости KWOC - "ключевое слово без контекста" (keyword-out-of-context), который разрабатывался для исследования прозаических текстов. Вместе с анализом прозы тесно развивалось изучение поэтического языка с акцентом на демонстрирование контекста слов в поэтической строке как основной единице произведения. Большинство исследований в создании компьютерных программ для показа совместной встречаемости классов лексики последовали данному принципу. В результате специалисты пришли к альтернативному KWOC'у формату "ключевое слово в контексте" KWIC (keyword-in-context). Вместо демонстрирования полного контекста предложения, часто занимавшего несколько строк, как это было возможно при принятии формата KWOC-формата, KWIC демонстрировал ключевые слова в центре экрана компьютера с контекстом, умещающимся на одной строке. При включении данных в исследования, организованные на основе KWIC'а или KWOC'а, специалистами часто подчеркивается отрицательное воздействие на результаты слабой критики источников, предварявшей расчеты. Это выражается в неясности методики исследования, ограниченности выводов, излишней детализации. В числе наиболее эффективных программ для исследования совместной встречаемости в формате KWIC довольно часто упоминается COCOA (COunt and COncordance Generation on Atlas), разработанная компьютерной лабораторией "Атлас" в Англии (Chilton Atlas Computer Laboratory). Программа написана для демонстрации совместной встречаемости слов и их подсчета британским ученым Расселом (D. B. Russell) в 1967. СОСОА состояла из частотного профиля и трех таблиц, содержащих список слов с указанием частоты их встречаемости в тексте, словаря и порядка "графической рифмовки". Она была в состоянии показывать и сортировать ключевые слова в контексте. Заметим, что существует возможность показа не только слов, но и букв в контексте - KLIC (key-letter-in-context). Однако последние 30 лет автоматическое индексирование и исследование конфигураций слов в формате KWIC показывало, главным образом, частоту слов в тексте и списки ключевых слов в контексте. Программы реорганизовывали линейный текст "вертикально" таким образом, что каждая форма каждого слова могла быть быстро найдена по правописанию или словарной форме. Выгоды нелинейного представления текста, использованные в когитологии, политологии и истории, были развиты текстологами. Принципы СОСОА в KWIK'е оказались использованы в ряде программ для IBM-совместимых компьютеров. Среди них часто упоминаются Oxford Сoncordance Programm (OCP; Hockey, Martin, 1988: переработана в Micro-OCP), WordCruncher (Jones, 1987), TACT (Bradley, Presutti 1990), KAYE (Kaye, 1989), CLAN (MacWhinney, Snow, 1990). Они позволили решать некоторые вопросы стилистического, лингвистического, лексического анализа во много раз быстрее по сравнению с предыдущими программами. В последние десять лет новое поколение программного обеспечения использует эффективную обработку текста, опирающуюся на "топографический" принцип реорганизации слов в тексте. Они представлены в форме нелинейных гистограмм на основе их позиции в линейном тексте. Программы WordCruncher и Tact позволили показать распределение определенных слов в форме графика, на котором видно наличие или отсутствие таких слов в частях текста. Эти слова иногда называют "плюсовыми" или "минусовыми", когда они встречаются более или менее часто в одном месте, а не в другом.
Методика проведения контент-анализа
В этой части работы я опишу методику проведения контент-анализа текстовой информации. Эта технология была разработана профессором Розовым Н. С. из Днепропетровского государственного университета.
Предпосылки и определения
Данная методика, предназначенная для индивидуальной работы с целостным осмысленным текстом (далее просто текстом) и последующего коллективного обсуждения экономических текстов, основывается на следующих предпосылках и определениях. Предпосылка 1. Нет и, по-видимому, не может быть чисто механической процедуры, приводящей к адекватному целостному пониманию текстов. В то же время упорядоченное сочетание формальных, полуформальных процедур и творческих (направленных на "инсайт")задач служит хорошую службу для их понимания. Предпосылка 2. Несмотря на все возможное разнообразие, содержание любого текста может быть раскрыто через выявление а)концептуальных моделей, б) основополагающих онтологических, ценностных и гносеологических предпосылок. Предпосылка 3. Несмотря на все возможное разнообразие концептуальных моделей в содержании текстов, суть каждой может быть более или менее адекватно задана через представление следующих формальных элементов: а) основные объекты со свойствами (идеальные и/или материальные), б) основные субъекты со свойствами (как правило, человеческие индивиды, группы, общества, родовые субъекты, либо сверхъестественные существа, такие как Бог), в) воздействия (то, что существенно меняет свойства или отношения предметов воздействия), г) превращения (переходы объектов или субъектов в иное состояние с иными свойствами и отношениями), д) основные бинарные (объект-объектные, субъект-субъектные и субъект-объектные) и тернарные отношения. Предпосылка 4. Несмотря на все возможное разнообразие ценностей и ценностных систем, основные элементы концептуальной модели каждого социально-философского текста они могут быть более или менее адекватно представлены через уточнение и заполнение пространства, заданного двумя фундаментальными координатами: Добро-Зло (чисто моральные оценки) и Сила-Слабость (высокий-низкий социальный статус или влиятельность (что включает могущество, богатство, престиж). Предпосылка 5. Несмотря на все возможное разнообразие используемых онтологий основные элементы концептуальных моделей текстов могут быть более или менее определенно отнесены к одной из следующих сфер бытия ("миров"): материальный мир или биотехносфера (все материальные предметы, включая человеческие тела, ландшафты, жилища, технику и т. п. ), социосфера (отношения и взаимодействия между людьми, в том числе по поводу материальных предметов и идей);
психосфера (сознание, психика и общение людей);
культуросфера (как пространство идей и шире - образцов, используемых в человеческих обществах); трансцендентная или запредельная сфера (пространство существования сверхъестественных существ и сущностей (таких как Бог, боги, Абсолют и т. п. ), зачастую эта сфера не отделяется от культуросферы, как у Платона, Гегеля и др. Предпосылка 6. Замечание для сомневающихся. Ни одна из представленных предпосылок не является абсолютной истиной, но дискуссия об их правомерности станет осмысленной только после долговременной практики освоения методики. К предпосылкам, определениям и к самой методике (данной ниже) следует относиться как к средству, позволяющему выявить некий СМЫСЛОВОЙ СРЕЗ любого философского текста. Никто не может поручиться, что этот срез полностью исчерпывает возможное понимание и прочтение текста (вероятно, это в принципе невозможно). Но это не означает, что не следует учиться хорошо пользоваться хотя бы этим несовершенным инструментом.
Методика как последовательность шагов
1 шаг. Разбиение текста, подлежащего анализу, на фрагменты. Простейшее и эффективное решение 1 страница = 1 фрагмент. Для небольших (менее 20 страниц) и идейно "плотных" текстов фрагмент может быть уменьшен (например, до Ѕ или ј страницы или до 10, 5 строк). Для больших (более 30 страниц) и идейно "разряженных" текстов фрагмент может быть увеличен до 5-20 страниц. Важно установить вначале размер фрагмента и не менять его до конца работы с текстом.
2 шаг. Подготовка формы таблицы.
Обязательно в заголовок вынести точные выходные данные издания, дату заданного срока выполнения работы, свои фамилию и имя, решение о размере фрагмента. Разворот тетради линуется вертикальными полосами на следующие столбцы: на левой стороне 6 столбцов - N фрагмента, Страница(ы), Объекты Субъекты-Воздействия-Превращения, Переменные-Связи, Логическая конструкция, Краткое содержание на правой стороне 3 столбца - Онтология, Аксиология, Обобщенное экономическое содержание (тезис фрагмента) Таблица 1. Форма таблицы для последовательной работы с фрагментами текста
№ фрагмента № страницы Субъекты, объекты Переменные и причинность Логическая конструкция Краткое содержание Отношения и границы Аксиология Обобщенное экон. Содержание 1 2
3 шаг. Последовательное заполнение таблицы по фрагментам. Каждому фрагменту соответствует "большая строка" (ограниченная сверху горизонтальной линией). Фрагмент прочитывается целиком, затем принимаются решения о заполнении каждого столбца по фрагменту. Рекомендуется заполнять строку по каждому фрагменту "слева-направо" Шаг 3. 1. Непременно ставить номера фрагментов (это их "индивидуальные имена" при последующей обработке таблицы) и страниц (для вероятного последующего обращения к тексту).
Шаг 3. 2. Заполнение левой стороны таблицы ВОЗДЕЙСТВИЯ И ПРЕВРАЩЕНИЯ (Механизм взаимодействия) Выделяются новые главные субъекты и объекты фрагмента
Далее выделяются только те воздействия, превращения, которые относятся к этим субъектам и объектам (см. Предпосылку 3). Заносится графическое изображение с краткими обозначениями всех символов (кроме превращений, для которых закреплен символ - двойная стрелка) Проверка правомерности сделанных выборов проверяется таким образом: значимы те объекты и субъекты, наличие и "поведение" которых существенно для наиболее важных воздействий и превращений. Значимы те воздействия, которые ведут к существенным превращениям. Значимы те превращения, в ходе которых меняются важнейшие свойства объектов или субъектов. Несложно заметить "круговой характер" данной проверки. Действительно, в понимании текстов нет абсолютно "твердой почвы", однозначных рецептов и жесткой логики. Иногда исходить следует от объектов и субъектов, иногда от воздействий и превращений, иногда от отношений. Последующий круговой характер проверки дает возможность сформировать "наиболее крепко сколоченную" структуру понятого. Данный круг - это не порочный логический круг, а традиционный для герменевтики способ последовательных итераций: возвратов и уточнений, новых возвратов и новых уточнений. Как правило, выделяются 1-3 основных объекта и субъекта, 0-2 воздействия, 0-1 превращения. Данные схемы являются "заготовками" для последующего построения механизма взаимодействия (через обобщение, отбор и синтез).
Переменные и причинность
Для каждого фрагмента выделяются 1-2 главных переменных (шкалы, по которым происходят изменения, или значения которых наиболее существенны в содержании фрагмента), каждая переменная изображается как вершина графа (кружок) с названием (обычно начинается со слова "Уровень.... ") . Если в тексте указывается или явно предполагается связь между переменными, то ставится соответствующая стрелка со знаком + или -. Это "заготовки" для последующего синтеза тренд-структуры по всему тексту.
Логическая конструкция
Выделяются и изображаются с помощью графических схем главные логические отношения между понятиями и суждениями. Основные графические средства: круги Эйлера, отражающие отношения между понятиями, "древесные" или иные классификации (наглядное изображение деления понятий), всевозможные таблицы. Данная графа играет вспомогательную роль, она может использоваться, в частности для выявления "тезиса фрагмента". Шаг 3. 3. Краткое содержание фрагмента представляется либо выписанной краткой (1-2 строки книги) цитатой, либо столь же кратким обозначением главного содержания своими словами. Играет мнемоническую роль (вертикальная графа с краткими содержаниями–это фактически конспект текста, по нему можно готовиться к экзамену, чтобы не читать текст вторично).
Шаг 3. 4. Заполнение правой стороны таблицы Онтология
Выделяются родовые (наиболее обобщенные) сущности, и родовые отношения. В графе строится простейший рисунок как "заготовка" для последующей модели общей онтологической структуры текста. Если в тексте явно указывается на разные "миры", то проводятся соответствующие границы. Расположение символов как на "пофрагментных заготовках", так и на итоговой онтологической структуре.
Аксиология Фиксируются ценности, правила и оценки.
Ценности ( предельные нормативные идеи) подразумевают обычно такие предикаты как должно, хорошо, быть благом, быть обязательным, быть желательным, быть запрещенным, быть лучшим, быть прекрасным и т. д. Ценности можно выражать одним словом или словосочетанием (выгода, власть, стабильность, моральное добро, справедливость, и т. д. ). Правила - любого рода максимы, императивы, рекомендации, советы и т. д. , основанные на ценностях. Оценки суть применения ценностей к объектам, субъектам, воздействиям, трансформациям или отношениям (которые, как правило, уже выделены ранее для данного фрагмента.
Оценки выражаются двумя стандартными формулами:
А(объект, субъект и т. д. ) одобряется за Ц (соответствие ценности) или А одобряется за не-Ц (несоответствие ценности) Если оценок в тексте нет - то не нужно их и фиксировать. Если оценки есть, но ценности явно не указаны, то ценности необходимо реконструировать, но записать в скобках. Выявление "тезиса фрагмента"(обобщенного экономического содержания) Здесь не следует "придумывать" ничего нового. Просто нужно постараться, что главное во фрагменте: если главное - описание воздействий и превращений, то передать в тезисе содержание столбца 3; если главное - выявление причинной зависимости, то передать в тезисе содержание столбца 4; если главное - логика работы с понятиями и суждениями, то зафиксировать содержание столбца 5; если главное (что редко) - построение онтологии, то зафиксировать содержание столбца 7, если главное - ценности, оценки и правило, то тезис будет аксиологический. Если удастся, то можно формулировать и синтетический тезис, но это сложное задание. 4 шаг. (Квази)статистическая обработка столбцов. После заполнения всей таблицы (по фрагментам - строкам) итоговый анализ ведется преимущественно по аспектам-столбцам. Используется допущение, что систематически появляющиеся во фрагментах текста элементы являются и наиболее значимыми (по принципу "у кого что болит, то о том и говорит"). При этом следует предельно внимательно отнестись к конечному выбору "лидеров", поскольку именно они станут элементами последующих концептуальных моделей (а все остальные элементы - лишь проясняющими моментами).
5 шаг. Построение модели (механизма) взаимодействия.
Стандартное оформление Разворот тетради делится на 4 прямоугольника. Каждый из них именуется: Левый верхний - Модель взаимодействия, Правый верхний Онтологическая модель, Левый нижний - Тренд-структура, Правый нижний Аксиология. Необходимо строить графические схемы на черновиках (лучше с карандашом и резинкой), а в тетрадь заносить только конечные результаты. Шаг 5. 1. Переопределить оси Добра-Зла и Высокого-Низкого статуса (см. предпосылку 4) согласно ценностным предпосылкам (см. шаг 3). Шаг 5. 2. Расположить "элементы-лидеры" (см. шаг 4): объекты (прямоугольники) и субъекты (упрощенные символы человеческой фигуры) согласно их явным или неявным оценкам в тексте. Шаг 5. 3. Обозначить главные ("лидирующие") воздействия между элементами (одинарные стрелки), и главные превращения элементов (двойные стрелки). В обоих случаях должны быть представлены преимущественно не однократные события, а повторяющиеся, сущностные изменения, формирующие как бы постоянно действующий "механизм". Нередко это уже "додумывание" за автора, раскрытие потенциала его рассуждений для построения концептуальной модели механизма функционирования или развития. Шаг 5. 4. Каждый элемент графической схемы (вершины и стрелки) снабдить кратким именем и указанием номеров фрагментов, служащих главными источниками для такой модели.
Шаг 6. Построение онтологической модели.
Шаг 6. 1. Разделить пространство листа на поля, соответствующие "сферам бытия": весь нижний слой - биотехносфера, центр среднего слоя - психосфера, левая часть среднего слоя - социосфера, правая часть - культуросфера, верхний слой трансцентентная сфера Шаг 6. 2. Расположить родовые понятия для объектов и субъектов ("лидеров") в соответствующих сферах или на их границах (обозначения те же). Шаг 6. 3. Обозначить стрелками основные отношения между родовыми понятиями. Шаг 6. 4. Каждый элемент графической схемы (вершины и стрелки) снабдить кратким именем и указанием номеров фрагментов, служащих главными источниками для такой модели. В итоге должна получиться картина взаимосвязи главных сущностей (собственно, онтологическая модель), лежащей в основе содержания текста. Предпосылка 7. Несмотря на все возможное разнообразие концептуальных моделей, во многих их них целесообразно выделить динамический аспект, который можно более или менее адекватно представить через положительные и/или отрицательные связи между несколькими (обычно 2-5) переменными, как минимум двузначными ("есть признак/нет признака"). Эту связь переменных или тренд-структуру удобнее всего представлять в виде ориентированного графа с вершинами-переменными и стрелками - отрицательными и положительными связями. К примеру, казалось бы далекий от темы динамики, диалог о справедливости в начале второй главы Платонового "Государства" реконструируется как выявление положительных связей от справедливости человека (переменная С) к пользе П (высокому социальному статусу, включающему также могущество и престиж), от П к счастью СЧ, а также проблематизация Фрасимахом наличия иной связи между справедливостью (С) и счастьем (СЧ).
Шаг 7. Построение тренд-структуры
Шаг 7. 1. Определение переменных. Как правило, даже для больших и сложных текстов вполне достаточно выделение 3-4 переменных, реже 5-7; большее количество не рекомендуется, так как из-за плохо понятой сложности ускользнет самая суть динамического взаимодействия. Шаг 7. 2. Обозначить стрелками положительные и отрицательные связи между переменными (соответственно, обозначенные знаками "+" и "-") на основе анализа отношений в онтологической модели и воздействий в модели механизма. Шаг 7. 3. Проверить "работу" тренд-структуры мысленным экспериментом, увеличивая и уменьшая значения разных переменных и анализируя, что согласно связям происходит с другими переменными, насколько это соответствует положениям текста. Следует быть готовыми к тому, что тренд-структура "противоречит" положениям текста. При большем доверии к тексту следует подправить тренд-структуру (обычно через переопределение переменных и изменение характера связей между ними). Однако нередко случается, что тренд-структура дает более глубокое и основательное понимание существа дела, что дает основание судить об "ошибках" авторов текстов, в том числе и классических текстов. Шаг 7. 4. Снабдить все элементы тренд-структуры (вершины-переменные, вершины-постоянные и стрелки) краткими именами с указанием номеров фрагментов, служащих главными источниками для построения такой тренд-структуры.
Пояснение к тренд-структурам
Главное предназначение тренд-структур - служить комплексной объяснительной гипотезой динамики изменения предметной области. При этом каждая связь между переменными претендует на статус "закона". Тренд-структуры- это достаточно поздно изобретенное познавательное средство, поэтому не следует удивляться, что практически всегда будет иметь место "домысливание" за автора текста, поскольку ни о каких переменных он, как правило, и не помышлял. Таким образом, тренд-структура - это не столько средство анализа текста, сколько средство выхода за рамки мышления автора, максимально полное использование интеллектуальных ресурсов текста для собственных "корыстных" задач объяснения.
Аксиология
Путем обобщения выделяются главные ценности, главные правила, главные предметы оценивания и главные оценки, которые фиксируются таким же образом в пространственном расположении в виде рисунка:
Правила: 1) 2) Ценности: 1) 2) Предметы оценки: Оценки: 1) 2) Пример проведения контент-анализа
В этой части курсовой работы я хочу привести пример того, каких результатов можно достичь при использовании контент-анализа. Так как я сам еще не являюсь опытным исследователем и не могу сделать такой комплексный анализ, то я решил использовать в качестве примера проведения исследования контент-анализ высказываний г-на Березовского. Он был опубликован в журнале "Эксперт" № 6 1999 г. , авторы: Л. Сафразьян и Т. Сафразьян. Основной задачей было выявление невыраженной информации о Березовском. Для обработки текстов была разработана специальная категориальная схема, в которой учитывались различные группы объектов, отражающие сущностные стороны представлений Березовского. Это географические названия, терминология, имена государственных и иных деятелей, различные темы и т. д. С целью выяснения отношения к ним Березовского учитывалась эмоциональная окраска того или иного понятия, термина или темы. В дальнейшем производилась статистическая обработка результатов кодировки и сопоставлялись результаты по разным тематическим фонам.
Россия и Запад
В интервью и статьях Березовский подает себя прежде всего как российский политик. Если мы посмотрим на выраженную информацию этих материалов, то в центре внимания Березовского–Россия и ее благополучие. Как исполнительный секретарь СНГ Березовский, казалось бы, должен уделять большое внимание соответствующим странам. Результаты контент-анализа рисуют куда более сложную картину. Россию Березовский называет чаще, чем другие страны. Но даже по общей сумме упоминаний баланс положительных и отрицательных оценок примерно одинаков, что уже само по себе не дает оснований говорить о положительном отношении к стране. Речь может идти только о повышенном внимании. Если же оценить не только частоту и характер упоминаний, но и то, в каком контексте упоминается страна, то оказывается, что Березовский относится к России негативно. Когда Россия упоминается в связи с принятием каких-либо ответственных решений или Березовский говорит о ней, характеризуя свою систему политических, моральных или иных ценностей, все его высказывания носят либо нейтральный, либо негативный характер. Более того, Россия–единственная страна, к которой выявлено негативное отношение по решающим тематическим фонам. Явную положительную реакцию у Березовского вызывают западные страны. Прежде всего США, Израиль, Великобритания и Швейцария. Анализ же высказываний, связанных со странами СНГ , показывает: и по частоте упоминаний, и по эмоциональности эти страны существенно уступают как России, так и Западу, что весьма странно для исполнительного секретаря СНГ. Похожую картину дает анализ упоминаний наций. Негативные упоминания встречаются у Березовского в отношении русских, чеченцев, немцев и кубинцев. Однозначно положительную реакцию вызывают евреи и американцы. Ни одна из наций стран СНГ (за исключением России) не упоминается вовсе. Таким образом, российский политик и исполнительный секретарь СНГ Борис Березовский отдает явное предпочтение Западу, а не России, а страны СНГ и вовсе находятся на периферии его внимания. Однако ничего конкретного об интересах Березовского на Западе узнать не удалось. Березовский называет большое количество персоналий– 101. Восемьдесят пять из них –граждане России. При том, что западные страны вызывают повышенное и устойчивое внимание Березовского, тот факт, что он практически не упоминает имен, имеющих отношение к этим странам, удивляет. Отсюда можно сделать вывод: все деловые и значимые политические контакты на Западе для Березовского– зона его повышенного контроля.
Политик или бизнесмен?
Березовский 343 раза упоминает российских политиков и только пять раз российских бизнесменов. Точно также он избегает называть по именам бизнесменов западных. Это странно, поскольку вообще о проблемах рыночной экономики он говорит много и с удовольствием. Но несмотря на то что бизнесменов Березовский называет крайне редко, их имена всегда упоминаются в рамках крайне важного тематического фона, связанного с принятием ответственных решений. В политике другое дело. Называется огромное количество имен, указывающих на самые разнообразные контакты, в то время как фигур, упоминаемых в связи с ответственными решениями, мало. Вывод очевиден: вопросы, связанные с бизнесом, затрагивают Березовского глубоко и серьезно. Крайнюю скрытность Березовского-бизнесмена подтверждает и ничтожно малое количество упоминаний компаний и фирма–девять упоминаний всего семи компаний. Однако из семи компаний четыре упомянуты в связи с принятием ответственных решений. Точно так же, как и в случае с персоналиями, тематический фон вскрывает подлинные интересы Березовского. Для сравнения укажем, что по тематическому фону "система принятия решения" не прошло ни одно название органов власти, политических партий и движений. Отсюда вывод: для Березовского собственно политическая сфера играет намного меньшую роль, чем деловые интересы. Однако картина не так проста, как может показаться на первый взгляд. Конечно, Березовский в первую очередь бизнесмен. Но политика для него не просто "служанка экономики", это самостоятельная и важная сфера самореализации. Причины занятий Березовского политикой лучше искать не в прямой материальной выгоде, а в особенностях его отношения к миру.
Философ-практик
Для того чтобы глубже понять Березовского как человека, обратимся к анализу употребляемых им терминов, понятий и тем, в которых раскрываются наиболее фундаментальные особенности личности. У Березовского отмечено 68 упоминаний, относящихся к сфере религиозно-философской терминологии. По тематическому фону "система принятия решений" здесь проходит четыре сигнала (почти 6 процентов от обще суммы сигналов). Этот показатель приближается к соответствующему проценту по фону в бизнес-терминологии. Следовательно, философско-научный контекст при принятии конкретных решений для Березовского почти так же важен, как и бизнес-контекст. Понятие Бога –наиболее значимое понятие в внутреннем пространстве Березовского. При этом Березовский ни разу не упомянул ни одной конкретной религии или религиозного течения. Следовательно, понятие Бога не связано во внутреннем пространстве Березовского ни с одной из традиционных религий. Противоречия здесь нет, дальнейший анализ показывает, что Бог Березовского далек от традиционных религиозных представлений. Скорее это Бог Лапласа, который, зная начальные условия для каждой частицы и законы движения, может вычислить судьбу Вселенной. "Я никогда не выстраиваю ненадежных систем", - это принципиальная позиция Березовского. Бог Березовского– это прежде всего универсальная мобильная структура –развивающаяся "надежная система". При этом сам Березовский выполняет функции активного творца этой структуры. Тематический контент-анализ также показал, что Березовский стремится преобразовать социум, устанавливая свои "правила игры". Среди всех тем, объединенных общим названием "система ценностей по отношению к обществу", по теме "создание собственных правил игры в социуме" прошло 17 сигналов из 38 (44, 74 процента). Это слишком много, чтобы просто обозначить пусть даже и очень важную позицию. Избыточность информации по данной теме не может быть объяснена стремлением создать благоприятный имидж–намерения слишком опасны для прямой рекламы. Скорее, это следствие глубокой укоренённости данной темы во внутреннем пространстве Березовского. С нашей точки зрения, она–доминантный фактор, который будет иметь большое значение в ходе принятия Березовским любых решений. Итак, Березовский не столько политик, сколько бизнесмен и , как это ни парадоксально, своеобразный философ-практик. Он активно действует в социуме, создавая свои "системы", которые работают по тем правилам, которые он разрабатывает для них. Это способ действия достаточно надежный, поскольку системы Березовского - это, образно говоря, набор поплавков, которые удерживают его на поверхности в любой ситуации. На их создание он тратит много усилий, но они оправдывают себя именно в критических ситуациях. И в этом он принципиально отличается от подавляющего большинства российских политиков, которые не создают "системы" а преследуют локальные цели - занять те или иные позиции в пирамиде власти. Но даже реализуя свои цели, они не могут обеспечить себе таких гарантий устойчивости, которые создает для себя Березовский.
ЗАКЛЮЧЕНИЕ
При обработке массивов данных в настоящее время применяются разнообразные математические методы. В большинстве своем они могут оперировать только с числовыми переменными, над которыми производятся привычные операции. Но гораздо большее количество информации содержится в текстовых источниках. Ее довольно сложно, а иногда и невозможно преобразовать в числовой формат, поэтому становится актуальной проблема разработки таких методов анализа подобной информации, чтобы можно было извлекать полезные сведения из неоднородной текстовой информации. В данной курсовой работе и была показана возможность применения контент-анализа для обработки текстовой экономической информации. В заключении хочется еще раз отметить, что контент-анализ объединяет усилия сразу нескольких направлений науки: лингвисты должны составить таблицы повторяемости словоформ, психологи указать на силу и важность связей между этими словоформами, а математики должны провести статистический анализ входящего текста на основе имеющихся таблиц слов. В будущем мне хотелось бы создать универсальный пакет для проведения контент-анализа текущих экономических новостей, которые появляются в сети Интернет.
|