• Nenhum resultado encontrado

Introduction

7. Related work and conclusions

We have previously studied enriching a set of linguistic information such as syntactic relations between words helps in search and other relevance tasks [6,8].

To leverage semantic discourse information and especially rhetoric relations, we in- troduced parse thicket representation of documents and defined generalization op- eration on parse thickets [9]. We also proposed how the feature space of tree kernel learning can be expanded to accommodate for semantic discourse features [10].

In this study we addressed the issue of how semantic discourse features assist with solving such abstract classification problem as differentiating between natu- ral language-object and natural meta-language. We demonstrated that the problem of such level of abstraction can nevertheless be dealt with statistical learning allow- ing automated feature engineering. Evaluation domains are selected so that the only

Document vs. Meta-Document: are Their Rhetoric Structures Different?

differences between classes are in phrasing and discourse structures (not in key- words). We also demonstrated that both of these structures are learnable.

We draw the comparison with two following sets of linguistic features:

1) The baseline set, parse trees for individual sentences, 2) Parse trees and discourse information,

and showed that the enhanced set indeed improves the classification perfor- mance for the same learning framework. One can see that the baseline text classifica- tion approaches does not perform well in the classification domain as abstract and complicated as recognizing metalanguage.

A number of studies explored various forms of meta-language and meta-reason- ing, however to the best of our knowledge a system which automatically recognizes natural metalanguage has not being built. [2] proposed a fairly general approach to meta-reasoning as providing a basis for selecting and justifying computational ac- tions. Addressing the problem of resource-bounded rationality, the authors provide a means for analyzing and generating optimal computational strategies. Because rea- soning about a computation without doing it necessarily involves uncertainty as to its outcome, the authors select probability and decision theory as their main tools.

A system needs to implement metalanguage to impress peers of being human- like and intelligent, being capable of thinking about one’s own thinking. Traditionally within cognitive science and artificial intelligence, thinking or reasoning has been cast as a decision cycle within an action-perception loop [27]. An intelligent agent perceives some external world stimuli and responds to achieve its goals by select- ing some action from its available set. The result of these actions at the ground level is subsequently perceived at the object level and the cycle continues. Meta-reasoning is the process of reasoning about this cycle. It consists of both the meta-level con- trol of computational activities and the introspective monitoring of reasoning. In this study we focused on linguistic issues of texts which describe such cognitive architec- ture. We found an inter-connection between a cognitive architecture and a discourse structure used to express it in text. Relying on this inter-connection, one can auto- matically classify texts with respect to the cognitive level they describe.

In our previous studies we considered the following sources of relations between words in sentences: coreferences, taxonomic relations such as sub-entity, partial case, predicates for subject etc., rhetoric structure relations, and speech acts [7]. We dem- onstrated that a number of NLP tasks including search relevance can be improved if search results are subject to confirmation by parse thicket generalization, when an- swers occur in multiple sentences. In this study we employed coreferences and rheto- ric relation only to identify correlation with the occurrence of metalanguage in text.

Although phrase-level analysis allows extraction of weak correlation with metalan- guage in text, ascend to discourse structures makes detection of metalanguage more reliable. In our evaluation setting, using discourse improved the classification F-mea- sure by 5.5–8.6% depending on a classification sub-domain.

There is a strong dis-attachment between modern text learning approaches and text discourse theories. Usually, learning of linguistic structures in NLP tasks is lim- ited to keyword forms and frequencies. On the other hand, most theories of semantic discourse are not computational in nature. In this work we attempted to achieve the

Galitsky B. A.

best of both worlds: learn complete parse tree information augmented with an adjust- ment of discourse theory allowing computational treatment.

In this paper, we used extended parse trees instead of regular ones, leveraging available discourse information, for text classification. This work describes one of the first applications of tree kernel to industrial scale NLP tasks. The advantage of this approach is that the manual thorough analysis of text can be avoided for complex text classification tasks where the classes are as high-level as documents vs meta- documents. The reason of the satisfactory performance of the proposed classification method is a robustness of statistical learning algorithms to noisy and inconsistent fea- tures extracted from documents.

The experimental environment, extended tree learning functionality and the evalu- ation framework is available at http://code.google.com/p/relevance-based-on-parse-trees.

References

1. Cumby, C. and Roth D. (2003) On Kernel Methods for Relational Learning. ICML, pp. 107–14.

2. Russell, S., Wefald, E., .Karnaugh, M., Karp, R., McAllester, D., Subramanian, D., Wellman, M. (1991) Principles of Metareasoning, Artificial Intelligence, pp. 400–411, Morgan Kaufmann.

3. Collins, M., and Duffy, N. (2002) Convolution kernels for natural language. In Pro- ceedings of NIPS, 625–32.

4. Galitsky, B. (2003) Natural Language Question Answering System: Technique of Semantic Headers. Advanced Knowledge International, Adelaide, Australia.

5. Galitsky, B., de la Rosa J. L., Dobrocsi, G. (2012) Inferring the semantic proper- ties of sentences by mining syntactic parse trees. Data & Knowledge Engineering.

Volume 81–82, November 21–45.

6. Galitsky, B., Usikov, D., and Kuznetsov S. O. (2013) Parse Thicket Representa- tions for Answering Multi-sentence questions. 20th International Conference on Conceptual Structures.

7. Galitsky, B., Kuznetsov S. (2008) Learning communicative actions of conflicting human agents. J. Exp. Theor. Artif. Intell. 20(4): 277–317 .

8. Galitsky, B. (2012) Machine Learning of Syntactic Parse Trees for Search and Classification of Text. Engineering Applications of Artificial Intelligence. 26 (3), 1072–91

9. Galitsky, B. (2014) Learning parse structure of paragraphs and its applications in search. Engineering Applications of Artificial Intelligence. 32, 160–84.

10. Galitsky B., Ilvovsky, D., Kuznetsov, S. O. (2015) Text Integrity Assessment: Senti- ment Profile vs Rhetoric Structure. CICLing-2015, Cairo, Egypt.

11. Wu, J., Xuan Z. and Pan, D. (2011) Enhancing text representation for classifica- tion tasks with semantic graph structures, International Journal of Innovative Computing, Information and Control (ICIC), Volume 7, Number 5(B).

12. Haussler, D. (1999) Convolution kernels on discrete structures. UCSB Technical report.

Document vs. Meta-Document: are Their Rhetoric Structures Different?

13. Kong, F. and Zhou G. (2011) Improve Tree Kernel-Based Event Pronoun Resolu- tion with Competitive Information. Proceedings of the Twenty-Second Interna- tional Joint Conference on Artificial Intelligence, 3 1814–19.

14. Moschitti, A. (2006) Efficient Convolution Kernels for Dependency and Con- stituent Syntactic Trees. 2006. In Proceedings of the 17th European Conference on Machine Learning, Berlin, Germany,

15. Mann, W., Matthiessen C. and Thompson S. (1992) Rhetorical Structure Theory and Text Analysis. Discourse Description: Diverse linguistic analyses of a fund-raising text. ed. by Mann W and Thompson S.; Amsterdam, John Benjamins. pp. 39–78.

16. Zhang, M.; Che, W.; Zhou, G.; Aw, A.; Tan, C.; Liu, T.; and Li, S. (2008) Semantic role labeling using a grammar-driven convolution tree kernel. IEEE transactions on audio, speech, and language processing. 16(7):1315–29.

17. Lee, H., Chang, A., Peirsman, Y., Chambers, N., Surdeanu, M. and Jurafsky, D.

(2013) Deterministic coreference resolution based on entity-centric, precision- ranked rules. Computational Linguistics 39(4), 885–916.

18. Marcu, D. (1997) From Discourse Structures to Text Summaries, in I. Mani and M. Maybury (eds) Proceedings of ACL Workshop on Intelligent Scalable Text Summarization, pp. 82–8, Madrid, Spain.

19. Kohavi, R. (1995) A Study of Cross-Validation and Bootstrap for Accuracy Esti- mation and Model Selection. International Joint Conference on Artificial Intel- ligence. 1137–43.

20. Recasens, M., de Marneffe M-C, and Potts, C. (2013) The Life and Death of Dis- course Entities: Identifying Singleton Mentions. In Proceedings of NAACL.

21. Croft, B., Metzler, D., Strohman, T. (2009) Search Engines — Information Re- trieval in Practice. Pearson Education. North America.

22. Salton, G. and Buckley, C. (1988) Term-weighting approaches in automatic text retrieval. Information Processing & Management 24(5): 513–23.

23. Moore, J. S. and Boyer R. S. (1991) MJRTY — A Fast Majority Vote Algorithm, In R. S. Boyer (ed.), Automated Reasoning: Essays in Honor of Woody Bledsoe, Automated Reasoning Series, Kluwer Academic Publishers, Dordrecht, The Netherlands, pp. 105–17.

24. John G. H. and Langley, P. (1995) Estimating Continuous Distributions in Bayes- ian Classifiers. In Eleventh Conference on Uncertainty in Artificial Intelligence, San Mateo, 338–45.

25. Vapnik, V. (1995) The Nature of Statistical Learning Theory, Springer-Verlag.

26. Michael T. Cox and Anita Raja. (2007) Metareasoning: A manifesto.

лингвиСтичеСКий анализ в СиСтемах идентифиКации диКтора : интегративный КомплеКСный подход на базе эКСпертологии

Галяшина Е. И.

(galyashina@gmail.com) Московский государственный университет им. О. Е. Кутафина, Москва, Россия

В статье предлагается концепция экспертной технологии идентифи- кации диктора посредством интегрирования и комплексирования перцептивных, акустико-фонетических и собственно лингвистических методов анализа звучащей речи, определяющих общую и специальную компетенцию речеведа. Автор анализирует ключевые понятия и тер- мины процедуры индивидуально-конкретного отождествления диктора в аспекте современной экспертологии. Показано, что в условиях, когда сравнению подвергаются оцифрованные речевые сигналы, получен- ные по неизвестному алгоритму преобразования и при невозможности исключить их фальсификацию, для достоверного и надежного решения идентификационной задачи возрастает роль профессиональных линг- вистических компетенций, которые должны обладать достаточной ин- тегративной широтой междисциплинарного знания и комплексностью познания феномена индивидуальности речевого следа.

Ключевые слова: лингвистический анализ, идентификация диктора, экспертные системы, интегрированные знания, экспертология

LInguISTIC anaLySIS In The

SPeaker IdenTIfICaTIon SySTemS : InTegraTed ComPLex examInaTIon aPProaCh baSed on forenSIC SCIenCe TeChnoLogy

Galyashina E. I.

(galyashina@gmail.com)

Kutafin Moscow State Law University, Moscow, Russia

Linguistic Analysis in the Speaker Identification Systems

The article proposes the concept of the integrated expert techniques for speaker identification on the domain of complex acoustic-phonetic and lin- guistic methods of oral speech analysis, defining general and special foren- sic expert competences. The result of forensic speaker identification used as evidence must exhibit a high level of reliability. The author examines the key concepts and terms of the procedure of individual-specific speaker identifica- tion in the aspect of modern expertology (forensic science). The paper states the need to take into account that the role of professional linguistic compe- tences increases in conditions when digitized speech signals are compared, algorithm of coding is indefinite and falsification of utterances is not excluded.

To solve this problem the author proposes a multistage approach consisting of a parallel application of instrument and technical methods together with aural-perceptual, waveform and sonogram investigation and sophisticated linguistic analysis. The main attention is paid to the linguistic component of the complex integrated approach based on the phonetic and semantic analyses.

It is stated that individualized speech unit is formed by a system of miscella- neous formal and semantic relations of structural speech components in lin- guistic contents. The proposed method of integration of the multilevel speech modules was implemented in forensic linguistic methodology of speaker iden- tification technique. This made it possible to considerably increase the reliabil- ity of the expert’s decision and provided an opportunity to use it as a compo- nent of the multistage system for speech utterances authentication.

Key words: linguistic analysis, speaker identification, expert systems, inte- grated expert techniques, forensics

Системный анализ лингвистических методов, применяемых в современных автоматизированных системах идентификации диктора, имеющих экспертную направленность, позволил установить сложную динамическую природу инди- видуальности речевого следа, выступающего в качестве объекта экспертизы.

Для его полного и всестороннего исследования требуются интегрированные знания эксперта, которые должны обладать достаточной широтой и вместе с тем глубиной познания исследуемого речевого объекта. При их использовании в практической деятельности формируются дополнительные профессиональ- ные речеведческие компетенции, представляющие собой комплекс практи- ческих навыков и умений, получаемых опытным путем, закрепление которых должно входить в систему подготовки по соответствующей экспертной специ- ализации. Компетенция, определяемая экспертной технологией отождествле- ния диктора, это не механическое соединение разных областей научных знаний о речи, а комплексное интегративное образование, позволяющее сформировать требуемые профессиональные компетенции на базе современной экспертоло- гии. Применительно к лингвистическому анализу это, в первую очередь, отно- сится к компетентной оценке индивидуально-определенной специфики фонети- ческой и смысловой организации высказываний в речевом потоке.

В настоящее время существует ряд методических подходов, базирующихся на применении автоматизированных экспертных систем текстозависимой и тек- стонезависимой идентификации диктора. Вместе с тем их возможности ограни- чены при исследовании речевого сигнала, продуцированного в условиях ком- пьютерно-опосредованной речевой коммуникации, при образовании речевого

Galyashina E. I.

следа путем цифровой передачи сигнала по каналам мобильной связи, а также воздействии на структуру звукового сигнала при его цифровой обработке, сжатии и иных способах модификации. Существующие автоматические системы и пра- вила принятия идентификационного решения не позволяют достигать результа- тов, достоверность, надежность и воспроизводимость которых отвечает требо- ваниям обеспечения доказательств в практике российского судопроизводства1. Доля неавтоматизированного труда эксперта остается значительной, что снижает степень объективности вывода. Технология производства экспертизы предусма- тривает разрозненное использование методов акустического и лингвистического анализа, на практике реализуемого разными субъектами, обладающими раз- личными компетенциями, независимо друг от друга. Общее решение о принад- лежности речевого сигнала на проверяемой фонограмме конкретному диктору принимается двумя экспертами (инженером и лингвистом) с разным объемом специальных знаний путем суммирования результатов параметрического сравне- ния инженером противопоставленных сигналограмм и социолингвистического портрета, сформированного на уровне слуховой перцепции лингвиста. Лингви- стические признаки структурно представлены перечнями описаний, не детер- минированными по их специфичности. Не учитывается объективно-системный характер речи как бинарного процесса, опирающегося на индивидуальные пси- хофизиологические процессы в организме человека и оформленного потоком язы- ковой последовательности звуков с семантическим содержанием, дополняемым всевозможными интонационно-эмоциональными оттенками.

Можно констатировать, что единая общепринятая научно-обоснованная методика отождествления диктора пока отсутствует, а в экспертных организа- циях России изолированно применяются методы акустического и аудитивно- лингвистического анализа, механистически разрывающие неделимое знаковое единство речи как продукта языковой деятельности. Это приводит к том, что на одних и тех же объектах сравнения одним методом могут быть получены ре- зультаты, невоспроизводимые применением иного метода, либо эксперты могут формулировать прямо противоположные выводы, устанавливая тождество од- ним методом и отсутствие такого — другим. В экспертных заключениях не при- водятся вероятностно-статистические данные о надежности принятия иден- тификационного решения (вероятности совершения ошибки первого, второго рода — «пропуска цели» или «ложного захвата цели») по отдельным видам иссле- дований. Все применяемые методические материалы носят рекомендательный характер, не содержат строгих предписаний и формальных правил, оставляя экс- перту широкое поле для субъективного усмотрения как по выбору количества и комбинаторике измеряемых параметров речевого сигнала, набору вычисляе- мых акустических признаков, списку интерпретируемых лингвистических при- знаков и их оценке, и в этом смысле собственно методиками не являются.

В экспертологии методика, понимаемая как «система категорических или альтернативных научно-обоснованных предписаний по выбору и применению

1 См., например, Обзор методов идентификации на электронном ресурсе http://www.forenex.ru — дата последнего посещения 08.01.2015.

Linguistic Analysis in the Speaker Identification Systems

в определенной последовательности и в определенных существующих или соз- даваемых условиях методов, приемов и средств (приспособлений, приборов и аппаратуры) для решения экспертной задачи»2, занимает в настоящее время одно из центральных мест. Методика может содержать несколько вариантов решения одной экспертной задачи с учетом специфики ее условий или особен- ностей представленных объектов, однако, каждый этап принятия экспертом конкретного решения в случае выбора альтернативных вариантов должен быть изложен в заключении эксперта и мотивирован.

Феномен экспертной методики как научно-обоснованный алгоритм решения конкретной практически ориентированной задачи, позволяющий формировать критерии для оценки достоверности заключения эксперта как доказательства, привлекает в условиях современных реалий судопроизводства особое внимание.

Это тем более важно, что получаемые по имеющимся методическим подходам идентификации диктора результаты нередко невоспроизводимы и носят неодно- значный, противоречивый характер. Видимо, поэтому в своих заключениях экс- перты часто не приводят ссылок на конкретную экспертную методику либо, под- меняют понятие экспертной методики понятием «методические материалы», «ме- тодические рекомендации», смешивают общенаучные и частнонаучные методы, описывают содержание и ход проведенного исследования с перечислением типо- вых, а не конкретно использованных технических средств, не указывают логиче- ские основания вывода и правила принятия ими того или иного решения3.

На примере, практики экспертного отождествления лица по фонограм- мам речи, этот тезис становится особенно актуальным. Обзор существующих методов и инструментов анализа речевого сигнала показывает, что для реше- ния задачи идентификации диктора в отечественной экспертизе присутствуют разные подходы.

Первый реализован на основе автоматизированной системы идентифика- ции дикторов «Диалект»4, изложенный в соответствующих пособиях для экс- пертов5. В структуру функциональной схемы проведения идентификацион- ных исследований на системе «Диалект» входят измерение спектрально-вре- менных параметров гласных и согласных звуков, вычисление акустических признаков речи неизвестного лица на спорной фонограмме и образцах речи

2 Россинская Е. Р., Галяшина Е. И., Зинин А. М. Теория судебной экспертизы. — Учеб- ник. — М.: Норма, 2013, с. 130.

3 Подробнее см. Россинская Е. Р., Галяшина Е. И. Настольная книга судьи: судебная экспертиза. — Москва: Проспект, 2014, с. 303–340.

4 В настоящее время данный метод реализован в программе «Диалект», ее коммерческой версии «Фонэкси», а также в системе PhonoBase. Способ идентификации личности по фо- нограммам произвольной устной речи в части инструментального анализа был запатен- тован (патент № 2107950 от 08.08.1996, G10L 5/06: Байчаров Н. В., Карлин И. П., Курачен- кова Н. Б., Линьков А. Н., Попов Н. Ф., Савельев Ю. И., Тимофеев И. Н., Фесенко А. В.).

5 Идентификация лиц по устной речи на русском языке. Методика «Диалект». Посо- бие для экспертов. Издание 2-е, переработанное и дополненное / Н. Б. Кураченкова, Н. В. Байчаров, М. А. Ермакова. Под редакцией В. М. Богданова. — М., 2007.

Galyashina E. I.

подозреваемого лица, добавление в имеющуюся статистическую базу акусти- ческих признаков речи разных лиц информации о векторах признаков речи данного подозреваемого лица, переобучение системы, определение «веса»

(информативности) совпадающих признаков и порогов допустимой вариатив- ности акустических признаков. Система обладает возможностями адаптации процедуры принятия решения путем произвольного исключения из сравне- ния совпадающих или различающихся признаков, а также изменения порога принятия идентификационного решения. Однако, по мнению некоторых специалистов: «в целом данный метод соответствует уровню развития рече- вых технологий конца прошлого века и не учитывает многонационального характера современной преступности, объективных изменений в русском языке, появления и развития цифровых средств речевой связи»6. Отметим, что лингвистические признаки представлены в комплексе «Диалект» списком вос- принимаемых на слух характеристик речевого потока, слова, фразы и звука, примеры звучания которых представлены в базе эталонов в системе. При этом эксперт выбирает из предлагаемых системой списка признаков те эталоны, ко- торые в большей степени соответствуют его слуховому восприятию.

Второй подход основан на применении в качестве инструментария для из- мерения и вычисления речевых параметров различных звуковых редакторов, разработанных отечественными и зарубежными специалистами7, которые тре- буют от пользователя высокой квалификации, поскольку методы обладают не- высокой степенью автоматизации, в том числе блоками автоматического срав- нения получаемых результатов с принятием идентификационного решения на уровне экспертной оценки. Лингвистический анализ при втором подходе сво- дится к слуховой перцепции и фонетическому описанию сегментных и супер- сегментных особенностей произносительных навыков. Решение принимается экспертом методом субъективной оценки выявленных совпадений и различий.

В этом ряду особо следует отметить новую версию звукового редактора SIS II v2.0, в котором реализованы модули попарного и обобщенного идентифи- кационного решения. В этом блоке пользователь имеет возможность по своему усмотрению менять границы применимости каждого из отдельных методов исследования, изменяя таким способом его весовой коэффициент в общем ре- шении Лингвистический анализ представлен перечислением просодических особенностей с элементами субъективного психолого-социо-речевого пор- трета диктора8.

6 См., например, Обзор методов идентификации [электронный ресурс]:

http://www.forenex.ru.

7 Например, OTExpert (ООО «ОТ-Контакт», Москва), Justiphone (ООО «Целевые тех- нологии», Москва), SIS II v2.0 (ООО «Центр речевых технологий», Санкт Петербург), а также Praat (Амстердамский университет), SFS (Speech Filing System) и др. Подроб- ный список представлен в монографии Галяшина Е. И. Основы судебного речеведе- ния. — М: Стэнси, 2003, с. 225–229.

8 Булгакова Е. В., Краснова Е. В. Экспертные системы и методы идентификации дик- тора // ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2014. Т. 57, № 2, с. 58–63.

Linguistic Analysis in the Speaker Identification Systems

Обзор современных методических подходов, используемых в экспертной практике показал:

• отсутствие терминологического единоообразия в применяемых подходах к решению задачи отождествления диктора с достаточной точностью и на- дежностью, приемлемой для целей доказывания в судопроизводстве;

• множественность подходов и отсутствие единой, унифицированной методики;

• изолированное использование методов акустического и слухового фоне- тического анализа независимо друг от друга с суммированием получен- ных результатов;

• применение методов акустического анализа, которые базируются на пре- зумпции наличия у эксперта информации об источнике происхождения представленного на фонограмме следа речевого сигнала и путей (спосо- бов) его модификации от источника (диктора) до регистрации на носителе;

• лингвистический анализ представлен многомерным недетерминирован- ным признаковым пространством;

• применение аудитивного (лингвистического) анализа базируется на пре- зумпции, что реплицированная диалогическая коммуникация, атрибути- рована по принадлежности ее участникам;

• информационная значимость алгоритмически определяется для совпада- ющих признаков, вес различающихся признаков устанавливается экспер- том субъективно;

• наличие в автоматизированных системах адаптивных процедур, позволя- ющих вмешиваться в процедуру принятия решения;

• общее решение принимается эвристически, носит во многом еще субъек- тивный характер и в значительной мере зависит от опыта и багажа знаний эксперта.

Проблема осложняется тем, что надежность идентификационного решения во многом зависит от качества речевого сигнала, записанного на материальный носитель, тогда как речь человека при прохождении через каналы цифровой мобильной связи неизбежно искажается9. Идентификация диктора в сигнале, подвергшемся модификации, кодированию, сжатию и иным видам цифрового (а иногда и аналогового) преобразования значительно затруднена10. При пере- даче речи по каналам мобильной связи экспертному исследованию подвергается

9 Галяшина Е. И., Галяшин В. Н. Цифровые фонограммы как судебное доказательство, Воронежские криминалистические чтения, — Воронеж: Изд-во Воронежского гос.

университета, № 8, 2007, с. 71.

10 На практике нередко возникает задача установления личности анонимного свидетеля, голос которого намеренно искажается по неизвестному алгоритму с целью затруднения или исключения возможности его опознания на слух или идентификации по акустико- фонетическим параметрам. Доступным для исследования при этом остается уровень языковой организации речи, отражающий индивидуальную характеристику манеры речи говорящего, обусловленной спецификой образа мышления, понимания темы, пол- ноты аргументации, связности, цельности, информативности речевого сообщения.

Documentos relacionados