• Nenhum resultado encontrado

Acknowledgements

4. Results and further work

Mavljutov R. R., Ostapuk N. A.

Using basic syntactic relations for sentiment analysis

Our classifier has the second result (among 26 participants) in film classification and the third — in book classification (among 40 participants). A little bit worse we per- formed at camera classification — we are the sixth of 25. It can be explained by the fact that reviews about books and films are very much alike both in sentiment lexicon and parameters which are evaluated. Camera reviews have more specific lexicon and it was more complicated to extract sentiment facts from them. In such cases training process should be more domain-specific with less “object-independent” sentiments.

From complete result table one can see that regardless to object class precision and recall of classification of negative reviews is considerably lower than positive ones. The explanation is that negative reviews form only 10% of the flow. This cor- relation is true both for training set and for the Web in general. Prevalence of one class impacts on machine learning. Moreover, it complicates the process of gathering sentiment dictionary for negative class.

Despite pretty bad performance in negative reviews classification, total accuracy is still high enough. It means that test set also contained less negative reviews.

On the basis of existing system we are going to implement 3 or 5 groups classifica- tor. Moreover, at the previous stage of our research we tried to evaluate not the whole text, but separate parameters of it, such as service, beach, rooms for hotel reviews or service, interior, food for restaurant reviews. We believe, that for such objects as ho- tels and restaurants, as well as cameras, cars and so on, such parametric evaluation is much useful, and that’s why we are going to continue our investigation in this area.

References

1. Chetviorkin I. I. (2012), Testing the sentiment classification approach in various domains — ROMIP 2011, Computational Linguistics and Intellectual Technolo- gies: Proceedings of the International Conference “Dialog 2012” [Komp’iuternaia Lingvistika i Intellektual’nye Tehnologii: Trudy Mezhdunarodnoj Konferentsii

“Dialog 2012”], Bekasovo, pp. 747–755.

2. Chetviorkin I. I., Braslavski P. I., Loukachevitch N. V. (2012) Sentiment analysis track at ROMIP 2011 Computational Linguistics and Intellectual Technologies:

Proceedings of the International Conference “Dialog 2012” [Komp’iuternaia Lingvistika i Intellektual’nye Tehnologii: Trudy Mezhdunarodnoj Konferentsii

“Dialog 2012”], Bekasovo, pp. 739–746.

3. Kotelnikov E. V., Klekovkina M. V. (2012) Sentiment analysis of texts based on machine learning methods [avtomaticheskij analiz tonal’nosti tekstov na os- nove metodov machinnogo obuchenija], Computational Linguistics and Intellec- tual Technologies: Proceedings of the International Conference “Dialog 2012”

[Komp’iuternaia Lingvistika i Intellektual’nye Tehnologii: Trudy Mezhdunarod- noj Konferentsii “Dialog 2012”], Bekasovo, pp. 756–763.

4. Nakagawa T., Inui K., and Kurohashi S. (2010), Dependency tree-based sentiment classification using crfs with hidden variables, In Human Language Technolo- gies: The 2010 Annual Conference of the North American Chapter of the Associa- tion for Computational Linguistics, HLT ’10, Morristown, NJ, USA, pp. 786–794

Mavljutov R. R., Ostapuk N. A.

5. Pak A., Paroubek P. (2012) Language independent approach to sentiment analy- sis (LIMSI participation in ROMIP ’11), Computational Linguistics and Intellec- tual Technologies: Proceedings of the International Conference “Dialog 2012”

[Komp’iuternaia Lingvistika i Intellektual’nye Tehnologii: Trudy Mezhdunarod- noj Konferentsii “Dialog 2012”], Bekasovo, pp. 764–771.

6. Pang B. & Lee L. (2008), Opinion Mining and Sentiment Analysis, Foundations and Trends in Information Retrieval, v.2 n.1–2, pp.1–135.

7. Pazel’skaja A. G., Solov’jev A. N. (2011) A method of sentiment analysis in Rus- sian texts [metod opredelenija emocij v russkih tekstah], Computational Linguis- tics and Intellectual Technologies: Proceedings of the International Conference

“Dialog 2011” [Komp’iuternaia Lingvistika i Intellektual’nye Tehnologii: Trudy Mezhdunarodnoj Konferentsii “Dialog 2011”], Bekasovo, pp. 510–522

8. Polyakov P. Yu., Kalinina M. V., Pleshko V. V. (2012), Research on applicability of thematic classification methods to the problem of book review classification [issledovanie primenimosti metodov tematicheskoj klassifikacii v zadache klas- sifikacii otzyvov o knigah], Computational Linguistics and Intellectual Technolo- gies: Proceedings of the International Conference “Dialog 2012” [Komp’iuternaia Lingvistika i Intellektual’nye Tehnologii: Trudy Mezhdunarodnoj Konferentsii

“Dialog 2012”], Bekasovo, pp. 772–779.

9. Poroshin V. (2012), Proof of concept statistical sentiment classification at ROMIP 2011, Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog 2012” [Komp’iuternaia Lingvistika i Intellektual’nye Tehnologii: Trudy Mezhdunarodnoj Konferentsii “Dialog 2012”], Bekasovo, pp. 780–788.

10. Prabowo R. and Thelwall M. (2009). Sentiment analysis: A combined approach.

Journal of Informetrics, 3(2) pp. 143–157.

11. Shilpa Arora, Elijah Mayfield, Carolyn Penstein-Rose and Eric Nyberg (2010), Senti- ment classification using automatically extracted subgraph features. NAACL work- shop on Computational approaches to analysis and generation of emotion in text 12. Tomita-parser: http://api.yandex.ru/tomita/

13. Vasilyev V. G., Khudyakova M. B., Davydov S. (2012), Sentiment classification by fragment rules [klassifikacija otzyvov pol’zovatelej s ispol’zovaniem frag- mentnyh pravil], Computational Linguistics and Intellectual Technologies:

Proceedings of the International Conference “Dialog 2012” [Komp’iuternaia Lingvistika i Intellektual’nye Tehnologii: Trudy Mezhdunarodnoj Konferentsii

“Dialog 2012”], Bekasovo, pp. 789–796.

14. Yi J., Nasukawa T., Niblack W. & Bunescu R. (2003), Sentiment analyzer: extract- ing sentiments about a given topic using natural language processing techniques, In Proceedings of the 3rd IEEE international conference on data mining (ICDM 2003), Florida, USA, November 19–22, pp. 427–434.

15. Zirn Cacilia, Niepert Mathias, Stuckenschmidt Heiner, Strube Michael. (2011), Fine-Grained Sentiment Analysis with Structural Features. In Proceedings of 5th International Joint Conference on Natural Language Processing, Asian Federa- tion of Natural Language Processing, Chiang Mai, Thailand

СиСтема Сентиментного анализа ATEX, оСнованная на правилах, при обработке текСтов различных тематик

Паничева П. В.

(ppolin86@gmail.com) EPAM Systems, Санкт-Петербург, Россия

Ключевые слова: сентиментный анализ, анализ тональности, РОМИП

ATEX: A rulE-bAsEd sEnTimEnT AnAlysis sysTEm procEssing TEXTs in vArious Topics

Panicheva P. V.

(ppolin86@gmail.com) EPAM Systems, Saint-Petersburg, Russia

ATEX is a rule-based sentiment analysis system for texts in the Russian lan- guage. It includes full morpho-syntactic analysis of Russian text, and highly elaborated linguistic rules, yielding fine-grained sentiment scores. ATEX is participating in a variety of sentiment analysis tracks at ROMIP 2012.

The system was tuned to process news texts in politics and economy. The performance of the system is evaluated in different topics: blogs on mov- ies, books and cameras; news. No additional training is performed: ATEX is tested as a universal ‘ready-to-use’ system for sentiment analysis of texts in different topics and different classification settings. The system is com- pared to a number of sentiment analysis algorithms, including statistical ones trained with datasets in respective topics. Overall system performance is very high, which indicates high usability of the system to different topics with no actual training. According to expectations, the results are especially good in the ‘native’ political and economic news topic, and in the movie blog topic, proving both to share common ways of expressing sentiment.

With regard to blog texts, the system demonstrated the best performance in two-class classification tasks, which is a result of the specific algorithm design paying more attention to sentiment polarity than to sentiment/neu- tral classes. Along these lines areas of future work are suggested, including incorporation of a statistical training algorithm.

Keywords: rule-based sentiment analysis, sentiment classification, Russian language processing, ROMIP

Panicheva P. V.

1. Введение

Сентиментный анализ, или анализ тональности — молодой, но быстро раз- вивающийся раздел автоматической обработки текстов. В середине 1990-х гг.

исследователи начали проявлять интерес к выражению субъективного отно- шения автора в тексте [Wiebe], включая в это понятие мнения, настроения, от- ношение автора, выраженные каким-то образом в тексте[Pang].

С развитием интернета сентиментный анализ привлекает внимание ис- следователей как один из разделов анализа субъективности, задачей которого является определение значения «тональности» текста, а именно, классифика- ция текста как отражающего позитивное, негативное или нейтральное отно- шение автора к объектам, явлениям, персонам, упомянутым в тексте.

Важно отметить, что до сих пор не сформулированы четкие теоретические критерии, по которым тот или иной отрезок текста может быть отнесен к по- зитивному, негативному или нейтральному классам, несмотря на успешные попытки некоторых исследователей теоретически обосновать сентиментный анализ (к примеру, [Balahur]). Таким образом, оценка значения тональности устанавливается опытным путем, с помощью разметки асессорами, которая затем используется в качестве «золотого стандарта» для обучения и оценки результатов сентиментного анализа. Наличие данных, размеченных таким образом, является критическим для развития этой области, в том числе по- тому, что бо ́льшая часть исследований сосредоточена на обучаемых методах классификации.

В России сентиментный анализ стал привлекать внимание исследовате- лей в конце 2000-х гг., что отразилось в появлении в 2011 г. в программе се- минара РОМИП дорожек по оценке сентиментного анализа на русском языке.

Особенность отечественных работ в данной области заключается в большей производственной и коммерческой направленности описываемых систем.

В результате оказываются решающими не только численные показатели ре- зультатов работы алгоритмов, обученных и проверенных на определенных текстовых выборках, но и более детальная настройка алгоритмов, прозрач- ная схема определения значения тональности, основанная на явных и чет- ких лингвистических показателях, а также доступность поддержки системы и ее развития для обработки текстов новых жанров/тематик. С этой точки зрения особенно удобными в применении оказываются системы, основанные на правилах ([Kan, Vasilyev]).

Целью данного исследования является тестирование работы системы ATEX, основанной на правилах, настроенной на новостных текстах различного происхождения, без предварительного обучения. Тестирование призвано по- казать применимость системы к сентиментному анализу текстов различных тематик в сравнении с другими системами сентиментного анализа, в том числе основанных на машинном обучении. Для этого система ATEX была пред- ставлена на семинаре РОМИП в наборе дорожек по сентиментному анализу;

при этом не проводилось никакого обучения или дополнительной настройки системы.

ATEX: a rule-based sentiment analysis system processing texts in various topics

2. Алгоритм сентиментного анализа