XVI Всероссийская научная конференция RCDL-2014 Дубна, 13–16 октября 2014 г.

Nataly Lukashevich – Research Computing Center of Moscow State University, Russia Oleg Malkov – Institute of Astronomy, RAS, Russia. Alexander Marchuk – Institute of Informatics Systems, RAS, Siberian Branch, Russia Genis Musulmanbekov – Joint Institute for Nuclear Research, Russia.

ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ, МЕТОДЫ ИХ ФОРМИРОВАНИЯ / LINGUISTIC RESOURCES, METHODS OF THEIR PRODUCTION

МЕТАДАННЫЕ И ОНТОЛОГИИ / METADATA AND ONTOLOGIES

СЕМАНТИЧЕСКАЯ ОБРАБОТКА ПОЛНОТЕКСТОВЫХ РЕСУРСОВ / SEMANTIC PROCESSING OF FULL-TEXT RESOURCES

Shubnikov S.K

ПОДДЕРЖКА ИССЛЕДОВАНИЙ В НАУКАХ С ИНТЕНСИВНЫМ ИСПОЛЬЗОВАНИЕМ ДАННЫХ / RESEARCH SUPPORT IN DATA

ИДЕНТИФИКАЦИЯ ПЕРСОН, ВЫЯВЛЕНИЕ ИХ УПОМИНАНИЙ В ТЕКСТАХ / PERSON IDENTIFICATION, DETECTION OF THEIR

МЕТОДЫ И МОДЕЛИ ПОИСКА ИНФОРМАЦИОННЫХ РЕСУРСОВ / METHODS AND MODELS FOR INFORMATION RESOURCES SEARCH

МОДЕЛИРОВАНИЕ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ, ИНТЕГРАЦИЯ И ОБРАБОТКА ГЕОДАННЫХ / MODELING USER BEHAVIOR, GEODATA

Shalaeva M.V

ЭЛЕКТРОННЫЕ НАУЧНЫЕ ЖУРНАЛЫ, ПУБЛИКАЦИЯ НАУЧНЫХ ИЗМЕРИТЕЛЬНЫХ ДАННЫХ / ELECTRONIC SCIENTIFIC JOURNALS,

ОБНАРУЖЕНИЕ СХОДСТВА И ДУБЛИКАТОВ В ТЕКСТОВЫХ ИНФОРМАЦИОННЫХ РЕСУРСАХ / SIMILARITY AND DUPLICATES

ИНТЕГРАЦИЯ НЕОДНОРОДНЫХ ИНФОРМАЦИОННЫХ РЕСУРСОВ И РАСПРЕДЕЛЕННЫЕ СИСТЕМЫ / HETEROGENEOUS INFORMATION

ИНСТРУМЕНТАЛЬНЫЕ СРЕДСТВА РАЗРАБОТКИ ЭЛЕКТРОННЫХ БИБЛИОТЕК / TOOLS FOR DIGITAL LIBRARIES DEVELOPMENT

ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТАБЛИЦ И ТЕКСТОВ, ГЕНЕРАЦИЯ МНОГОМЕРНЫХ ДАННЫХ / INFORMATION EXTRACTION FROM

СТЕНДОВЫЕ ДОКЛАДЫ / POSTER PAPERS

ДИССЕРТАЦИОННЫЙ СЕМИНАР / PhD SEMINAR

Предисловие

Организаторы RCDL-2014 выражают уверенность, что очередная конференция серии будет способствовать дальнейшему развитию научных исследований, а также практическим разработкам в области электронных библиотек и областях, связанных с информационными технологиями. Руководители Оргкомитета и Программного комитета RCDL-2014 выражают благодарность авторам докладов, представленных на конференции, а также Российскому фонду фундаментальных исследований и Отделению нанотехнологий и информационных технологий Российской академии наук. наук за поддержку конференции.

Preface

The chairmen of the Organizing Committee and Program Committee of RCDL-2014 express their gratitude to the authors of the entries, as well as to the Russian Foundation for Basic Research and the Department of Nanotechnologies and Information Technologies of the Russian Academy of Sciences for their support of the conference. The RCDL Steering Committee thanks Director and staff of the JINR Laboratory of Information Technology for their hard and responsible work in the preparation and implementation of the conference, as well as the members of the Program Committee for their important work in reviewing and selecting submissions.

ТЬЮТОРИАЛЫ

TUTORIALS

Что такое семантическая цифровая библиотека

Аннотация

1 Что такое библиотека

Что такое цифровая библиотека

Цифровые библиотеки или информационные системы?

Что такое семантическая цифровая библиотека

Следовательно, имеет смысл использовать термин «цифровые семантические библиотеки» только в контексте Интернета, а именно имея в виду интеграцию цифровых библиотек в контексте семантического Интернета». Взаимодействие с данными из связанных открытых данных (LOD), например извлечение данных из LOD в библиотеку и наоборот, публикация собственных данных в LOD.

Заключение

Литература

Semantic digital libraries. What is it?

Международная профессиональная ассоциация разработчиков научных информационных систем

1 Введение

2 Рабочие группы euroCRIS

Рабочая группа CERIF
Рабочая группа Institutional Repositories (CRIS-IR)
Рабочая группа Best Practice
Рабочая группа Projects
Рабочая группа CRIS Architecture and Development
Рабочая группа Linked Open Data
Рабочая группа Indicators

Целью рабочей группы CRIS-IR является дальнейшее развитие подходов и технологий соединения систем и хранилищ CRIS. Рабочая группа по архитектуре и развитию CRIS разрабатывает программное обеспечение CRIS, которым можно поделиться в сообществе разработчиков CRIS.

3 CERIF

Основным приоритетом является разработка эталонной версии системы CRIS и определение стандартных API для программного доступа к данным систем CERIF-CRIS. Миссия Рабочей группы по связанным открытым данным заключается в обеспечении представления связанных и семантических данных в CERIF, а также в разработке и поддержке необходимых услуг.

International Professional Association of Research Information System Specialists

Cerif — национальный стандарт представления научных данных в 10 европейских странах (Великобритания, NO, BE, IT, de, IS, DK, SE, CZ, SK). В России Cerif использовался для создания подсистемы учета научно-технической информации в гонке АГУ РИД, а также в ряде других проектов (например в новосибирском Ру-крисе).

In Proceedings of the Fifteenth International Conference on Grey Literature: The Grey Audit, A Field Assessment in Grey Literature, 2 3 Desember 2013 / saamgestel deur D.

Social Networks Meet Social Science

Abstract

1 Introduction

2 Psychology

3 Sociology

4 Economics

5 Political Science

6 Conclusions

In Proceedings of the Fifth ACM International Conference on Web Search and Data Mining (New York, NY, USA, 2012), WSDM'12, ACM, p. In Proceedings of the IEEE/ACM International Conference on Advances in Social Network Analysis and Mining (New York, NY, USA, 2013), ASONAM'13, ACM, p.

Социальные сети в социальных науках

ХРАНЕНИЕ, ИНТЕГРАЦИЯ И АНАЛИЗ БОЛЬШИХ ДАННЫХ

STORAGE, INTEGRATION AND ANALYSIS OF BIG DATA

Моделирование грид и облачных сервисов как средство повышения эффективности их разработки

Ежедневно WLCG обрабатывает полтора миллиона заданий, на что даже самому мощному современному компьютеру потребовалось бы 600 лет.

2 Принципы моделирования грид и облачных инфраструктур

3 Мониторинг грид-систем

4 Схема программы моделирования SyMSim

5 Постановка задачи и результаты моделирования

Simulation of Grid and Cloud Services as the Means of the Efficiency Improvement

Anomalies (or outliers, deviant objects, exceptions, rare events, peculiar objects) are an important concept in data analysis. In Section 6, we discuss specific features of the anomaly detection problem that have a major impact on the methods used in this area.

2 Data forms

In this article, we review different approaches to the problems of anomaly detection, their applications and specific features. It is very important to detect these objects during the data analysis in order to treat them differently from the other data.

3 Metric Data Oriented Methods

Distance-Based Data
Correlated Dimension Data
Probabilistically Distributed Data
Categorical Data
High-Dimensional Data

Also, PCA (Principal component analysis) [21] can often be used in order to reduce the dimensionality of the data. Certainly, this kind of transformation can increase the dimensionality of the data, but this problem can be solved by dimensionality reduction methods.

4 Evolving Data

Discrete Sequences Data

This technique is based on the analysis of the density distributions of projections from the data, after which the grid discretization is performed (the data forms a sparse hypercube at this point) and the evolutionary algorithm is used to find a suitable lower-dimensional subspace. They compare the PCA-based approach with the proposed approach, which is based on random projections.

Time Series Data

5 Multistructured Data

Text Data

Graph Data

One of the most important applications today is social network data - many popular modern techniques are used in this field: Bayesian models [42], Markov random field, Ising model [43], EM algorithm [44] as well as LOF [45]. The vertices of the hypergraph are treated as members of the social network, and the edges are treated as meetings of the members (each edge of the hypergraph connects some set of vertices together).

6 Specific features of the anomaly detection methods comparing to the general machine

The main problem here is to extract appropriate attributes from the nodes, edges and subgraphs that allow the use of the methods discussed in Section 3. The problem statement is to find the abnormal meeting and measure its degree of abnormality.

7 Conclusion

Graph-Based Anomaly Detection // Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Online Anomaly Detection with Expert System Feedback in Social Networks // Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on.

Программирование методов разрешения сущностей и слияния данных при реализации ETL в среде Hadoop*

2 Краткий обзор методов разрешения сущностей

3 Краткий обзор методов слияния данных

Типы конфликтов при слиянии данных Различают два типа конфликтов: конфликты,
Стратегии разрешения конфликтов
Основные функции разрешения конфликтов Вводится операция outer union [12], результатом
Операторы слияния данных

Операция состоит из выполнения операции внешнего объединения и последующего удаления из результата всех включенных в него кортежей [12].

4 Разрешение сущностей для больших данных

5 Программирование операций разрешения сущностей и слияния

Реализация методов разрешения сущностей Пусть даны структуры данных, включающие три

К сожалению, язык Jaql не имеет возможности писать общие методы, универсальные для всех коллекций, поэтому функцию сравнения можно реализовать на Java и сопрягать с языком Jaql, как показано в разделе 5.1 на примере функций вычисления меры. Давайте также создадим FusionIndex для этих данных, как показано выше для операции минимального объединения.

6 Заключение

Итак, в этом примере показана реализация обеих стратегий для функций разрешения конфликтов в операторе Data Fusion.

7 Литература

Programming of the Entity Resolution and Data Fusion Methods while Implementing

ETL in the Hadoop Environment

СЕМАНТИЧЕСКИЙ ВЕБ, СВЯЗАННЫЕ ОТКРЫТЫЕ ДАННЫЕ

SEMANTIC WEB, LINKED OPEN DATA

Интеграция библиографических данных в Linked Open Data

Семантическая паутина

SPARQL — это язык запросов для доступа к хранилищам RDF, который служит тем же целям, что и SQL в реляционных базах данных.

Linked Open Data

Интеграция данных

2 Постановка задачи

Публикация данных

Описание предметной области
Конвертация данных
Создание семантического хранилища SPARQL точка доступа – сервер, принимающий
Предоставление доступа к данным

Связывание

3 Описание предметной области

Общий обзор
Публикация библиографических записей в LOD Одна из задач библиотеки – предоставление и
Форматы представления библиотечных данных
Проекты интеграции библиотечных данных На данный момент существует несколько
Выводы

На основе MODS создана онтология, в терминах которой можно представить библиографическую запись в виде RDF [8]. Таким образом, используя термины Dublin Core или MODS, можно хранить библиографические записи в формате RDF, используя семантическую базу данных.

4 Исследование и построение решения задачи

Публикация данных

Описание предметной области
Конвертация данных
Создание семантического хранилища Семантическое хранилище – это набор
Предоставление доступа к данным

Согласно принципам LOD, когда к этому URI делается HTTP-запрос, пользователь должен получить полную информацию об этой записи. Для этого вам необходимо создать веб-сервер, который будет иметь доступ к семантическому хранилищу с помощью библиотеки Jena, и извлекать из него всю информацию на основе полученного URI.

Связывание

Кластеризация записей РНБ
Кластеризация записей БНБ

Jena написана на Java, а сервер Jetty встроен в приложение и не требует дополнительной установки.

5 Описание практической части

Подготовка данных

Semantic Integration of Bibliographic Records

Персональная цифровая библиотека Libmeta как среда интеграции связанных открытых данных

2 Эволюция библиотек

Электронные библиотеки

Цифровые библиотеки

Семантические цифровые библиотеки Труды 16-й Всероссийской научной конференции

Персональные семантические цифровые библиотеки

3 Источники данных

Внешние источники

Внутренние источники

Таким образом, поддерживая этот протокол, мы решаем внутри нашей системы задачу формального предоставления и интеграции этих данных в соответствии с принципами LOD, сохраняя при этом информацию об первоисточнике, одновременно решая проблему увязки данных с другие могут решить. источники облака LOD внутри системы.

4 Функциональность ПОЦБ

5 Онтология ПОЦБ

6 Поиск по источникам данных

7 Общая схема подключения источников данных

8 Текущее состояние работ

9 Заключение и дальнейшие работы

Libmeta также исторически поддерживала обмен данными OAI-PMH с интегрированными библиотеками, не относящимися к LOD, выступая в качестве агрегатора, интегрирующего свои данные в LOD.

Open Data

Модель семантического управления личной информацией

1 Введение

2 Управление информацией

3 Существующие подходы к управлению информацией

В SemEx, IRIS и Haystack данные представлены в иерархической форме, иерархия основана на наиболее распространенных типах данных, таких как электронная почта, контакты, проекты. В IRIS и Haystack каждый тип данных имеет определенный набор интерфейсов, которые обеспечивают базовые действия, такие как возможность ответить или переслать электронное письмо, создать событие или создать напоминание.

4 Предлагаемое решение

5 Информационное пространство пользователя

6 Категоризация

7 Интеллектуальный анализ данных

8 Реализация

Для извлечения и записи данных в хранилище система предоставляет веб-сервис REST, который использует формат JSON-LD [11] для представления данных RDF.

9 Заключение

En platform for personlig informationshåndtering og integration // In Proceedings of CIDR 2005, Asilomar, CA, USA, 4.-7. januar 2005. DeepaMehta – A Semantic Desktop // In Proceedings of the Semantic Desktop Workshop på ISWC Galway, Irland, november 6, 2005.

Model of Semantic Personal Information Management System

Haystack: A General Purpose Information Management Tool for End Users Based on Semi-Structured Data // Proceedings of CIDR 2005, Asilomar, CA, USA, January 4–7, 2005. Why Personal Information Management Technologies are not widespread // ASIS&T 2009 Workshop on Personal Information Management, November Vancouver, BC, Canada – 2009.

ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ, МЕТОДЫ ИХ ФОРМИРОВАНИЯ

LINGUISTIC RESOURCES, METHODS OF THEIR PRODUCTION

NLPub: каталог и сообщество русских лингвистических ресурсов

2 Аналогичные работы

3 NLPub: каталог и сообщество

4 Организация каталога

5 Полученный опыт

Примечания

NLPub: a Catalogue and a Community for Russian Linguistic Resources

Refinement of Russian Sentiment Lexicons Using RuThes Thesaurus

1 Introduction

2 Related Work

These and similar graph-based algorithms are also used in corpus-based approaches to sentiment lexicon extraction [4, 9]. In many studies, domain-specific sentiment lexicons are created with corpus-based approaches using various types of propagation from a seed set of words, usually a general sentiment lexicon [6].

3 RuThes Linguistic Ontology

In our study, we create a domain-specific sentiment lexicon from medium-sized datasets using multiple word features and several collections without any co-occurrence between words. Then we improve an initial sentiment lexicon using sentiment labeling of the thesaurus concepts in a specific field with practically no predefined initial words.

4 Extraction of Sentiment Lexicons

Extraction of domain-specific sentiment lexicon based on multiple features

Пресность, безвкусие, безвкусность, absent from the list due to low frequency; безвкусица takes the 1515th place on the list. The quality of the extracted sentiment lexicons was measured using precision measures and presented in the basic columns of Table 2.

Refinement of domain-sentiment sentiment lexicons using RuThes thesaurus

All algorithm parameters are tuned in the movie domain and then applied to four other domains. Words related to the neutral meaning of the word пресный – ПРЕСНАЯ ВОДА (fresh water) retained their very low positions in sentiment.

5 Improvement of General Sentiment Lexicon Using RuThes Thesaurus

In the last step, the sw weights of all words corresponding to Ls concepts are changed by multiplying them by the factor k1 (k1 > 1) and all words corresponding to Ln are multiplied by the factor k2 (0 < k2 < 1). Low occurrence words (with a frequency less than 3) from the source domain set are missing from the initially ranked sentiment list and therefore have no sentiment weight.

6 Conclusion

Веса этих понятий, в свою очередь, рассчитываются на основе других, более частых синонимов или на основе средних весов соседних понятий в процессе маркировки. После применения этого алгоритма в области фильмов наши слова-примеры мягкий, мягкий, безвкусный, мягкий, плохой вкус занимают следующие места в сгенерированном списке настроений: мягкий – 81, мягкий – 86, мягкий – 115, мягкий.

Acknowledgments

This combined model is applied to several domains and ultimately domain-specific sentiment lists are unified to create a sentiment dictionary in the generalized domain of products – ProductSentiRus+, which is an improved version of the only published Russian sentiment lexicon and will also be publicly available.

Сеть естественных иерархий терминов новостных текстов по событиям «Евромайдана»

1 Постановка проблемы

2 Формирование корпуса тематических новостных сообщений

3 Определение динамики тематических сообщений

4 Определение критических точек в динамике сообщений

5 Выбор объектов мониторинга

6 Сеть естественных иерархий терминов

7 Релевантность отдельных сюжетов сюжетным цепочкам

На рисунке 7 показана небольшая сеть с естественной иерархией членов 20+20+20, визуализированная с помощью системы Gephi (https://gephi.org/). 15 НАРУШЕНИЕ МАЙДАНА ОФИС ПАРТИИ НЕЗАВИСИМОСТИ ОБЛАСТИ 16 АКЦИЯ ПРОТЕСТА НА ПЛОЩАДИ МИХАИЛЬСКОГО Киев 14 СТРОИТЕЛЬСТВО ПРАВОГО СЕКТОРА ПРИНУДИТЕЛЬНЫЙ РАЗГОН ЕВРОМАЙДАНА 15 АКТИВИСТ ОГНЕВАЛЬНОГО ОРУЖИЯ БЕРКУТ ВНУТРЕННИЙ ЭТОТЕ 16 ПРАВООХРАНИТЕЛЬНЫЕ ОРГАНЫ МВД.

Выводы

34; «Снежная революция в России»: важные номинации, события, оценки (оценки событий информаторами и данными СМИ) // «Мы не глупые!»: работа протестной улицы. Конференция посвящена 50-летию Институт математики и информатики, 20 – 23 авг.

Network of Natural Hierarchies of Terms of News Messages

Building Networks of Natural Term Hierarchies Based on Text Corpora Analysis // E-preprint arXiv 1405.6068. Dynamic frequency features as a basis for the structural description of various linguistic objects // Proceedings of the CEUR workshop.

Proceedings of the 14th All-Russian Scientific Conference "Digital Libraries: Advanced Methods and Technologies, Digital Collections" - Pereslavl-Zalessky, Russia, 2012.

Об автоматической рубрикации терминов тезауруса открытой информационно-аналитической системы

2 Описание объекта структурирования

3 Модуль автоматического структурирования ТП

4 Реализация автоматического

5 Статусы терминов после

On the Automatic Structuring of the Thesaurus for an Open Information-

Analytical System

Алгоритм синтеза словоформ казахского языка с использованием флективных классов

2 Разбиение существительных

3 Алгоритм генерации словоформ

В результате мы создали все варианты окончаний существительных – для 14 флективных классов мы получили около 3500 окончаний.

4 Практическая реализация и тестирование алгоритма

5 Заключение

The Algorithm for Synthesis of the Wordforms of Kazakh Language Using

Inflexional Classes

МЕТАДАННЫЕ И ОНТОЛОГИИ

METADATA AND ONTOLOGIES

Научные коммуникации на базе электронных библиотек с онлайновой декларацией семантических связей

2 Общая характеристика подхода и среда его реализации

3 Контент системы и семантические связи информационных объектов

4 Описание семантики связей информационных объектов

Наконец, важным источником при разработке онтологии связей для системы Соционет стала модель научных данных CERIF, разработанная euroCRIS (http://www.eurocris.org/).

5 Онлайновые научные коммуникации в системе Соционет

6 Реализация новой технологии научных коммуникаций

7 Заключение

Open Repository of Semantic Linkages // Proceedings of 11th International Conference on Current Research Information Systems e-Infrastructure for Research and Innovations (CRIS 2012), Prague, 2012. Semantic annotation of publication entities using the SPAR (Semantic Publishing and Referencing) Ontologies / Beyond the PDF Workshop, La Jolla.

Scientific Communications Based on Digital Libraries with Tools

Различие онтологических представлений предметной области

2 Информационная модель количественной спектроскопии

3 Информационные ресурсы

Подход к систематизации информационных ресурсов

Особенности онтологического описания информационных ресурсов задач Т1–Т7 и Е

Особенности онтологического описания состояний и переходов

Сравнение метрик онтологий

4 Заключение

The Ontology of Information Resources of Quantitative Spectroscopy and the Ontology of States and Transitions of Molecules are the result of these knowledge representations. A peculiarity of the ontology of information resources is a large number of classes and properties, therefore a considerable number of individuals is characteristic of the ontology of states and transitions of a molecule.

Обзор семантических моделей, описывающих научные публикации и научно-исследовательскую деятельность

1 Электронные семантические библиотеки

2 Онтологии

Dublin Core
SWAN
FRBR
SPAR
CERIF
BIBO
PROV-O
SKOS
PRISM
CIDOC CRM
Соционет
ЕНИП

SPAR (Онтологии семантической публикации и ссылок) — это набор из 8 независимых онтологий для создания машиночитаемых метаданных в RDF для всех аспектов семантической публикации и перекрестных ссылок. Основным преимуществом онтологии PRISM является гораздо более богатый набор терминов для описания библиографических объектов, чем в Dublin Core.

3 Сравнение классов рассмотренных онтологий

FRBR и CERIF

FaBiO, SKOS и BIBO

Analysis of Semantic Ontologies That Describe Scientific Publications and

Research Activities

Применение базы знаний при сопровождении ERP-системы MS Dynamics AX

2 Онтология модификаций MS Dynamics AX

3 Система поддержки сопровождения

Для переноса их в онтологию модификации в системе MS Dynamics AX реализован механизм загрузки ссылок через веб-сервис системы сопровождения. На стороне MS Dynamics AX реализован сервис-клиент, который формирует запросы в сокращенном синтаксисе и передает их сервису.

4 Выводы

XPO и Dynamics Lifecycle Services поддерживают выгрузку данных в файлы, поэтому мониторинг можно организовать в виде проверки файлов на сетевом ресурсе. На стороне MS Dynamics AX реализован вызов ранее перечисленных семантических запросов из контекстного меню объекта приложения, аналогично вызову инструмента анализа перекрестных ссылок.

Список источников

MS Dynamics AX ERP System Maintenance Using a Knowledge Base

СЕМАНТИЧЕСКАЯ ОБРАБОТКА ПОЛНОТЕКСТОВЫХ РЕСУРСОВ

SEMANTIC PROCESSING OF FULL-TEXT RESOURCES

Методы автоматического построения формализованного представления содержания материалов электронных

2 Программно-техническое обеспечение

Общие требования к процессу автоматизации Для автоматизации решения задачи оценки

Обработка данных с применением технологий «Big Data»

Требования к лингвистическому программному обеспечению
Требования к извлечению данных

3 Экспериментальные данные

Предметная область и исходные данные для испытаний

Использование лингвистического программного обеспечения

Автоматизированная настройка

Создание классификаторов в предметной области

Обработка текстов средствами МетаФраз После настройки декларативных средств

Оценка применимости полученных показателей

Формализация фактоподобных высказываний в конкретно-исторических исследованиях

2 Специфика конкретно-исторических исследований

3 Модель фактоподобных высказываний

Базовые высказывания

Высказывания-связки

Служебные высказывания

4 Пример рассуждений, фиксируемых ФПВ

5 Заключение

The paper proposes a model of metadata representation of the fact-like propositions that specify not only true statements, but also suggestions, hypotheses, incomplete information and the results of analytical/synthetic processing.

Категоризация текстов для структурирования массива исторических документов

2 Характеристики текстов

Анализируемые фрагменты текстов

3 Статистические показатели «по словам»

Статистические показатели наиболее частотных слов фрагментов группы

4 Статистические показатели «по темам»

Статистические показатели наиболее частотных слов фрагментов группы «Паруса»

Результаты тематической группировки лексем в текстах группы

Оценка сходства между фрагментами По темам

Результаты тематического выделения лексем в текстах группы «паруса»

Text Categorization for Generation of Historical Shipbuilding Ontology

Поиск и рубрицирование ссылок

Введение
Фрагмент полнотекстового описание изобретения РОСПАТЕНТА Отсутствие в опубликованных электронных

Поиск и выделение ссылок на цитируемые публикации
Рубрицирование ссылок на цитируемые публикации

Список найденных публикаций
Полнотекстовое описание патента 2144210 с пропущенными ссылками на цитируемые публикации
Список найденных публикаций и выделенных названий периодических изданий
Пример слипшихся ссылок и ссылок с лишним текстом
Трудозатраты

Заключение

Данный механизм был использован для анализа совокупности патентов на изобретения по коду МПК G06 за период 2000–2012 гг. 1] INCENTIM (2003), Связь науки с технологией – Библиографические ссылки в патентах, Отчет о проекте. http://www.cordis.lu/indicators).

Identification and Classification of Citation References in Digital Libraries

ПОДДЕРЖКА ИССЛЕДОВАНИЙ В НАУКАХ С ИНТЕНСИВНЫМ

RESEARCH SUPPORT IN DATA INTENSIVE SCIENCES

Introduction into Analysis of Methods and Tools for Hypothesis-Driven Scientific Experiment Support

1 Hypotheses, theories, models and laws in data intensive science

Ordering a “first attempt” in DIS is often motivated by the need to analyze existing massive data to generate a hypothesis. Aspects of science determined by the use of hypotheses of the second kind are discussed in M.

2 Role of hypotheses in scientific experiments: basic principles

It indicates that there is insufficient evidence against the null hypothesis in favor of the alternative hypothesis. Capabilities to support hypothesis-driven experimentation will be discussed in the remaining sections.

3 Hypothesis manipulation in scientific experiments

Hypothesis generation
Hypothesis evaluation

Statistical testing of hypotheses
Logic-based hypothesis testing
Parameter estimation

Algorithmic generation and evaluation of hypotheses
Bayesian motivation for discovery

Bayesian model selection says nothing about the overall quality of the set of models (hypotheses) as a whole - the best model in the set may just be the best in a set of bad models. An application of the Bayesian doubt method to the cosmological model building is given in [44, 45].

4 Facilities for the scientific hypothesis- driven experiment support

Conceptualization of scientific experiments
Hypothesis space browsers
Scientific hypothesis formalization
Hypotheses as data in probabilistic databases Another view of hypotheses encoding and

6 the diversity of the components of a scientific hypothesis model is derived from the applications in Neuroscience [54, 55] and in a human cardiovascular system in Computational Hemodinamica [23, 56]. The main features of the extended system provide: (1) seamless integration of hypothesis formation with knowledge representation and reasoning; (2) use various resources of biological data as well as human expertise to intelligently generate hypotheses; (3) support for ranking hypotheses and for designing experiments to verify hypotheses.

5 Examples of hypothesis-driven scientific research

Besançon Galaxy model
Connectome analysis based on network data In the neuroscience community the development of
Climate in Australia
Financial market

However, on the data set for 2003-2007, the null hypothesis for these two countries is not rejected either. Granger causality analysis, where Dow Jones values and sentiment time series are correlated, is used to test the null hypothesis.

6 Conclusion

The efficient-market hypothesis (EMH) is one of the most prominent in finance and "claims that financial markets are "informationally efficient"". Tests provide evidence that for monthly prices and returns the null hypothesis should not be rejected for all six markets.

The Besancon Galaxy Model, a Population Synthesis Tool for Galactic Structure and Evolution Studies

Проблемы обозначения и кросс-идентификации кратных объектов в астрономии

1 Идентификация небесных объектов

2 Кросс-идентификация небесных объектов