Проект HEISENDATA: снижение неопределенности данных

Исследователи из ЕС разработали системы сбора данных с использованием статистических и вероятностных выводов для уменьшения неопределенности. Проект позволил объединить эти методы с традиционными базами данных, в том числе путем разработки масштабируемых алгоритмов, а также широкий спектр новых инструментов.

Различные приложения вынуждены управлять и принимать решения на основе данных с высокой степенью неопределенности. Хотя некоторые средства в определенной степени исправляют эти недостатки, но в основном они примитивны и их возможности ограничены.

Финансируемый ЕС проект HEISENDATA был ориентирован на улучшение ситуации. Работающая над проектом команда планировала спроектировать и построить новые вероятностные системы баз данных (PDBS), поддерживающих статистические модели и вероятностный вывод в дополнение к обычным структурам баз данных. Исследователи пытались решить проблемы, связанные с обработкой этих новых компонентов. В том числе — реконструкцию ключевых компонентов для системы.

Работы включали три основных направления: сводка новой вероятностной оптимизации запросов данных, новых алгоритмов и архитектуры PDBS, а также масштабируемых алгоритмов и инструментов.

Описания данных охватывали определение и создание алгоритмов построения гистограмм. Для разных алгоритмов анализа ошибок были созданы новые оптимальные или близкие к оптимальным гистограммы, а также описания элементарных волн. По мере продвижения работ, были введены вероятностные гистограммы, дающих более точное представление о характеристиках неопределенности данных.

Кроме того коллектив занимался проблемами, касающимися неупорядоченного текста, содержащего структурированные информационные блоки. Эти решения являются продолжением одной из самых популярных моделей извлечения информации (IE), развивающие два метода запросов. Действенность и производительность этих методов оценена при помощи реальных данных. В результате получился набор правил, позволяющих выбирать соответствующие поисковые алгоритмы для различных условий, что позволяет добиться десятикратного прироста скорости.

Исследователи разработали рамки масштабирования любых произвольных общих алгоритмов и подтвердили их эффективность. Дальнейшие работы позволили интегрировать в IE вероятностную обработку запросов.

Проект HEISENDATA позволил выявить новые статистические методы обработки данных с высокой степенью неопределенности и объединить эти методы с традиционными структурами баз данных. Проведенные работы одинаково важны как для науки, так и для коммерческого сектора.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

*


*