GATE

Лицензия LGPL.

С помощью GATE (general architecture for text engineering) реализуются задачи, где требуется выявить смысловое содержание текста и кодировать его в структурированном виде путём добавления аннотаций к сегментам текста. GATE используется наряду с NLTK, R и RapidMiner.

Система применяется для извлечения информации, ручной и автоматической семантической аннотации, анализа кореферентности (благодаря кореферентности текст можно сделать связным), работы с онтологиями (например, WordNet), машинного обучения (Weka, RASP, MAXENT, SVM Light), анализа потока сообщений в блогах.

Клиенты: Twitter

...

Сайт проекта

Платформы: Windows Vista, Windows XP, Mac OS X, Linux, Mac OS X, Solaris, etc.

Кейсы

Twitter

Анализ потока сообщений

COMRADES

Коллективная платформа для обеспечения устойчивости сообществ и социальных инноваций во время кризисов

KNOWMAK

Знания в процессе создания в Европейском сообществе

SoBigData

Европейская исследовательская инфраструктура для интеллектуального анализа социальных сетей и больших данных

RISIS

Исследовательская инфраструктура для исследований и исследований инновационной политики

WeVerify : более широкая и улучшенная проверка.

Европейская языковая сетка

Преимущества

Архитектура GATE состоит из взаимосвязанных компонентов: «кусочков» программного обеспечения с четко определенными интерфейсами, которые могут быть развернуты в различных контекстах.

В GATE реализованы готовые решения для токенизации, тегирования, разделения текста на высказывания (сплитер), извлечения именованных сущностей, машинного обучения.

Компоненты делятся на три категории по функциям:

  • Language Resources (LR) — лингвистические ресурсы (данные),
  • Processing Resources (PR) — программы для обработки документов (ресурсы),
  • Visual Resources (VR) — графические интерфейсы для LR и PR.