Анотований GEC-корпус української мови - Новини
Grammarly створила перший анотований GEC-корпус української мови і виклала його у відкритий доступ.

GEC-корпус — Grammatical Error Correction — виправлення граматичних помилок, а мовний корпус — сукупність текстів, авторами яких є звичайні люди. Професійні українські лінгвісти ці тексти потім опрацювали (проанотували — позначили помилки і вказали відповідні виправлення). Призначення корпусу — наукове та практичне вивчення мови.

Схожі корпуси існують для багатьох мов, але до сьогодні не було такого анотованого корпусу для вивчення української мови.

Презентований GEC-корпус української мови налічує понад тисячу різножанрових текстів (а це більш ніж 20 000 речень), що їх написали майже 500 волонтерів з усієї України і з-за кордону. Ці дані будуть корисні тим, хто цікавиться лінгвістикою, — від студента-науковця до приватної компанії — і для дослідницької роботи, і для створення або поліпшення власного онлайн-додатка, продукту тощо.

Завантажити корпус можна за посиланням.

Окрім того, проєкт зі збору та наповнення GEC-корпусу української мови стає постійним у компанії Grammarly і буде частиною внеску в розвиток українського NLP (natural language processing — опрацювання природної мови). Команда продовжить наповнювати корпус текстами за допомогою вебсайту проєкту, а також працюватиме над удосконаленням його технічної цінності, щоб збільшити його значення для наукової спільноти.

«Очікуйте поліпшену версію корпусу. Окрім збільшення самого корпусу за допомогою текстів, наша команда активно працюватиме над удосконаленням його технічної цінності. Ми підготуємо додатковий варіант анотації, що дасть змогу використовувати корпус у двох різних завданнях: виправленні тільки граматики та виправленні граматики й стилю», — обіцяють у компанії.

Дізнатися більше і підтримати проєкт можна за посиланням.

Нагадуємо, що також доступний корпус мови на основі схрону Чтива.