­Выделяя главное: 2Long2Read

Не так давно вокруг нас был тренд на слова «инновации» и «нанотехнологии», а сейчас особенно в моде слова «машинное обучение». Иногда их приплетают просто для придания чему-либо оттенка современности и крутости. В то же время за настоящим machine learning в опытных руках стоят потрясающие возможности автоматизации многих рутинных задач.

2l2r_logoВ начале декабря стартовал открытый бета-тест одного физтеховского проекта, в котором «машинное обучение» – это не просто модная фраза, а сердце впечатляющей магии. Сервис находит в текстах самое главное и помогает читателю быстро понять суть. В этой статье команда проекта рассказывает о том, что именно они сделали, в чем отличие от аналогичных сервисов и насколько хорошо их сервис решает сейчас задачу для пользователей.

На Факультете Инноваций и Высоких Технологий каждый год проводится курс “Инновационный практикум”, который дает студентам возможность реализовать свои идеи и поучаствовать в реальной разработке, продвижении и, возможно, продажах продуктов, в основном ПО.

Этот курс приносит много интересных проектов, о чем мы писали два года назад и готовимся написать в этом :)

Один из проектов выступил с инициативой отдельного поста и предоставил нам свое описание. С удовольствием публикуем его для своих читателей!

Текст от команды 2long2read

Представьте: перед вами экран или несколько экранов текста, содержание которого вам нужно понять. Пусть в тексте много воды, а потому вы вовсе не хотите читать его целиком. Полное чтение вряд ли доставит вам много удовольствия. Напротив, водянистый текст может вызвать раздражение, так как он отнимает время. И чем глубже спрятана суть, тем больше текст бесит.

Наша команда предлагает решение проблемы: веб-сервис 2long2read.ru и плагин к Хрому. Когда вам встретится на какой-нибудь странице длинный текст, вызывайте в один клик наш плагин и переходите к чтению самого главного. За секунду мы подкрасим желтым цветом именно ту часть текста, в которой написано самое главное.

2l2r

Разумеется, подобные сервисы раньше уже запускались. Это и Summly, купленный компанией Yahoo за $30 млн., и Wavii, приобретенный за ту же сумму Гуглом. У нашего проекта есть два существенных отличия. Во-первых, аналоги, как правило, заточены на англоязычную аудиторию, но не обращают должного внимания на другие языки. Алгоритмы 2L2R уже сейчас неплохо обрабатывают текст на нескольких десятках языков, лучше всего – на русском. Во-вторых, разработчики сервисов до нас концентрировались преимущественно на качестве алгоритмов. А мы ещё уделяем серьёзное внимание простоте и удобству использования. Уже сейчас наш плагин позволяет подсвечивать ключевые предложения в один клик и регулировать процент «важного».

Справляется ли наш сервис с нахождением главного на произвольных текстах? Как часто бывает с машинным обучением, нас ждёт успех где-то в 90% случаев. Cтавим плагин для Хрома (см. в заголовок на 2l2r.ru) и идем, например, на «Ленту.ру». Открываем любую новость и жмем кнопку плагина. Если новость имеет обычное строение, то ключевые предложения подкрасятся хорошо.

2l2r-2

Как правило, наши алгоритмы хорошо переваривают стандартные статьи средней длины с самых разных сайтов. Качество падает на крайних случаях: на главной странице Яндекса, на романе Пушкина «Дубровский» или на списке пород собак Российской кинологической федерации. Впрочем, на таких примерах и люди вряд ли придут к согласию о том, в каких кусках контента сосредоточено самое важное.

Иногда наш сервис считает важным не совсем то, что счёл бы важным живой человек. Нам не кажется это чудовищным недостатком. Воспринимайте сервис как «личного секретаря», который сделает работу не так как пользователь, но приемлемо и, главное, вместо пользователя.

Мы получили много позитивных отзывов от первых пользователей. Некоторые пользователи сообщают, что бывают страницы, на которых плагин работает недостаточно хорошо. Сейчас мы улучшаем способы ранжирования важности предложений, добавляя новые признаки: например, выделение сущностей, поиск контактов.

К весне мы намерены сделать решение, которое будет работать во всех браузерах. К лету будут запущены хорошо проработанные немецкая, испанская и английская версии. А до осени мы надеемся собрать достаточно большую базу размеченных текстов, чтобы добавить персонализацию: вы сможете настроить плагин «под себя», под лично ваше понимание о самом главном.

Поделиться