10
декабря 2018
RB.RU
Машинное обучение в юридической сфере: почему будущее еще не наступило
Александр Сарапин, исполнительный директор в «Право.ру», рассказывает, какие задачи в юридической сфере можно решать с помощью машинного обучения, и объясняет, почему технологии в этой области развиваются не так быстро, как хотелось бы.

Машинное обучение, найдя первое применение в IT-сфере, стало быстро проникать сначала в области, смежные с IT, а затем и на другие рынки. Специалисты по анализу данных, они же дата-сайентисты, сегодня помогают на заводах, в банках, в строительных компаниях, в спортивных клубах — список можно продолжать до бесконечности. Не стала исключением и юриспруденция. Я наблюдаю этот процесс уже около восьми лет и на днях приехал в «Яндекс» на конференцию Data&Science, чтобы рассказать о больших данных в работе юристов.

Data&Science — инициатива «Яндекса» по развитию комьюнити дата-сайентистов и их сближению с потенциальными заказчиками из других сфер: одни рассказывают другим о своих актуальных задачах и находят способы помочь друг другу в различных проектах. Подготовка моего выступления на конференции как раз и послужила поводом написать эту статью. Я расскажу, как машинное обучение проникает в юриспруденцию, почему это происходит медленнее, чем хотелось бы, и как в будущем умные сервисы помогут сделать правовые процессы эффективнее.

Для непосвященных

Сначала объясню, что такое машинное обучение. Если вы знакомы с этим понятием, смело переходите к следующему абзацу.

Чтобы вы не ошиблись при выборе, Rusbase рекомендует своим читателям надежных юристов и адвокатов.

Машинное обучение (machine learning, ML) — это когда множество данных по какой-нибудь теме загружается в систему, чтобы выявить в этих данных закономерности. Полученное «знание» машина может применить несколькими способами. Например, загрузив массив голосовых записей и текстов, мы научим систему говорить и распознавать речь. Именно так работают все голосовые помощники: Siri от Apple, «Алиса» от «Яндекса».

Обучаясь на ваших музыкальных вкусах, сервисы вроде Apple Music, «Яндекс.Музыки» и Spotify затем могут порекомендовать вам новый трек. Примеров множество, но идея одна: загрузить много данных и сделать за счет них умный сервис, который в чем-то упрощает вам жизнь.

С чего все начиналось

Машинное обучение — пример автоматизации, поэтому давайте начнем с простого вопроса: каковы были первые примеры автоматизации работы юриста? Будем честны: юриспруденция — это сфера, где очень много рутины. Какие программы помогли юристам сделать их работу проще? Конечно, самой первой и самой главной такой программой стал Microsoft Word. Его появление в 1983 году тотально изменило процесс подготовки юридических документов. Многочисленные возможности форматирования текста ранее не были доступны широкой аудитории. Возможно, именно тот факт, что Word нашел отклик у юристов, и поспособствовал его популярности среди миллионов пользователей.

В конце 80-х — начале 90-х произошел следующий скачок в развитии индустрии, которую мы теперь называем legal tech: появились справочно-правовые системы. Самые известные примеры в России — «Консультант» и «Гарант».

Законодательство все время меняется, и юристам было важно оперативно узнавать о каждом изменении. Конечно, главным упрощающим фактором тут стало появление интернета, но даже до этого люди находили способы актуализации каталога.

В начале 90-х, если статьи какого-нибудь закона менялись, то к клиентам, купившим справочно-правовую систему, выезжали курьеры с дискетами, содержащими новые версии документов. Кроме того, очень полезной оказалась возможность просмотреть (скажем, в «Консультанте») историю изменений какой-нибудь статьи. Дело в том, что, изучая материалы прошлых лет, юрист должен понимать, какие правовые нормы действовали на тот момент.

Не менее важная веха в legal tech — выход программы FineReader, способной переводить отсканированные документы в текст. Кстати, в современной версии FineReader уже, конечно, вовсю используется машинное обучение.

e-Discovery — «драйвер» рынка

Перенесемся поближе к настоящему. Когда ML впервые проникло в юриспруденцию? На самом деле — не намного позже, чем в другие сферы, несмотря на всю консервативность этой отрасли. В США гораздо бо́льшую роль, чем в России, играет процесс под названием Electronic Discovery, сокращенно e-Discovery. Это широкое понятие, относящееся к обмену юридическими документами цифровым способом, но я остановлюсь на конкретном примере e-Discovery: когда одна сторона судебного процесса присылает второй стороне список документов для ознакомления. Все указанные документы, по мнению первой стороны, имеет смысл изучить в контексте дела. Этот список может насчитывать два миллиона документов (я не преувеличиваю), и ясно, что все их не изучить.

Первым известным мне применением машинного обучения в юридической сфере стала приоритизация документов для e-Discovery. Система анализировала содержимое списка и предлагала для ознакомления только самую значимую часть документов — около 300-400 тысяч.

Именно потребность в упрощении процесса e-Discovery стала катализатором появления первых ML legal tech-стартапов в 2010-2012 годах. Это направление до сих пор — наряду с исследованиями и менеджментом контрактов между фирмами — остается одним из ключевых в legal tech. Самые известные стартапы, связывающие юриспруденцию с IT, достигли успеха благодаря усилиям в направлении e-Discovery. Примеры — Relativity из Чикаго и Everlaw из Калифорнии. ПО и алгоритмы для e-Discovery по-своему универсальны — подобные решения используются в корпоративных и финансовых расследованиях.

Здесь же кроется ответ на вопрос, почему в России меньше legal tech-компаний — и совсем мало, если говорить про ML legal tech. Наше судопроизводство не подразумевает необходимости изучать столько документов. В соответствии с российскими процессуальными кодексами, истец вместе с исковым заявлением сам предоставляет документы, которые подтверждают его доводы и требования. Поэтому и автоматизация, как в случае с e-Discovery, не нужна.

Где это применяется

Прежде чем перейти к другим причинам не слишком быстрого развития отрасли, расскажу о позитивном — об успешных примерах применения ML в юриспруденции и смежных сферах. В решениях нашей компании алгоритмы машинного обучения используются для учета рабочего времени. Дело в том, что у многих юристов предусмотрена почасовая форма оплаты с клиентом. Мы анализируем и формируем поведенческую модель пользователя, принимая во внимание типы и виды различных задач по его делам (и учитывая их сложность). Кроме того, мы смотрим, сколько времени он раньше тратил на эти и похожие задачи: юристы обычно указывают затраченное время.

В Америке системы оценивают вероятность того, что обвиняемый вновь совершит правонарушение. Судья может узнать эту вероятность и учесть ее при принятии решения — признать подсудимого виновным или нет.

В американской полиции ML-модель предсказывает места совершения будущих преступлений и показывает их на карте города (!).

Известный факт: когда поиском прецедентов или похожих дел занимается человек, составленный им список часто оказывается неполным (и судьи обращают на это внимание). Другое дело, когда для поиска применяется ML. Еще один пример: точность искусственного интеллекта на 9% выше в задачах проверки документов о неразглашении (NDA), а времени машина тратит в десятки раз меньше: 26 секунд против среднего показателя в 92 минуты у человека.

Юрисконсультам ML тоже помогает. Несколько лет назад крупнейшая юридическая компания Dentons через свой венчурный фонд профинансировала систему Ross, которая обучается на истории дел о банкротстве. Ross способна сама дать совет клиенту, который обратился за консультацией. Диалог с Ross происходит в реальном времени, на естественном языке и без участия юриста. Основа системы — стек технологий IBM Watson. Похожего робота — только консультирующего по российскому закону о защите прав потребителей — представила в этом году компания-резидент Сколково «Правовед».

Почему будущее еще не наступило

Но почему в правовой отрасли по-прежнему мало примеров применения ML? Чтобы ответить на этот вопрос, сначала убедимся в том, что их действительно недостает. Одна из крупнейших юридических фирм DLA Piper (обладающая огромными по меркам отрасли ресурсами) не так давно признала, что использует возможности машинного обучения и искусственного интеллекта лишь на 1%. Компания Dentons, упомянутая в предыдущем абзаце, тоже внедряет машинное обучение в продукты очень медленно, несмотря на свои инициативы.

Одна из проблем заключается в том, что оцифрованы еще не все документы, на которых можно было бы обучать умные системы. Например, сотрудники банков не всегда оцифровывают соглашения о займах. Бумажные носители сложнее хранить, к ним порой затруднен доступ: специалистам приходится ездить в архивы и снимать платные копии, не говоря уже об отсутствии полноценного поиска по таким материалам. Кроме того, бумажные документы проще подделать.

В России распространена практика подделки договоров во время дел о банкротстве: когда активы компании-банкрота передаются кредиторам, среди них может обнаружиться ложный кредитор — фирма, которая на самом деле не давала в долг банкроту, но у которой есть поддельный документ, где утверждается обратное. Если мошеннической фирме удается обмануть суд, то ей достается часть активов, а кто-то из настоящих кредиторов эту часть недополучает.

Внедрение блокчейна и других умных платежных технологий, а также оцифровка всех договоров на этапе заключения решили бы проблему — но отрасль еще не готова к подобным шагам.

Сама форма партнерства, присущая юридическим компаниям, не способствует инвестициям в IT. Прибыль, если таковая случается, распределяется здесь и сейчас — на решение насущных проблем, а не на развитие с перспективой улучшений в будущем.

Еще одна причина медленного проникновения ML — отсутствие общих реестров. В США есть система под названием Public Access to Court Electronic Records (дословно «публичный доступ к электронным судебным документам», сокращенно PACER) — но она агрегирует только документы федеральных судов. Все остальные суды в Америке ни к какой единой системе не подключены. Впрочем, это дает им некоторую свободу в выборе технологий. Приятным бонусом служит и большое количество IT-исследований, проведенных в судах различных инстанций.

Заканчивая про американскую судебную систему, отмечу приятную инициативу компании Ravel Law и юридического факультета Гарварда. Недавно они объявили о завершении проекта Caselaw по оцифровке крупнейшей истории судебных дел в США — с 1658 по 2018 годы. Это 6,4 миллиона дел и более 40 миллионов страниц документов — которые теперь доступны дата-сайентистам. Кстати, анализ данных в юриспруденции основан и на текстах, и на числовых данных, получаемых из этих текстов.

Можно предположить, что дополнительные сложности в ML legal tech создает недостаточная открытость данных. Действительно, в нашем мире меньше, чем в IT, распространены API, открытые базы и так далее. Каждая компания дорожит своими данными и, как правило, не хочет делиться ими на совсем уж свободных началах. С другой стороны, стартапы успешно справляются с закрытостью — хотя бы за счет того, что возникают уже будучи аффилированными с какой-нибудь крупной организацией.

Для юриспруденции характерны и все те проблемы, которые возникают на стыке ML с любой другой отраслью. Например — недостаточная чистота данных. Нужно перепроверять отсканированные документы, следить за корректностью таблиц, используемых в обучении.

Есть и позитивные тренды

«Медленным» юридическим фирмам все чаще приходится работать с гораздо более быстрыми правовыми департаментами крупных компаний (включая «Яндекс»), где процессы делопроизводства хорошо автоматизированы. Это подает им правильный пример для подражания. Кроме того, они часто привлекают для отдельных задач фирмы не из юридической сферы — которые тоже автоматизируют процессы и служат отличным примером.

Еще один позитивный тренд — растущая скорость появления новых стартапов в legal tech. В России мы видим все больше молодых профессионалов, уже знающих, какие задачи в отрасли можно решать с помощью ML, и не желающих быть юристами в классическом понимании этого слова. Даже в сравнении с 2012-2013 годом такой молодежи стало гораздо больше.

Экспертиза требует поддержки со стороны крупных игроков — и она постепенно появляется. По инициативам Федеральной налоговой службы можно предположить, что они собирают множество данных и внедряют умные технологии.

Сбербанк тоже всесторонне автоматизируется, а ведь это крупнейший банк в России и один из крупнейших в Европе.

Мы уже даже близки к запуску юридически-ориентированных конкурсов по анализу данных — по крайней мере, наша команда об этом задумывалась. Подобные конкурсы проводятся на платформе Kaggle. Участникам предлагается построить модель машинного обучения на данных, предоставляемых заказчиком, после чего авторы самых эффективных алгоритмов получают денежные призы.

В будущем ML-системы будут настолько продвинутыми, что смогут автоматически анализировать действия компании или человека на соответствие правовому полю. Впрочем, до такого светлого будущего нам еще далеко.