Читаем Код бестселлера полностью

Заглавные буквы после косой черты – сокращенные обозначения частей речи. Слово hope было правильно опознано в первом предложении как существительное (NN), во втором – как глагол (VBD), а в третьем – как имя собственное (NNP). Для размеченного таким образом текста легко написать программу, которая извлечет только существительные, помеченные NN. Так мы получим существительные – кирпичики, из которых строится фундамент: опираясь на них, компьютер выделяет из текста темы.

Исследователи используют разные способы обучения компьютеров распознаванию частей речи. Но в большинстве этих способов задействован обширный корпус предложений, уже размеченных людьми. Специалисты по грамматике часами сидят над текстами, помечая части речи, а затем эти размеченные предложения загружают в программу в качестве обучающих данных. На основе этих данных машина строит статистическую модель, которая вычисляет вероятность появления той или иной комбинации слов. Например, компьютер может заметить, что после слова the в 55 % случаев стоит существительное, в 40 % – прилагательное и в 5 % – числительное. Конечно, такие программы разбора тоже иногда ошибаются, но очень редко – так редко, что, по мнению некоторых исследователей, задача компьютерного разбора по частям речи «уже решена». Другие исследователи возражают, но не слишком активно. Программа разбора по частям речи, разработанная в Стэнфордском университете, работает с точностью 97–100 %. Такая точность, безусловно, годится для большинства задач анализа текстов – в том числе тех, что мы решали при исследовании бестселлеров.

Распознавание именованных сущностей (NER) – другая область обработки естественного языка, тесно связанная с нашими исследованиями. Именованная сущность – это человек, географический объект или организация: Лисбет Саландер, Нью-Йорк, Microsoft. Распознавание подобных грамматических объектов позволяет находить ответы на разные вопросы – например, влияет ли место, где происходит действие романа, на факт его попадания в списки бестселлеров? Мы, разумеется, задались этим вопросом и обнаружили следующее: для того, станет ли роман бестселлером, важно, происходит ли действие в городе или где-нибудь в лесу. Конкретный город не важен. Роман, герои которого живут в Нью-Йорке, имеет столько же шансов, сколько и роман, герои которого живут в Стокгольме.

В 5-й главе мы использовали NER для лучшего понимания героев книг и исследования их агентивности. Но еще важнее для изучения персонажей оказался метод, называемый разбором зависимостей. Программы для разбора зависимостей анализируют предложение и размечают его синтаксическую структуру. Программа разбора понимает, какие слова связаны между собой и где в предложении подлежащее, сказуемое и дополнение. Как и описанный выше алгоритм разбора по частям речи, эта программа использует информацию из предложений, предварительно разобранных специалистами-людьми. Эта информация помогает определять наиболее вероятную структуру введенных в программу предложений. Для 5-й главы нам нужно было исследовать агентивность героев на основе глаголов, обычно связанных с мужскими и женскими персонажами[253]. Возьмем, например, это предложение из «Сферы»:

Mae knew Renata was watching her, and she knew her face was betraying something like horror[254]. Пропустив это предложение через программу разбора зависимостей, получаем на выходе следующее:[255]

nsubj(knew-2, Mae-1)

root(ROOT-0, knew-2)

nsubj(watching-5, Renata-3)

aux(watching-5, was-4)

ccomp(knew-2, watching-5)

dobj(watching-5, her-6)

cc(knew-2, and-8)

nsubj(knew-10, she-9)

conj(knew-2, knew-10)

nmod: poss(face-12, her-11)

nsubj(betraying-14, face-12)

aux(betraying-14, was-13)

ccomp(knew-10, betraying-14)

dobj(betraying-14, something-15)

case(horror-17, like-16)

nmod(betraying-14, horror-17)

Первая строка вывода показывает связь подлежащего (Mae)[256] с основным глаголом (knew)[257]. Кстати сказать, цифры рядом со словами показывают их порядок в предложении: Mae – первое слово, knew – второе, затем идет Renata и т. д. Обратите внимание: программа заметила связь между Ренатой, другим персонажем романа и глаголом watching[258], а также между местоимением she и вторым вхождением глагола knew. Объединив результаты анализа зависимостей и данные об именах персонажей, полученные с помощью NER, мы смогли понять, какие глаголы характерны для того или иного персонажа. Например, в этом предложении Мэй знает, а Рената наблюдает.

Перейти на страницу:

Похожие книги

Секретарское дело
Секретарское дело

В настоящем пособии изложены требования, предъявляемые к документам, обеспечивающим деятельность предприятий разных форм собственности и видов деятельности, по их составлению, систематизации, хранению. Издание включает в себя образцы документов, соответствующие требованиям стандартов и инструкций Российской Федерации, ГОСТа Р 6.30-2003, а также Гражданскому кодексу РФ и Трудовому кодексу РФ. Пособие содержит готовые формулировки текста деловых бумаг и основные понятия, необходимые в работе секретаря.Отдельная глава посвящена основам автоматизации секретарского дела с применением семейства программных продуктов Microsoft Office и некоторых дополнительных программных средств, в частности, программ-переводчиков, систем распознавания текста, работе с правовыми базами данных и в Интернет.Большой раздел посвящен психологическим аспектам работы секретаря, его имиджу и этикету, умению вести себя с руководителем, посетителями, деловыми партнерами и клиентами.Пособие предназначено для секретарей, секретарей-референтов, для работников делопроизводственных служб, а также для студентов, обучающихся по соответствующим специальностям.

Юлия Александровна Петрова , Юлия Петрова

Деловая литература / Делопроизводство / Финансы и бизнес
От хорошего к великому. Почему одни компании совершают прорыв, а другие нет...
От хорошего к великому. Почему одни компании совершают прорыв, а другие нет...

Как превратить среднюю (читай – хорошую) компанию в великую?На этот вопрос отвечает бестселлер «От хорошего к великому». В нем Джим Коллинз пишет о результатах своего шестилетнего исследования, в котором компании, совершившие прорыв, сравнивались с теми, кому это не удалось. У всех великих компаний обнаружились схожие элементы успеха, а именно: дисциплинированные люди, дисциплинированное мышление, дисциплинированные действия и эффект маховика.Благодаря этому компании добивались феноменальных результатов, превосходящих средние результаты по отрасли в несколько раз.Книга будет интересна собственникам бизнеса, директорам компаний, директорам по развитию, консультантам и студентам, обучающимся по специальности «менеджмент».

Джим Коллинз

Деловая литература / Личные финансы / Финансы и бизнес