Читаем Код бестселлера полностью

Определять, где начинаются и кончаются предложения, – еще одна непростая задача для компьютера. В конце предложения обычно стоит точка, вопросительный или восклицательный знак. Начало предложения обычно отмечено заглавной буквой. Руководствуясь этими принципами, наши компьютеры, как правило, верно распознают границы предложений. Можно написать компьютерную программу, которая использует простой алгоритм, например:

Начать с первого слова и идти по тексту, пока не попадется точка, вопросительный или восклицательный знак. Если следующее слово после точки, вопросительного знака или восклицательного знака начинается с большой буквы, значит, здесь конец предложения и начало следующего.

Но что будет, если ваша программа наткнется на предложение вроде такого: I was surprised to hear that Dr. Archer was writing a novel[246]. В этом предложении есть точка (после слова Dr.), а следующее за ней слово начинается с большой буквы (Archer). Руководствуясь только что сформулированным правилом, компьютер решит, что здесь конец предложения, и ошибется. Из-за этой и других проблем, связанных с сокращениями, при распознавании предложений нельзя ограничиться правилом о знаках препинания и заглавных буквах. Есть и другие сложности. Возьмем абзац текста с прямой речью:

After a long day spent training the machine to read bestsellers, Matt called Jodie and said, “Dialog will be the death of me.” Jodie offered solace in the form of Scotch whisky[247].

В этом случае точка, отмечающая конец предложения, попала внутрь кавычек. Чтобы разобраться в подобной ситуации, нашему компьютеру понадобится еще одно правило, специально для работы с кавычками. К тому же, оказывается, это правило нужно только для прозы, написанной американскими и канадскими авторами. В британском и австралийском английском кавычки принято помещать перед знаками препинания. Учитывая природную гибкость языка, легко вообразить себе множество исключений из этих общих правил. В общем, вы уже поняли: даже самые простые действия по извлечению параметров из текста очень сложны.

По этой причине многие специалисты по обработке естественного языка в частности и интеллектуальному анализу текстов вообще переходят от разбора на основе правил к методам, основанным на статических выводах. Вместо того чтобы перебирать все возможные способы создания предложений и пытаться сформулировать огромный набор правил с массой исключений для различных случаев, статистический подход изучает скрытые законы, управляющие языком, – их извлекают компьютеры, рассчитывая вероятности появления различных конструкций и комбинаций в реальных текстах.

Хороший пример этого процесса – автоматизированный разбор по частям речи. Во 2-й главе мы писали о том, как изучение существительных помогает выявить темы книги. Но прежде чем применить алгоритм моделирования тем, нам пришлось научить компьютер распознавать существительные. Слово hope[248], например, может быть существительным:

He held out hope that she would buy the book herself[249].

Оно может быть и глаголом:

She hoped he would buy her the book[250].

И даже именем собственным:

Hope told him to buy the book himself[251].

Современные алгоритмы разбора знают, где существительные, где глаголы и т. д., и умеют различать все соответствующие оттенки смысла. Алгоритмы смотрят на контекст всего предложения и делают выводы о том, к какой части речи принадлежит то или иное слово, на основе его места в предложении и контекста.

Введя эти предложения в программу разбора по частям речи, мы получаем на выходе примерно следующее:[252]

He/PRP held/VBD out/RP hope/NN that/IN she/PRP would/MD buy/VB the/DT book/NN herself/PRP./.


She/PRP hoped/VBD he/PRP would/MD buy/VB her/PRP the/DT book/NN./.


Hope/NNP told/VBD him/PRP to/TO buy/VB the/DT book/NN himself/PRP./.

Перейти на страницу:

Похожие книги

Секретарское дело
Секретарское дело

В настоящем пособии изложены требования, предъявляемые к документам, обеспечивающим деятельность предприятий разных форм собственности и видов деятельности, по их составлению, систематизации, хранению. Издание включает в себя образцы документов, соответствующие требованиям стандартов и инструкций Российской Федерации, ГОСТа Р 6.30-2003, а также Гражданскому кодексу РФ и Трудовому кодексу РФ. Пособие содержит готовые формулировки текста деловых бумаг и основные понятия, необходимые в работе секретаря.Отдельная глава посвящена основам автоматизации секретарского дела с применением семейства программных продуктов Microsoft Office и некоторых дополнительных программных средств, в частности, программ-переводчиков, систем распознавания текста, работе с правовыми базами данных и в Интернет.Большой раздел посвящен психологическим аспектам работы секретаря, его имиджу и этикету, умению вести себя с руководителем, посетителями, деловыми партнерами и клиентами.Пособие предназначено для секретарей, секретарей-референтов, для работников делопроизводственных служб, а также для студентов, обучающихся по соответствующим специальностям.

Юлия Александровна Петрова , Юлия Петрова

Деловая литература / Делопроизводство / Финансы и бизнес
От хорошего к великому. Почему одни компании совершают прорыв, а другие нет...
От хорошего к великому. Почему одни компании совершают прорыв, а другие нет...

Как превратить среднюю (читай – хорошую) компанию в великую?На этот вопрос отвечает бестселлер «От хорошего к великому». В нем Джим Коллинз пишет о результатах своего шестилетнего исследования, в котором компании, совершившие прорыв, сравнивались с теми, кому это не удалось. У всех великих компаний обнаружились схожие элементы успеха, а именно: дисциплинированные люди, дисциплинированное мышление, дисциплинированные действия и эффект маховика.Благодаря этому компании добивались феноменальных результатов, превосходящих средние результаты по отрасли в несколько раз.Книга будет интересна собственникам бизнеса, директорам компаний, директорам по развитию, консультантам и студентам, обучающимся по специальности «менеджмент».

Джим Коллинз

Деловая литература / Личные финансы / Финансы и бизнес