Читаем Языкознание полностью

Однако компьютерная лингвистика отнюдь не сводится к трудной и лишь частично решенной проблеме машинного перевода. Здесь на полюсе, связанном с максимальной сложностью объекта, находится машинный перевод, однако далеко не всегда нам для практических нужд необходимо анализировать и переводить весь текст. На другом полюсе находятся значительно более простые и вполне решаемые проблемы, например когда нужно из большого массива текстов выбрать те тексты, в которых содержатся интересующие нас ключевые слова. В промежутке между двумя полюсами имеются системы, решающие разные другие практические задачи, не охватывающие систему языка в целом. Обычно в таких случаях говорят об информационно-поисковых системах (ИПС). Такие системы в больших количествах создавались в советских ведомственных НИИ в 1960–1980-е гг.

Эти системы так или иначе связаны с обработкой массивов текстов на естественном языке. В них не ставится задача сохранения всей имеющейся в текстах информации. Тем или иным способом осуществляется ее редукция, позволяющая найти во множестве документов то, что соответствует данному запросу. В том числе такие системы на основе заданных параметров обеспечивают составление рефератов и аннотаций обрабатываемых документов. Документы могут описываться на особом формальном информационно-поисковом языке; составляется словарь дескрипторов — слов, обозначающих категории и понятия области, в которой ведется поиск. На основе этого словаря информационная система должна выделить среди обрабатываемых текстов те, которые имеют запрашиваемое содержание. Более простые системы только выделяют нужную лексику, но в других системах может в определенных пределах проводиться и грамматический анализ.

Наряду с прикладными направлениями, сложившимися в рамках формальной лингвистики, большое место в последние десятилетия занимают и направления работ, связанные с функционализмом. Среди них надо особо выделить корпусную лингвистику.

Как определяют создатели Национального корпуса русского языка (НКРЯ), лингвистический корпус — это «информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всем многообразии жанров, стилей, территориальных и социальных вариантов». Такого рода представления, конечно, создавались и раньше, прежде всего при составлении словарей. Известны огромные картотеки, вручную формировавшиеся десятилетиями на основе расписки большого количества текстов. Но теперь они создаются в электронном виде и постоянно пополняются.

Впервые лингвистический корпус был создан в США в 1960-е гг. Первые корпуса были невелики по объему, стандартом считался объем в миллион слов, что было недостаточно. Значительное развитие корпусная лингвистика получила с 1980-х гг. в связи с дальнейшим развитием вычислительной техники. В настоящее время НКРЯ (формируется с начала 2000-х гг.) содержит более 600 млн словоупотреблений, и эта цифра постоянно растет. Важна представительность и сбалансированность корпуса, в который должны включаться не только письменные, но и устные тексты. Конечно, наряду с корпусами, представляющими язык в целом, распространены и корпуса, специализированные для какой-то его части; корпуса могут отражать лишь современный язык, но могут, как НКРЯ, включать в себя и тексты на протяжении того или иного периода времени. Наряду с одноязычными корпусами существуют и многоязычные.

Корпус — не то же самое, что просто электронное собрание текстов большого объема. При его создании необходимо провести ряд операций, именуемых разметкой. Нужно разделить тексты на слова, привести каждое слово к его словарной форме, провести морфологический, синтаксический, акцентологический анализ. Серьезную проблему составляет то, что при обширном объеме корпуса в ответ на запрос может быть выдано столь большое число в основном ненужной информации, что ее невозможно охватить. Поэтому нужны также системы группировки поиска.

Данные корпусов могут использоваться в самых разных областях лингвистики. Если раньше для получения нужной информации лингвист должен был самостоятельно расписывать значительное количество текстов при отсутствии гарантии того, что удастся найти то, что нужно, то теперь всё можно узнать очень быстро. С помощью корпуса можно получить достоверные данные статистического характера. Материалы корпуса, сгруппированные по времени создания текстов, дают сведения об исторических изменениях в языке. Корпуса используются и в педагогических целях, на них все больше ориентируются учебные программы. Выдающийся американский лингвист Чарльз Филлмор писал: «Работа с любым корпусом, каким бы малым он ни был, предоставляла мне данные, которые я не смог бы найти никаким другим способом».

К настоящему времени, помимо НКРЯ, созданы корпуса для крупнейших языков мира, для большинства языков мира, для ряда языков России. Подготовка и пополнение корпусов продолжается.

22

Итоги

Перейти на страницу:

Все книги серии Библиотека ПостНауки

Конструирование языков: От эсперанто до дотракийского
Конструирование языков: От эсперанто до дотракийского

Почему люди создают свои собственные новые языки – конланги, когда в мире насчитывается 7000 естественных языков? Какие бывают искусственные языки? Чем они похожи на естественные языки, а чем отличаются от них? Каковы их перспективы в современном мире? Александр Пиперски, автор книги «Конструирование языков: От эсперанто до дотракийского», рассказывает, что люди изобретают языки с самыми разными целями: для того чтобы достичь логического идеала, для того чтобы лучше понимать друг друга, или просто для того, чтобы доставить себе и другим эстетическое удовольствие. За каждым искусственным языком стоят интересные личности и драматичные истории успехов или неудач. Эсперанто, сольресоль, ро, трансцендентная алгебра, квенья, блиссимволика, паленео, на'ви, дотракийский – это далеко не полный список языков, о которых пойдет речь в этой книге как с лингвистической, так и с исторической точки зрения. Книга серии «Библиотека ПостНауки», выпускаемой издательством «Альпина нон-фикшн» совместно с ИД «ПостНаука».

Александр Чедович Пиперски , Александр Пиперски

Языкознание, иностранные языки / Языкознание / Образование и наука
Самая главная молекула
Самая главная молекула

Из всего, что нас окружает, самой необъяснимой кажется жизнь. Мы привыкли, что она всегда вокруг нас и в нас самих, и потеряли способность удивляться. Но пойдите в лес, взгляните так, будто вы их увидели впервые, на деревья, траву, цветы, на птиц и муравьев, и вас охватит чувство беспомощности перед лицом великой тайны жизни. Неужели во всем этом есть нечто общее, нечто такое, что объединяет все живые существа, будь то человек или невидимый глазом микроб? Что определяет преемственность жизни, ее возрождение вновь и вновь из поколения в поколение? Эти вопросы стары как мир, но только во второй половине XX века удалось впервые получить на них ответы, которые, в сущности, оказались не слишком сложными и, главное, ослепительно красивыми. О том, как их удалось получить и в чем они состоят, рассказывается в этой книге. Центральное место в науке молекулярной биологии, которая призвана дать ответ на вечный вопрос: «Что такое жизнь?», занимает молекула ДНК. О ней главным образом и пойдет речь. Большое внимание автор уделил тем вопросам, при решении которых особенно важную роль играют физика и математика. Это отличает данную книгу от множества других, посвященных ДНК.

Максим Давидович Франк-Каменецкий

Научная литература
Байки из грота. 50 историй из жизни древних людей
Байки из грота. 50 историй из жизни древних людей

Кажется, что мы очень мало знаем о жизни наших предков – первых людей. У нас нет никаких письменных свидетельств их истории, и об их быте, верованиях и образе жизни можно только догадываться по редким находкам, захоронениям и стоянкам. Достаточно ли этого?Оказывается, да. Камни и черепа могут очень много рассказать о прошлом: о том, как жили семьи, как дети становились взрослыми, как люди приманивали охотничью удачу, как открывали новые земли, как приручали первых животных и даже как лечили зубы. Мы считаем, что представители каменного века бесконечно далеки от нас и мы совсем на них не похожи, но думать так – несправедливо: в людях палеолита было гораздо больше человеческого, чем нам кажется. 50 иллюстрированных историй – о том, что наши предки были не просто homo, но еще и людьми.

Станислав Владимирович Дробышевский

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература

Похожие книги