Основные этапы развития машинного перевода. История и опыт использования машинного перевода

25.09.2019

Краткий исторический экскурс

История умалчивает о том, кому первому пришла в голову идея автоматизации перевода с одного языка на другой. Возможно, о чем-то подобном задумывались еще античные мыслители, выдвинувшие немало гениальных догадок на заре человеческой цивилизации. Известно, что такими мыслями задавался Лейбниц, однако состояние науки того времени не позволило этому выдающемуся ученому даже по-настоящему поставить задачу.

Впервые с действительно научных позиций к решению проблемы машинного перевода подошел Чарльз Бэббидж, разработавший в 1836--1848 гг. проект цифровой аналитической машины -- механического прототипа ЭВМ. Главная идея состояла в том, чтобы для хранения словарей использовать память объемом в тысячу 50 разрядных десятичных чисел (которые должны были определяться положением соответствующих зубчатых колес). Проект, к сожалению, так и не удалось претворить в жизнь, правда, сомнительно, что его воплощение на механической основе дало бы какие-то ощутимые результаты.

Первая успешная реализация системы машинного перевода связана с "Джорджтаунским экспериментом", осуществленным на машине IBM-701 в 1954 г. Программное и лингвистическое обеспечение этой попытки было весьма скромным: словарь состоял из 250 слов, а грамматика -- из 6 синтаксических правил. Интересно, что перевод делался с русского языка на английский, и, возможно, этим объясняется последующая резкая активизация разработок в данной области в СССР. Уже к концу 1955 г. в Институте научной информации Отделения прикладной математики МИАН СССР и некоторых других академических центрах были созданы и прошли тестирование программы машинного перевода на существовавшей тогда вычислительной базе (БЭСМ и "Стрела").

Первые успехи вызвали большое воодушевление среди специалистов и породили настоящую эйфорию. Было создано несколько глобальных научно-технических проектов, замахнувшихся на полное решение проблемы перевода для современных языков, и огромное количество небольших -- для отдельных направлений. К сожалению, сложность этой задачи оказалась значительно выше, чем предполагалось. Вскоре всеобщее разочарование привело к тому, что в 1967 г. специально созданная комиссия Национальной академии наук США объявила машинный перевод неперспективным и не заслуживающим финансирования.

Тем не менее интерес к данной тематике не угасал никогда, и новый всплеск разработок пришелся на 1980 е годы. Он прежде всего был связан с совершенствованием вычислительной техники, общим развитием кибернетики и особенно успехами в такой ее области, как искусственный интеллект . Опять появляются глобальные проекты с солидными бюджетами, среди которых можно назвать такие, как EU ROTRA (Европейское экономическое сообщество), ARIANE (Франция), METAL (США и Германия), KANT (США) и др. Однако, как и двумя десятилетиями раньше, ни одно из решений не было доведено до массового применения.

Показательно, что первые коммерческие продукты выросли как раз из локальных проектов, имевших менее амбициозные цели. Из первых действительно массовых систем можно назвать Power Translator (компания Globalink), Language Assistant (компания MicroTac) и TRANSEND (компания Intergraph). К этому же классу относится и хорошо знакомое отечественным пользователям семейство приложений STYLUS, разработки которого пришлись на стык 80--90-х годов прошлого столетия.

Как переводит компьютер

Если сегодня о машинном переводе слышали практически все, то совсем немногие имеют достаточно ясное представление о том, на чем же основана эта технология.

Первые системы базировались на алгоритмах последовательного перевода "слово за словом" или "фраза за фразой". Их возможности определялись размерами словарей, прямо зависящими от объема памяти компьютера. Перевод осуществлялся отдельными фразами, смысловые связи между которыми практически не учитывались. Такая методика получила название прямого перевода .

Естественно, основные усилия разработчиков в эпоху создания систем этого класса были направлены на оптимизацию структуры словарных статей и самих словарей и повышение эффективности доступа к ним. Однако в дальнейшем стало ясно, что наличие даже самого полного и совершенного словаря не решает проблемы. Оказалось, что для адекватного перевода необходимо работать на более высоком уровне синтаксических структур.

Между тем традиционная лингвистика того периода не располагала идеями и представлениями, нужными для построения систем машинного перевода, как в части синтаксиса, так и в части семантики. Ни для одного языка не существовало перечней грамматических конструкций, не были изучены условия их сочетаемости и взаимозаменяемости, не удалось формализовать правила построения крупных синтаксических единиц из более мелких. В сущности, ни на один вопрос, поставленный в связи с данной проблематикой, традиционная лингвистика 1950 х годов не могла дать ответа.

Потребность в создании теоретической базы машинного перевода привела к формированию нового направления в лингвистике, называемого прикладной или математической лингвистикой. Мы не будем здесь описывать основания этой дисциплины и ее научный аппарат, укажем лишь, что для компьютеризации перевода важное значение сыграла одна из областей математической лингвистики -- формальная теория грамматик. Ее развитие позволило не только решить многие практические и теоретические проблемы машинного перевода, но и дало возможность с совершенно новых позиций подойти к вопросам создания языков программирования и другим важным задачам искусственного интеллекта.

Вместе с развитием машинного перевода как области прикладной лингвистики возникла и глобальная классификация систем, согласно которой их принято делить на два типа -- Transfer и Interlingua. Это разделение основано на архитектурных особенностях.

Лингвистические алгоритмы перевода для систем типа Transfer строятся как композиция трех процессов: анализа исходного предложения в терминах входного языка, преобразования полученной структуры в аналогичную для выходного языка (собственно процесс Transfer, т. е. перенос) и затем синтеза результирующего предложения по ней.

В свою очередь системы типа Interlingua предполагают наличие некоторого метаязыка (в прямом смысле -- Interlingua, т. е. нечто вроде языка-посредника), на котором можно описать все структуры как входного, так и выходного языков. Поэтому алгоритм перевода в Interlingua выглядит более просто: анализ исходного предложения в терминах метаязыка и затем синтез по метаструктуре предложения на выходном языке. Главная проблема в этом случае состоит именно в разработке метаязыка и формального описания его в терминах языка естественного. Надо сказать, что пока не создано ни одной реально работающей системы типа Interlingua, но специалисты предполагают, что в будущем, по мере совершенствования знаний в данной области, они займут достойное место среди прочих технологий.

Перспективы машинного перевода тесно связаны с дальнейшим развитием таких научных направлений, как сравнительное языкознание, общая теория перевода, теория закономерных соответствий и способов представления знаний, а также с оптимизацией и совершенствованием лингвистических алгоритмов. Повысить качество перевода лексических единиц помогут строгие теории терминологизации лексики, а формальные грамматики, ориентированные на перевод, дадут возможность улучшить алгоритмы нахождения переводных соответствий в конкретном контексте, который может быть описан в рамках прикладных теорий представления знаний. И наконец, появление новых технологий программирования и очередных поколений вычислительной техники обязательно будет способствовать дальнейшему развитию теории и практики компьютерного перевода.

Классификация систем машинного перевода

Существует несколько подходов к классификации современных систем машинного перевода, исходя из разных критериев. Например, Ларри Чаилдс (Larry Childs), признанный специалист в данной области, предложил различать их в зависимости от степени участия человека в процессе перевода. Согласно этому критерию все системы делятся на три типа:

FAMT (Fully-Automated Machine Translation) -- полностью автоматизированный машинный перевод;

HAMT (Human-Assisted Machine Translation) -- машинный перевод с участием человека;

MAHT (Machine-Assisted Human Translation) -- перевод, осуществляемый человеком с привлечением программных средств.

Другая классификация привязывается к особенностям программной реализации и использованию тех или иных специфических инструментов:

Машинный перевод. Это наиболее массовая и востребованная группа, представленная в основном самостоятельными приложениями, которые предназначены, как правило, для полностью автоматизированного перевода (FAMT), -- пользователю нужно лишь задать направление перевода и иногда его тематику. Главным требованием к продуктам данного класса является качество перевода, отчасти скорость процесса и прочие потребительские характеристики вроде удобства интерфейса, интеграции с другими средствами обработки документов (текстовыми процессорами, браузерами, почтовыми клиентами), развитые инструменты пополнения словарной базы;

Translation Memory. Продукты этого класса обычно позиционируются как вспомогательный инструментарий переводчика, что отождествляет их с упомянутыми MAHT. Суть их состоит в накоплении и повторном использовании эталонных переводов часто употребляемых лексических и грамматических конструкций. Обычно такие приложения применяются не для работы со связными текстами, а для решения частных технических задач (локализации программных продуктов, создание терминологических баз данных) либо промышленного перевода типовых документов (инструкций, договоров);

Контролируемый язык и машинный перевод на основе базы знаний. В таких системах реализован переход от свободного входного языка к контролируемому входному языку, что предусматривает определенные ограничения лексики, грамматики и семантики. Тем самым упрощается структура исходного текста, за счет чего повышается точность и качество перевода;

Инструменты для перевода в Интернете. К ним относят онлайновые службы, позволяющие работать как с фрагментами текста (собственно переводчики), так и с отдельными словами (словари). Преимущество данных инструментов состоит в том, что пользователь оперативно получает перевод непосредственно в окне браузера, без установки каких-либо дополнительных программных средств и, как правило, бесплатно. Некоторые компании, кроме того, предлагают услуги по машинному переводу с различной степенью участия человека и зависящей от этого стоимостью услуги.

Основные разработчики и продукты

Машинный перевод представляет собой одну из самых наукоемких сфер в мировой индустрии программного обеспечения. Поэтому неудивительно, что здесь давно определились свои лидеры -- как в международном, так и национальном масштабах.

Разумеется, в небольшом обзоре сложно подробно рассказать о разработках даже основных производителей систем компьютерного перевода, но, вероятно, в этом и нет особого смысла, поскольку базовые сведения заинтересованный читатель без труда найдет в Интернете. К наиболее известным компаниям относятся SYSTRAN, TRADOS, LOGOS (все из США), STAR (Швейцария) и некоторые другие. Отдельные продукты этих фирм включают поддержку русского языка (в большинстве случаев не выдерживает критики), однако основное внимание все-таки уделено европейским языкам и японскому.

Несколько детальнее стоит остановиться на системах, разрабатываемых в России и Украине, в силу того что они наиболее уверенно работают с русским и украинским языком. При этом необходимо отметить, что славянские языки имеют свои характерные особенности, в частности свободный порядок слов и развитую систему флексий, которые создают дополнительные сложности для качественного компьютерного перевода. Впрочем, они (сложности) не являются непреодолимыми, что и доказывают лидеры рынка.

Пожалуй, больше всего известны у нас приложения семейства PROMT , обеспечивающие перевод с русского на английский, испанский, немецкий, французский, итальянский и обратно. В "Компьютерном Обозрении" довольно подробно рассматривались продукты новой линейки 7.0 , поэтому здесь остается лишь отметить, что высокое качество работы PROMT и его универсальность в первую очередь связаны с использованием научно обоснованных лингвистических технологий и с оптимальной архитектурой программы, позволяющей решать задачу перевода на нескольких уровнях.

К сожалению, PROMT не поддерживает украинский язык, но данная проблема в определенной мере решается отечественными компаниями. Прежде всего заслуживает упоминания система перевода Pragma , которая благодаря своей оригинальной архитектуре является в определенном смысле "языконезависимой". Во всяком случае разработчики утверждают, что формирование новых направлений перевода происходит автоматически при добавлении словаря для любого языка, родственного английскому или русскому. До последнего времени в Pragma 3.0 поддерживались четыре языка -- английский, русский, немецкий и украинский, а недавно была объявлена специальная версия с поддержкой латвийского . Еще один отечественный лингвистический пакет ProLingOffice включает программу "ПЛАЙ", которая была создана при участии специалистов Института языкознания НАН Украины и обеспечивает перевод с русского на украинский и обратно. Отметим также, что разработчики всех упомянутых программ поддерживают онлайновые службы, с помощью которых и можно оценить качество их систем.

Вместо заключения

Несмотря на то что системы компьютерного перевода достигли достаточно высокого уровня развития, дискуссии о целесообразности их создания и применения не утихают. Нередко приходится слышать, что программы-переводчики работают из рук вон плохо, поэтому лучше обходиться без них. Надо сказать, что доля истины в этих отзывах есть. Существующие системы компьютерного перевода показывают приемлемые результаты лишь для родственных языков, и даже самые лучшие из них иногда выдают полную бессмыслицу при переводе реальных текстов. Так стоит ли вообще их применять?

Как ни удивительно, но популярность компьютерных переводчиков, по-видимому, свидетельствует об их полезности и востребованности. Поэтому вопрос, видимо, нужно ставить несколько по-иному: когда и для каких целей имеет смысл их привлекать? Ясно, что программа заменить квалифицированного переводчика ни сегодня, ни даже в ближайшей перспективе не сможет. В наше время разработчики и пользователи данных систем склонны говорить не о качественном переводе, а качественном черновом переводе, заведомо предполагая, что полученный текст нуждается в дополнительном редактировании. Таковы реалии дня сегодняшнего.

Однако в завершение хотелось бы сказать, что уже достигнутый уровень компьютерного перевода и динамика развития отрасли позволяют с оптимизмом смотреть на будущее данного направления. Переход от чернового качества к профессиональному произойдет не сразу, на этом пути встретится еще немало препятствий, и все-таки осмелимся предположить, что данная цель, в принципе, достижима и со временем компьютер сможет переводить почти так же, как человек.

0

Обзор продуктов

С возникновением письменности люди получили мощный инструмент для сохранения знаний и для коммуникации. Первые письмена, дошедшие до нас на стенах храмов и гробниц, повествуют о деяниях царей и полководцев, происшедших много веков назад. Кроме того, люди записывали результаты хозяйственной деятельности, для того чтобы успешно торговать, собирать налоги и т.д.

Чтобы облегчить письменное общение между народами были созданы первые словари. Один из таких словарей был написан шумерскими жрецами на глиняных табличках. Каждая табличка была поделена на две равные части. С одной стороны записывалось шумерское слово, а с другой - аналогичное по значению слово на другом языке, иногда с кратким пояснением. С тех времен до наших дней структура словарей практически не изменилась.

С появлением персонального компьютера стали создаваться электронные словари, облегчившие поиск нужного слова и предложившие множество новых полезных функций (озвучивание слова, поиск синонимов и т.д.).

Технология машинного перевода постепенно совершенствовалась. И если качество и скорость перевода первых систем оставляли желать лучшего, то теперь компьютер действительно может связно переводить текст с одного языка на другой. А более современные системы с приемлемым качеством переводят 1 страницу текста за 1 секунду.

Кому и зачем нужен машинный перевод

В последнее время активно обсуждаются возможности и перспективы технологий машинного перевода (MП). В дискуссиях принимают участие как профессиональные переводчики, так и производители систем МП. Попробуем оценить возможности МП, опираясь на опыт применения реальных систем.

Справедливости ради следует отметить, что в обозримом будущем машинная технология не сможет полностью заменить переводчика-человека. По качеству перевода программы МП не смогут состязаться с человеком. Однако с помощью подобных программ можно существенно повысить эффективность труда переводчика.

Основываясь на формальном описании языков, программа анализирует текст на одном языке, а затем синтезирует фразу на другом. Алгоритмы анализа и синтеза, как правило, довольно сложны и управляются словарной информацией, приписанной лексическим единицам в словарях системы как для языка исходного текста, так и для языка его перевода.

Где же находят применение системы МП? Во-первых, программы-переводчики могут быть использованы для быстрого перевода текста в целях понимания его смысла. Конечно, по качеству машинный перевод не может сравниться с переводом, сделанным человеком, но зато пользователь получает ответ «здесь и сейчас». Кроме того, с помощью систем МП можно читать информацию, размещенную на зарубежных сайтах, а также понять текст присланного письма, написанного на французском, немецком, японском или ином языке.

Помимо этого системы МП могут быть использованы для решения задач профессионального перевода и значительно повысить эффективность работ. Сравним оба способа - традиционный и машинный. Традиционный перевод обычно включает несколько этапов: перевод, редакторская правка, верстка, корректура. При этом в целях ускорения перевод, как правило, выполняют несколько переводчиков. Вследствие этого возникает проблема единой терминологии и единого стиля перевода, что увеличивает затраты на редакторскую правку. Кроме того, значительные усилия приходится тратить на переверстку документа.

Что дает применение систем МП и где оно наиболее целесообразно? Системы МП, используя для перевода общую словарную базу, в значительной степени минимизируют затраты на поддержание единой терминологии, а следовательно, на редакторскую правку. При этом технический редактор получает от системы МП перевод, выполненный в едином стиле. Таким образом, использование систем машинного перевода наиболее эффективно для организации технологического процесса по переводу больших массивов однотипных документов в сжатые сроки с обеспечением единства терминологии и стиля по всему массиву документов.

Возможность применения системы МП определяется ее способностью адаптироваться к переводу документов различной тематики. Качество получаемого перевода в значительной степени зависит от настройки. Помимо общелексического словаря должны использоваться специализированные словари, отражающие как тематику перевода, так и специфику конкретных документов. Кроме того, качество переводов зависит от возможности создания переводчиком собственных пользовательских словарей, которые должны включать терминологию, характерную для данной документации, а также часто встречающиеся обороты/фразы/выражения (микросегменты), перевод которых не может быть формальным. Подобная настройка гарантирует качество, при котором применение МП становится эффективным для решения задач «промышленного» перевода.

Для оценки эффективности использования систем МП компания ПРОМТ предоставила свою систему PROMT 2000 Translation Office центру переводов ЛОНИИС. Эксперимент показал, что использование МП позволяет сократить суммарное время выполнения проекта примерно в 2 раза.

Следует отметить и ряд ограничений на использование систем МП. Не имеет смысла переводить с помощью программы-переводчика художественные тексты, пословицы и поговорки. Небольшие по объему тексты различной тематики также лучше переводить традиционным способом.

PROMT Translation Office 2000

PROMT Translation Office 2000 (далее - PROMT) ценой 300 долл. - это набор профессиональных инструментов, обеспечивающий перевод с основных европейских языков на русский и обратно. С его помощью можно не только переводить, но и редактировать перевод и работать со словарями всех языковых направлений одновременно.

В PROMT входят следующие коллекции словарей:

  • «Легкая промышленность» (180 долл.);
  • «Тяжелая промышленность» (180 долл.);
  • «Коммерция» (99 долл.);
  • «Наука» (120 долл.);
  • «Техника» (199 долл.).

Для обеспечения высокого качества перевода в системе PROMT предусмотрена возможность настройки на перевод конкретного текста - посредством подключения специализированных предметных словарей, поставляемых отдельно, а также создания собственных пользовательских словарей. Удобным средством настройки системы является также возможность выбора тематики документа: какие словари подключать, какие слова оставить без перевода и как обрабатывать специальные конструкции типа электронного адреса, даты и времени.

Система PROMT включает следующие модули:

  • PROMT- профессиональная среда для перевода;
  • Dictionary Editor - средство для пополнения и редактирования словарей систем машинного перевода семейства PROMT;
  • PROMT Electronic Dictionary - электронный словарь, предоставляющий пользователю широкие возможности доступа к лексико-грамматической информации, собранной в специализированных словарях семейства PROMT. Может быть использован при любой работе с текстами (например, для быстрого получения информации о переводных эквивалентах данного слова или словосочетания);
  • WebView - браузер, позволяющий получить синхронный перевод HTML-страниц при навигации в Интернете. WebView содержит два окна для отображения HTML-страниц: верхнее отображает исходную страницу, полученную из Интернета, нижнее - ее перевод с сохранением ссылок, картинок, вставленных объектов и т.д. Осуществлять переход по ссылкам можно как в верхнем окне, содержащем исходный текст, так и в нижнем, содержащем перевод;
  • SmarTool - инструмент, реализующий функции перевода в приложениях Microsoft Office 97 (Word, Excel) и Microsoft Office 2000 (Word, Excel, PowerPoint, FrontPage, Outlook). Меню и инструментальная панель перевода встраиваются во все основные приложения Microsoft Office 2000 и Microsoft Office 97, что позволяет получить перевод открытого документа непосредственно в этих приложениях;
  • QTrans - программа, предназначенная для быстрого перевода неформатированного текста. С ее помощью можно легко и быстро перевести текст, текстовый файл или буфер обмена (Clipboard). Для улучшения качества перевода можно выбрать подходящую тематику, подключить специализированные словари и зарезервировать слова;
  • Clipboard Translator - программа, предназначенная для быстрого перевода текста, предварительно скопированного в буфер обмена. Текст может быть скопирован из любого Windows-приложения (Help, Notepad, Word, Word Perfect, PageMaker и др.);
  • «Интегратор» - средство доступа ко всем приложениям пакета.

Перевод документа в системе PROMT

Меткой отмечен текущий абзац исходного текста и перевод этого абзаца (текущим из них является тот, в котором в данный момент установлен курсор).

Все документы, с которыми работает программа PROMT, появляются в окнах документов. Одновременно могут быть открыты несколько документов - каждый в своем окне (рис. 4 , ).

Выполненный перевод можно уточнить, воспользовавшись электронными словарями, разработанными другими фирмами (если они, конечно, установлены на вашем компьютере). Могут быть использованы электронные словари:

  • Lingvo 6.0 (программа фирмы ABBYY);
  • «Контекст 3.0» (программа фирмы «Информатик»);
  • «МультиЛекс 1.0, 2.0, 3.0» (программа фирмы «МедиаЛингва»);
  • PROMT Electronic Dictionary 1.0 (программа фирмы ПРОМТ).

При переводе система PROMT не использует электронные словари других производителей. Поэтому, если какого-либо слова нет в словарях системы PROMT или вас не устраивает перевод какого-либо слова или словосочетания, можно вызвать электронный словарь и воспользоваться им как справочным.

Для перевода HTML-документов в комплект поставки входит браузер WebView.

Последовательность действий при выполнении перевода

  1. Откройте файл с исходным текстом или создайте новый документ (новый текст можно набрать непосредственно в окне PROMT).
  2. Проверьте разбивку текста на абзацы (после перевода форматирование по абзацам сохранится).
  3. Проверьте орфографию и отредактируйте исходный текст, если это необходимо.
  4. Выберите шаблон тематики, подходящий для перевода данного текста (шаблон тематики для данного направления перевода - это набор словарей и список зарезервированных слов; он устанавливается для повышения качества перевода).
  5. Уточните тематику документа, настроив ее компоненты:
    • подключите словари, которые будут использоваться при переводе текста. Если не подключен ни один словарь, при переводе будет использоваться только общелексический генеральный словарь;
    • зарезервируйте слова, которые в тексте перевода должны оставаться на языке исходного текста;
    • подключите препроцессор, если хотите отменить перевод некоторых конструкций, например адресов электронной почты, имен файлов, а также выбрать форму представления даты и времени в тексте перевода;
    • отметьте абзацы, не требующие перевода.
  6. Переведите текст (сразу весь документ или по абзацам).
  7. Введите незнакомые слова в свой пользовательский словарь, если хотите, чтобы они в дальнейшем переводились.
  8. Воспользуйтесь электронным словарем для уточнения значений слов.
  9. Сохраните результаты перевода.

Системные требования

  • IBM PC-совместимый компьютер с процессором P166 или выше;
  • 32 Мбайт оперативной памяти;
  • примерно 160 Мбайт на жестком диске (для системы со всеми компонентами);
  • видеоадаптер SVGA или лучшего разрешения;
  • устройство для чтения компакт-дисков CD-ROM (для инсталляции);
  • мышь или совместимое устройство;
  • ОС: Windows 98 (русская версия или панъевропейская с поддержкой русского языка и русскими региональными установками), или Windows NT 4.0 SP3 (или выше) с поддержкой русского языка и русскими региональными установками, или Windows 2000 Professional (с поддержкой русского языка и русскими региональными установками);
  • Microsoft Internet Explorer 5.x (входит в поставку).
  • IBM PC-совместимый компьютер с процессором PII-300 или выше;
  • 64 Мбайт оперативной памяти

Перевод документа в системе «Сократ Персональный»

Вид главного окна программы показан на рис. 6 .

При первом запуске основное окно программы по умолчанию открывается на закладке «Переводчик». Перевод текста, набранного в окне программы: набрав текст в верхнем окне закладки «Переводчик» и нажав кнопку кнопку «Перевести» на панели инструментов или в меню «Перевод», в нижнем окне закладки вы получите перевод текста.

Для того чтобы воспользоваться словарем (рис. 7), достаточно щелкнуть мышью на соответствующей закладке. Кроме того, окно словаря может быть вызвано при помощи горячих клавиш.

С помощью словаря вы можете получить перевод искомого слова следующими способами:

  • набрать слово в поле ввода, расположенном в верхнем правом окне словаря. Перемещение по словарной базе осуществляется по мере ввода букв, до тех пор пока не будет получено максимально возможное совпадение;
  • вставить слово в поле ввода из буфера обмена. В этом случае будет осуществлен быстрый переход к слову, максимально совпадающему с введенным;
  • выбрать ранее переведенное слово из окна истории поля ввода, после чего будет осуществлен быстрый переход к тому слову, которое имеет максимально возможное совпадение с введенным;
  • выделить слово в другом приложении и, удерживая клавишу Shift, щелкнуть по выделению правой кнопкой мыши. Во всплывающем окне появится перевод выделенного слова;
  • использовать сочетание горячих клавиш, предварительно поместив необходимое слово в буфер обмена.

Перевод слов или текста из других приложений

В системе «Сократ Персональный 4.0» предусмотрена возможность работы с переводчиком и словарем в других приложениях без выхода из них. Перевод осуществляется во всплывающем окне.

Для того чтобы получить перевод текста из другого приложения (например, текстового редактора), необходимо выделить подлежащий переводу текст и, удерживая клавишу Shift, щелкнуть по выделению правой кнопкой мыши. Появится всплывающее окно, содержащее перевод выделенного фрагмента.

Для того чтобы получить перевод слова из другого приложения, необходимо выделить интересующее вас слово и, удерживая клавишу Shift, щелкнуть по выделению правой кнопкой мыши. Появившееся всплывающее окно будет содержать перевод выделенного слова.

При необходимости из этого окна можно перейти непосредственно на закладку «Словарь», воспользовавшись гиперссылкой всплывающего окна.

Системные требования

Минимальная конфигурация компьютера:

  • IBM PC-совместимый компьютер с процессором Pentium 90 или выше;
  • Операционная система Windows 98/Me или Windows NT/2000;
  • 32 Мбайт оперативной памяти;
  • 16 Мбайт свободного места на жестком диске.

Результаты тестирования PROMT Translation Office 2000 и «Сократ Персональный 4.0»

Для сравнения качества и скорости перевода двух систем были выбраны несколько фрагментов текстов на русском и английском языках: отдельные фразы, новости от компаний, отрывки из Библии, «законы Мерфи», технический, медицинский, юридический тексты. Оценки выставлялись по 10-балльной шкале. После этого было проведено сравнение результатов перевода с английского языка на русский и наоборот (табл. 1).

Следует отметить, что PROMT Translation Office 2000 и «Сократ Персональный 4.0» - продукты, предназначенные для решения разных задач. PROMT Translation Office 2000 - это профессиональная система МП, с помощью которой гораздо эффективнее переводить большие объемы информации. Кроме того, в системе PROMT грамотно реализованы грамматические правила того или иного языка. Поэтому качество перевода весьма высокое. Недостатками системы PROMT являются высокие требования к аппаратным ресурсам и значительное время перевода при подключении нескольких дополнительных словарей.

«Сократ Персональный 4.0» - это система автоматического перевода, которая помогает быстро и легко получить перевод непонятной фразы или термина. Ее основное назначение - быть всегда под рукой.

Перевести с помощью «Сократ Персональный 4.0» короткое письмо или фразу из текста гораздо проще и быстрее, чем с помощью системы PROMT. Однако для перевода большого объема текста целесообразно воспользоваться PROMT Translation Office 2000.

Lingvo 7.0

Lingvo 7.0 - это мощный профессиональный словарь, очень удобный для пользователя. Нажмите горячую клавишу в любом Windows-приложении - и на экране появится самый полный перевод слова из всех словарей, подключенных к системе. Грамматические комментарии на любое слово, озвучивание наиболее важных слов, проверка правильности написания, возможность создания собственных словарей - всё это предлагает ABBYY Lingvo 7.0 (рис. 9). Lingvo 7.0 содержит более 1,2 млн. слов и словосочетаний в 18 общих и специализированных словарях.

При запуске Lingvo на экране появляется главное окно (рис. 10). В строке ввода пользователь может набрать нужное слово. По мере набора программа будет искать наиболее подходящее слово. Нажав клавишу ввода или пиктограммку «Перевести текст», пользователь увидит окно карточки, в которой находится словарная статья выбранного (найденного при поиске) слова (рис. 11).

Если вы читаете справочный раздел какой-либо программы, работаете с текстовым редактором, браузером или любым другим Windows-приложением, выделите слово или несколько слов в тексте и нажмите клавиши Ctrl+Ins+Ins. Или просто перетащите (drag-and-drop) слово в строку ввода. При этом активизируется главное окно Lingvo и откроется карточка с переводом выделенного слова. Если таких карточек много, появится окно «Перевод», содержащее слова и словосочетания из запроса.

Для того чтобы вставить перевод в редактируемый текст, выделите перевод в карточке и нажмите Ctrl+Ins. Переключитесь на окно текстового редактора и проделайте операцию «Вставить». Также можно перетащить перевод на окно вашего текстового редактора.

При переводе с английского языка на русский не всегда очевидно, имеем мы дело со словами, которые можно переводить независимо, или со словосочетанием, которое переводится как целое. В решении этой проблемы помогает функция «Перевести текст из строки», позволяющая найти в переводимом фрагменте устойчивые словосочетания, для которых есть отдельные словарные статьи. Оставшиеся непереведенными фрагменты можно попытаться отыскать в примерах с помощью функции полнотекстового поиска, устанавливая нужные опции (и/или, с учетом порядка или без учета и т.д.)

При переводе с русского языка на английский выделение сочетаний и грамматических конструкций не представляет труда, и если данных сочетаний нет в словаре, можно сразу же обратиться к функции полнотекстового поиска. Результаты поиска позволяют оценить, как переводится интересующее вас выражение в реальных примерах.

Основные особенности Lingvo:

  • перевод 1,2 млн. слов и словосочетаний;
  • 18 общих и специализированных словарей (2 медицинских и 2 юридических словаря в Lingvo 7.0 - новые);
  • современная лексика;
  • вызов словаря из любого Windows-приложения;
  • совершенная система поиска;
  • 5 тыс. английских слов озвучено диктором из Оксфорда;
  • возможность создания собственных пользовательских словарей;
  • 23 бесплатных пользовательских словаря на http://www.lingvo.ru/ ;
  • подробные толкования и объяснения употребления слов;
  • современные лингвистические технологии;
  • новые дополненные версии общих и специализированных словарей.

Системные требования

Минимальная конфигурация компьютера:

  • IBM PC-совместимый компьютер с процессором Pentium 133 или выше;
  • операционная система Windows 95/98/Mе, Windows 2000/Windows NT 4.0 (SP3 или выше);
  • 16 Mбайт оперативной памяти для Windows 95/98/Mе, 32 Mбайт оперативной памяти для Windows 2000/Windows NT 4.0;
  • от 85 до 265 Мбайт свободного пространства на жестком диске;
  • дисковод 3.5” и CD-ROM-устройство, мышь;
  • Microsoft Internet Explorer 5.0 и выше (дистрибутив ABBYY Lingvo 7.0 включает в себя Microsoft Internet Explorer 5.5 - при его установке потребуется дополнительно от 27 до 80 Мбайт);
  • звуковая плата, совместимая с операционной системой; наушники или колонки (рекомендуется).

Контекст 4.0

«Контекст 4.0» - это система электронных словарей, включающая в себя развитую программную оболочку и обширный набор словарей - как общей лексики, так и специализированных. Уникальное свойство «Контекста» - учет морфологии поддерживаемых языков. Благодаря этому «Контекст» переводит слова и словосочетания в любой грамматической форме. Наиболее полно в «Контексте» представлены англо-русские и русско-английские словари. Библиотека «Контекста» новой версии расширена англо-французским, англо-немецким, англо-испанским, англо-итальянским, англо-португальским, англо-сербским и англо-хорватским словарями.

Словари «Контекста» являются двусторонними. Программа осуществляет перевод с одного языка на другой и обратно без какой-либо специальной настройки. Поиск перевода может быть осуществлен как по всем словарям, входящим в комплект, так и по конкретному словарю. При этом набор активных (участвующих в поиске) словарей, а также порядок поиска по ним можно легко изменять.

Работать с «Контекстом» можно набирая в специальное поле ввода интересующее пользователя слово или словосочетание (рис. 12).

Удобно работать с «Контекстом» и из приложений Windows. Перевод осуществляется методом drag-and-drop или через буфер обмена. В настройках можно указать горячую клавишу или включить опцию запуска перевода при помещении текста в буфер обмена.

Для пользователей, работающих в редакторе MS Word, реализована возможность вызова «Контекста» из самого редактора. Для этого следует нажать на иконку «Контекста», находящуюся на панели инструментов MS Word, причем пользователю не нужно выделять слово или словосочетание в тексте. «Контекст» переведет слово, на котором стоит курсор и заодно проверит несколько слов справа и слева, не входят ли они в состав словосочетания.

«Контекст» комплектуется словарями по заказу пользователя. Если пользователь купил оболочку и некоторые словари, он может докупить любые другие понадобившиеся ему словари.

4-я версия «Контекста» обладает рядом интересных возможностей, которых не было в предыдущих версиях. Например, словарь осуществляет поиск в частичных словосочетаниях. При этом все словосочетания, коэффициент релевантности которых по отношению к строке поиска больше заданного порогового значения, выдаются в окно перевода (рис. 13 , ).

Появилась новая функция быстрого набора (Fast Typing). При вводе слова пользователь получает подсказки близких слов из текущего словаря с учетом уже введенных символов (рис. 15). Далее пользователь может выбрать из списка или продолжить набор самостоятельно.

Для совместной работы словарей на разных языках наряду с автоматическим определением добавлена функция выбора языка (рис. 16).

В новой версии появилась возможность добавления и редактирования словарных статей, что делает работу системы словарей более гибкой. В предыдущей версии «Контекста» была реализована возможность работы со словарем пользователя. Новая версия программы «Контекст» позволяет заводить несколько словарей и редактировать их. Словари пользователя и стандартные словари, и словари пользователя являются равноправными в системе словарей «Контекста». Формат статьи словаря пользователя приближен к формату стандартного словаря, то есть к обычному книжному формату. В статью могут входить как слова и выражения, так и примеры использования слов в составе устойчивых выражений и толкования (

МультиЛекс 3.5

«МультиЛекс 3.5» - это электронный словарь, в состав которого входят электронные версии известных печатных словарей. В оболочке «МультиЛекс 3.5 Английский» выпускаются самые разные англо-русские и русско-английские словари (Новый англо-русский словарь В.К. Мюллера, англо-русский/русско-английский словарь О.С.Ахмановой, русско-английский словарь под ред. А.И.Смирницкого). Планируется выпуск технической, медико-биологической, экономико-юридической и других коллекций.

«МультиЛекс 3.5 Английский» позволяет пользователю постепенно подобрать для себя оптимальный набор словарей, которые и будут работать вместе.

Особенности словаря «МультиЛекс»:

  • удобство и простота в использовании;
  • озвучивание большого количества словарных статей;
  • быстрый доступ к важным статьям: при помощи закладок можно отметить важные для вас словарные статьи, а затем обращаться к ним напрямую;
  • функция «быстрого набора» - при наборе слова возникает список похожих слов, из которых пользователь может выбрать слово для перевода, не набирая его целиком;
  • перевод слова или фразы и перенос результатов перевода в Windows-приложение через буфер обмена или drag-and-drop;
  • ввод примечаний: при коллективной работе важно соблюдать единство терминологии. Здесь придет на помощь механизм примечаний - к любой словарной статье вы можете написать свои примечания;
  • словарь пользователя.

Окно «МультиЛекс» содержит рамку окна, строку меню, под которой расположены панель словарей, панель инструментов и строка поиска. Под строкой поиска находится собственно рабочая область окна «МультиЛекса» .

Рабочая область по вертикали разделена на две части: панель заголовков статей (левая) и панель текста словарной статьи (правая). Границу между панелями можно передвигать вправо-влево.

Левая панель содержит список заголовков статей того словаря, который показывается в панели словарей при помощи пиктограммы в виде открытой книги (используется для просмотра заголовков словарных статей). Правая панель всегда показывает словарную статью, соответствующую заголовку, выделенному в правой панели. Словарная статья начинается с заголовка, за которым следует его транскрипция. Далее указывается часть речи, даются возможные переводы, пояснения, примеры.

Панель словарей позволяет выбрать нужный словарь. Каждому словарю соответствует своя пиктограмма, принимающая три различных состояния: закрытая книга, полуоткрытая книга или открытая книга. Форма значков показывает, какой из словарей сейчас открыт и в каких словарях в результате последнего поиска было что-либо найдено.

Если значок словаря изображает открытую книгу (блокнот) - данный словарь сейчас открыт, полуоткрытую книгу (блокнот) - данный словарь сейчас не открыт, но в нем содержится информация, соответствующая вашему запросу, а если пиктограмма изображает закрытую книгу (блокнот) - данный словарь закрыт и нужной вам информации в нем нет.

В июле 2001 года вышла новая версия словаря «МультиЛекс 3.5 Английский Популярный» (англо-русский, русско-английский словарь общей лексики под редакцией О.С. Ахмановой и Е.А.М.Уилсон). Он содержит более 40 тыс. словарных статей.

Версия 3.5 обладает рядом достоинств, которые вы не найдете в предыдущей версии:

  • возможность доустановки словарей. Купив любой английский словарь (версии не ниже 3.5), вы сможете легко встроить его в ваш «МультиЛекс». Планируется выпуск технической, медико-биологической, экономико-юридической и других коллекций;
  • всплывающий перевод. В «МультиЛекс 3.5» предусмотрена поддержка перевода по горячим клавишам из любого приложения, поддерживающего Clipboard. Для этого просто выделите слово, нажмите соответствующую функциональную клавишу (по умолчанию F10) - и на экране появится окно с переводом. Перевод в окне является гиперссылкой. Если необходима более полная информация по интересующему вас слову, нажатием на левую кнопку мыши вызовите «МультиЛекс» с уже готовыми вариантами перевода запрашиваемого слова. Окно всплывающего перевода можно установить поверх всех окон, выбрав соответствующий пункт в контекстном меню, которое становится доступным при нажатии на правую кнопку мыши по иконке «МультиЛекс» (в правом нижнем углу экрана). Подобную же функцию выполняет кнопка в левой части окна «всплывающего перевода». С помощью этой кнопки вы можете «прикрепить» полученный перевод в любом месте своего экрана;
  • звуковая плата, совместимая с операционной системой, наушники или колонки (рекомендуется).

Резюме

В заключение несколько слов о личном опыте использования систем машинного перевода и словарями.

Три года назад я использовал систему машинного перевода для подготовки отчета западному работодателю. Несколько человек, которые занимались офшорным программированием, писали программу навигационного приемника. К сожалению, мало кто из группы владел английским настолько, чтобы описать результаты своей работы на языке заказчика. В связи с этим возникла необходимость перевода отчетов, составленных на русском языке. Именно тогда мне в голову пришла идея опробовать систему машинного перевода Stylus (первые версии систем компании ПРОМТ назывались именно так). Эта попытка оказалась очень удачной: я перевел 140-страничный документ раза в три быстрее, чем планировал. Конечно, перевод, выполненный программой, был не идеален. Мне пришлось много и долго его редактировать. Но выигрыш налицо.

С того времени при переводе текстов объемом более 10 страниц я всегда пользуюсь системами машинного перевода.

Эту историю я рассказал своему другу-предпринимателю. Тогда он начинал торговать обувью и налаживал связи с немецкими поставщиками. Он также купил подобную систему и до сих пор успешно переписывается с немцами по электронной почте (ни английского, ни немецкого он не знает). Написав письмо по-русски, он переводит его на немецкий и отсылает, а полученный ответ переводит на русский. И все довольны. В итоге мой друг на днях открывает уже пятый обувной магазин в Москве.

С электронными словарями я ознакомился еще раньше, когда у меня возникла необходимость читать зарубежные книги и журналы по техническим дисциплинам со специфической лексикой. Технические электронные словари, словари по телекоммуникациям и информатике позволили мне сохранить много времени и сил. Спасибо Lingvo!

Надеемся, что мой рассказ о новых системах машинного перевода и словарях поможет вам эффективно организовать свою работу и в конечном итоге добиться успеха.

Редакция благодарит за помощь в подготовке статьи: Александра Андреева, компания ПРОМТ; Андрея Соколова, компания «Информатика»; Анастасию Савину, компания ABBYY; Константина Конина и Наталью Талпы, компания «МедиаЛингва»; Алексея Буханова, компания «Арсеналъ».

КомпьютерПресс 9"2001

Московский Авиационный Институт

(государственный технический университет)

«Институт иностранных языков МАИ»

Кафедра И-01

«Теория и практика английского языка»

Реферат

«Машинный перевод»

Москва 2012 г.

Машинный перевод и для чего он необходим……………………………………………………………….………………3 Классификация систем машинного перевода………………………………………………………………………………..4 Как осуществляется машинный перевод………………………………………………………………………………………..7 История развития систем машинного перевода……………………………………………………………………………11 Современное состояние машинного перевода на основе «Яндекс.Перевод»……………………….…..18 Вывод………………………………………………………………………………………………………………….……………………………20

Список использованной литературы…………………………………..…………………………………………………….…..21

Машинный перевод и для чего он необходим

В последнее время знание иностранных языков может понадобиться не только в путешествии или на приеме гостей из-за рубежа, но и в собственном доме, например, при просмотре популярных голливудских кинолент, при чтении инструкции по использованию заморских товаров или Web-страниц. Таким образом, оказывается, даже не покидая родных стен, мы нуждаемся в услугах переводчика. Однако необходимую помощь нам вполне может оказать домашний компьютер. Системы машинного перевода (МП) давно перестали быть диковинкой. Они постепенно выходят из младенческого возраста и вместо бессвязного детского лепета начинают изъясняться на вполне понятном, "человеческом" языке. До последнего времени такие программы были не только очень дороги, уступая в цене разве что мощным графическим и издательским системам, но и весьма сложны и капризны в работе. И вот появились первые переводчики, пригодные для использования на домашнем ПК. Давайте познакомимся с ними поближе и узнаем, на что они способны.

Классификация систем машинного перевода

Полностью автоматизированный машинный перевод.

Этот вид машинного перевода и подразумевается большинством людей, когда они говорят о машинном переводе. Смысл здесь прост: в компьютер вводится текст на одном языке, этот текст обрабатывается и компьютер выводит этот же текст на другом языке. К сожалению, реализация такого вида автоматического перевода сталкивается с определенными препятствиями, которые еще предстоит преодолеть.

Основной проблемой является сложность языка как такового. Возьмем, к примеру, значения слова "can". Помимо основного значения модального вспомогательного глагола, у слова "can" имеется несколько официальных и жаргонных значений в качестве существительного: "банка", "отхожее место", "тюрьма". Кроме этого, существует архаичное значение этого слова – "знать или понимать". Если предположить, что у выходного языка для каждого из этих значений имеется отдельное слово, каким образом может компьютер их различить?

Как оказалось, определенные успехи были достигнуты в сфере разработки программ перевода, различающих смысл основываясь на контексте. Более поздние исследования при анализе текстов опираются больше на теории вероятности. Тем не менее, полностью автоматизированный машинный перевод текстов с обширной тематикой все еще является невыполнимой задачей.

Автоматизированный машинный перевод при участии человека.

Этот вид машинного перевода теперь вполне осуществим. Говоря о машинном переводе при участии человека, обычно подразумевают редактирование текстов как до, так и после их обработки компьютером. Люди-переводчики изменяют тексты так, чтобы они были понятны машинам. После того, как компьютер сделал перевод, люди опять-таки редактируют грубый машинный перевод, делая текст на выходном языке правильным. Помимо такого порядка работы, существуют системы МП, во время перевода требующие постоянного присутствия человека-переводчика, помогающего компьютеру делать перевод особенно сложных или неоднозначных конструкций.

Машинный перевод с помощью человека применим в большей степени к текстам с ограниченным вокабуляром узко-ограниченной тематики.

Экономичность использования машинного перевода с помощью человека – вопрос все еще спорный. Сами программы обычно достаточно дорогостоящи, а для работы некоторых из них требуется специальное оборудование. Предварительному и последующему редактированию необходимо обучаться, да и работа эта не из приятных. Создание и поддержание в рабочем состоянии баз данных слов – процесс трудоемкий и зачастую требует специальных навыков. Однако для организации, переводящей большие объемы текстов в четко-определенной тематической сфере, машинный перевод с помощью человека может оказаться достаточно экономичной альтернативой традиционному человеческому переводу.

Перевод, осуществляемый человеком с использованием компьютера.

При этом подходе человек-переводчик ставится в центр процесса перевода, в то время как программа компьютера расценивается в качестве инструмента, делающего процесс перевода более эффективным, а перевод – точным. Это обычные электронные словари, которые обеспечивают перевод требуемого слова, возлагая на человека ответственность за выбор нужного варианта и смысл переведенного текста. Такие словари значительно облегчают процесс перевода, но требуют от пользователя определенного знания языка и затрат времени на его осуществление. И все же сам процесс перевода значительно ускоряется и облегчается.

Среди систем, помогающих переводчику в работе, важнейшее место занимают так называемые системы Translation Memory (TM). Системы ТМ представляют собой интерактивный инструмент для накопления в базе данных пар эквивалентных сегментов текста на языке оригинала и перевода с возможностью их последующего поиска и редактирования. Эти программные продукты не имеют целью применение высокоинтеллектуальных информационных технологий, а наоборот, основаны на использовании творческого потенциала переводчика. Переводчик в процессе работы сам формирует базу данных (или же получает ее от других переводчиков или от заказчика), и чем больше единиц она содержит, тем больше отдача от ее использования.

Вот список наиболее известных систем ТМ:

Transit швейцарской фирмы Star,

Trados (США),

Translation Manager от IBM,

Eurolang Optimizer французской фирмы LANT,

DejaVu от ATRIL (США),

WordFisher (Венгрия).

Системы ТМ позволяют исключить повторный перевод идентичных фрагментов текста. Перевод сегмента осуществляется переводчиком только один раз, а затем каждый следующий сегмент проверяется на совпадение (полное или нечеткое) с базой данных, и, если найден идентичный или похожий сегмент, то он предлагается в качестве варианта перевода.

В настоящее время ведутся разработки по усовершенствованию систем ТМ. Например, ядро системы Transit фирмы Star реализовано на основе технологии нейронных сетей.

Несмотря на широкий ассортимент систем TM, они имеют несколько общих функций:

Функция сопоставления (Alignment). Одно из преимуществ систем ТМ – это возможность использования уже переведенных материалов по данной тематике. База данных ТМ может быть получена путем посегментного сопоставления файлов оригинала и перевода.

Наличие фильтров импорта – экспорта. Это свойство обеспечивает совместимость систем ТМ с множеством текстовых процессоров и издательских систем и дает переводчику относительную независимость от заказчика.

Механизм поиска нечетких или полных совпадений. Именно этот механизм и представляет собой основное достоинство систем ТМ. Если при переводе текста система встречает сегмент, идентичный или близкий к переведенному ранее, то уже переведенный сегмент предлагается переводчику как вариант перевода текущего сегмента, который может быть подкорректирован. Степень нечеткого совпадения задается пользователем.

Поддержка тематических словарей. Эта функция помогает переводчику придерживаться глоссария. Как правило, если в переводимом сегменте встречается слово или словосочетание из тематического словаря, то оно выделяется цветом и предлагается его перевод, который можно вставить в переводимый текст автоматически.

Средства поиска фрагментов текста. Этот инструмент очень удобен при редактировании перевода. Если в процессе работы был найден более удачный вариант перевода какого-либо фрагмента текста, то этот фрагмент может быть найден во всех сегментах ТМ, после чего в сегменты ТМ последовательно вносятся необходимые изменения.

Конечно, как и любой программный продукт, системы ТМ имеют свои достоинства и недостатки, и свою область применения. Однако в отношении систем TM, основным недостатком является их дороговизна.

Особенно удобно использовать системы ТМ при переводе таких документов, как руководства пользователя, инструкции по эксплуатации, конструкторская и деловая документация, каталоги продукции и другой однотипной документации с большим количеством совпадений.

Как осуществляется машинный перевод

В ее основе лежит алгоритм перевода – последовательность однозначно и строго определенных действий над текстом для нахождения соответствий в данной паре языков L1 – L2 при заданном направлении перевода (с одного конкретного языка на другой). Обычные словари и грамматики разных языков не применимы для машинного перевода, так как описывают значения слов и грамматические закономерности в нестрогой форме, никак не приемлемой для «машинного» использования. Следовательно, нужна формальная грамматика языка, т.е. логически непротиворечивая и явно выраженная (безо всяких подразумеваний и недомолвок). Как только начали появляться формальные описания различных областей языка – прежде всего морфологии и синтаксиса, – наметился прогресс и в разработке систем автоматического перевода. Чтобы успешно работать, система машинного перевода включает в себя, во-первых, двуязычные словари, снабженные необходимой информацией (морфологической, относящейся к формам слова, синтаксической, описывающей способы сочетания слов в предложении, и семантической, т.е. отвечающей за смысл), а во-вторых – средства грамматического анализа, в основе которых лежит какая-нибудь из формальных, т.е. строгих, грамматик. Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода.

1. На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы, например, каким членом предложения может быть данное слово. В школьном грамматическом разборе предложения мы опираемся и на значения слов, составляющих предложение (например, отыскивая подлежащее, задаем вопрос: о чем говорится в предложении?). Для машины же совмещение двух этих операций – и грамматического разбора, и обращения к смыслу слов – задача трудная. Лучше сделать синтаксический анализ не зависящим от смысла слов, а словарь использовать на других этапах перевода.

Что такое независимый синтаксический анализ, можно понять, если попытаться разобрать фразу, из которой «убраны» значения конкретных слов. Блестящим образцом фразы такого рода является придуманное академиком Л. В. Щербой предложение: Глокая куздра штетко будланула бокра и кудрячит бокрёнка. Бессмысленная фраза? Как будто да: в русском языке нет слов, из которых она состоит (кроме союза и). И все же в какой-то степени мы ее понимаем: «куздра» – это существительное (мы даже можем предположить, что оно обозначает какое-то животное), «глокая» – определение к нему, «будланула» – глагол-сказуемое (похожий на толканула, боднула), «штетко» – скорее всего, обстоятельство образа действия (что-то вроде сильно, резко), «бокра» – это прямое дополнение («будланула» кого? – «бокра») и т. д.

То есть машина осуществляет синтаксический анализ предложения без опоры на значения составляющих его слов, с использованием информации только об их грамматических свойствах. В результате синтаксического анализа возникает синтаксическая структура, которая изображается в виде дерева зависимостей: «корень» – сказуемое, а «ветви» – синтаксические отношения его с зависимыми словами. Каждое слово предложения записывается в своей словарной форме, а при ней указываются те грамматические характеристики, которыми обладает это слово в анализируемом предложении.

2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа in case of, in accordance with получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, их роли в данном предложении и пр.), производимое в рамках входного языка; разрешение неоднозначности (скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом); анализ и перевод слов. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения.

3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, притом, что в оригинале может быть и единственное число).

4. Синтез выходных словоформ и предложения в целом на выходном языке. Здесь не получится обойтись простым переводом «узлов» дерева на другой язык. Синтаксис каждого языка устроен на свой лад: то, что в русском предложении – подлежащее, в другом языке может (или должно) быть выражено дополнением, а дополнение, наоборот, должно преобразоваться в подлежащее; то, что в одном языке обозначается группой слов, переводится на другой всего одним словом и т. д. Так, при переводе русской фразы «У меня была интересная книга» на английский язык глагол «быть» надо перевести глаголом to have – «иметь», сочетание «у меня» преобразовать в подлежащее I («я»), а слово «книга», которое в русском языке – подлежащее, по-английски должно стать прямым дополнением: I had an interesting book (буквально: «Я имел интересную книгу»). В связи с этим в машинную память помимо наборов синтаксических правил для каждого языка «вкладывают» и правила преобразования синтаксических структур. К этому добавляют правила перехода от уже преобразованной структуры к предложению того языка, на который делается перевод. Такой переход от структуры к реальному предложению называется синтаксическим синтезом.

В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей (такова, например, связь местоимения с замещаемым им существительным – скажем, местоимения им со словом местоимения в самом этом пояснении в скобках).

Для решения проблемы многозначности слова используется анализ контекста. Дело в том, что каждое из нескольких значений многозначного слова в большинстве случаев реализуются в своем наборе контекстов. То есть у каждого из «конкурирующих» (при интерпретации) значений – свой набор контекстов. И именно вот эта зависимость значения от окружения позволяет слушающему понять высказывание правильно. Для правильного понимания высказывания необходимо в полной мере учитывать также правила обусловленности выбранного значения лексическим окружением (действующие при «фразеологической» интерпретации слова), правила обусловленности выбранного значения семантическим контекстом (так называемые законы семантического согласования) и правила обусловленности выбранного значения грамматическим (морфолого-синтаксическим) контекстом. То есть для решения проблемы «моносемизации» слов при автоматическом переводе основой служит изучение и тщательное описание закономерностей лексической, семантической и грамматической сочетаемости. При этом правила такой сочетаемости достаточно подробно описываются в словарях – а именно, (а) с мощным охватом лексики, но весьма бегло и нетщательно, а также весьма имплицитно это делается в традиционной лексикографии; и, с другой стороны, (б) в выборочном порядке (со слабым охватом лексики), но зато весьма аккуратно и тщательно, и довольно-таки эксплицитно это делается в работах по «толково-комбинаторной» лексикографии (последних сорока лет).

Действующие системы машинного перевода, как правило, ориентированы на конкретные пары языков (например, французский и русский или японский и английский) и используют, как правило, переводные соответствия либо на поверхностном уровне, либо на некотором промежуточном уровне между входным и выходным языком. Качество машинного перевода зависит от объема словаря, объема информации, приписываемой лексическим единицам, от тщательности составления и проверки работы алгоритмов анализа и синтеза, от эффективности программного обеспечения. Современные аппаратные и программные средства допускают использование словарей большого объема, содержащих подробную грамматическую информацию. Информация может быть представлена как в декларативной (описательной), так и в процедурной (учитывающей потребности алгоритма) форме.

В практике переводческой деятельности и в информационной технологии различаются два основных подхода к машинному переводу. С одной стороны, результаты машинного перевода могут быть использованы для поверхностного ознакомления с содержанием документа на незнакомом языке. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования. Другой подход предполагает использование машинного перевода вместо обычного «человеческого». Это предполагает тщательное редактирование и настройку системы перевода на определенную предметную область. Здесь играют роль полнота словаря, ориентированность его на содержание и набор языковых средств переводимых текстов, эффективность способов разрешения лексической многозначности, результативность работы алгоритмов извлечения грамматической информации, нахождения переводных соответствий и алгоритмов синтеза. На практике перевод такого типа становится экономически выгодным, если объем переводимых текстов достаточно велик (не менее нескольких десятков тысяч страниц в год), если тексты достаточно однородны, словари системы полны и допускают дальнейшее расширение, а программное обеспечение удобно для постредактирования.

История развития систем машинного перевода

40-е: первые шаги

История машинного перевода как научно-прикладного направления началась в конце 40-х годов прошлого века (если не считать механизированное переводное устройство П. П. Смирнова-Троянского, своего рода лингвистический арифмометр, изобретенный в 1933 году). Теоретической основой начального (конец 1940-х – начало 1950-х годов) периода работ по машинному переводу был взгляд на язык как кодовую систему. Пионерами МП были математики и инженеры. Описания их первых опытов, связанных с использованием только что появившихся ЭВМ для решения криптографических задач, были опубликованы в США в конце 1940-х годов. Датой рождения машинного перевода как исследовательской области обычно считают март 1947; именно тогда специалист по криптографии Уоррен Уивер в своем письме Норберту Винеру впервые поставил задачу машинного перевода, сравнив ее с задачей дешифровки.

Тот же Уивер после ряда дискуссий составил в 1949 г. меморандум, в котором теоретически обосновал принципиальную возможность создания систем машинного перевода. У. Уивер писал: «I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text» («У меня перед глазами текст, написанный по-русски, но я собираюсь сделать вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Все, что мне нужно, - это взломать код, чтобы извлечь информацию, заключенную в тексте»). Аналогия между переводом и дешифрованием была естественной в контексте послевоенной эпохи, если учитывать успехи, которых достигла криптография в годы Второй мировой войны.

Идеи Уивера легли в основу подхода к МП, основанного на концепции interlingva: стадия передачи информации разделена на два этапа. На первом этапе исходное предложение переводится на язык-посредник (созданный на базе упрощенного английского языка), а затем результат этого перевода представляется средствами выходного языка.

Меморандум Уивера вызвал самый живой интерес к проблеме МП. В 1948 г. А. Бут и Ричард Риченс (Richard Richens) произвели некоторые предварительные эксперименты (так, Риченс разработал правила разбиения словоформ на основы и окончания). Вскоре началось финансирование исследований. На ранних этапах разработка МП активно поддерживалась военными, при этом в США основное внимание уделялось русско-английскому направлению, а в СССР - англо-русскому.

Помимо очевидных практических нужд важную роль в становлении машинного перевода сыграло то обстоятельство, что предложенный в 1950 г. английским математиком А. Тьюрингом знаменитый тест на разумность («тест Тьюринга») фактически заменил вопрос о том, может ли машина мыслить, на вопрос о том, может ли машина общаться с человеком на естественном языке таким образом, что тот не в состоянии будет отличить ее от собеседника-человека. Тем самым вопросы компьютерной обработки естественно-языковых сообщений на десятилетия оказались в центре исследований по кибернетике (а впоследствии по искусственному интеллекту), а между математиками, программистами и инженерами-компьютерщиками с одной стороны и лингвистами – с другой установилось продуктивное сотрудничество.

В 1952 г. состоялась первая конференция по МП в Массачусетском технологическом университете, а в 1954 г. в Нью-Йорке была представлена первая система МП - IBM Mark II, разработанная компанией IBM совместно с Джоржтаунским университетом (это событие вошло в историю как Джорджтаунский эксперимент). Была представлена очень ограниченная в своих возможностях программа (она имела словарь в 250 единиц и 6 грамматических правил), осуществлявшая перевод с русского языка на английский. В том же 1954-м первый эксперимент по машинному переводу был осуществлен в СССР И. К. Бельской (лингвистическая часть) и Д. Ю. Пановым (программная часть) в Институте точной механики и вычислительной техники Академии наук СССР, а первый промышленно пригодный алгоритм машинного перевода и система машинного перевода с английского языка на русский на универсальной вычислительной машине были разработаны коллективом под руководством Ю. А. Моторина. После этого работы начались во многих информационных институтах, научных и учебных организациях страны. Казалось, что создание систем качественного автоматического перевода вполне достижимо в пределах нескольких лет (при этом акцент делался на развитии полностью автоматических систем, обеспечивающих высококачественные переводы; участие человека на этапе постредактирования расценивалось как временный компромисс). Профессиональные переводчики всерьез опасались в скором времени остаться без работы…

50-е: первое разочарование

К началу 50-х годов целый ряд исследовательских групп в США и в Европе работали в области МП. В эти исследования были вложены значительные средства, однако результаты очень скоро разочаровали инвесторов. Одной из главных причин невысокого качества МП в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня. Другой причиной было отсутствие теоретической базы, необходимой для решения лингвистических проблем, в результате чего первые системы МП сводились к пословному (word-to-word) переводу текстов без какой-либо синтаксической (а тем более смысловой) целостности.

В 1959 г. философ Й. Бар-Хиллел (Yohoshua Bar-Hillel) выступил с утверждением, что высококачественный полностью автоматический МП (FAHQMT) не может быть достигнут в принципе. В качестве примера он привел проблему нахождения правильного перевода для слова pen в следующем контексте: John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy (Джон искал свою игрушечную коробку. Наконец он ее нашел. Коробка была в манеже. Джон был очень счастлив). Pen в данном случае должно переводиться не как «ручка» (инструмент для письма), а как «детский манеж» (play-pen). Выбор того или иного перевода в этом случае и в ряде других обусловлен знанием внеязыковой действительности, а это знание слишком обширно и разнообразно, чтобы вводить его в компьютер. Однако Бар-Хиллел не отрицал идею МП как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода «человеко-машинный симбиоз»).

Это выступление самым неблагоприятным образом отразилось на развитии МП в США. В 1966 г. специально созданная Национальной Академией наук комиссия ALPAC (Automatic Language Processing Advisory Committee), основываясь в том числе и на выводах Бар-Хиллела, пришла к заключению, что машинный перевод нерентабелен: соотношение стоимости и качества МП было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов. За докладом ALPAC последовало сокращение финансирования исследований в области МП со стороны правительства США - и это несмотря на то, что в то время как минимум три различные системы МП регулярно использовались рядом военных и научных организаций (в числе которых ВВС США, Комиссия США по ядерной энергии, Центр Евроатома в Италии).

60-е: низкий старт

Следующие десять лет разработка систем МП осуществлялась в США университетом Brigham Young University в Прово, штат Юта (ранние коммерческие системы WEIDNER и ALPS) и финансировалась Мормонской церковью, заинтересованной в переводе Библии; в Канаде группами исследователей, в числе которых TAUM в Монреале с ее системой METEO; в Европе - группами GENA (Гренобль) и SUSY (Саарбрюкен). Особого упоминания заслуживает работа в этой области отечественных лингвистов, таких, как И. А. Мельчук и Ю. Д. Апресян (Москва), результатом которой стал лингвистический процессор ЭТАП. В 1960 г. в составе Научно-исследовательского института математики и механики в Ленинграде была организована экспериментальная лаборатория машинного перевода, преобразованная затем в лабораторию математической лингвистики Ленинградского государственного университета.

70-80-е: новый импульс

Новый подъем исследований в области МП начался в 1970-х годах и был связан с серьезными достижениями в области компьютерного моделирования интеллектуальной деятельности. Соответствующая область исследований, возникшая несколько позже МП (датой ее рождения обычно считают 1956 г.), получила название искусственного интеллекта, а создание систем машинного перевода было осмыслено в 1970-е годы как одна из частных задач этого нового исследовательского направления.

При этом несколько сместились акценты: исследователи теперь ставили целью развитие «реалистических» систем МП, предполагавших участие человека на различных стадиях процесса перевода. Системы МП из «врага» и «конкурента» профессионального переводчика превращаются в незаменимого помощника, способствующего экономии времени и человеческих ресурсов.

За период 1978-93 гг. в США на исследования в области МП истрачено 20 миллионов долларов, в Европе - 70 миллионов, в Японии - 200 миллионов.

Можно выделить два основных стимула к развитию работ по машинному переводу в современном мире. Первый – собственно научный; он определяется комплексностью и сложностью компьютерного моделирования перевода. Как вид языковой деятельности перевод затрагивает все уровни языка – от распознавания графем (и фонем при переводе устной речи) до передачи смысла высказывания и текста. Кроме того, для перевода характерна обратная связь и возможность сразу проверить теоретическую гипотезу об устройстве тех или иных языковых уровней и эффективности предлагаемых алгоритмов. Эта характеристическая черта перевода вообще и машинного перевода в частности привлекает внимание теоретиков, в результате чего продолжают возникать все новые теории автоматизации перевода и формализации языковых данных и процессов. Вместе с тем разработки в области МП стимулировали развитие не только лингвистики. Результаты работ по МП способствовали началу и развитию исследований и разработок в области автоматизации информационного поиска, логического анализа естественно-языковых текстов, экспертных систем, способов представления знаний в вычислительных системах и т.д.

Второй стимул – социальный, и обусловлен он возрастающей ролью самой практики перевода в современном мире как необходимого условия обеспечения межъязыковой коммуникации, объем которой возрастает с каждым годом. Другие способы преодоления языковых барьеров на пути коммуникации – разработка или принятие единого языка, а также изучение иностранных языков – не могут сравниться с переводом по эффективности. С этой точки зрения можно утверждать, что альтернативы переводу нет, так что разработка качественных и высокопроизводительных систем машинного перевода способствует разрешению важнейших социально-коммуникативных задач.

Одной из новых разработок этого периода стала технология TM (translation memory), работающая по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных; если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой. А в конечном итоге «не нужно дважды переводить одно и то же предложение!». В настоящее время разработчиком известной коммерческой системы, основанной на технологии TM, является система TRADOS (основана в 1984 г.).

В СССР с середины 70-х годов были созданы промышленные системы машинного перевода с английского языка на русский АМПАР (на основе исследований и разработок коллектива Ю. А. Моторина), с немецкого языка на русский НЕРПА, с французского языка на русский ФРАП, автоматические терминологические словари в помощь человеку-переводчику. Система АМПАР длительное время находилась в промышленной эксплуатации; впоследствии на ее базе были созданы более эффективные системы МП для персональных компьютеров семейства СПРИНТ; была также разработана система МП с русского языка на английский АСПЕРА. На этих разработках основываются такие системы машинного перевода, как Stylus, Socrat и другие.

От 90-х к XXI веку

90-е годы принесли с собой бурное развитие рынка ПК (от настольных до карманных) и информационных технологий, широкое использование сети Интернет (которая становится все более интернациональной и многоязыкой). Все это сделало возможным, а главное востребованным, дальнейшее развитие систем МП. Появляются новые технологии, основанные на использовании нейронных сетей, концепции коннекционизма, статистических методах.

В настоящее время несколько десятков компаний занимаются разработкой коммерческих систем МП, в их числе: Systran, IBM, L&H (Lernout & Hauspie), Language Engineering Corporation, Transparent Language, Nova Incorporated, Trident Software, Atril, TRADOS, Caterpillar Co., LingoWare; Ata Software; Lingvistica b.v. и др.

В настоящее время в Российской Федерации продолжаются в незначительных масштабах некоторые работы по системам МП, основанным на подходе «текст-смысл-текст», не всегда явно проговариваемым лозунгом которого в момент обоснования этого подхода в 1960-х годов был «машинный перевод без перевода, без машин, без алгоритмов». Идея подхода заключалась в том, что от лингвиста требуется только декларативное описание фактов языка (т.е. лингвистическая теория, претендующая, правда, на особую точность и формализованность), а алгоритмы перевода составят программист и математик. В рамках этих исследований были получены значительные теоретико-лингвистические результаты (в частности, создана теория так называемых лексических функций, нашедшая применение в лексикографии), однако для создания практических систем подобного рода подход оказался недостаточно эффективным. Все практические системы без исключения используют идею переводных соответствий, т.е. в их основе лежит модель «текст-текст», и они реализуют краткую схему перевода. Неизмеримо выросшие за последние десятилетия возможности вычислительной техники и новые программистские подходы никак не могут помочь реализовать идеи анализа и синтеза, основанные на приоритете выявления только синтаксической структуры с последующим переходом к смыслу.

За рубежом эксплуатируется целый ряд систем машинного перевода. Наиболее известной из их числа является система Systran, разработанная и поддерживаемая компанией Systran Software Inc, используемая службой машинного перевода при комиссии Европейского союза.

Появилась возможность воспользоваться услугами автоматических переводчиков непосредственно в Сети: www.alphaworks.ibm.com/ aw.nsf/html/mt; www.freetranslation.com; www.transtlate.ru; www.logomedia.net/text.asp; www.foreignword.com/Tools/transnow.htm; babelfish.altavista.com/translate.dyn; infinit.reverso.net/traduire.asp; www.t-mail.com .

С начала 1990-х годов на рынок систем ПК выходят отечественные разработчики.

В июле 1990 года на выставке PC Forum в Москве была представлена первая в России коммерческая система машинного перевода под названием PROMT (PROgrammer’s Machine Translation). В 1991 г. было создано ЗАО «ПРОект МТ», и уже в 1992 г. компания «ПРОМТ» выиграла конкурс NASA на поставку систем МП (ПРОМТ была единственной неамериканской фирмой на этом конкурсе).

Несмотря на такую долгую историю, фактически всеми системами осуществляется перевод только на уровне поверхностного синтаксиса, поскольку еще не разработаны (по всей видимости) эффективные модели формального представления смысла, носителем которого должен выступать язык-посредник – интерлингва, хотя для отдельных узких отраслей такие модели строятся (например, METEO и LingoWare). Специалисты связывают построение адекватных систем МП с развитием искусственного интеллекта: машина сможет переводить с одного языка на другой, когда научится думать, как человек.

Другой путь совершенствования МП, более доступный на современном этапе, – составить корпус соответствий на двух языках. Можно предположить, что такие работы ведутся, и многими разными командами, но их действия не скоординированы, и потому результат слишком мал.

Критики современных систем МП полагают, что установка на жанровую ограниченность (научить машину сначала понимать совсем простые, специально отобранные тексты) на практике привела к тому, что задача моделирования естественного языка фактически уступила место задаче моделирования ограниченных (и крайне примитивных) подъязыков отдельных отраслей знания. При этом наилучшего результата на этом пути, как известно, достигла канадская система TAUM-METEO, отлично выполняющая задачу англо-французского перевода сводок погоды. Простейшим видом систем такого рода являются автоматические разговорники для туристов, предлагающие пользователю более или менее разнообразные «меню» стандартных вопросов и ответов на двух или нескольких языках.

Существующий в настоящее время «словоцентрический» подход (когда машина выбирает и переводит главным образом отдельные слова) объясняется тем, что выделяется то, что легко выделить (слова разделены пробелами), и, соответственно, это переводится. Однако человек (в том числе тот, который занимается переводом) имеет дело с текстом, когда отдельное предложение приобретает смысл как часть более широкого контекста: соседние предложения определяют и объясняют многие невыраженные или неоднозначные элементы каждого отдельного высказывания. На настоящем же этапе часто самыми удобными для понимания оказываются такие системы МП, которые выполняют перевод пословно: фраза корявая, но видно, как она получилась, и, если есть поддержка в виде знания исходного языка, легко догадаться, что же было в оригинале, и увидеть, какие слова переведены неверно. Те системы, которые переводят текст пословно, зачастую оказываются удобнее: видно, откуда фраза взялась. Если хотя бы поверхностно знать язык оригинала, можно понять, что же было в первоначальном варианте, и какие слова переведены неверно. Системы МП, которые обрабатывают фразу синтаксически, избегая «корявости», часто выдают гладкие, но совершенно невразумительные переводы.

Современное состояние машинного перевода на основе “Яндекс.Перевод”

Сам Яндекс.Перевод вышел из беты несколько месяцев назад. От других немногочисленных подобных сервисов его отличает автословарь, уникальная технология которого разработана командой лингвистов и программистов Яндекса. Во время его разработки удалось объединить современные статистические подходы машинного перевода и традиционные лингвистические инструменты.

Чтобы понять, насколько значимым шагом в развитии машинного перевода является появление автословаря, стоит вспомнить, что 20 лет назад были распространены синтаксические переводчики, для которых таблицы соответствия фраз на разных языках составляли вручную. Процесс их создания стал меняться только в конце 1990-х, когда появились первые статистические переводчики. Для обучения их моделям переводов стали использовать параллельные тексты. Документы, в которых одно и то же написано на разных языках, извлекали, например, из дипломатической документации. Большой базой параллельных текстов стали документы ООН. Но на подобной лексике создать общелексический переводчик не получилось, потому что даже неформальные тексты он переводил сухим дипломатическим языком.

Решением проблемы обучения универсальной модели перевода стало использование параллельных документов, извлечённых из индексов поисковых машин. И это не только мультиязычные сайты, которые изначально были созданы на нескольких языках. К примеру, в интернете появился документ с текстом о каком-то событии. Для него создаётся своеобразный «паспорт» с характерными (контрастными) словами, который потом сравнивается с паспортами других документов, и при их совпадении делается вывод, что это текст об одном и том же, но на разных языках. Этот процесс требует значительных вычислительных ресурсов, потому что приходится обрабатывать миллиарды веб-документов.

Естественно, не все предложения в таких текстах будут последовательными переводами друг друга. Чтобы составить таблицы соответствия слов и фраз со всеми возможными переводами, нужно сделать специальное выравнивание и выкинуть те, которые случайно туда попали. В итоге получается, что, например, каждому русскому слову соответствует 20–30 английских.

Практически весь вышеописанный процесс основывается на статистических методах и теории вероятностей. Автоматический переводчик знает величину вероятности каждого перевода и на её основе быстро делает свой выбор по языковой модели из десятков вариантов, а иногда и сотен.

Кажется, что для точности перевода и учёта стилистики текста, нужно всего лишь показывать варианты переводов человеку и он подберёт наиболее подходящее по контексту и стилю слово. Но это статистические фрагменты текста, которые сами по себе могут не нести для простого пользователя никакого смысла. Как минимум, потому что он может увидеть тысячи вариантов для одного слова, что ему никак не поможет. Особенно, если человек не очень хорошо знает язык, на который переводит.

Автословарь решает проблему выбора, выбирая только самые подходящие переводы и показывая их в читабельной для простого пользователя форме. Для этого наша команда специалистов провела сложную и ресурсоёмкую работу. Во-первых, мы сделали так, что автословарь показывает словарную форму слова. Во-вторых, научили выявлять из всего набора фраз действительно устойчивые словосочетания, которые человек может потом сформулировать.

В составлении автоматического словаря есть и другие трудности. Например, когда пользователь запрашивает перевод слова без контекста, то для группировки вариантов на другом языке приходится выводить все его значения. И зачастую на языке, который ему незнаком. Чтобы помочь человеку сориентироваться среди вариантов переводов, нужно не просто показать все главные значения слова, но и сделать группировку по их смысловым значениям.

Для этого используется словарь синонимов, который тоже строится на основе статистических данных, накопленных нами в процессе построения модели перевода. Благодаря тому, что в Яндекс.Переводе есть оба направления перевода, мы знаем, что разные слова одного языка часто переводят в одно и то же слово другого языка. Это позволяет предположить, что они являются синонимами. Таким образом, мы автоматически формируем группы переводов, каждая из которых имеет свое смысловое значение.

В результате пользователю Яндекс.Перевода не нужно дополнительно смотреть статьи из обычных словарей, чтобы подобрать более точный перевод. Автословарь покажет ему автоматически сформированную статью, в которой даже будут примеры употребления слова. К тому же, основанный на статистике словоупотребления в интернете, автоматический словарь быстрее обновляется. Благодаря всему этому, переводы, выполненные с помощью машинного переводчика Яндекса, будут гораздо качественнее.

Машинный перевод, как живой организм, с каждым годом развивается. Разработчики находят различные алгоритмы и решения, которые позволяют максимально приблизить машинный перевод к переводу человека. И если посмотреть глубоко в историю, то можно легко заметить как МП развивался и эволюционировал.

Но даже в наши дни нельзя сказать, что машинный перевод может полностью заменить человека, но он может существенно облегчить ему процесс перевода. И грамотное использование различных программных средств снижает временные затраты и экономит умственные силы.

Сейчас человек может выбирать переводчики для своих нужд из многочисленного числа программных средств и сопоставить их. Это позволяет делать перевод более точным и целым.

    Вид работы:

    Отчет по практике по теме: Машинный перевод.Система машинного перевода PROMT

    21.03.2012 10:20:09

    Тип файлов:

    Проверка на вирусы:

    Проверено - Антивирус Касперского

  • Полный текст:


    Введение…………………………………………………………………………..2

    Глава I. Машинный перевод

    История машинного перевода………………………………………….…4

    Как осуществляется машинный перевод………………………………..10

    Системы машинного перевода и их классификация…………...............13

    Качество машинного перевода…………………………………………..18

    Глава II. Система машинного перевода PROMT

    2.1 Возможности машинного переводчика семейства PROMT…………...22

    2.2 Сравнительный анализ переводов художественного текста сделанный системой машинного перевода и человеком…………………………...…26

    Заключение………………………………………………………………….….30

    Библиография…………………………………………………………………..31

    Введение


    Перевод (вид языкового посредничества, при котором содержание иностранного текста оригинала передается на другой язык путем создания на этом языке коммуникативно равноценного текста.(№ 7)) имеет долгую историю, он восходит к временам когда праязык начал распадаться на отдельные языки и возникла необходимость в людях, способных быть посредниками при общении представителей разных языковых общин.

    Коммуникативная равноценность понимается как способность переведенного текста выступать в качестве полноправной замены исходного текста.(№ 7).

    Коммуникативная эквивалентность нового текста по отношению к исходному обеспечивается следующим:

    · передача содержания оригинала в полном объёме;

    · соответствие текста перевода тексту оригинала по нормам языка перевода;

    · текст перевода должен соответствовать оригиналу с точки зрения лаконичности и развернутости высказываний для достижения схожего стилистического эффекта. Также перевод должен быть примерно сопоставим по объёму.

    Актуальность данной проблемы обусловлена тем, что история развития и внедрения в повседневную жизнь персональных компьютеров (способных осуществлять автоматический перевод) насчитывает не более пятнадцати – двадцати лет. Сегодня программы переводчики умеют строить осмысленные фразы и простые предложения, за последние несколько лет качество перевода улучшилось.

    Объектом исследования является система машинного перевода.

    Предметом исследования является перевод осуществлённый системой PROMT XT.

    Однако данные компьютерные программы еще недостаточно хорошо разбираются в грамматике, жаргонных выражениях, стилистических приемах и многих других казалось бы мелочах, но именно из них, складывается красивый, понятный перевод. В современном мире компьютеры занимают значительное место и в среде переводчиков, лингвистов и специалистов нуждающихся в оперативном переводе иноязычной информации.

    Развитие кибернетики сделало возможным машинный перевод, т.е. выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке а также результат такого действия. В настоящее время главные области применения машинного перевода это перевод Интернет – страничек, руководств к технике, электронных писем. При этом достигается лишь общее понимание текста. Другое применение этих систем – облегчение труда профессиональных переводчиков, уменьшение затрат времени на подстрочный перевод, который можно впоследствии редактировать.

    Цель данной работы – определение того насколько можно использовать современные программы для осуществления перевода, а также какова их эффективность.

    В соответствии с поставленной целью, задачами исследования являются:

    · Уяснение последовательности формальных операций, обеспечивающий анализ и синтез в системе машинного перевода (перевод);

    · Анализ работы систем машинного перевода на примере перевода произведенного программой PROMT XT;

    · Сравнение образцов перевода с переводом, сделанным человеком. Анализ причин несоответствия.

    В работе также будет обозначена история развития машинного перевода, как в нашей стране так и за рубежом. Рассмотрена алгоритм осуществления машинного перевода, классификация систем машинного перевода, проблема качества перевода.


    Глава I. Машинный перевод.

    1.1 История машинного перевода

    Впервые идею использования механизмов для перевода с одного языка на другой предложили Лейбниц и Декарт. Они предприняли попытку создать словарь, основанный на числовых кодах. Еще издавна существовали идеи о языке, понятном всем, построенном исключительно на логике, использующем символы – пиктограммы. Самой известной разработкой в этой области стала «interlingua» Джона Вилкинса. Гораздо позже были созданы еще несколько искусственных языков, наиболее известный из которых – эсперанто Льва Знаменгофа. По свидетельству биографов, знаменитый математик Чарльз Бэббидж, пытаясь убедить британское правительство финансировать его разработку «аналитической машины», обещал, что в недалеком будущем его машина кроме всего прочего сможет переводить разговорную речь. Но машина так и не была построена.

    В 1933 году было выдано два патента на механическую систему перевода – в России и во Франции. Французский армянин Жорж Арсуни изобрел схему устройства на бумажной ленте для перевода произвольного слова на другой язык и в 1937г. продемонстрировал прототип системы. В России патент достался Петру Смирнову – Троянскому, который изобрел своеобразный лингвистический арифмометр. Он выделял три стадии механического перевода: на первой стадии человек, знающий входной язык, представлял слова и предложения в «основной» форме и расставлял синтаксические функции слов. На второй стадии машина переводила эти формы и функции на выходной язык, а затем, на третьей стадии, полученный текст редактировал носитель выходного языка. Смирнов – Троянский считал, что по крайней мере вторая стадия может быть автоматизирована.(№ 15)

    История машинного перевода как научно-прикладного направления началась в конце 40-х годов прошлого века. В марте 1947 г. Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда, в переписке с Эдрю Бутом и Норбертом Винером впервые сформулировал концепцию машинного перевода, которую несколько позже (в 1949 г.) развил в своем меморандуме, адресованном Фонду. У.Уивер писал: "I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text."" ("У меня перед глазами текст, написанный по-русски, но я собираюсь сделать вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Все что мне нужно - это взломать код чтобы извлечь информацию, заключенную в тексте."). Аналогия между переводом и дешифрованием была естественной в контексте послевоенной эпохи, если учитывать успехи, которых достигла криптография в годы Второй мировой войны.

    · исследование чисто внешних характеристик сообщения, та­ких как частота отдельных элементов и сочетаний элементов;

    · исследование дистрибуции элементов, составляющих текст;

    · анализ билингв с целью выявления совпадающих элемен­тов и использования некоторых ключевых элементов (собствен­ных имен и пр.) с учетом статистических и дистрибутивных характеристик;

    · нахождение ключа и применение его ко всей последова­тельности закодированных сообщений.(№ 11)


    Примерно в то же время Клод Шеннон сформулировал теорию информации, а Норберт Винер изложил концептуальные основы кибернетики. И вскоре на исследования были выделены деньги, а машинный перевод стал самостоятельным научным направлением, рожденным на стыке математики и программирования.

    Идеи Уивера легли в основу подхода к МП, основанного на концепции interlingua: стадия передачи информации разделена на два этапа; на первом этапе исходноепредложение переводится на язык-посредник (созданный на базе упрощенного английского языка), а затем результат этого перевода представляется средствами выходного языка. Меморандум Уивера вызвал самый живой интерес к проблеме МП. В 1948 г. А. Бут и Ричард Риченс произвели некоторые предварительные эксперименты (так, Риченс разработал правила разбиения словоформ на основы и окончания).

    В те годы компьютеры довольно сильно отличались от современных. Это были очень большие и дорогие машины, которые занимали целые комнаты и требовали для своего обслуживания большой штат инженеров, операторов и программистов. В основном эти компьютеры использовались для осуществления математических расчетов для нужд военных учреждений, а также математических и физических факультетов университетов. Поэтому на ранних этапах разработка систем МП активно поддерживалась военными, при этом в США основное внимание уделялось русско-английскому направлению, а в СССР - англо-русскому. В 1952 состоялась первая конференция по машинному переводу, организованная логиком и математиком Й.Бар-Хиллелом. Помимо очевидных практических нужд важную роль в становлении машинного перевода сыграло то обстоятельство, что предложенный в 1950 английским математиком А.Тьюрингом знаменитый тест на разумность («тест Тьюринга») фактически заменил вопрос о том, может ли машина мыслить, на вопрос о том, может ли машина общаться с человеком на естественном языке таким образом, что тот не в состоянии будет отличить ее от собеседника-человека. Тем самым вопросы компьютерной обработки естественно-языковых сообщений на десятилетия оказались в центре исследований по кибернетике (а впоследствии по искусственному интеллекту), а между математиками, программистами и инженерами-компьютерщиками, с одной стороны, и лингвистами – с другой установилось продуктивное сотрудничество.

    Фактически история машинного перевода начинается с "Джорджтаунского эксперимента". фирма IBM совместно с Джорджтаунским университетом (США) успешно осуществили первый эксперимент (вошедший в историю под названием Джорджтаунского), в ходе которого система, использовавшая словарь из 250 слов и грамматику из 6 синтаксических правил, осуществила перевод 49 заранее отобранных предложений. В том же 1954 первый эксперимент по машинному переводу был осуществлен в СССР И.К.Бельской (лингвистическая часть) и Д.Ю.Пановым (программная часть) в Институте точной механики и вычислительной техники Академии наук СССР, а первый промышленно пригодный алгоритм машинного перевода и система машинного перевода с английского языка на русский на универсальной вычислительной машине были разработаны коллективом под руководством Ю.А.Моторина. После этого работы начались во многих информационных институтах, научных и учебных организациях страны. Идея машинного перевода стимулировала развитие исследований в теоретическом и прикладном языкознании во всем мире. Появились теории формальных грамматик, большое внимание стало уделяться моделированию языка и отдельных его аспектов, языковой и мыслительной деятельности, вопросам языковой формы и количественных распределений лингвистических явлений. Возникли новые направления лингвистической науки – вычислительная, математическая, инженерная, статистическая, алгоритмическая лингвистика и ряд других отраслей прикладного и теоретического языкознания. В течение 1950-х годов в учебных центрах многих стран мира были открыты отделения прикладной лингвистики и машинного перевода. Исследования и разработки по машинному переводу развернулись также во Франции, Англии, США, Канаде, Италии, Германии, Японии, Нидерландах, Болгарии, Венгрии и других странах, а также в международных организациях, где велик объем переводов с различных языков.

    Первое поколение систем машинного перевода базировалось на алгоритмах последовательного перевода "слово за словом", "фраза за фразой". Возможности таких систем определялись доступными размерами словарей, прямо зависящими от объема памяти компьютера. Перевод текста осуществлялся отдельными предложениями, смысловые связи между ними никак не учитывались. Такие системы называют системами прямого перевода. На смену им со временем пришли системы последующих поколений, в которых перевод от языка к языку осуществлялся на уровне синтаксических структур. В алгоритмах перевода использовался набор операций, позволяющий путем анализа переводимого предложения построить его синтаксическую структуру по правилам грамматики языка входного предложения, а затем преобразовать ее в синтаксическую структуру выходного предложения и синтезировать выходное предложение, подставляя нужные слова из словаря. Такие системы называются Т-системами (Т - от английского слова "transfer - преобразование").

    Наиболее совершенным считается подход к построению систем машинного перевода на основе получения некоторого, независимого от языков, смыслового представления входного предложения путем его семантического анализа. Затем производится синтез выходного предложения по полученному смысловому представлению. Такие системы называют И-системами (И - от слова "интерлингва"). Считается, что следующие поколения систем машинного перевода будут относиться к классу И-систем.

    В 50-х годах целый ряд исследовательских групп в США и в Европе работали в области МП. В эти исследования были вложены значительные средства, однако результаты очень скоро разочаровали инвесторов. Одной из главных причин невысокого качества МП в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня. Другой причиной было отсутствие теоретической базы, необходимой для решения лингвистических проблем, в результате чего первые системы МП сводились к пословному (word-to-word) переводу текстов без какой-либо синтаксической (а тем более смысловой) целостности.

    Оказалось, что традиционная лингвистика не располагает ни фактическим материалом, ни идеями и представлениями, нужными для построения систем машинного перевода, которые использовали бы смысл переводимого текста.

    Традиционная лингвистика не могла дать исходные представления не только в части семантики, но и в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозаменяемости, не были разработаны правила построения крупных единиц синтаксической структуры из более мелких. В сущности ни на один вопрос, поставленный в связи с построением систем машинного перевода, традиционная лингвистика в 50-х годах не могла дать ответа.

    Потребность в создании теоретических основ машинного перевода привела к формированию нового направления в лингвистике, называемого структурной, прикладной, математической лингвистикой.

    В 1959г. философ, математик, логик Бар-Хиллел выступил с утверждением, что высококачественный полностью автоматический МП (FAHQMT) не может быть достигнут в принципе. В качестве примера он привел проблему нахождения правильного перевода для слова pen в следующем контексте: John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy. (Джон искал свою игрушечную коробку. Наконец он ее нашел. Коробка была в манеже. Джон был очень счастлив.). Pen в данном случае должно переводиться не как "ручка" (инструмент для письма), а как "детский манеж" (play-pen). Выбор того или иного перевода в этом случае и в ряде других обусловлен знанием внеязыковой действительности, а это знание слишком обширно и разнообразно, чтобы вводить его в компьютер. Однако Бар-Хиллел не отрицал идею МП как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода "человеко-машинный симбиоз").

    Это выступление самым неблагоприятным образом отразилось на развитии МП в США. В 1966 г. специально создананная Национальной Академией наук комиссия ALPAC (Automatic Language Processing Advisory Committee), основываясь в том числе и на выводах Бар-Хиллела, пришла к заключению, что машинный перевод нерентабелен: соотношение стоимости и качества МП было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов. За докладом ALPAC последовало сокращение финансирования исследований в области МП со стороны правительства США - и это несмотря на то, что в то время как минимум три различные системы МП регулярно использовались рядом военных и научных организаций.

    Следующие десять лет (60 – е) разработка систем МП осуществлялась в США университетом Brigham Young University в Прово, штат Юта (ранние коммерческие системы WEIDNER и ALPS) и финансировалась Мормонской церковью, заинтересованной в переводе Библии; в Канаде группами исследователей, в числе которых TAUM в Монреале с ее системой METEO; в Европе - группами GENA (Гренобль) и SUSY (Саарбрюкен). Особого упоминания заслуживают работа в этой области отечественных лингвистов, таких, как И.А.Мельчук и Ю.Д.Апресян (Москва), результатом которой стал лингвистический процессор ЭТАП. В 1960 г. в составе Научно-исследовательского института математики и механики в Ленинграде была организована экспериментальная лаборатория машинного перевода, преобразованная затем в лабораторию математической лингвистики Ленинградского государственного университета.

    С развитием вычислительной техники в конце 70-х годов (появление микрокомпьютеров, развитие сетей, увеличение ресурсов памяти) машинный перевод вошел в новую колею. При этом несколько сместились акценты: исследователи теперь ставили целью развитие "реалистических" систем МП, предполагавших участие человека на различных стадиях процесса перевода.

    Новый подъем исследований в области МП начался в 1970-х годах и был связан с серьезными достижениями в области компьютерного моделирования интеллектуальной деятельности. Соответствующая область исследований, возникшая несколько позже МП, получила название искусственного интеллекта , а создание систем машинного перевода было осмыслено в 1970-е годы как одна из частных задач этого нового исследовательского направления.

    Можно выделить два основных стимула к развитию работ по машинному переводу в современном мире. Первый – собственно научный; он определяется комплексностью и сложностью компьютерного моделирования перевода. Как вид языковой деятельности перевод затрагивает все уровни языка – от распознавания графем (и фонем при переводе устной речи) до передачи смысла высказывания и текста. Кроме того, для перевода характерна обратная связь и возможность сразу проверить теоретическую гипотезу об устройстве тех или иных языковых уровней и эффективности предлагаемых алгоритмов. Эта характеристическая черта перевода вообще и машинного перевода в частности привлекает внимание теоретиков, в результате чего продолжают возникать все новые теории автоматизации перевода и формализации языковых данных и процессов.

    Второй стимул – социальный, и обусловлен он возрастающей ролью самой практики перевода в современном мире как необходимого условия обеспечения межъязыковой коммуникации, объем которой возрастает с каждым годом. Другие способы преодоления языковых барьеров на пути коммуникации – разработка или принятие единого языка, а также изучение иностранных языков – не могут сравниться с переводом по эффективности. С этой точки зрения можно утверждать, что альтернативы переводу нет, так что разработка качественных и высокопроизводительных систем машинного перевода способствует разрешению важнейших социально-коммуникативных задач.

    За период 1978-93 в США на исследования в области МП истрачено 20 миллионов долларов, в Европе - 70 миллионов, в Японии - 200 миллионов.

    Одной из новых разработок стала технология TM (translation memory), работающая по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных; если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой. В настоящее время разработчиком известной коммерческой системы, основанной на технологии TM, является система TRADOS (основана в 1984 г.).

    В СССР в качестве головной организации по машинному переводу был в 1974 определен Всесоюзный центр переводов научно-технической литературы и документации (ВЦП), взявший на себя координацию работ в масштабе страны. Под его эгидой был проведен ряд крупных международных научных конференций по машинному переводу и проблемам научно-технического перевода. В ВЦП были созданы промышленные системы машинного перевода с английского языка на русский АМПАР (на основе исследований и разработок коллектива Ю.А.Моторина), с немецкого языка на русский НЕРПА, с французского языка на русский ФРАП, автоматические терминологические словари в помощь человеку-переводчику. Система АМПАР длительное время находилась в промышленной эксплуатации; впоследствии на ее базе были созданы более эффективные системы МП для персональных компьютеров семейства СПРИНТ. В ВПЦ была также разработана система МП с русского языка на английский АСПЕРА. Большой вклад в разработку промышленных систем МП был сделан ленинградской общесоюзной группой «Статистика речи» под руководством Р.Г.Пиотровского, а также группами специалистов по компьютерной лингвистике в Минске (А.В.Зубов), Кишиневе (В.А.Чижаковский), Махачкале (А.И.Чапля), Чимкенте (К.Б.Бектаев), Самарканде (Х.А.Арзикулов) и др. На базе исследований и научно-практического подхода группы «Статистика речи» были впоследствии разработаны и сейчас находятся в коммерческом использовании такие системы машинного перевода, как Stylus, Socrat и другие.

    Первые коммерческие продукты машинного перевода, нашедшие практическое использование, появились в середине 80-х годов.

    В настоящее время в Российской Федерации продолжаются в незначительных масштабах некоторые работы по системам МП, основанным на подходе «текст-смысл-текст», не всегда явно проговариваемым лозунгом которого в момент обоснования этого подхода в 1960-х годов был «машинный перевод без перевода, без машин, без алгоритмов» (см. обзор работ этого направления, принадлежащий Л.Н.Беляевой и М.И.Откупщиковой). Идея подхода заключалась в том, что от лингвиста требуется только декларативное описание фактов языка (т.е. лингвистическая теория, претендующая, правда, на особую точность и формализованность), а алгоритмы перевода составят программист и математик. В рамках этих исследований были получены значительные теоретико-лингвистические результаты (в частности, создана теория так называемых лексических функций, нашедшая применение в лексикографии), однако для создания практических систем подобного рода подход оказался недостаточно эффективным. Неизмеримо выросшие за последние десятилетия возможности вычислительной техники и новые программистские подходы никак не могут помочь реализовать идеи анализа и синтеза, основанные на приоритете выявления только синтаксической структуры с последующим переходом к смыслу. Выявление содержания текста в рамках человеко-машинного интерфейса может производиться, как и во всякой прикладной задаче, только с использованием как декларативных, так и процедурных знаний и при значительной опоре на лексику. Эта точка зрения обоснована, в частности, в недавних работах отечественного специалиста по программированию и искусственному интеллекту А.С.Нариньяни.

    1.2 Как осуществляется машинный перевод.


    Системы МП осуществляют автоматизированный перевод текста. Единицами перевода при этом служат слова или словосочетания, причем последние разработки позволяют учитывать морфологию переводимого слова. Развитые системы МП осуществляют перевод по заданным разработчиком и/или корректируемым пользователем алгоритмам перевода. Для осуществления машинного перевода в компьютер вводится специальная программа, реализующая алгоритм перевода, под которым понимается последовательность однозначно и строго определенных действий над текстом для нахождения переводных соответствий в данной паре языков А1 – А2 при заданном направлении перевода (с одного конкретного языка на другой). Система машинного перевода включает в себя двуязычные словари, снабженные необходимой грамматической информацией (морфологической, синтаксической и семантической) для обеспечения передачи эквивалентных, вариантных и трансформационных переводных соответствий, а также алгоритмические средства грамматического анализа, реализующие какую-либо из принятых для автоматической переработки текста формальных грамматик. Имеются также отдельные системы машинного перевода, рассчитанные на перевод в рамках трех и более языков, но они в настоящее время являются экспериментальными. Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода: 1. На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например винительного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы. 2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа that is why, in the form of получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, синтаксических функций словоформ в данном тексте), производимое в рамках входного языка; разрешение омографии (конверсионной омонимии словоформ – скажем, англ. why может быть существительным, междометием, наречием); лексический анализ и перевод лексем. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения.

    3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, несмотря на то, что в оригинале может быть и единственное число. Но в то же время "Русское" слово «порося» оказывается возвратным глаголом со значением су­ществительного". Как бы ни анализировать русское слово «порося», с лингвистической точки зрения оно абсолютно не сопоставимо с возвратными глаголами на -ся . Лингвистическая членимость сло­ва и членимость слова, "удобная" для машины, не имеют между собой ничего общего. (№ 4))

    4. Синтез выходных словоформ и предложения в целом на выходном языке. В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей.

    Действующие системы машинного перевода ориентированы на конкретные пары языков (например, французский и русский или японский и английский) и используют, как правило, переводные соответствия либо на поверхностном уровне, либо на некотором промежуточном уровне между входным и выходным языком. Качество машинного перевода зависит от объема словаря, объема информации, приписываемой лексическим единицам, от тщательности составления и проверки работы алгоритмов анализа и синтеза, от эффективности программного обеспечения. Любой достаточно хороший словарь фиксирует не только слова, но и часто встречающиеся сочетания слов, т.е. микро­контекст соответствующих единиц. Например, при слове «настоящий» может быть дано сочетание «в настоящее время» - gegenwartig, actuellement, при слове «опыт» - сочета­ние: «проводить опыт» - Experiment, durchfiihren и сочетание «опыт по» - Experiment mit (experiences sur, essais de).

    Одновременно в хорошем словаре указываются сочетания «почтовый перевод», «денежный перевод» - нем. Post­"s anweisung, фр. mandat poste, и поскольку это сочетание нам не встретилось, то соответствующие переводы будут исключены. (№ 18)

    Современные аппаратные и программные средства допускают использование словарей большого объема, содержащих подробную грамматическую информацию. Информация может быть представлена как в декларативной (описательной), так и в процедурной (учитывающей потребности алгоритма) форме.

    Современный машинный перевод следует отличать от использования компьютеров в помощь человеку-переводчику. В последнем случае имеется в виду автоматический словарь, помогающий человеку быстрее подбирать нужный переводной эквивалент. Хотя и в том, и в другом случае компьютер работает вместе с человеком (переводчиком или редактором). В содержание термина «машинный перевод» входит представление о том, что главную, большую часть работы по переводу и отысканию переводных эквивалентов и переводных соответствий машина берет на себя, оставляя человеку лишь контроль и исправление ошибок, в то время как компьютерный словарь в помощь человеку – это чисто вспомогательное средство для быстрого нахождения переводных соответствий; при этом, однако, в такого рода словарях в ограниченной степени могут быть реализованы и некоторые функции, присущие системам машинного перевода.

    В практике переводческой деятельности и в информационной технологии различаются два основных подхода к машинному переводу. С одной стороны, результаты машинного перевода могут быть использованы для поверхностного ознакомления с содержанием документа на незнакомом языке. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования. Другой подход предполагает использование машинного перевода вместо обычного «человеческого». Это предполагает тщательное редактирование и настройку системы перевода на определенную предметную область. Здесь играют роль полнота словаря, ориентированность его на содержание и набор языковых средств переводимых текстов, эффективность способов разрешения лексической многозначности, результативность работы алгоритмов извлечения грамматической информации, нахождения переводных соответствий и алгоритмов синтеза. На практике перевод такого типа становится экономически выгодным, если объем переводимых текстов достаточно велик (не менее нескольких десятков тысяч страниц в год), если тексты достаточно однородны, словари системы полны и допускают дальнейшее расширение, а программное обеспечение удобно для постредактирования. Такого рода системы машинного перевода используются в организациях, потребности которых в оперативных и качественных переводах достаточно велики.

    1.3 Системы машинного перевода и их классификация.

    В 1990 году Лари Чайлдс, специалист по машинному переводу, предложил следующую классификацию систем МП по принципу независимости машины от действий человека, ставшую сейчас общепринятой:

    · FAMT (Fully – automated machine translation) – полностью автоматизированный машинный перевод;

    · HAMT (Human – assisted machine translation) – машинный перевод при участии человека;

    · MAHT (Machine – assisted human translation) – перевод, осуществляемый человеком с использованием компьютера.

    Программы машинного перевода первой из названных категорий являются делом далекого будущего, поскольку даже в общем виде не решены проблемы автоматического понимания, перевода и синтеза текстов. Основной проблемой является сложность языка как такового. Возьмем, к примеру, значения слова английского "can". Помимо основного значения модального вспомогательного глагола, у слова "can" имеется несколько официальных и жаргонных значений в качестве существительного: "банка", “бидон”, “прекратить”, “перестать”,“колпак дымовой трубы”, "тюрьма". Кроме этого, существует архаичное значение этого слова - "знать или понимать". Если предположить, что у выходного языка для каждого из этих значений имеется отдельное слово, каким образом может компьютер их различить?

    Как оказалось, определенные успехи были достигнуты в сфере разработки программ перевода, различающих смысл основываясь на контексте. Более поздние исследования при анализе текстов опираются больше на теории вероятности. Но тем не менее сегодня все «коробочные» продукты – переводчики, и онлайновые службы построены только по схеме FAMT.(№ 8,15)
    Программы второй категории разработчики называют МТ-программы (от Machine translation - машинный перевод). Реально автоматизированный (с участием человека) машинный перевод возможен только в условиях искусственно ограниченного, как по словарному запасу, так и по грамматике, языка. Говоря о машинном переводе при участии человека, обычно подразумевают редактирование текстов как до, так и после их обработки компьютером. Люди-переводчики изменяют тексты так, чтобы они были понятны машинам. После того, как компьютер сделал перевод, люди опять-таки редактируют грубый машинный перевод, делая текст на выходном языке правильным. Помимо такого порядка работы, существуют системы МП, во время перевода требующие постоянного присутствия человека-переводчика, помогающего компьютеру делать перевод особенно сложных или неоднозначных конструкций. Машинный перевод с помощью человека применим в большей степени к текстам с ограниченным вокабуляром узко-ограниченной тематики. Экономичность использования машинного перевода с помощью человека - вопрос все еще спорный. Сами программы обычно достаточно дорогостоящи, а для работы некоторых из них требуется специальное оборудование. Предварительному и последующему редактированию необходимо обучаться. Создание и поддержание в рабочем состоянии баз данных слов - процесс трудоемкий и зачастую требует специальных навыков.

    В качестве реального успешного проекта МТ-программы всегда называют немецкую систему Meteo, выполняющую перевод метеопрогнозов с французского языка на английский и обратно.

    К МТ-программам относятся и продукты машинного перевода фирмы ПРОМТ.

    Программы третьей категории разработчики называют ТМ-программы (от translation memory - память перевода). Перевод, осуществляемый человеком с использованием компьютера. При этом подходе человек-переводчик ставится в центр процесса перевода, в то время как программа компьютера расценивается в качестве инструмента, делающего процесс перевода более эффективным, а перевод - точным. Вот список наиболее известных систем ТМ: - Transit швейцарской фирмы Star, - Trados (США), - Translation Manager от IBM, - Eurolang Optimizer французской фирмы LANT, - DejaVu от ATRIL (США), - WordFisher (Венгрия). Системы ТМ позволяют исключить повторный перевод идентичных фрагментов текста. Перевод сегмента осуществляется переводчиком только один раз, а затем каждый следующий сегмент проверяется на совпадение (полное или нечеткое) с базой данных, и, если найден идентичный или похожий сегмент, то он предлагается в качестве варианта перевода. Несмотря на широкий ассортимент систем TM, они имеют несколько общих функций: - Функция сопоставления (Alignment). Одно из преимуществ систем ТМ – это возможность использования уже переведенных материалов по данной тематике. База данных ТМ может быть получена путем посегментного сопоставления файлов оригинала и перевода. - Наличие фильтров импорта – экспорта. Это свойство обеспечивает совместимость систем ТМ с множеством текстовых процессоров и издательских систем и дает переводчику относительную независимость от заказчика. - Механизм поиска нечетких или полных совпадений. Именно этот механизм и представляет собой основное достоинство систем ТМ. Если при переводе текста система встречает сегмент, идентичный или близкий к переведенному ранее, то уже переведенный сегмент предлагается переводчику как вариант перевода текущего сегмента, который может быть подкорректирован. Степень нечеткого совпадения задается пользователем. - Поддержка тематических словарей. Эта функция помогает переводчику придерживаться глоссария. Как правило, если в переводимом сегменте встречается слово или словосочетание из тематического словаря, то оно выделяется цветом и предлагается его перевод, который можно вставить в переводимый текст автоматически. - Средства поиска фрагментов текста. Этот инструмент очень удобен при редактировании перевода. Если в процессе работы был найден более удачный вариант перевода какого-либо фрагмента текста, то этот фрагмент может быть найден во всех сегментах ТМ, после чего в сегменты ТМ последовательно вносятся необходимые изменения. Конечно, как и любой программный продукт, системы ТМ имеют свои достоинства и недостатки, и свою область применения. Однако в отношении систем TM, основным недостатком является их дороговизна. Особенно удобно использовать системы ТМ при переводе таких документов, как руководства пользователя, инструкции по эксплуатации, конструкторская и деловая документация, каталоги продукции и другой однотипной документации с большим количеством совпадений.

    Часто ТМ-программы используют в сочетании с МТ-программами. Наиболее популярным в мире ТМ-инструментарием является Translation"s Workbench фирмы Trados (для краткости часто также называемый Trados).

    Есть, однако, впечатление, что ресурсы развития в этом направлении уже практически исчерпаны и без перехода к новым технологиям, радикального улучшения качества пе­ревода достигнуть не удастся. К числу таких новых: техноло­гий относится вовлечение пользователя в процесс перевода, а также:

    · автоматическое определение контекста употребления слова с тем, чтобы выбирать для перевода адекватные словарные значения;

    · использование баз знаний, в которых собрана информация о предметной области;

    · самообучение системы в ходе взаимодействия с пользователем.

    Еще недавно о подобных возможностях на персональном компьютере не могло быть и речи. Сейчас мощности и объема памяти уже вполне достаточно, нет только систем, которые обеспечивали бы хорошее качество перевода.(№ 15)

    Современные коммерческие продукты машинного перевода предлагают отечественные фирмы:

    · "Виста Текнолоджиз" и "Адвентис", образованные в 1991 г. коллективом разработчиков, выделившихся из ВИНИТИ;

    · ПРОМТ, образованная в 1991 г.;

    · "Медиа Лингва".

    Наиболее известной из числа эксплуатируемых за рубежом систем машинного перевода является система SYSTRAN, разработанная и поддерживаемая компанией SYSTRAN Software Inc. и используемая службой машинного перевода при комиссии Европейского союза. Данная служба, объем переводов в которой составляет около 2,5 млн. страниц в год, использует систему SYSTRAN для перевода с английского на немецкий, французский, испанский, греческий и итальянский языки, а также с французского на английский, испанский и итальянский. Достоинства системы:

    · получаемый текст может подвергаться редактированию легко и быстро;

    · имеется возможность переводить большой объем научно-технических материалов;

    · система «многоязычна»;

    · инженерные решения достаточно простые (стандартные ЭВМ).

    Одно из главных достоинств заключается, в том, что при МП обеспечивается соблюдение последовательной, непротиво­речивой терминологии, в то время как в человеческом переводе терминологической лексики часто возникает разнобой. Это достоинство является весьма существенным для научно-технического перевода. Скорость перевода составляет 1 млн. слов в час за время (работы центрального процессора.

    Система обеспечивает правильный перевод диаграмм, гра­фиков и прочих нетекстовых включений. В ЭВМ могут вводить­ся изменения, например, при изменениях стандарта на терми­нологию. Поправки редакторов также постепенно накаплива­ются и вводятся в словарь.

    Лингвистический анализатор СИСТРАНа состоит из следую­щих четырех основных этапов. Первый этап разрешает омографию. Второй исследует предложение справа налево, запоминая при переходе от слова к слову, какие типы синтаксических отно­шений потенциально возможны внутри каждого самостоятель­ного предложения, если учесть типы встретившихся слов. Ис­пользуя набор регистров, в которых содержатся данные о возможных типах синтаксических отношений, этот этап затем устанавливает основные структуры внутри предложения (глагол плюс объект, предлог плюс объект и т. д.). Третий этап, двига­ясь слева направо, уточняет эти отношения, опознавая типы объектов, определительные структуры и пр. Четвертый этап, используя данные, полученные в результа­те работы предшествующих этапов, включая информацию о «границах предложений, типах главных и зависимых предложений, осуществляет анализ в границах этих предложений, определяя подлежащее и сказуемое в каждом из этих предложений.

    Следует отметить, что в некоторых случаях информация мо­жет передаваться от одного предложения к другому. В памяти ЭВМ отведено специальное место для такой информации. Она особенно необходима для перевода местоимений, антецеденты которых могут находиться в другом предложении. Основные задачи, ко­торые выполняются универсальным программным обеспечением СИСТРАНа, следующие:

    · считывание текста;

    · разбивка текста на слова;

    · поиск слов в различных словарях;

    · приписывание словарных кодов словам или словосочета­ниям текста;

    · распределение памяти под анализируемые предложения;

    · контроль за выполнением программ перевода;

    · подготовка перевода к печати, выдаче на микрофиши и пр.

    Программное обеспечение системы позволяет обеспечить скорость перевода в 200 000 -300 000 слов в час. (№ 11)


    90-е годы принесли с собой бурное развитие рынка ПК (от настольных до карманных) и информационных технологий, широкое использование сети Интернет (которая становится все более интернациональной и многоязыкой). Все это сделало возможным, а главное востребованным, дальнейшее развитие систем МП. Появляются новые технологии, основанные на использовании нейронных сетей, концепции коннекционизма, статистических методах.

    Эффективность работы современной системы МП в решающей степени зависит от ее удачной настройки на конкретный подъязык (или микроподъязык) естественного языка, на определенную лексику и ограниченный набор грамматических средств, характерных для текстов данной предметной области, а также на определенные типы документов. Учение о подъязыках с точки зрения машинного перевода было впервые сформулировано Н.Д.Андреевым (Ленинградский университет) в 1967, хотя представления о языковых регистрах, стилях, жанрах письменного текста и т.п. были хорошо известны и в традиционной лингвистике. Подъязык, с точки зрения МП, определяется в первую очередь некоторым исходным набором текстов, в рамках которого определяется входной и выходной словари, степень распространения и характер лексической неоднозначности лексем, характер и распространенность синтаксических конструкций, способы их перевода в данной языковой паре и пр. Большую роль играют параллельные тексты и словари-конкордансы, с помощью которых можно достаточно эффективно изучить и использовать в составлении алгоритмов лексическую сочетаемость и дистрибуцию (распределение) языковых элементов в речи (дискурсе, тексте). Статистические характеристики подъязыков помогают упорядочить структуру соответствующих алгоритмов анализа и синтеза. Выходной словарь, ориентированный на потребности синтеза и передачи основных видов соответствий в конкретной языковой паре, обеспечивает приемлемый выходной текст. В любом из современных видов машинного перевода необходимо участие человека-редактора, удобство работы которого обеспечивается качеством и надежностью соответствующего программного обеспечения.

    Перспективы развития машинного перевода связаны с дальнейшей разработкой и углублением теории и практики перевода, как машинного, так и «человеческого». Для развития теории важны результаты сопоставительного языкознания, общей теории перевода, теории закономерных соответствий, способов представления знаний, оптимизации и совершенствования лингвистических алгоритмов. Новые и более эффективные словари с необходимой словарной информацией, строгие теории терминологизации лексики, теория и практика работы с подъязыками помогут повысить качество перевода лексических единиц. Формальные грамматики, ориентированные на перевод, дадут возможность оптимизировать алгоритмы нахождения переводных соответствий в данной коммуникативной ситуации, которая может быть описана в рамках соответствующих прикладных теорий представления знаний. Наконец, новые возможности программирования и вычислительной техники также будут вносить свой вклад в совершенствование и дальнейшее развитие теории и практики машинного перевода «Машинный перевод все ещё далек от совершенства, но любой желающий с его помощь. Сможет по крайней мере понять основной смысл документа.» (Луи Монье, технологический директор AltaVista.)

    1.4 Качество машинного перевода

    "Теория машинного перевода дает возможность не только кри­тически пересмотреть все важнейшие традиционные понятия грамматики (слова, части речи, члены предложения и т.д.), но и приостановить научные споры, которые велись вокруг этих поня­тий. С позиции, диктуемой машинным переводом, "слово - это то, что ограничено интервалами между буквами", а "предложение - это то, что ограничено определенными знаками препинания".(№ 12)Для машинного перевода с одного языка на другой действительно необходимо теоретическое изучение чисто фор­мальной структуры языка. Машине, которая переводит с одного языка на другой, в известной мере безразлично, что означают те формальные категории, которые она транспонирует с одного языка на другой. (№ 4)

    Так, многие, например, эмоционально окрашенные слова или определенные выражения могут неодинаково восприниматься разными людьми, (не говоря уже о машине) а эти люди представляют собой разные языковые и этнические коллективы (№ 1).В настоящее время качество машинного перевода оставляет желать много лучшего, и само наличие таких систем пока правильнее воспринимать как предмет научных исследований. В большинстве случаев при работе над проектом применение систем МП не оправдано, поскольку: - Системы МП не дают приемлемого качества выходного текста. Более высокого качества можно добиться с помощью предварительной настройки системы, что совершенно неприемлемо при небольших объемах переводимого текста, и/или путем последующего редактирования, а это только замедляет работу, если переводчик использует слепой метод печати. - Системы МП не гарантируют соблюдения единства терминологии, особенно при работе коллектива переводчиков над большим проектом. Вернее, могут гарантировать при условии очень внимательного обращения с пользовательскими словарями, а на это не всегда стоит рассчитывать. Однако в некоторых случаях использование систем МП все же помогает сократить временные затраты. Это происходит, если текст достаточно объемный и содержит однообразную терминологию, что позволяет сравнительно быстро настроить под него систему МП. Тогда редактирование текста не займет слишком много времени. Однако в этом случае следует особенно внимательно отнестись к стилю текста перевода. Машинный перевод формален, поэтому высока вероятность калькирования синтаксических структур языка оригинала, которое характерно для перевода вообще, а потому вполне может быть пропущено при редактировании. Вообще говоря, системы МП вполне могут применяться там, где используется максимально стандартизованный язык с простой грамматикой и сравнительно небольшим запасом слов. Довольно успешным проектом системы МП считается немецкая программа Meteo, выполняющая перевод метеопрогнозов с французского языка на английский и обратно. Для облегчения работы переводчиков и технических писателей компанией Boeing в свое время был разработан стандарт языка для написания технической документации, который известен как Boeing English.

    С филологической точки зрения перевод есть авторская опе­рация, которую человек-переводчик производит над текстом. Осознав характер задачи, действуя с определенной мерой осве­домленности, напряжением внимания и воли переводчик дости­гает коммуникативного эффекта, предполагаемого автором ори­гинала. Переводчик формирует новый текст, который в идеале обладает всеми особенностями оригинала. Предварительное чте­ние переводчиком оригинала обеспечивает возможность прило­жения определенного «стилевого усилия», поскольку всякий раз текст, составленный человеком, содержит определенные ошиб­ки против принятого норматива. Эти ошибки могут быть следствием разнообразных причин, но главным образом они суть следствие свободы воли говорящего, которой он пользуется для достижения нового эффекта, также прилагая стилевое усилие. Из-за нарушений норматива любая формальная грамматика не будет полна и не будет давать полного покрытия текстов. Для читателя текста перевода, в такой же степени, как и для читателя текста оригинала, важно психолингвистическое осознание текста.

    Машинный перевод есть перевод без авторства переводчика. В той мере, в какой создание и последующее пополнение алгоритмов и словарей есть работа коллектива, МП есть обезличен­ный коллективный перевод. МП базируется на чисто перевод­ных, языковых соответствиях, никакого предварительного чте­ния текста система МП производить не может, поэтому МП исключает текстологический анализ. Передача смысла в МП достигается особым знаковым преобразованием, так как МП: есть определенная операция над языком при условии идентич­ности содержания знака. Он осуществляет механические сино­нимические замещения на основе регулярных межъязыковых корреспонденции соотнесения. Эти регулярные корреспонденции не извлекаются автоматически из хранилищ или устройств, по­добных словарям. Невозможно моделировать коммуникативную функцию естественного языка, если рассматривать его только как кодовую систему; переводные соответствия есть элемент ди­намики пользования языком, и удовлетворительно моделирую­щая перевод система не может не рассматривать переводные соответствия как всеобъемлющие, многоуровневые, но каждый раз новые образования. Должны быть формализованы не сами переводные соответствия как таковые, но закономерности, по которым они возникают в текстах и с помощью которых они мо­гут быть обнаружены в деталях, важных и нужных для пере­вода. Такая формализация удается с помощью моделирования действий переводчика, при котором особое внимание уделяется семантико-синтаксическому анализу в терминах, близких к тра­диционно понятным всем пользователям языком.(№ 11)

    Никаких стилевых усилий машина-переводчик не произво­дит. Задача приложения этих усилий возлагается на читателя машинного перевода или редактора. Механические операции, ко­торые производит ЭВМ над текстом, носят сложный характер: система осуществляет максимально полные рекомбинации зна­ков и комплексную переработку массовой информации в языке. Производится опознание, различение и перевод между разными категориями двух языков, разведение синонимов и омонимов, процессное развертывание членов предложения, в результате чего обеспечивается инвариантность существенных семантиче­ских признаков значения в передаче его на другой язык.

    Исходя из концепции системной организации, особое внима­ние в МП уделяется словарю. Поскольку словарь для МП есть одновременно машинный словарь, который имеет аналоги в дру­гих системах автоматической обработки информации на естест­венном языке, возникает возможность сделать обобщения и го­ворить об общих свойствах машинных словарей. Эти общие свой­ства рассматриваются в противопоставлении свойствам обычных словарей, но не в абстрактном смысле (при котором такие про­тиворечия могут стираться подобно тому, как стирается различие между человеком и мыслящей машиной), а в представлениях инженерной лингвистики - прикладной лингвистики, направленной на решение технических задач.

    Для преодоления основных трудностей проблемы машинного перевода должны быть решены задачи автоматизированного представления контекста, смыслового содержания переводимого текста, знаний о понятиях предметной области, к которой относится переводимый текст. В первых системах реализовался так называемый "прямой" подход к переводу, в рамках которого, как уже отмечалось, все осуществляемые при переводе операции трактовались как операции межъязыкового перехода - преобразования текста оригинала в текст перевода. В машинном переводе в соответственном смысле этот подход приводит к так называемым "тотальным стратегиям" (№ 10). Общей характеристикой тотальных стратегий является стремление получить полностью автоматизированный высококачественный машинный перевод максимальным использованием семантического уровня языка. Этот подход внес значительный вклад, как в теорию, так и в практику машинного перевода.
    Второй подход хронологически возник раньше первого. Этот подход заключается в представлении о промежуточном языке и близко связан с идеей переводных соответствий на чисто языковом уровне. Методическая суть данного подхода заключается: в изучении поведения языковых единиц, особенно в языковом контексте; в моделировании человеческого владения языком, особенно в процессе межъязыкового перевода; в переходе от простого к более сложному. Многие исследователи, например, такие как Марчук Ю.Н., Нелюбин Л.Л., Ревзин И.И. считают, что программное обеспечение для работы с грамматикой основывалось на имевшихся теориях структуры языка в сочетании с придуманными на скорую руку правилами.
    Разработанные программы выдавали настолько плохой перевод, что его невозможно было понять. Проблема состоит в том, что смысл текста на естественном языке зависит не только от самого предложения, но также и от контекста.
    Скорее всего, эти первые проекты действительно не дали никаких реальных результатов. Однако были выявлены многие основные проблемы перевода текстов на естественном языке: многозначность слов и синтаксических конструкций, практическая невозможность глобального описания семантической структуры мира даже в ограниченной предметной области, отсутствие эффективных формальных методов описания лингвистических закономерностей и др. (№ 8).

    Современное состояние МП характеризуется некоторым слиянием результатов двух подходов, но не механическим соединением результатов, а слиянием их на базе новых моделей, созданных при основном внимании к собственно переводческому аспекту владения естественным языком. Центром исследования в современном МП становится моделирование действий человека-переводчика, особенно в части использования им двух- и многозначных переводных соответствий при переводе с одного языка на другой. МП, возникший вне лингвистики, вошел в нее главным образом благодаря важному аспекту моделирования.Качество перевода обеспечивается технологией, многоразмерной архитектурой словарей (два уровня перевода для каждого слова: активные и пассивные), механизмом ассоциа­тивной памяти, созданием и редактированием пользовательских словарей, а также подключе­нием специализированных и общих словарей больших объемов. (№ 14)

    Медленное повышение точности машинного перевода объясняется от­части тем, что такая программа нуждается в очень большой базе данных с текстами дни сравнения похожих фраз и их осмысления (№ 19).


    Еще в 1956 г. американские психологи Миллер и Биб-Сентер предложили следующие методы оценки качества перевода:

    · проставление оценки качества перевода испытуемыми по стабильной шкале;

    · подсчет процента слов, совпадающих в неотредактированном и отредактированном переводе;

    · изучение ответов человека, читавшего только перевод, на вопросы, поставленные по тексту оригинала.

    Психолог Ш. Пфаффлин использует для оценки качества пе­ревода следующие два критерия:

    Оценка понимания перевода путем постановки вопросов по тексту;

    Оценка ясности смысла перевода по шкале «ясно», «неяс­но», «бессмысленно» Ни один из этих методов не дает четкого ответа на вопрос о том, каковы критерии качества машинного перевода и каков до­пустимый уровень качества. (№ 11)

    Глава II . Система машинного перевода PROMT

    2.1 Возможности машинного переводчика семейства PROMT.

    С начала 1990-х гг. на рынок систем ПК выходят отечественные разработчики. В июле 1990 года на выставке PC Forum в Москве была представлена первая в России коммерческая система машинного перевода под названием PROMT (PROgrammer"s Machine Translation). В 1991 г. было создано ЗАО " ", и уже в 1992 г. компания "ПРОМТ" выиграла конкурс NASA на поставку систем МП (ПРОМТ была единственной неамериканской фирмой на этом конкурсе). В 1992 г. "ПРОМТ" выпускает целое семейство систем под новым названием STYLUS для перевода с английского, немецкого, французского, итальянского и испанского языков на русский и с русского на английский, а в 1993 г. на базе STYLUS создается первая в мире система МП для Windows. В 1994 г. вышла версия STYLUS 2.0 для, а в 1995-1996 гг. представлено третье поколение систем машинного перевода, полностью 32-разрядных STYLUS 3.0 для Windows 95/NT, одновременно с этим успешно завершена разработка совершенно новых, первых в мире русско-немецкой и русско-французской систем МП.

    В 1997 г. подписано соглашение с французской фирмой Softissimo о создании систем перевода с французского языка на немецкий и английский и обратно, а в декабре этого года была выпущена первая в мире система немецко-французского перевода. В этом же году компания "ПРОМТ" компания выпустила систему, реализованную по технологии Гигант - для поддержки нескольких языковых направлений в одной оболочке, а также специальный переводчик для работы в Интернете WebTranSite.

    В 1998 г. выпускается целое созвездие программ под новым названием PROMT 98. Через год компания ПРОМТ выпустила два новых продукта: уникальный пакет программ для работы в Интернете - PROMT Internet, и переводчик для корпоративных почтовых систем - PROMT Mail Translator. Для корпоративных клиентов разработаны также специальные серверные решения – корпоративный сервер переводов PROMT Translation Server (PTS) и Интернет-решение PROMT Internet Translation Server (PITS). В 2000 г. "ПРОМТ" обновила всю , выпустив МП системы нового поколения: PROMT Translation Office 2000, PROMT Internet 2000 и Magic Gooddy 2000.

    В основе всех продуктов ПРОМТ лежит единое переводческое ядро – система анализа входного текста и синтез связного перевода на выходе; в них тоже реализованы общие принципы автоматизации перевода. Лингвистический редактор ПРОМТ позволяет переводить документы, проводить настройку на тематику документа и позволяет редактировать текст. Программа обеспечивает быстрый перевод, поддерживая практически все текстовые редакторы. Размер переводимого текста ограничен только ресурсами самого компьютера.

    Переводчик можно применять в двух режимах: без настроек для оперативного чернового перевода (включается только базовый словаря) и с дополнительной настройкой (подключение дополнительных тематических словарей) для обеспечения более качественного перевода. Программа включает более 100 специализированных словарей, что даёт возможность сделать перевод более точным, однако даже большое количество специализированных словарей не может заменить пользовательского словаря.

    Уникальной технологией реализованной в последних версиях компании ПРОМТ является механизм ассоциативной памяти (АП). Дело в том, что многие документы содержат часто встречающиеся одинаковые обороты и даже фрагменты текста, которые логично переводить единожды и впоследствии применять готовый перевод. В базе переводов АП сохраняются сегменты оригинального и переведенного текстов, которые используются при необходимости перевести аналогичный фрагмент текста. Это обеспечивает возможность обучения системы и сохранения результатов труда пользователя для последующего применения.

    Полезная особенность программ последнего поколения – способность исключать из процесса перевода имена собственные с возможностью их транслитерации. Еще одн способ настройки заключается в выборе лингвистических алгоритмов. Для каждого направления перевода существует свой список алгоритмов, которые может настроить пользователь. (№ 8,5)

    Система PROMT XT осуществляет перевод по следующим направлениям: англо-испанский, англо-немецкий, англо-русский, англо-французский, испанско-английский, испанско-русский, испанско-французский, итальянско-русский, немецко-английский, немецко-русский, немецко-французский, русско-английский, русско-немецкий, русско-французский, французско-английский, французско-испанский, французско-немецкий, французско-русский. Язык интерфейса системы: английский, русский, французский, немецкий.

    Системой предоставляются следующие дополнительные возможности:

    o редактирование словарных статей в пользовательских словарях (кроме некоторых специальных слов: предлогов, союзов, местоимений, некоторых омонимичных форм);

    o определение иерархии подключенных словарей (при наличии нескольких вариантов перевода система выбирает перевод из словаря, приоритет которого определен пользователем как самый высокий);

    o поиск переводов в электронных словарях (только для англо-русского и русско-английского направлений);

    o автоматическое определение тематики текста (по ключевым словам) и подключение специальных словарей;

    o установка алгоритмов перевода некоторых конструкций (например, перевод англ. you как "ты", "вы" или "Вы";

    o подключение препроцессоров (позволяющих не переводить некоторые специальные элементы, такие, как имена файлов, адреса электронной почты и веб-страниц);

    o определение зарезервированных слов (например, терминов, собственных имен), которые не будут переводиться программой

    o использование баз переводов Ассоциативной памяти (упрощенный вариант технологии Translation Memory).

    Последняя разработка компании ПРОМТ, электронный переводчик PROMT XT Office - первый продукт, реализующий новую концепцию автоматического перевода, основанную на технологии Ассоциированной Памяти. Новый уровень лингвистических алгоритмов обеспечивает улучшение качества перевода для не менее, чем 55% предложений.

    PROMT XT Office решает следующие задачи :

    · Перевод документов следующих форматов: DOC, RTF, TXT, HTML. Впервые реализована возможность перевода документов в формате Adobe Acrobat.

    · Комфортная работа с иноязычными документами в приложениях Microsoft Word, Excel, PowerPoint обеспечивается благодаря интеграции программы в приложения MS Office 2000/XP и Microsoft Office System 2003.

    · Перевод электронной почты.

    · Онлайн-перевод Web-сайтов с сохранением форматирования. (№ 9)

    Направления перевода: английский <-> русский, немецкий <-> русский, французский <-> русский, испанский <-> русский, итальянский -> русский, Гигант (англ.<->рус., нем.<->рус., фран.<->рус.)

    Основные возможности системы перевода:

    · Перевод документов основных форматов: DOC, RTF, HTML, TXT.

    · Сохранение форматирования при переводе.

    · Сохранение результата перевода в файлах формата: RTF и TXT.

    · Перевод PDF-документов непосредственно в Adobe Acrobat 4.х/5.х и Adobe Acrobat Reader 4.х/5.х.

    · Встраивание функций перевода во все основные приложения Microsoft Office 2000/XP (Word, Excel, PowerPoint, FrontPage) и Microsoft Office System 2003*.

    · Перевод электронной почты. Автоматический перевод электронной почты в Microsoft Outlook. Маршрутизация писем по папкам.

    o Все для работы в ИнтернетеОнлайн-перевод Web-сайтов с сохранением форматирования.

    o Перевод запросов для поисковых систем и отправка на указанный сервер.

    o Настройка перевода на базе технологии SmartURL - программа сама запоминает параметры перевода страниц. При повторном посещении страницы параметры перевода восстанавливаются.

    o Создание сайтов на иностранном языке во FrontPage при помощи интегрированных переводческих модулей.

    · Перевод содержимого буфера Windows Clipboard.

    · Интеллектуальные алгоритмы самообучения системы при использовании Ассоциированной Памяти. Ассоциированная Память (АП) - работает по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение или его часть) и его перевод. При подключении базы АП, система сравнивает каждое предложение с сохраненными в базе сегментами. Если сегмент идентичный исходному найден, он может быть использован для перевода.

    · Мощный лингвистический редактор PROMT, обеспечивающий возможность интерактивного управления переводом.

    o Удобные средства редактирования перевода - синхронная "прокрутка" оригинала и его перевода. Цветовая подсветка связанных фрагментов в оригинале и переводе.

    o Мгновенный перевод любого слова при подведении курсора мышки. Просмотр всех переводов и словоформ выделенного слова.

    o Интеллектуальные алгоритмы автоматического определения языка и тематики текста.

    o Сохранение параметров перевода в шаблонах тематики.

    · Повышение качества перевода за счет персональных настроек:

    o Возможность подключения специализированных словарей, выпускаемых компанией ПРОМТ для различных предметных областей;

    o Создание и пополнение собственных пользовательских словарей.

    o Создание списка зарезервированных слов. Резервирование слов с указанным форматом, например, выделенных курсивом. Резервирование выделенных фрагментов текста.

    o Задание признаков транслитерации незнакомых слов.

    o Выбор алгоритмов перевода (режимы перевода некоторых языковых конструкций, которыми невозможно управлять, модифицируя словарные данные).

    o Подключение макросов для обработки исходного текста и текста перевода.

    o Использование баз Ассоциированной Памяти (АП).

    · Эффективное средство настройки словарей - Dictionary Editor:

    o Возможность просмотра, редактирования, копирования, удаления и восстановления словарных статей из пользовательских словарей.

    o Различные режимы доступа к содержимому словарных статей - "Начинающий" и "Специалист".

    o Интеллектуальные алгоритмы пополнения словарей.

    o Одновременное пополнение связанных словарей в двух направлениях.

    o Возможность ввода в словарь из текстового файла и экспорта словарных статей в текстовый файл или документ RTF.

    · Большой электронный словарь для перевода отдельных слов (реализован для англо-русского, русско-английского, французско-русского, русско-французского, немецко-русского и русско-немецкого направлений перевода).

    · Поддержка внешних программ сканирования, проверки орфографии и электронных словарей.

    · Озвучивание текста при наличии установленных на компьютере средств синтеза речи, совместимых со стандартом Text-To-Speech (TTS). (№ 22,23)

    Программные продукты компании "ПРОМТ" удостоены целого ряда отечественных и зарубежных наград, объективно являются лучшими программами осуществляющими машинный перевод в нашей стране.

    2.2 Сравнительный анализ переводов художественно и политического текста сделанный системой машинного перевода и человеком.

    Чтобы лучше понять принципы действия систем МП, методы использования словарей, анализа грамматики и синтеза структур на выходном языке, необходимо на практике провести несколько опытов и перевести тексты (желательно разные по стилям и тематике), используя одну из систем машинного перевода.

    Для сравнения перевода художественного текста будет использована система машинного перевода PROMT XT. Также будет выполнен перевод этого текста, и произведен сравнительный анализ результатов.

    Возьмём для начала отрывок из сказки «Маленький Принц» на английском языке:

    «The little prince went away, to look again at the roses.

    "You are not at all like my rose," he said. "As yet you are nothing. No one has tamed you, and you have tamed no one. And the roses were very much embarrassed.

    "You are beautiful, but you are empty," he went on. "One could not die for you. To be sure, an ordinary passerby would think that my rose looked just like you - the rose that belongs to me. But in herself alone she is more important than all the hundreds of you other roses. And he went back to meet the fox. "Goodbye," said the fox. "And now here is my secret, a very simple secret: It is only with the heart that one can see rightly; what is essential is invisible to the eye."

    "What is essential is invisible to the eye," the little prince repeated, so that he would be sure to remember.

    "It is the time you have wasted for your rose that makes your rose so important."

    "It is the time I have wasted for my rose..." said the little prince, so that he would be sure to remember.

    "Men have forgotten this truth," said the fox. "But you must not forget it. You become responsible, forever, for what you have tamed. You are responsible for your rose..."

    "I am responsible for my rose," the little prince repeated, so that he would be sure to remember.» (№ 16)


    Вот перевод этого отрывка сделанный переводчиком:

    Маленький принц пошел взглянуть на розы.

    Вы совсем не похожи на мою розу, - сказал он им. - Вы еще ничто. Никто вас не при­ручил, и вы никого не приручили. И розы очень смутились.

    Вы красивые, но пустые, - продолжал Маленький принц. - Никто не захочетумереть ради вас. Конечно, случайный прохожий, поглядев на мою розу, скажет, что онаточно такая же, как вы. Но мне она одна дороже всех вас

    И Маленький принц возвратился к Лису.

    Прощай... - сказал он.

    Прощай, - сказал Лис. - Вот мой секрет, он очень прост: зорко одно лишь сердце. Самого главного глазами не увидишь.

    - Самого главного глазами не увидишь, - повторил Маленький принц, чтобы лучше запомнить.

    Твоя роза так дорога тебе потому, что ты отдавал ей все свои дни.

    Потому что я отдавал ей все свои дни... - повторил Маленький принц, чтобы лучшезапомнить.

    Люди забыли эту истину, - сказал Лис, - но ты не забывай: ты навсегда в ответе за всех, кого приручил. Ты в ответе за твою розу.

    Я в ответе за мою розу... - повторил Маленький принц, чтобы лучше запомнить.

    В некоторых предложениях нам пришлось поменять порядок слов. Несколько слов были «выброшены» из перевода так как их отсутствие или присутствие не влияет на смысл и стилистику перевода. Но в то же время может «резать слух» потому что «по русски» так не говорят. А вот как сделан перевод того же отрывка системой PROMT XT.


    «Маленький принц ушел, снова смотреть на розы.

    "Вы нисколько не походите, мой повысился," он сказал. "Пока еще Вы не ничто. Никто не приручил Вас, и Вы не приручили никого..."

    И розы были очень обеспокоены. "Вы красивы, но Вы пусты," он продолжал. "Нельзя было умереть для Вас. Безусловно, обычный прохожий думал бы, что мой повысился, смотрел точно так же как Вы, повысился, который принадлежит мне. Но в себе один она более важна чем все сотни из Вас другие розы....

    "И он возвратился, чтобы встретить{выполнить} лису.

    "До свидания, " сказал лиса. "И теперь вот - моя тайна, очень простая тайна: только с сердцем можно видеть справедливо; что является существенным, невидим для глаза."

    "Что является существенным, невидим для глаза, " маленький принц повторился, так, чтобы он убедился, что помнил

    "Это - время, которое Вы потратили впустую для вашего, повысился, который делает ваш, повысился настолько важным."

    "Это - время, которое я потратил впустую для моего, повысился... "сказал маленький принц, так, чтобы он убедился, что помнил.

    "Мужчины забыли эту правду, "сказала лиса. "Но Вы не должны забыть это. Вы становитесь ответственными, навсегда, для того, что Вы приручили.

    Вы ответственны за ваш, повысился..."

    "Я ответственен за мой, повысился, " маленький принц повторился, так, чтобы он убедился, что помнил.

    Как мы видим, перевод текста сделан пословно. Программа не может менять местами слова в предложениях то есть в выходном языке порядок слов почти всегда такой же как, как и во входном. Также очень бросается в глаза перевод слова «rose» - «повысился», я согласна, слово «rose» очень многозначно. Но даже словарь выдает первым значение при переводе именно слово «роза», система же, даже не предлагает его в качестве варианта. Но в тоже время слово «роза», во множественном числе «roses», система переводит правильно (не учитывая при этом что «roses» - n, pl, AmE, sl «He uses roses - Он ударяет по аптеке»). Очевидно что в данном контексте слово должно переводиться как «роза», однако система не может проанализировать контекст и следовательно не может правильно выбрать эквивалент. Смущает слова «Вас» написанное с большой буквы, очевидно в настройках для этого пользователя слово «you» должно переводиться как «Вы» именно с большой буквы. А не как «ты» или «вы». Но в этой версии программы это легко поправимо, достаточно изменить настройки для текущего пользователя. Слово «look» переведено как «смотреть», не учитывая то, что можно также перевести как «выглядеть», что предпочтительно в данном случае. Выражение «in herself alone» переведенное как «в себе один». Естественно всем известно, что английские существительные утратили грамматическую категорию рода. Следовательно все они согласуются с местоимением 3 лице ед.числа «it» - среднего рода. В русском же языке категория рода у существительных присутствует. Упущением системы является невозможность согласования в роде на выходном языке. Слова «роза» в русском языке женского рода. Слова данные в скобках это варианты перевода слов (вторые значения), которые система оставляет на выбор редактора переводчика. Слово «rightly» переведено в первом значении, без дополнительных вариантов. Так же и со словом «essential». Слово «wasted» заданное не в начальной форме переведено электронным словарем ABBY Lingvo как: «wasted» прил.- истощенный; исхудавший, худой; чахлый; бледный; в данном же тексте его следует перевести как «провел», «отдавал».

    На данном этапе работы, целесообразно сравнить сделанные переводы с английского с переводами с французского (язык оригинала), для того чтобы наглядно выявить существуют ли те же проблемы в грамматике и словаре при переводе с французского.

    Le petit prince s"en fut revoir les roses:

    «Vous n"êtes pas du tout semblables à ma rose, vous n"êtes rien encore, leur dit-il. Personne ne vous a apprivoisées et vous n"avez apprivoisé personne.»

    Et les roses étaient bien gênées.

    «Vous êtes belles, mais vous êtes vides, leur dit-il encore. On ne peut pas mourir pour vous. Bien sûr, ma rose à moi, un passant ordinaire croirait qu"elle vous ressemble. Mais à elle seule elle est plus impor­tante que vous toutes

    Et il revint vers le renard:

    «Adieu, dit-il...

    Adieu, dit le renard. Voici mon secret. Il est très simple: on ne voit bien qu"avec le cœur. L"es­sentiel est invisible pour les yeux.

    L"essentiel est invisible pour les yeux, répéta le petit prince, afin de se souvenir.

    C"est le temps que tu as perdu pour ta rose qui fait ta rosé si importante.

    C"est le temps que j"ai perdu pour ma rose..., fit le petit prince, afin de se souvenir.

    Les hommes ont oublié cette vérité, dit le renard. Mais tu ne dois pas l"oublier. Tu deviens responsable pour toujours de ce que tu as apprivoisé. Tu es responsable de ta rose...

    Je suis responsable de ma rose...», répéta le petit prince, afin de se souvenir. (№ 5)


    Перевод сделанный переводчиком:

    «Маленький принц пошел взглянуть на розы.

    Вы совсем не похожи на мою розу, - ска­зал он им. - Вы еще ничто. Никто вас не при­ручил, и вы никого не приручили.

    И розы очень смутились.

    Вы красивые, но пустые, - сказал он наконец. - Никто не захочет умереть ради вас. Конечно, случайный прохожий, по­глядев на мою розу, скажет, что она точно та­кая же, как вы. Но мне она одна дороже и важнее всех вас

    И Маленький принц возвратился к Лису.

    Прощай... - сказал он.

    Прощай, - сказал Лис. - Вот мой сек­рет, он очень прост: видеть можно только сердцем. Самое главное невидимо для глаз.

    Самое главное невидимо для глаз, - повторил Маленький принц, чтобы лучше за­помнить.

    То что ты отдавал своей розе так много времени, делает её особенной.

    Потому что я отдавал ей так много времени... - повторил Маленький принц, чтобы лучше за­помнить.

    Люди забыли эту истину, - сказал Лис, - но ты не забывай: ты навсегда ответственен за всех, кого приручил. Ты в ответе за твою розу.

    Я в ответе за мою розу... - повторил Ма­ленький принц, чтобы лучше запомнить.»


    Перевод сделанный системой PROMT с французского на русский:


    Маленький принц был снова увидеть розы:

    " Вы не подобны моей розе, вы не являетесь ничем еще, он им говорит. Никто вас не приручил и вы не приручили никого.

    " И розы были очень стеснительны.

    " Вы красивы, но вы пустые, он им говорит еще. Не можем умереть для вас. Конечно, моя роза, обычный прохожий полагала бы, что она на вас будет походить. Но ей только она больше imporкtante, что Вы все

    И он возвратился к лисе:

    " До свидания, он говорит

    До свидания, говорит лиса. Вот моя тайна. Он очень прост: видим хорошо только с c и * 339; ur. Существенная часть невидим для глаз.

    Существенная часть невидима для глаз, повторил маленький принц, для того, чтобы вспоминать.

    Именно время ты потерял для твоей розы, которая делает твоя роза столь важная.

    Именно время я потерял для моей розы, сделал маленького принца, для того, чтобы вспоминать.

    Люди забыли эту правду, говорит лиса. Но ты не должен его забывать. Ты становишься ответственным навсегда того, что ты приручил.

    Ты - ответственный за твою розу - Я - ответственный за мою розу ", повторил маленький принц, для того, чтобы вспоминать.


    В целом, перевод вполне корректен, ясен общий смысл отрывка. Перевод так же сделан пословно, что подтверждает нам, что система не может менять порядок слов в выходном языке. Система оказалась не в состоянии перевести 2 слова, одно из них она транслитирировала, а одно заменила цифровым кодом из за того что выражение «que avec le сoeur» написано как «qu`avec le сoeur». Гласная «е» всегда выпадает в таких случаях, а на письме усекается. Так же как и при переводе с английского обнаруживаются несоответствия рода на выходном (русском) языке. Хотя система писалась русскоязычными специалистами. Перевод некоторых предложений заставляет думать, что это переводил человек слабо говорящий по-русски. Проблема заключается не в синтезе грамматической структуры выходного языка, а в непонимании структуры входного языка, то есть, по сути дела в грамматическом анализе. В принципе простые предложения система переводит относительно правильно, сложные, сложно - сочинённые или сложно -подчиненные предложения тоже переводятся относительно легко. Но если встречаются вводные или пояснительная конструкция и разрывается основное предложение, то программа начинает пословный перевод, без учета синтаксиса, пытаясь просто связать слова. Таки образом вариант на выходе получается очень сложным и запутанным. Но даже если прописать алгоритмы для всех этих правил, без понимания входного текста перевод так и будет оставаться иногда полностью бессвязным.

    Заключение.

    Можно сделать вывод, что полностью автоматический машинный перевод, это очень сложная задача, которую предстоит решить не только лингвистам, но и программистам, специалистам по кибернетике и многим другим представителям наук которые затрагивает эта проблема. Очень сложно смоделировать сам процесс перевода с помощью компьютерной программы. Если человек осуществляя перевод мыслит образами и исходит из того какую мысль к конечном итоге надо донести до слушателя, то научить этому программу невозможно (на данном этапе развития компьютерных технологий.

    Современные программы машинного перевода очень далеки от того идеала к которому стремятся их разработки. Но они уже без сомнений могут служить хорошим подспорьем переводчику в его рутинной работе. Хотя бы тем, что без проблем могут за несколько секунд сделать подстрочный перевод любого по сложности и объёму текста. Если при этом верно настроено распределение приоритетных словарей для данной тематики и направления перевода, то на выходе редакторская правка требуется минимальная (в сравнении с переводом при подключённом словаре общей лексики). Естественно полностью отдать текст в руки машины нельзя. Системы нового поколения могут «запоминать» уже переведенные однажды конструкции и впоследствии уже не требовать повторного их перевода. Системы эффективны в помощи пользователям еще и потому что есть возможность создавать «пользовательский» словарь, что существенно облегчает перевод по определенной тематике.

    Но все же недостатков у систем машинного перевода, по моему мнению, больше чем достоинств. Главный недостаток это конечно же словарь. Программа не учитывает элементарных значений слов и не предлагает их в качестве варианта при переводе. Тем самым это заставляет пользователя искать эти словоформы в словаре, что бьет по одному из основных достоинств системы, по мнению производителей, - скорости. Недостатки на уровне грамматики. Эти недостатки прослеживаются как при анализе не входном языке, так и при синтезе на выходном. Не учтены грамматические особенности входных и выходных языков, такие как например, род существительных в русском языке и его отсутствие в английском. Система как правило проводит еще и синтаксический анализ на входе, но если предложение не вписывается в алгоритм заданный программой, система начинает пословный перевод не обращая внимание на синтаксические связи.

    Рассмотрев данную проблему, я пришла к выводу, что машинный перевод в принципе возможен, но его стоит рассматривать только как «черновой» вариант перевода, который подлежит обязательному редактированию.

    Библиография

    Источники литературы на русском языке


    1. Арапов М.В. Шрейдер Ю.А. Семантика и машинный перевод.М., 1965.№ 1

    2. Бархударов Л.С. Язык и перевод. - М.: Межд. отношения, 1975.

    3. Белоногов Г.Г. Зеленков Ю.Г. Интерактивная система русско-английского и англо-русского машинного перевода, ВИНИТИ, 1993

    4. Вестник Московского Университета. Сер.19 Лингвистика и межкультурная коммуникация. 2004. № 4, с.51.

    5. Домашний компьютер – 2004., № 12

    6. Каничев М. Статья. // Мир ПК. - 1998, № 8.

    7. Комиссаров В.Н. «Современное переводоведение», ЭТС,М. 2004.с.411.

    8. Компьютер Пресс. – 2004. № 7

    9. Компьютер Пресс. – 2004. -№11

    10. Людсканов А. Селективная стратегия при машинном переводе. - В кн.: Международный семинар по машинному переводу. М., ВЦП, 1975

    11. Марчук Ю. Н. Проблемы машинного перевода. М.: Наука, 1983

    12. Материалы по машинному переводу. Вып. 1. Л.,1958. с.5.

    13. Машинный перевод. Сборник статей, перевод с английского, М., 1957

    14. Мир ПК. – 2004. - № 9

    15. Мир Internet. – 2001. № 2, с. 16-26.

    16. Миньяр – Белоручев А.П., Английский язык. Учебник устного перевода. М., «Экзамен» , 2004г.

    17. Панов Д.Ю., Автоматический перевод, М., 1958

    18. Ревзин. И., В.Ю. Розенцвейг. Основы общего и машинного перевода., 1964.

    19. Техника – молодежи. – 2005. № 2.

    20. Шаляпина З.М. «Автоматический перевод: эволюция и современные тенденции» вопросы языкознания, 1996, № 2


    Источники литературы на иностранных языках


    2. Dezso L., Papp F. Механизация лексикографических работ и обратные словари. – In: «Сomputational linguistics, III», р.212 - 215

    3. Antoine de Saint – Exupery. Le petit prince.,M.,Jupiter-inter, 2003

    4. Visson L., From Russian into English, Ardis, 1991


    Электронные источники


    5. Электронный словарь ABBY LINGVO 9.0


Если Вас интересует помощь в НАПИСАНИИ ИМЕННО ВАШЕЙ РАБОТЫ , по индивидуальным требованиям - возможно заказать помощь в разработке по представленной теме - Машинный перевод.Система машинного перевода PROMT ... либо схожей. На наши услуги уже будут распространяться бесплатные доработки и сопровождение до защиты в ВУЗе. И само собой разумеется, ваша работа в обязательном порядке будет проверятся на плагиат и гарантированно раннее не публиковаться. Для заказа или оценки стоимости индивидуальной работы пройдите по

Содержание:
Введение ……………………………………………………….………………. 3
1.1 Что такое машинный перевод?...................... .............................. ................ 5
1.2 Начало машинного перевода ……..………….……...….………………… 8
1.3 Этапы развития машинного перевода …………………….………….…. 12
1.4 Современный машинный перевод ……………..……………………….. 15
1.5 Машинный перевод в Интернете …….………………… ……………….. 18
Заключение ……………………………………………………………………. 21
Литература …….……………………...………………………………………. . 22

Введение.
Механизация перевода – это старейшая мечта человечества. Но в XX веке такая мечта стала реальностью. Во многом это связано с постоянным стремлением общества к глобализации и даже с этническими конфликтами и политическими катаклизмами, с упрочнением социально-экономических связей между государствами, интеграции многих ранее «закрытых» стран в мировое сообщество. Знание иностранных языков - это не только полезный навык в повседневной жизни, но также одно из основных требований при приеме на работу. В настоящее время необходимость в знании одного или даже нескольких иностранных языков приобретает всё более явную актуальность. Знание языка (английского или немецкого) необходимо не только в поездке в отпуск за границу, но также и на приеме деловых партнёров из-за рубежа, в обыденной жизни при чтении новостей или просмотре фильмов. Поэтому, большое количество рутинных обыденных и повседневных операций, которые не требовали ранее знания иностранного языка, сегодня, ввиду развития процессов международной интеграции и повсеместному стремлению бизнеса к глобализации, становятся всё более затруднительными, если опираться только на один язык. В связи с этим, на сегодняшний день, всё более востребованными становятся услуги переводчиков, выполняющих на профессиональном уровне переводы на английский, немецкий и другие языки и языковые пары. Однако сегодня одного только знания иностранных языков бывает недостаточно, поскольку объём информации, которую необходимо ежедневно переводить, существенно возрос. Вместе с тем, эта задача успешно решается, и ни для кого не составляет труда всего за несколько секунд перевести контракт или контент иностранного сайта. А всё потому, что переводом в этом случае занимается программа-переводчик: человек не успевает и глазом моргнуть, а перевод уже готов.
Но и сегодня, как и прежде, реальность не совершенна. Нет ни одной системы машинного перевода, которая при нажатии всего нескольких кнопок могла бы сделать безупречный перевод любого текста на любом языке без вмешательства или хотя бы редакции человека. Пока это только планы на далекое будущее, если подобного идеала вообще можно достичь, так как многие подвергают данное предположение сомнению.

1.1 Что такое машинный перевод?

Машинный перевод - это процесс перевода, выполняемый специальной компьютерной программой, который позволяет преобразовать текст на одном естественном языке в эквивалентный по содержанию текст на другом языке. Так же называется направление научных исследований, связанных с построением подобных систем.
Современный машинный, или автоматический перевод можно рассмотреть во взаимодействии компьютерной программы с человеком:

      С постредактированием, когда исходный текст перерабатывается машиной, а человек-редактор исправляет результат.
      С предредактированием, когда человек приспосабливает текст к обработке машиной, например, устраняет возможные неоднозначные прочтения, упрощает и размечает текст, после чего начинается программная обработка.
      С интерредактированием, при котором человек вмешивается в работу системы перевода, разрешая трудные случаи.
      Смешанные системы, включающие, например, одновременно пред- и постредактирование.
Основной целью машинного перевода, как науки является разработка алгоритма, который полностью автоматизирует процесс перевода.
Для осуществления машинного перевода в компьютер вводится специальная программа, реализующая алгоритм перевода, под которым понимается последовательность однозначно и строго определенных действий над текстом для нахождения переводных соответствий в данной паре языков L 1 – L 2 при заданном направлении перевода (с одного конкретного языка на другой). Система машинного перевода включает в себя двуязычные словари, снабженные необходимой грамматической информацией (морфологической, синтаксической и семантической) для обеспечения передачи эквивалентных, вариантных и трансформационных переводных соответствий, а также алгоритмические средства грамматического анализа, реализующие какую-либо из принятых для автоматической переработки текста формальных грамматик. Имеются также отдельные системы машинного перевода, рассчитанные на перевод в рамках трех и более языков, но они в настоящее время являются экспериментальными.
Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода:
1. На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы.
2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области. Включает определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста, производимое в рамках входного языка; разрешение омографии (конверсионной омонимии словоформ – скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом); лексический анализ и перевод лексем. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие или отсутствие контекстных определителей значения.
3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани , ножницы глагол должен стоять в форме множественного числа, притом, что в оригинале может быть и единственное число).
4. Синтез выходных словоформ и предложения в целом на выходном языке.
В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей.
Современный машинный перевод следует отличать от использования компьютеров в помощь человеку-переводчику. В последнем случае имеется в виду автоматический словарь, помогающий человеку быстрее подбирать нужный переводной эквивалент. Хотя и в том, и в другом случае компьютер работает вместе с человеком (переводчиком или редактором), в содержание термина «машинный перевод» входит представление о том, что главную, бoльшую часть работы по переводу и отысканию переводных эквивалентов и переводных соответствий машина берет на себя, оставляя человеку лишь контроль и исправление ошибок. В то время как компьютерный словарь в помощь человеку – это чисто вспомогательное средство для быстрого нахождения переводных соответствий; при этом, однако, в словарях такого рода в ограниченной степени могут быть реализованы и некоторые функции, присущие системам машинного перевода.

1.2 Начало машинного перевода.

Технология машинного перевода, как научное направление, имеет уже почти вековую историю, а первые идеи автоматизации переводческого процесса появились еще в XVII столетии.
Как принято считать, причинами возникновения машинного перевода явился бурно растущий со 2-ой половины XX века поток информации на разных языках различных стран и континентов, необходимость ее усвоения для научно-технического прогресса, недостаточность квалифицированных (особенно в отдельных областях) переводчиков, а также высокая стоимость их подготовки.
О разработке новых способов перевода впервые задумался английский изобретатель Чарльз Бэббидж, предложивший в конце 1830-х гг. проект первого в истории компьютера. Суть работы прибора состояла в использовании потенциала машинной памяти для хранения словарей. Идея Ч. Бэббиджа состояла в том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей. Однако воплотить в жизнь свою идею Бэббиджу так и не удалось.
Теоретической основой начального периода работ по машинному переводу был взгляд на язык как кодовую систему. Пионерами машинного перевода были математики и инженеры. Описания их первых опытов, связанных с использованием только что появившихся ЭВМ для решения криптографических задач, были опубликованы в США в конце 1940-х годов. Датой рождения машинного перевода как исследовательской области обычно считают март 1947 года. Именно тогда, директор отделения естественных наук Рокфеллеровского фонда Уоррен Уивер разработал меморандум, в котором определил задачу текстового перевода с одних языков на другие как еще одну область применения техники дешифрования. В своем письме Норберту Винеру Уоррен Уивер впервые поставил задачу машинного перевода, сравнив ее с задачей дешифровки.
Вслед за этим последовало бурное обсуждение идеи автоматизированного перевода и теоретическая разработка первых технологий. Высказывались предположения о полной замене человека-переводчика электронными системами, многие профессиональные переводчики опасались в ближайшем будущем остаться без работы. Идеи Уивера легли в основу подхода к машинному переводу, основанного на концепции interlingva: стадия передачи информации разделена на два этапа; на первом этапе исходное предложение переводится на язык-посредник (созданный на базе упрощенного английского языка), а затем результат этого перевода представляется средствами выходного языка.
Тот же Уоррен Уивер после ряда дискуссий составил в 1949 меморандум, в котором теоретически обосновал принципиальную возможность создания систем машинного перевода. Системы машинного перевода в те годы довольно сильно отличались от современных систем. Это были очень большие и дорогие машины, которые занимали целые комнаты и требовали для своего обслуживания большой штат инженеров, операторов и программистов. В основном эти компьютеры использовались для осуществления математических расчетов для нужд военных учреждений, а также математических и физических факультетов университетов (последние также были тесно связаны с военной сферой). Поэтому на ранних этапах разработка машинного перевода активно поддерживалась военными; при этом в США основное внимание уделялось русско-английскому направлению, а в СССР - англо-русскому.
Помимо очевидных практических нужд важную роль в становлении машинного перевода сыграло то обстоятельство, что предложенный в 1950 английским математиком А.Тьюрингом знаменитый тест на разумность («тест Тьюринга») фактически заменил вопрос о том, может ли машина мыслить, на вопрос о том, может ли машина общаться с человеком на естественном языке таким образом, что тот не в состоянии будет отличить ее от собеседника-человека. Тем самым вопросы компьютерной обработки естественно-языковых сообщений на десятилетия оказались в центре исследований по кибернетике (а впоследствии по искусственному интеллекту), а между математиками, программистами и инженерами-компьютерщиками, с одной стороны, и лингвистами – с другой установилось продуктивное сотрудничество.
Вскоре, началось финансирование исследований, и в 1952 году состоялась первая конференция в Массачусетском технологическом институте по машинному переводу, организованная логиком и математиком Й.Бар-Хиллелом.
В 1954 общественности были предъявлены первые результаты: фирма IBM совместно с Джорджтаунским университетом (США) успешно осуществили первый эксперимент. Он вошёл в историю как так называемый Джорджтаунский эксперимент, на котором была представлена первая версия электронного переводчика. В ходе эксперимента был продемонстрирован полностью автоматический перевод более 60 предложений с русского языка на английский . Презентация положительно повлияла на развитие машинного перевода в последующие 12 лет.
Эксперимент был задуман и подготовлен с целью привлечения общественн ого и правительственного внимания. Парадоксально, но в его основе лежала довольно простая система : она была основана всего на 6 грамматических правилах , а словарь включал 250 записей. Система была специализированной: в качестве предметной области для перевода была выбрана органическая химия . Программа выполнялась на мэйнфрейме IBM 701 .
В том же 1954 первый эксперимент по машинному переводу был осуществлен в СССР И.К.Бельской (лингвистическая часть) и Д.Ю.Пановым (программная часть) в Институте точной механики и вычислительной техники Академии наук СССР, а первый промышленно пригодный алгоритм машинного перевода и система машинного перевода с английского языка на русский на универсальной вычислительной машине были разработаны коллективом под руководством Ю.А.Моторина. После этого работы начались во многих информационных институтах, научных и учебных организациях страны. Особого упоминания заслуживают работа в этой области отечественных лингвистов, таких, как И.А.Мельчук и Ю.Д.Апресян (Москва), результатом которой стал лингвистический процессор ЭТАП. В 1960 г. в составе НИИ математики и механики в Ленинграде была организована экспериментальная лаборатория машинного перевода, преобразованная затем в лабораторию математической лингвистики Ленинградского государственного университета.
Демонстрация Джорджтаунского эксперимента была широко освещена в СМИ и воспринята как успех. Она повлияла на решение правительств некоторых государств , в первую очередь США , направить инвестиции в область вычислительной лингвистики . Организаторы эксперимента уверяли, что в течение трёх-пяти лет проблема машинного перевода будет решена. Идея машинного перевода стимулировала развитие исследований в теоретическом и прикладном языкознании во всем мире. Появились теории формальных грамматик, большое внимание стало уделяться моделированию языка и отдельных его аспектов, языковой и мыслительной деятельности, вопросам языковой формы и количественных распределений лингвистических явлений. Возникли новые направления лингвистической науки – вычислительная, математическая, инженерная, статистическая, алгоритмическая лингвистика и ряд других отраслей прикладного и теоретического языкознания. В течение 1950-х годов в учебных центрах многих стран мира были открыты отделения прикладной лингвистики и машинного перевода. Так, в СССР такие отделения были созданы в Москве (МГУ им. М.В.Ломоносова, МГПИИЯ им. М.Тореза – ныне МГЛУ), в Минском МГПИИЯ, в Ереване, Махачкале, Ленинградском университете, в университетах Киева, Харькова, Новосибирска, ряда других городов. Исследования и разработки по машинному переводу развернулись также во Франции, Англии, США, Канаде, Италии, Германии, Японии, Нидерландах, Болгарии, Венгрии и других странах, а также в международных организациях, где велик объем переводов с различных языков. В настоящее время исследования ведутся и в таких странах, как Малайзия, Саудовская Аравия, Иран и др.

1.3 Этапы развития машинного перевода.

В результате такого успешного старта развития машинного перевода, казалось, что создание систем качественного автоматического перевода вполне достижимо в пределах нескольких лет. При этом акцент делался на развитие полностью автоматических систем, обеспечивающих высококачественные переводы; участие человека на этапе постредактирования расценивалось как временный компромисс. Профессиональные переводчики всерьез опасались в скором времени остаться без работы...
Однако исследования по машинному переводу за свою историю переживали как подъемы, так и спады. В 1950-х годах в исследования были вложены значительные средства, однако результаты очень скоро разочаровали инвесторов. Одной из главных причин невысокого качества машинного перевода в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня. Другой причиной было отсутствие теоретической базы, необходимой для решения лингвистических проблем. В результате этого первые системы машинного перевода сводились к пословному (слово за словом) переводу текстов без какой-либо синтаксической, а тем более смысловой целостности.
В 1959 году философ Й. Бар-Хиллел выступил с утверждением, что высококачественный полностью автоматический перевод не может быть достигнут в принципе. Он исходил из того, что выбор того или иного перевода обусловлен знанием внеязыковой действительности, а это знание слишком обширно и разнообразно, чтобы вводить его в компьютер. Однако Бар-Хиллел не отрицал идею машинного перевода, как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода "человеко-машинный симбиоз"). Но это выступление самым неблагоприятным образом отразилось на развитии машинного перевода в США. В начале 1960-х годов завершился первоначальный эйфорический этап в развитии МП. Этому в сильнейшей степени способствовала публикация так называемой «Черной книги машинного перевода» – доклада Специального комитета по прикладной лингвистике (ALPAC) Национальной академии наук США, в котором была констатирована невозможность создания в обозримом будущем универсальных систем высококачественного машинного перевода. Комиссия пришла к заключению, что машинный перевод нерентабелен: соотношение стоимости и качества было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов. Следствием этой публикации было сокращение финансирования и общее снижение интереса к проблематике машинного перевода, однако полного сворачивания исследований, в особенности теоретических, не произошло. И первые системы перевода продолжали пользоваться популярностью в военных и научных учреждениях СССР и США.
Новый этап развития технологий машинного перевода начался в 1970-х годах. Этот подъём был связан с появлением вычислительной техники - появление микрокомпьютеров, развитие сетей, увеличение ресурсов памяти. Программисты отказались от идеи создания “идеальной” машины-переводчика: новые системы разрабатывались с целью многократного увеличения скорости перевода информации, но с обязательным участием человека на различных стадиях процесса перевода для достижения наилучшего качества работы.
О возрождении машинного перевода в 70-80-е гг. свидетельствуют следующие факты: Комиссия Европейских общин (CEC) покупает англо-французскую версию Systran, а также систему перевода с русского на английский (последняя развивалась после доклада ALPAC и продолжала использоваться ВВС США и NASA); кроме того, CEC заказывает разработку французско-английской и итальянско-английской версий. В то время благодаря CEC были заложены основы проекта EUROTRA, основанного на разработках групп SUSY и GETA. Одновременно происходит быстрое расширение деятельности по созданию систем машинного перевода в Японии; в США Панамериканская организация здравоохранения (PAHO) заказывает разработку испанско-английского направления (система SPANAM); ВВС США финансируют разработку системы МП в Лингвистическом исследовательском центре при Техасском университете в Остине; группа TAUM в Канаде достигает заметных успехов в разработке своей системы METEO (которая использовалась в основном для перевода метеорологических сводок). Целый ряд проектов, начатых в 70-80-е гг., впоследствии развились в полноценные коммерческие системы. В нашей стране разработку основ технологии машинного перевода продолжила группа специалистов в ВИНИТИ под руководством профессора Г. Г. Белоногова. В результате в 1993 г. была создана промышленная версия системы RETRANS фразеологического машинного перевода с русского языка на английский и обратно, которая применялась в министерствах обороны, путей сообщения, науки и технологий, а также во ВНТИЦ.
Очередной этап исследований в области машинного перевода – это 90-е года прошлого века. Связано это, конечно же, с колоссальным прогрессом современных персональных компьютеров, появлением качественных и доступных массовому пользователю сканеров и эффективных программ оптического распознавания текста и, конечно же, с появлением глобальной компьютерной сети Интернет. Всё это придало новый стимул работам по машинному переводу, привлекло в данную область новые значительные инвестиции и увенчалось серьезными практическими результатами. А именно, появились достаточно эффективные системы машинного перевода и компьютерные словари для работы на персональном компьютере; произошло объединение систем машинного перевода с системами оптического распознавания текста и проверки орфографии. Были созданы специальные средства машинного перевода для работы в Интернет, обеспечивающие либо перевод текстов на серверах соответствующих компаний, либо онлайновый перевод Web-страниц, позволяющий преодолевать языковой барьер и осуществлять навигацию по иностранным сайтам.

1.4 Современный машинный перевод.

Сегодняшние программы-переводчики имеют гораздо более широкий «кругозор» и действуют на основе более совершенных переводческих технологий. Системы перевода активно используются во всем мире в случаях, когда требуется быстро понять смысл текста или часто переводить большие объемы информации. Некоторым разработчикам на сегодняшний день удалось достичь весьма приемлемого качества перевода по отдельным языковым направлениям.
Современный машинный перевод следует отличать от использования компьютеров в помощь человеку-переводчику. В последнем случае имеется в виду автоматический словарь, помогающий человеку быстрее подбирать нужный переводной эквивалент. В содержание термина «машинный перевод» входит представление о том, что главную, большую часть работы по переводу и отысканию переводных эквивалентов и переводных соответствий машина берет на себя. Человеку предоставляется лишь контроль и исправление ошибок, в то время как компьютерный словарь в помощь человеку – это чисто вспомогательное средство для быстрого нахождения переводных соответствий.
В практике переводческой деятельности и в информационной технологии различаются два основных подхода к машинному переводу. С одной стороны, результаты машинного перевода могут быть использованы для поверхностного ознакомления с содержанием документа на незнакомом языке. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования. Другой подход предполагает использование машинного перевода вместо обычного «человеческого». Это предполагает тщательное редактирование и настройку системы перевода на определенную предметную область. Здесь играют роль полнота словаря, ориентированность его на содержание и набор языковых средств переводимых текстов, эффективность способов разрешения лексической многозначности, результативность работы алгоритмов извлечения грамматической информации, нахождения переводных соответствий и алгоритмов синтеза. На практике перевод такого типа становится экономически выгодным, если объем переводимых текстов достаточно велик, если тексты достаточно однородны, словари системы полны и допускают дальнейшее расширение, а программное обеспечение удобно для постредактирования. Такого рода системы машинного перевода используются в организациях, потребности которых в оперативных и качественных переводах достаточно велики.
В рамках технологии машинного перевода существует два подхода: традиционный (основанный на правилах) и статистический (основанный на статистической обработке словарных баз). Традиционный метод МП используется большинством разработчиков систем перевода. Работа такой программы включает в себя несколько этапов и, по сути, заключается в использовании лингвистических правил (алгоритмов). Соответственно, создание такого электронного переводчика включает в себя разработку правил и пополнение словарных баз системы. От разработки необходимых алгоритмов зависит качество перевода на выходе. Богатый словарь системы также позволяет справиться с переводом самых разнообразных по тематике текстов. Статистический метод действует совсем по иному принципу. В его основе лежат математические методы для получения перевода. Точнее, весь принцип работы подобной системы основан на статистическом вычислении вероятности совпадений фраз из исходного текста с фразами, которые хранятся в базе системы перевода.
В России с помощью традиционного способа машинного перевода разрабатываются программные продукты компании ПРОМТ - единственного в нашей стране производителя программ-переводчиков. В настоящее время компания ПРОМТ – ведущий разработчик систем автоматизированного перевода и обладает колоссальным технологическим багажом, что позволяет разрабатывать системы перевода с различными функциональными возможностями. Уникальные технологии построения систем перевода и оригинальные алгоритмы работы с текстами на естественных языках стали тем базисом, на котором были созданы все программные продукты компании, и который обеспечил возможность разработки широкого спектра решений для автоматизированного перевода с одного языка на другой. Программные продукты компании ПРОМТ одинаково полезны как для решения бизнес-задач, так и для домашнего использования. В последнее время особое внимание компания ПРОМТ уделяет созданию специальных средств и технологий для профессиональных переводчиков. В настоящее время системы ПРОМТ выполняют перевод для 24 языковых направлений . Генеральный словарь для одной языковой пары содержит от 40 до 200 тысяч словарных статей, которые в свою очередь содержат структурированное описание различной лингвистической информации, необходимой системе для работы сложнейших алгоритмов анализа и синтеза текста. Словари по тематикам содержат специфические слова и выражения, характерные для предметной области, их объем может меняться от 5 до 50 тысяч словарных статей. Например, для англо-русской и русско-английской систем разработаны специализированные словари, охватывающие более 50 различных тематик.

1.5 Машинный перевод в Интернете.

Онлайновый перевод информации в Интернете становится все более популярным. Интернет стремительно превращается из преимущественно англоязычной в многоязычную среду, что вынуждает владельцев Web-сайтов предоставлять информацию на нескольких языках. Наиболее часто к услугам МП прибегают информационные и поисковые сайты, которые стремятся привлечь на свои страницы разноязычных пользователей. Так, на канадском информационно-поисковом портале InfiniT (http://www.infiniT.com) открылся новый сервис переводов. На сайте теперь доступен онлайновый перевод текста с английского и немецкого языков на французский язык и обратно. Увеличение числа посетителей портала обусловлено возможностью онлайнового перевода Web-страниц. Для этого пользователю достаточно указать только адрес Web-страницы, выбрать направление перевода и нажать кнопку перевода. В результате через несколько секунд пользователь получает полностью переведенную Web-страницу с сохранением форматирования.
Новый сервис позволяет ликвидировать языковую проблему в канадском Интернете, где в силу исторических особенностей широко используются два языка: английский и французский. Кроме того, онлайновый переводчик открывает доступ к сайтам на немецком языке тем жителям Канады, которые не владеют иностранными языками. Сервис работает на базе серверного Интернет-решения компании ПРОМТ под названием PROMT Internet Translation Server version 2.0. Проект был реализован совместно с компанией Softissimo, которая занимается продвижением продуктов компании ПРОМТ под торговой маркой REVERSO. Интересной особенностью Web-сайтов, знакомящих с программами МП, электронными словарями и другими программами лингвистической поддержки, является то, что с работой многих программных продуктов можно познакомиться в интерактивном режиме, используя версию, установленную на сервере и имеющую шлюз для удаленного общения через Web-интерфейс. На сервере Web-издательства "ИнфоАрт" (http://www.
infoart.ru/misc/dict) организована интерактивная демонстрация словарей Lingvo и "МультиЛекс". Вы можете ввести слово или словосочетание и мгновенно получить перевод, толкование, примеры употребления и устойчивые словосочетания.
Наиболее универсальным является PROMT Internet. Купив этот пакет, вы получите сразу несколько программ для перевода Web-страниц, и не только их. Можно с уверенностью сказать, что возможностей данного набора приложений вполне достаточно для полноценной работы с документами на английском, французском и немецком языке. Если вы предполагаете использовать универсальную переводящую программу WebTranSite 98 или броузер WebView больше, чем другие части пакета PROMT Internet, и при этом желаете сэкономить немного денег, то можете приобрести эти продукты по отдельности. В таком случае WebTranSite 98 придется по вкусу тем, кто часто переводит небольшие фрагменты текста не только из Интернет, но и из офисных, почтовых и других программ, а также из системы интерактивной справки.
WebTranSite 98 подходит не только для перевода Web-страниц. Она достаточно универсальна и позволяет обрабатывать фрагменты
и т.д.................

Похожие статьи