Реферат: Дослідники автоматичного перекладу...
Для корелювання більш складних структур будь-яка вже існуюча кореляція в свою чергу розглядається як можливий корелят в кореляції вищого рангу. Так словосполучення green and blue bottles представляється:
Словарні статті будуть містити ще й:
green and blue | Ic 521 | CF1 |
Bottle | Ic 521 | CF2 |
Речення:
Додаток до словників:
green and blue bottles | Ic 401 | CF2 |
like | Ic 401 | CF1 |
like green and blue bottles | Ic 222 | CF2 |
I | Ic 222 | CF1 |
Кореляція 401 – “дієслово-доповнення”; кореляція 222 – “підмет-присудок”.
Задачею цієї системи є послідовна обробка тексту для встановлення кореляційної структури словосполучень та фраз природньої мови. Результат аналізу – кореляційна сітка.
До слів аналізуємої фрази підбираються словарні карти і вводяться в машину. У випадках синтаксично неоднозначних речень система видає декілька варіантів аналізу. Отримані з однієї вхідної фрази різні кореляційні сітки будуть ще раз досліджуватися з метою виявлення семантичних ознак, які потім будуть використовуватися в системі для видалення зайвих елементів.
Власне, “Мультістор” – це ділянка пам’яті машини, відведена для утворення кореляцій за кореляційними індексами слів, яку зручно представляти у вигляді таблиці, що складається з таких стовпчиків:
Ic | ||
CF | 1 | 2 |
… | … |
Зчитуючи індекс кореляції першого слова фрази, машина фіксує цей індекс у відповідній секції CF у вигляді маркеру, що являє таким чином певну кореляційну здатність першого слова. Якщо тепер в другій секції тієй ж колонки Ic з’явиться маркер від другого слова, то це буде означати, що між першим та та другим словами можлива кореляція.
Правила попередньої обробки:
Приписати кожному слову його порядковий номер у фразі.
Помістити кожне слово в спеціальний накопичувач слів та записати там відомості, отримані для цього слова з словнику.
Так як у фразі може бути інверсія, деякі слова або кореляці треба відкласти “запам’ятати” , поки не дойдемо до якогось конкретного виразу. Важливо заздалегідь знати, які з кореляцій допускають інвертування, тому в таблиці “Мультістор” ще існують стовпчики N, M, E, F. N – імпліцитні корелятори, шо не допускають інвертування, M – імпліцитні корелятори, що допускають інвертування , E – експліцитні корелятори, що не допускають інвертування , F – експліцитні корелятори, що длпускають івертування.
Перевірити наявність у фразі експліцитних кореляторів.
Перевірити чи містить фраза компоненти якогось ідіоматичного виразу, і якщо так, то ввести в дію відповідну програму.
Перевірити чи містить фраза компоненти якогось складного експліцитного корелятора, що записаний у вигляді окремої таблиці.
Сущность системи “Мультістор” полягає в тому, що в заздалегідь організованій ділянці пам’яті для кожного типу кореляцій відводиться спеціальна позиція. Тому для утворення кореляцій не треба співставляти всі кореляційні індекси кожного слова з усіма кореляційними індексами іншого слова.
Полуавтоматичний переклад з англійської на французьку мови: система “Людина – машинний тезаурус”. М.Мастерман
В праці англійської дослідниці М.Мастерман йдеться про полуавтоматичну систему перекладу, яка діє при участі людини і здатна перекладати окремі абзаци тексту (канадських урядових документів) з англійської на французьку.
В системі використовується тезаурус. В якості запиту в операціях пошуку виступає одиниця, білаша за слово – синтагма. Оператор може з пульту приєднуватися до роботи машини; його прямий діалог з тезаурусом забезпечується процедурами, що написані на мові TRAC.
Головний принцип системи – взаємодія між людиною і машиною. На вхід машини подається розмічена синтагма, де виділені головні члени і вказаний деякий мінімум синтаксичних відомостей про слова, що входять до її складу. Вже існує алгоритм, який розбиває текст на синтагми. Оператор вводить в машину текст по синтагмам, вилучаючи з низ головні члени, які вже заздалегідь відмічені в даному для нього тексті. Це означає, що він набирає не всю синтагму, а лише схему синтагми.
Схеми синтагм:
He …-ed to the …
(дієслово в мин.ч) (іменник)