Реферат: Дослідники автоматичного перекладу...

Для корелювання більш складних структур будь-яка вже існуюча кореляція в свою чергу розглядається як можливий корелят в кореляції вищого рангу. Так словосполучення green and blue bottles представляється:


Словарні статті будуть містити ще й:

green and blue

Ic 521

CF1

Bottle

Ic 521

CF2


Речення:

Додаток до словників:

green and blue bottles

Ic 401

CF2

like

Ic 401

CF1

like green and blue bottles

Ic 222

CF2

I

Ic 222

CF1

Кореляція 401 – “дієслово-доповнення”; кореляція 222 – “підмет-присудок”.

Задачею цієї системи є послідовна обробка тексту для встановлення кореляційної структури словосполучень та фраз природньої мови. Результат аналізу – кореляційна сітка.

До слів аналізуємої фрази підбираються словарні карти і вводяться в машину. У випадках синтаксично неоднозначних речень система видає декілька варіантів аналізу. Отримані з однієї вхідної фрази різні кореляційні сітки будуть ще раз досліджуватися з метою виявлення семантичних ознак, які потім будуть використовуватися в системі для видалення зайвих елементів.

Власне, “Мультістор” – це ділянка пам’яті машини, відведена для утворення кореляцій за кореляційними індексами слів, яку зручно представляти у вигляді таблиці, що складається з таких стовпчиків:

Ic

CF

1

2

Зчитуючи індекс кореляції першого слова фрази, машина фіксує цей індекс у відповідній секції CF у вигляді маркеру, що являє таким чином певну кореляційну здатність першого слова. Якщо тепер в другій секції тієй ж колонки Ic з’явиться маркер від другого слова, то це буде означати, що між першим та та другим словами можлива кореляція.

Правила попередньої обробки:

Приписати кожному слову його порядковий номер у фразі.

Помістити кожне слово в спеціальний накопичувач слів та записати там відомості, отримані для цього слова з словнику.

Так як у фразі може бути інверсія, деякі слова або кореляці треба відкласти “запам’ятати” , поки не дойдемо до якогось конкретного виразу. Важливо заздалегідь знати, які з кореляцій допускають інвертування, тому в таблиці “Мультістор” ще існують стовпчики N, M, E, F. N – імпліцитні корелятори, шо не допускають інвертування, M – імпліцитні корелятори, що допускають інвертування , E – експліцитні корелятори, що не допускають інвертування , F – експліцитні корелятори, що длпускають івертування.

Перевірити наявність у фразі експліцитних кореляторів.

Перевірити чи містить фраза компоненти якогось ідіоматичного виразу, і якщо так, то ввести в дію відповідну програму.

Перевірити чи містить фраза компоненти якогось складного експліцитного корелятора, що записаний у вигляді окремої таблиці.

Сущность системи “Мультістор” полягає в тому, що в заздалегідь організованій ділянці пам’яті для кожного типу кореляцій відводиться спеціальна позиція. Тому для утворення кореляцій не треба співставляти всі кореляційні індекси кожного слова з усіма кореляційними індексами іншого слова.

Полуавтоматичний переклад з англійської на французьку мови: система “Людина – машинний тезаурус”. М.Мастерман

В праці англійської дослідниці М.Мастерман йдеться про полуавтоматичну систему перекладу, яка діє при участі людини і здатна перекладати окремі абзаци тексту (канадських урядових документів) з англійської на французьку.

В системі використовується тезаурус. В якості запиту в операціях пошуку виступає одиниця, білаша за слово – синтагма. Оператор може з пульту приєднуватися до роботи машини; його прямий діалог з тезаурусом забезпечується процедурами, що написані на мові TRAC.

Головний принцип системи – взаємодія між людиною і машиною. На вхід машини подається розмічена синтагма, де виділені головні члени і вказаний деякий мінімум синтаксичних відомостей про слова, що входять до її складу. Вже існує алгоритм, який розбиває текст на синтагми. Оператор вводить в машину текст по синтагмам, вилучаючи з низ головні члени, які вже заздалегідь відмічені в даному для нього тексті. Це означає, що він набирає не всю синтагму, а лише схему синтагми.

Схеми синтагм:

He …-ed to the …

(дієслово в мин.ч) (іменник)



  • Сторінка:
  • 1
  • 2
  • 3
  • 4