Ученые из Массачусетского технологического института разработали компьютерную программу, которая расшифровала мертвый язык семитской семьи - угаритский - за пару часов. Программа сравнивала слова на угаритском со словами из близкородственного языка - иврита - в поисках общих корней.
Ученые из Массачусетского технологического института разработали компьютерную программу, которая расшифровала мертвый язык семитской семьи - угаритский - за пару часов, сообщается на сайте института. Реджина Барзилай (Regina Barzilay), Бен Снайдер (Ben Snyder) и Кевин Найт (Kevin Knight) должны представить результаты работы на конференции в Швеции в июле.
Программа сравнивала слова на угаритском со словами из близкородственного языка - иврита - в поисках общих корней. Исследователи исходили из допущения, что между разноуровневыми элементами родственных языков можно установить однозначные связи - как на уровне знаков алфавита, так и на уровне частей слов (морфем).
Угаритский уже был расшифрован: иначе исследователи не смогли бы проверить точность работы программы. Для 29 из 30 его букв машина смогла верно найти соответствия в иврите. Примерно треть угаритских слов имеют "родственников" в иврите; из них программа верно определила 60 процентов.
Толчком к работе для массачусетских исследователей стала книга "Потерянные языки" Эндрю Робинсона (Andrew Robinson), в которой он утверждает, что машины не обладают тем сплавом логики и интуиции, которые необходимы археологам и лингвистам для успешной расшифровки надписей на мертвых языках. В ответном письме ученым, которые выслали Робинсону свое исследование, он пишет, что их результаты его все равно не убедили. В частности, Робинсон отметил, что новая программа не поможет справиться с текстами, написанными на языках, расшифрованные или живые "родственники" которых не известны.
Тем не менее, Барзилай, Снайдер и Найт надеются, что их программа, даже если и не расшифрует древние письменности, поможет разработчикам автоматических переводчиков, таких как Google Translate.
– Слухай сюда! Положь колдобину со стороны загогулины и два раза дергани за пимпочки. Опосля чего долбани плюхалкой по кувыкалке и, кады чвокнет, – отскочь дальшее, прикинься ветошью и не отсвечивай. Потому как она в энто время шмяк тудыть, сюдыть, ёксель-моксель, ёрш твою медь... Пш-ш-ш! – И ждешь пока остынет. Остыло – подымаесся, вздыхаешь. Осторожненько вздыхаешь, про себя, шобы эта быдла не рванула! И бегишь за угол за пол-литрой. Потому как пронесло! (М.З.)
Google Translate статистическими методами пользуется вовсю - они собирают статистику из текстов, переведенных на многие языки переводчиками высокой квалификации, а потом используют эту статистику для перевода. Вся разница в том, что вместо треугольничков и точечек у Google "нормальные" буквы.
Listen here! Put the potholes from the flourishes and twice twitching for pimpochki. Afterward what fucking plyuhalkoy on kuvykalke and Kadi chvoknet - jumped on, count up cloth and sheen. Because she ento time tudyt Peck, syudyt, eksel-moksel, ruff your copper ... PH-sh-sh! - And wait until cool. Cooled - podymaessya, sigh. Cautiously sigh to myself, this shoby cattle did not pull! And begish the corner for a half-liter. Because both had passed!
Слушай сюда! Положите выбоин от процветает и в два раза подергивания за pimpochki. Потом то, что чертовски plyuhalkoy на kuvykalke и Кади chvoknet - вскочил на, подсчитать ткани и блеск. Потому что она ento время tudyt Пек, syudyt, Эксел-moksel, ерш меди вашего ... PH-ш-ш! - И ждать, пока прохладно. Охлаждение - podymaessya, вздохнув. Осторожно вздохнул про себя, это Шоби крупного рогатого скота не вытащить! И Бегиш углу за пол-литра. Так как прошло!
Во всех языках кроме логики присутствует образность, которую и не могут «понять» компьютерные программы. It rains cats and dogs. При чем здесь кошки и собаки? По-русски будет «Дождь льет как из ведра». It never rains but it pours (комп: Никогда не идет дождь, но это льется) - Беда не ходит одна.
не будет ни хорошего перевода, ни расшифровки, пока не изобретут искуственный интелект, который может все хорошо понять. Каждое слово одного языка не соответствуют слову другого. Надо выбирать значения. То же с грамматикой. И много еще с чем, например с двойными смыслами.
В том то и дело, что всё совершенствуется. Да, дословно зачастую нельзя перевести правильно, но ведь можно создать для этого отдельные базы разработчиками таких переводчиков? Потом по самому тексту, его характеру, определять, какой тематики текст тоже не должно быть сложно я думаю. Человек же тоже как-то понимает. Это всё приходящее. Над этим работают. Другой вопрос - когда? Особенно для русского языка, на который как обычно хрен ложили.
понимание контекста, тематики - функции искуственного интелекта. Когда? Тогда, когда будет созданно то, что выполняет такие функции. Можно забить базу, но нельзя создать совершенную базу всего. Это довольно неэффективно. 90% базы может будет и вообще никогда не использоваться. И это же еще все обнавлять.
Понимание контекста, тематики - функции интеллекта. Не важно какого. Любая программа - искусственный интеллект.
>Можно забить базу, но нельзя создать совершенную базу всего. Ну как? Берёшь, переводишь. Не перевело? Жалуешься. Исправляют.
>90% базы может будет и вообще никогда не использоваться Почему? Если относительно - да. У нас ведь в голове тоже есть своеобразная база. И в ней тоже 90% данных используется очень редко. Это по сути не важно, главное, чтобы информация была. Без информации не будет хорошего результата. Как у человека, так и у AI.
да, и еще в большинстве случаев требуется абстрактное мышление и логика. Также сложные случаи. Множество слов появляется новых все время. К тому же стиль языка все время меняется.
дело в том, что язык это не код, язык очень не точен. к примеру описываешь комнату. На компьютере ты можешь создать код, который точно сделает модель комнаты, читай опишет. А языком никогда точно не опишешь. Когда происходит коммуникация между людьми, один человек не передает точно того что хочет. Только образно. Так как язык не позваляет. Потери коммуникации большие. При переводе надо чтобы была переведена информация которая была подрузамеваема автором. А что было подразумеваемо надо понимать всю информацию как то, то есть мыслить. При переводе с французского на японский. А потом при переводе с японского на французский очень много потеряется информации.
>Множество слов появляется новых все время. К тому же стиль языка все время меняется. Не происходит так, что вы заснули с таким языком, а проснулись с другим. Исправят. Точнее, успеют.
>дело в том, что язык это не код, язык очень не точен Всё можно подогнать. Любые особенности языка.
>Когда происходит коммуникация между людьми, один человек не передает точно того что хочет. Только образно. Так как язык не позваляет. Не совсем соглашусь. Т.е. я могу схематично говорить "у меня тут стул, тут стол, стены синие". Но если я буду говорить с непередаваемыми особенностями другого языка, вполне вероятно, смысл будет утерян. Но ведь мы говорили, что можно создать базу всех "тонких" моментов.
>При переводе с французского на японский. А потом при переводе с японского на французский очень много потеряется информации. Этим сейчас грешит гуглопереводчик. Он все языки, кроме украинского и, может быть, ещё какого-то, перед переводом на русский пускает на английский. Получается иногда весьма забавно. Поэтому я и говорил о времени. Для английского уже всё есть, а для нас как всегда.
коротко гороря примером, момент в том, что есть предложение из 10 слов, 5 из которых на другом языке 5 разных слов. получается 25 комбинаций. И в каждой комбинации нормально для компьютера. Выбирает статистически оптимальный. Процентная стиатистика такая 6,5,5,5,5,4,3,3,3,3... для каждого вара, выберет 6% вар, в он и будет неправильным. Потому что статистически лучший вариант, не всегда, а скорее всего большинство случаев, то что имеет в виду автор.
Эндрю Робинсону - читать Криптономикон: " -- А тебе не кажется, что мы можем то, чего не может машина Тьюринга? -- Гёдель с тобой согласен, Лоуренс, -- вставил Руди, -- и Харди тоже. -- Приведите пример, -- попросил Алан. -- Невычислимой функции, с которой человек справится, а машина Тьюринга -- нет? -- Да. Только не надо сентиментальной чепухи про творчество. Уверен, Универсальная Машина Тьюринга способна демонстрировать поведение, которое мы воспримем как творческое. "
Компьютер расшифровал мертвый язык за два часа
Ученые из Массачусетского технологического института разработали компьютерную программу, которая расшифровала мертвый язык семитской семьи - угаритский - за пару часов. Программа сравнивала слова на угаритском со словами из близкородственного языка - иврита - в поисках общих корней.
Ученые из Массачусетского технологического института разработали компьютерную программу, которая расшифровала мертвый язык семитской семьи - угаритский - за пару часов, сообщается на сайте института. Реджина Барзилай (Regina Barzilay), Бен Снайдер (Ben Snyder) и Кевин Найт (Kevin Knight) должны представить результаты работы на конференции в Швеции в июле.
Программа сравнивала слова на угаритском со словами из близкородственного языка - иврита - в поисках общих корней. Исследователи исходили из допущения, что между разноуровневыми элементами родственных языков можно установить однозначные связи - как на уровне знаков алфавита, так и на уровне частей слов (морфем).
Угаритский уже был расшифрован: иначе исследователи не смогли бы проверить точность работы программы. Для 29 из 30 его букв машина смогла верно найти соответствия в иврите. Примерно треть угаритских слов имеют "родственников" в иврите; из них программа верно определила 60 процентов.
Толчком к работе для массачусетских исследователей стала книга "Потерянные языки" Эндрю Робинсона (Andrew Robinson), в которой он утверждает, что машины не обладают тем сплавом логики и интуиции, которые необходимы археологам и лингвистам для успешной расшифровки надписей на мертвых языках. В ответном письме ученым, которые выслали Робинсону свое исследование, он пишет, что их результаты его все равно не убедили. В частности, Робинсон отметил, что новая программа не поможет справиться с текстами, написанными на языках, расшифрованные или живые "родственники" которых не известны.
Тем не менее, Барзилай, Снайдер и Найт надеются, что их программа, даже если и не расшифрует древние письменности, поможет разработчикам автоматических переводчиков, таких как Google Translate.
– Слухай сюда! Положь колдобину со стороны загогулины и два раза дергани за пимпочки. Опосля чего долбани плюхалкой по кувыкалке и, кады чвокнет, – отскочь дальшее, прикинься ветошью и не отсвечивай. Потому как она в энто время шмяк тудыть, сюдыть, ёксель-моксель, ёрш твою медь... Пш-ш-ш! – И ждешь пока остынет. Остыло – подымаесся, вздыхаешь. Осторожненько вздыхаешь, про себя, шобы эта быдла не рванула! И бегишь за угол за пол-литрой. Потому как пронесло! (М.З.)
Google Translate статистическими методами пользуется вовсю - они собирают статистику из текстов, переведенных на многие языки переводчиками высокой квалификации, а потом используют эту статистику для перевода. Вся разница в том, что вместо треугольничков и точечек у Google "нормальные" буквы.
Listen here! Put the potholes from the flourishes and twice twitching for pimpochki. Afterward what fucking plyuhalkoy on kuvykalke and Kadi chvoknet - jumped on, count up cloth and sheen. Because she ento time tudyt Peck, syudyt, eksel-moksel, ruff your copper ... PH-sh-sh! - And wait until cool. Cooled - podymaessya, sigh. Cautiously sigh to myself, this shoby cattle did not pull! And begish the corner for a half-liter. Because both had passed!
гугл ниасилил...
Слушай сюда! Положите выбоин от процветает и в два раза подергивания за pimpochki. Потом то, что чертовски plyuhalkoy на kuvykalke и Кади chvoknet - вскочил на, подсчитать ткани и блеск. Потому что она ento время tudyt Пек, syudyt, Эксел-moksel, ерш меди вашего ... PH-ш-ш! - И ждать, пока прохладно. Охлаждение - podymaessya, вздохнув. Осторожно вздохнул про себя, это Шоби крупного рогатого скота не вытащить! И Бегиш углу за пол-литра. Так как прошло!
Обратный перевод от гугля )
повторить десять раз и запостать сюда-же
Если бы все так было просто. Чих-пых и расшифровал.
Во всех языках кроме логики присутствует образность, которую и не могут «понять» компьютерные программы. It rains cats and dogs. При чем здесь кошки и собаки? По-русски будет «Дождь льет как из ведра». It never rains but it pours (комп: Никогда не идет дождь, но это льется) - Беда не ходит одна.
не будет ни хорошего перевода, ни расшифровки, пока не изобретут искуственный интелект, который может все хорошо понять. Каждое слово одного языка не соответствуют слову другого. Надо выбирать значения. То же с грамматикой. И много еще с чем, например с двойными смыслами.
Вы человек с абсолютным гуманитарным мышлением. Вам не понять.
все понять, я и гумманитарии и точные науки изучал
с курса лингвистики я помню много проблем с которыми сталкивается машина при машинном переводе
В том то и дело, что всё совершенствуется. Да, дословно зачастую нельзя перевести правильно, но ведь можно создать для этого отдельные базы разработчиками таких переводчиков? Потом по самому тексту, его характеру, определять, какой тематики текст тоже не должно быть сложно я думаю. Человек же тоже как-то понимает. Это всё приходящее. Над этим работают. Другой вопрос - когда? Особенно для русского языка, на который как обычно хрен ложили.
понимание контекста, тематики - функции искуственного интелекта. Когда? Тогда, когда будет созданно то, что выполняет такие функции. Можно забить базу, но нельзя создать совершенную базу всего. Это довольно неэффективно. 90% базы может будет и вообще никогда не использоваться. И это же еще все обнавлять.
Понимание контекста, тематики - функции интеллекта. Не важно какого. Любая программа - искусственный интеллект.
>Можно забить базу, но нельзя создать совершенную базу всего.
Ну как? Берёшь, переводишь. Не перевело? Жалуешься. Исправляют.
>90% базы может будет и вообще никогда не использоваться
Почему? Если относительно - да. У нас ведь в голове тоже есть своеобразная база. И в ней тоже 90% данных используется очень редко. Это по сути не важно, главное, чтобы информация была. Без информации не будет хорошего результата. Как у человека, так и у AI.
да, и еще в большинстве случаев требуется абстрактное мышление и логика. Также сложные случаи. Множество слов появляется новых все время. К тому же стиль языка все время меняется.
программа должна самообучаться
дело в том, что язык это не код, язык очень не точен. к примеру описываешь комнату. На компьютере ты можешь создать код, который точно сделает модель комнаты, читай опишет. А языком никогда точно не опишешь. Когда происходит коммуникация между людьми, один человек не передает точно того что хочет. Только образно. Так как язык не позваляет. Потери коммуникации большие. При переводе надо чтобы была переведена информация которая была подрузамеваема автором. А что было подразумеваемо надо понимать всю информацию как то, то есть мыслить. При переводе с французского на японский. А потом при переводе с японского на французский очень много потеряется информации.
>Множество слов появляется новых все время. К тому же стиль языка все время меняется.
Не происходит так, что вы заснули с таким языком, а проснулись с другим. Исправят. Точнее, успеют.
>дело в том, что язык это не код, язык очень не точен
Всё можно подогнать. Любые особенности языка.
>Когда происходит коммуникация между людьми, один человек не передает точно того что хочет. Только образно. Так как язык не позваляет.
Не совсем соглашусь. Т.е. я могу схематично говорить "у меня тут стул, тут стол, стены синие". Но если я буду говорить с непередаваемыми особенностями другого языка, вполне вероятно, смысл будет утерян. Но ведь мы говорили, что можно создать базу всех "тонких" моментов.
>При переводе с французского на японский. А потом при переводе с японского на французский очень много потеряется информации.
Этим сейчас грешит гуглопереводчик. Он все языки, кроме украинского и, может быть, ещё какого-то, перед переводом на русский пускает на английский. Получается иногда весьма забавно. Поэтому я и говорил о времени. Для английского уже всё есть, а для нас как всегда.
коротко гороря примером, момент в том, что есть предложение из 10 слов, 5 из которых на другом языке 5 разных слов. получается 25 комбинаций. И в каждой комбинации нормально для компьютера. Выбирает статистически оптимальный. Процентная стиатистика такая 6,5,5,5,5,4,3,3,3,3... для каждого вара, выберет 6% вар, в он и будет неправильным. Потому что статистически лучший вариант, не всегда, а скорее всего большинство случаев, то что имеет в виду автор.
главное, что никто не проверит - носителей то нет :)))
Эндрю Робинсону - читать Криптономикон:
"
-- А тебе не кажется, что мы можем то, чего не может машина Тьюринга?
-- Гёдель с тобой согласен, Лоуренс, -- вставил Руди, -- и Харди тоже.
-- Приведите пример, -- попросил Алан.
-- Невычислимой функции, с которой человек справится, а машина Тьюринга
-- нет?
-- Да. Только не надо сентиментальной чепухи про творчество. Уверен,
Универсальная Машина Тьюринга способна демонстрировать поведение, которое мы
воспримем как творческое.
"