Додајте глас и лице вашем систему говора без икаквог облака

Words at War: The Veteran Comes Back / One Man Air Force / Journey Through Chaos (Јули 2019).

$config[ads_text] not found
Anonim

Сенсори доноси цхатбот и аватар технологију потрошачким уређајима и апликацијама

Програмери имају нову врсту опције за гласовни интерфејс за своје потрошачке производе и апликације, оне које такође могу да издрже лице. Компанија "Спеецх анд висион тецхнологи", Сенсори, управо је најавила цхатбот функцију за своју платформу за препознавање говора, ТрулиНатурал. Једноставно речено, систем подржава анимацију лица за помоћника АИ-а, а покрет се синхронизује са својим говорима и функционише у потпуности на уређају без потребе за живом интернет конекцијом.

ТрулиНатурал може омогућити потрошачким производима и апликацијама да имају гласовни интерфејс који нуди више конверзацијски стил, према изјави објављеној од стране Сенсори. Његова нова подршка за ћаскање омогућава управљање дијалогом и скриптовање и дизајнирана је да динамички обликује покрет покрета у дигиталном аватару како би одражавала речи које се говоре. Према речима извршног директора Сенсори, Тодд Мозер, нове могућности омогућавају програмерима да креирају нови вид визуелног говорног интерфејса на потрошачким производима и апликацијама.

Интерфејс аватар користи не-линеарну технологију морфинга која омогућава покретима лица и уста између висема (визуелних приказа фонема) да изгледају реалистични, иако су потпуно аутоматизовани. Сенсори користи прилично конвенционалне приступе препознавању говора иза лица цхатбот-а, али не захтева повезивање са облаком. Мозер је рекао да његов тим има власничке приступе у колапсу величине модела и да направи робусну технологију препознавања говора која се уклапа у мањи отисак, омогућавајући јој да буде уграђен у самостални систем. "Традиционални приступи које развијамо укључују технике машинског учења, моделирање статистичког језика, разноврсни приступи природном језику (попуњавање формата, језички раздвајање, врећа ријечи, моделирање смећа), скривено моделирање Маркова, модели дубоког учења и дубоко- учење акустичких модела ", рекао је Мозер.

Иако је препознавање говора заснованог на облаку, тренутно је у питању, Мозер је у интервјуу изјавио Елецтрониц Продуцтс, а не у облаку пружа низ предности. Брзина одговора, конзистентност расположивости, нижи трошкови система и нижи трошкови протока су неке од техничких предности. "И подаци о коришћењу су приватни", рекао је Мозер. Самостални систем не може препознати што више речи као облак система, додао је он, али "Сенсори не покушава да направи помоћника за општу намјену. То је приступ специфичан за домен који се може применити на производе за домаћинство или киоск. "

Један од циљева цхатбота, који се бави потрошачким уређајима и мобилним апликацијама, је побољшање пословних трансакција. На пример, ланац брзе хране може имати аватар који узима и потврђује наређења. Према Мозеру, овај приступ би могао бити мање подложан грешкама и, за разлику од људског запосленог, аватар се неће уморити. За потрошача, овакав приступ могао би учинити искуство чекања на линији краће.

Међутим, упаривање лица са гласом је само почетак. Будућност АИ, рекао је Мозер, преузима многе форме. Неки АИ ће бити опремљени само помоћником за разговор, док ће други дигитални асистенти имати лица и личности. Искуство би се могло уградити, а други пут, то ће се догодити у облаку. Све у свему, не постоји ниједан прави приступ, јер различите ситуације представљају различите потребе, а технологија ће се и даље развијати.

"Иронично, Сензори је пре десет година видио концепт буке као подручје ниша", рекао је Мозер. "Сви су ударали тастерима да позову препознатљивце и дошли смо до приступа где можете само назвати уређај. Мислим да је Сенсори заправо развио прве Сири и Гоогле окидаче. Сада, кориштење буђених речи је уобичајено, а можда и један дан, па ће бити цхатбот аватар.

Међутим, развија се, будућност АИ изгледа обећавајуће.