Ang bilang ng mga application at ang kahalagahan ng mga voice interface ay mabilis na lumalaki

nilalaman

malaking apat
Gustong bilhin ng mga Amerikano
Maghugas, maghurno, maglinis!
Lumang konsepto. Dumating na ba ang oras niya sa wakas?
teknikal na mahirap na tanong
Boses? Graphic arts? O baka pareho?
Mag-ingat para sa kaligtasan!

Nalaman kamakailan ng isang pamilyang Amerikano sa Portland, Oregon na ni-record ng voice assistant ni Alex ang kanilang mga pribadong chat at ipinadala ang mga ito sa isang kaibigan. Ang may-ari ng bahay, na tinawag na Danielle ng media, ay nagsabi sa mga mamamahayag na "hindi na niya muling isaksak ang device na iyon dahil hindi siya mapagkakatiwalaan."

Alexa, na ibinigay ng mga Echo (1) speaker at iba pang gadget sa sampu-sampung milyong mga tahanan sa US, ay nagsisimulang mag-record kapag narinig nito ang pangalan nito o "salitang tawag" na binibigkas ng user. Nangangahulugan ito na kahit na binanggit ang salitang "Alexa" sa isang ad sa TV, maaaring magsimulang mag-record ang device. Iyon mismo ang nangyari sa kasong ito, sabi ng Amazon, ang distributor ng hardware.

"Ang natitirang pag-uusap ay binigyang-kahulugan ng voice assistant bilang isang utos na magpadala ng mensahe," sabi ng kumpanya sa isang pahayag. "Sa isang punto, malakas na nagtanong si Alexa: "Kanino?" Ang pagpapatuloy ng pag-uusap ng pamilya tungkol sa hardwood flooring ay dapat na nakita ng makina bilang isang item sa listahan ng contact ng customer." Hindi bababa sa iyon ang iniisip ng Amazon. Kaya, ang pagsasalin ay nabawasan sa isang serye ng mga aksidente.

Ang pagkabalisa, gayunpaman, ay nananatili. Dahil sa ilang kadahilanan, sa isang bahay kung saan nakaramdam pa rin kami ng kagaanan, kailangan naming pumasok sa isang uri ng "voice mode", panoorin kung ano ang sinasabi namin, kung ano ang isinasahimpapawid ng TV at, siyempre, kung ano ang bagong tagapagsalita na ito sa dibdib ng sabi ng mga drawer. tayo.

gayunpaman, Sa kabila ng mga kakulangan sa teknolohiya at mga alalahanin sa privacy, sa pagtaas ng katanyagan ng mga device tulad ng Amazon Echo, nagsisimula nang masanay ang mga tao sa ideya ng pakikipag-ugnayan sa mga computer gamit ang kanilang boses..

Gaya ng sinabi ni Werner Vogels, CTO ng Amazon, sa kanyang sesyon ng AWS re:Invent noong huling bahagi ng 2017, hanggang ngayon ay limitado ng teknolohiya ang aming kakayahang makipag-ugnayan sa mga computer. Nagta-type kami ng mga keyword sa Google gamit ang keyboard, dahil ito pa rin ang pinakakaraniwan at pinakamadaling paraan upang magpasok ng impormasyon sa isang makina.

Sabi ni Vogels. -

malaking apat

Kapag ginagamit ang Google search engine sa telepono, malamang na napansin namin ang isang tanda ng mikropono na may isang tawag na magsalita nang matagal na ang nakalipas. Ito Google ngayon (2), na maaaring magdikta ng query sa paghahanap, magpasok ng mensahe sa pamamagitan ng boses, atbp. Sa mga nakalipas na taon, ang Google, Apple, at Amazon ay lubos na napabuti teknolohiya sa pagkilala ng boses. Ang mga voice assistant tulad ni Alexa, Siri, at Google Assistant ay hindi lamang nagre-record ng iyong boses, ngunit naiintindihan din kung ano ang iyong sinasabi sa kanila at sumasagot sa mga tanong.

Ang Google Now ay magagamit nang libre sa lahat ng mga gumagamit ng Android. Ang application ay maaaring, halimbawa, magtakda ng alarma, suriin ang taya ng panahon at tingnan ang ruta sa Google maps. Extension ng pag-uusap ng mga estado ng Google Now Google Assistant () – virtual na tulong sa gumagamit ng kagamitan. Pangunahing available ito sa mga mobile at smart home device. Hindi tulad ng Google Now, maaari itong lumahok sa isang two-way exchange. Nag-debut ang assistant noong Mayo 2016 bilang bahagi ng Google messaging app na Allo, gayundin sa voice speaker ng Google Home (3).

3. Google Home

Ang IOS system ay mayroon ding sariling virtual assistant, Siri, na isang program na kasama sa mga operating system ng Apple na iOS, watchOS, tvOS homepod, at macOS. Nag-debut si Siri sa iOS 5 at iPhone 4s noong Oktubre 2011 sa Let's Talk iPhone conference.

Ang software ay batay sa isang interface ng pakikipag-usap: kinikilala nito ang natural na pananalita ng gumagamit (sa iOS 11 posible ring magpasok ng mga command nang manu-mano), sumasagot sa mga tanong at kumukumpleto ng mga gawain. Salamat sa pagpapakilala ng machine learning, isang katulong sa paglipas ng panahon sinusuri ang mga personal na kagustuhan ang user upang magbigay ng mas may-katuturang mga resulta at rekomendasyon. Nangangailangan ang Siri ng patuloy na koneksyon sa Internet - ang pangunahing pinagmumulan ng impormasyon dito ay Bing at Wolfram Alpha. Ipinakilala ng iOS 10 ang suporta para sa mga extension ng third-party.

Isa pa sa big four Cortana. Ito ay isang matalinong personal na katulong na nilikha ng Microsoft. Sinusuportahan ito sa mga platform ng Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android, at iOS. Unang ipinakilala si Cortana sa Microsoft Build Developer Conference noong Abril 2014 sa San Francisco. Ang pangalan ng programa ay nagmula sa pangalan ng isang karakter mula sa Halo game series. Available si Cortana sa English, Italian, Spanish, French, German, Chinese, at Japanese.

Mga gumagamit ng nabanggit na programa Alexa dapat din nilang isaalang-alang ang mga paghihigpit sa wika - ang digital assistant ay nagsasalita lamang ng English, German, French at Japanese.

Ang Amazon Virtual Assistant ay unang ginamit sa Amazon Echo at Amazon Echo Dot smart speaker na binuo ng Amazon Lab126. Nagbibigay-daan ito sa pakikipag-ugnayan ng boses, pag-playback ng musika, paggawa ng listahan ng gagawin, setting ng alarma, streaming ng podcast, pag-playback ng audiobook, at real-time na lagay ng panahon, trapiko, palakasan, at iba pang impormasyon ng balita gaya ng balita (4). Maaaring kontrolin ni Alexa ang maraming matalinong aparato upang lumikha ng isang sistema ng pag-aautomat sa bahay. Maaari rin itong magamit upang makagawa ng maginhawang pamimili sa tindahan ng Amazon.

4. Para Saan Ginagamit ng Mga Gumagamit ang Echo (Ayon sa Pananaliksik)

Mapapahusay ng mga user ang karanasan sa Alexa sa pamamagitan ng pag-install ng mga "kasanayan" ni Alexa (), mga karagdagang feature na binuo ng mga third party, na mas karaniwang tinutukoy bilang mga app gaya ng weather at mga audio program sa ibang mga setting. Pinapayagan ka ng karamihan sa mga Alexa device na i-activate ang iyong virtual assistant gamit ang isang wake-up password, na tinatawag na .

Tiyak na nangingibabaw ang Amazon sa merkado ng matalinong tagapagsalita ngayon (5). Sinusubukan ng IBM, na nagpakilala ng bagong serbisyo noong Marso 2018, na makapasok sa nangungunang apat katulong ni Watson, na idinisenyo para sa mga kumpanyang gustong lumikha ng sarili nilang mga sistema ng mga virtual assistant na may kontrol sa boses. Ano ang bentahe ng solusyon ng IBM? Ayon sa mga kinatawan ng kumpanya, una sa lahat, sa mas malaking pagkakataon para sa pag-personalize at proteksyon sa privacy.

Una, hindi branded ang Watson Assistant. Ang mga kumpanya ay maaaring gumawa ng sarili nilang mga solusyon sa platform na ito at lagyan ng label ang mga ito ng sarili nilang brand.

Pangalawa, maaari nilang sanayin ang kanilang mga assistive system gamit ang sarili nilang data set, na sinasabi ng IBM na ginagawang mas madaling magdagdag ng mga feature at command sa system na iyon kaysa sa iba pang mga teknolohiya ng VUI (voice user interface).

Pangatlo, ang Watson Assistant ay hindi nagbibigay sa IBM ng impormasyon tungkol sa aktibidad ng user - ang mga developer ng mga solusyon sa platform ay maaari lamang magtago ng mahalagang data sa kanilang sarili. Samantala, ang sinumang gumagawa ng mga device, halimbawa kay Alexa, ay dapat magkaroon ng kamalayan na ang kanilang mahalagang data ay mapupunta sa Amazon.

Ang Watson Assistant ay mayroon nang ilang mga pagpapatupad. Ang sistema ay ginamit, halimbawa, ni Harman, na lumikha ng isang voice assistant para sa Maserati concept car (6). Sa Munich Airport, pinapagana ng isang assistant ng IBM ang isang Pepper robot upang tulungan ang mga pasahero na lumipat sa paligid. Ang ikatlong halimbawa ay ang Chameleon Technologies, kung saan ginagamit ang teknolohiya ng boses sa isang smart home meter.

6. Watson Assistant sa isang Maserati concept car

Ito ay nagkakahalaga ng pagdaragdag na ang pinagbabatayan na teknolohiya dito ay hindi rin bago. Kasama sa Watson Assistant ang mga kakayahan sa pag-encrypt para sa mga umiiral nang produkto ng IBM, Watson Conversation, at Watson Virtual Agent, pati na rin ang mga API para sa pagsusuri ng wika at pakikipag-chat.

Ang Amazon ay hindi lamang isang pinuno sa matalinong teknolohiya ng boses, ngunit ginagawa itong isang direktang negosyo. Gayunpaman, ang ilang mga kumpanya ay nag-eksperimento sa pagsasama ng Echo nang mas maaga. Ipinakilala ng Sisense, isang kumpanya sa industriya ng BI at analytics, ang Echo integration noong Hulyo 2016. Sa turn, nagpasya ang startup na si Roxy na lumikha ng sarili nitong software at hardware na may kontrol sa boses para sa industriya ng hospitality. Sa unang bahagi ng taong ito, ipinakilala ng Synqq ang isang note-taking app na gumagamit ng boses at natural na pagpoproseso ng wika upang magdagdag ng mga tala at mga entry sa kalendaryo nang hindi kinakailangang i-type ang mga ito sa keyboard.

Ang lahat ng maliliit na negosyong ito ay may mataas na ambisyon. Higit sa lahat, gayunpaman, nalaman nila na hindi lahat ng user ay gustong ilipat ang kanilang data sa Amazon, Google, Apple o Microsoft, na siyang pinakamahalagang manlalaro sa pagbuo ng mga voice communication platform.

Gustong bilhin ng mga Amerikano

Noong 2016, ang paghahanap gamit ang boses ay umabot sa 20% ng lahat ng paghahanap sa Google sa mobile. Binabanggit ng mga taong gumagamit ng teknolohiyang ito araw-araw ang kaginhawahan at multitasking nito sa mga pinakamalaking benepisyo nito. (halimbawa, ang kakayahang gumamit ng search engine habang nagmamaneho ng kotse).

Tinatantya ng mga analyst ng Visiongain ang kasalukuyang market value ng mga matalinong digital assistant sa $1,138 bilyon. Parami nang parami ang mga ganitong mekanismo. Ayon kay Gartner, sa pagtatapos ng 2018 na 30% ng aming mga pakikipag-ugnayan sa teknolohiya ay sa pamamagitan ng mga pag-uusap sa mga voice system.

Tinatantya ng British research firm na IHS Markit na ang merkado para sa mga digital assistant na pinapagana ng AI ay aabot sa 4 bilyong device sa pagtatapos ng taong ito, at ang bilang na iyon ay maaaring tumaas sa 2020 bilyon sa 7.

Ayon sa mga ulat mula sa eMarketer at VoiceLabs, 2017 milyong Amerikano ang gumamit ng voice control kahit isang beses sa isang buwan noong 35,6. Nangangahulugan ito ng pagtaas ng halos 130% kumpara sa nakaraang taon. Ang digital assistant market lamang ay inaasahang lalago ng 2018% sa 23. Nangangahulugan ito na gagamitin mo na ang mga ito. 60,5 milyong Amerikano, na magreresulta sa konkretong pera para sa kanilang mga producer. Tinatantya ng RBC Capital Markets na ang interface ng Alexa ay bubuo ng hanggang $2020 bilyon na kita para sa Amazon sa 10.

Maghugas, maghurno, maglinis!

Ang mga voice interface ay lalong matapang na pumapasok sa mga gamit sa bahay at mga merkado ng consumer electronics. Makikita na ito sa eksibisyon ng IFA 2017 noong nakaraang taon. Ipinakilala ng American company na Neato Robotics, halimbawa, ang isang robot vacuum cleaner na kumokonekta sa isa sa ilang mga smart home platform, kabilang ang Amazon Echo system. Sa pamamagitan ng pakikipag-usap sa Echo smart speaker, maaari mong turuan ang makina na linisin ang iyong buong bahay sa mga partikular na oras ng araw o gabi.

Ang iba pang mga voice-activated na produkto ay ipinakita sa palabas, mula sa mga smart TV na ibinebenta sa ilalim ng tatak ng Toshiba ng Turkish company na Vestel hanggang sa mga heated blanket ng German company na Beurer. Marami sa mga elektronikong device na ito ay maaari ding i-activate nang malayuan gamit ang mga smartphone.

Gayunpaman, ayon sa mga kinatawan ng Bosch, masyadong maaga upang sabihin kung alin sa mga pagpipilian sa home assistant ang magiging nangingibabaw. Sa IFA 2017, ipinakita ng German technical group ang mga washing machine (7), oven, at coffee machine na kumokonekta sa Echo. Nais din ng Bosch na maging tugma ang mga device nito sa mga platform ng boses ng Google at Apple sa hinaharap.

7. Bosch washing machine na kumokonekta sa Amazon Echo

Ang mga kumpanya tulad ng Fujitsu, Sony at Panasonic ay gumagawa ng kanilang sariling mga solusyon sa voice assistant na batay sa AI. Idinaragdag ni Sharp ang teknolohiyang ito sa mga oven at maliliit na robot na pumapasok sa merkado. Ang Nippon Telegraph & Telephone ay kumukuha ng mga gumagawa ng hardware at laruan upang iangkop ang isang voice-controlled na artificial intelligence system.

Lumang konsepto. Dumating na ba ang oras niya sa wakas?

Sa katunayan, ang konsepto ng Voice User Interface (VUI) ay umiikot sa loob ng mga dekada. Ang sinumang nanood ng Star Trek o 2001: A Space Odyssey mga taon na ang nakalipas ay malamang na inaasahan na sa paligid ng taong 2000 lahat tayo ay makokontrol sa mga computer gamit ang ating mga boses. Gayundin, hindi lang mga manunulat ng science fiction ang nakakita ng potensyal ng ganitong uri ng interface. Noong 1986, tinanong ng mga mananaliksik ng Nielsen ang mga propesyonal sa IT kung ano sa palagay nila ang magiging pinakamalaking pagbabago sa mga interface ng gumagamit sa taong 2000. Madalas nilang itinuro ang pagbuo ng mga interface ng boses.

May mga dahilan para umasa sa gayong solusyon. Ang komunikasyong pandiwa ay, pagkatapos ng lahat, ang pinaka-natural na paraan para sa mga tao na sinasadyang makipagpalitan ng mga saloobin, kaya ang paggamit nito para sa pakikipag-ugnayan ng tao-machine ay tila ang pinakamahusay na solusyon sa ngayon.

Isa sa mga unang VUI, tinawag kahon ng sapatos, ay nilikha noong unang bahagi ng 60s ng IBM. Ito ang nangunguna sa mga voice recognition system ngayon. Gayunpaman, ang pagbuo ng mga VUI device ay nalimitahan ng mga limitasyon ng kapangyarihan sa pag-compute. Ang pag-parse at pagbibigay-kahulugan sa pagsasalita ng tao sa totoong oras ay nangangailangan ng maraming pagsisikap, at tumagal ng higit sa limampung taon upang makarating sa punto kung saan ito ay naging posible.

Ang mga device na may voice interface ay nagsimulang lumitaw sa mass production noong kalagitnaan ng 90s, ngunit hindi nakakuha ng katanyagan. Ang unang teleponong may kontrol sa boses (pag-dial) ay Philips Sparkinilabas noong 1996. Gayunpaman, ang makabago at madaling gamitin na device na ito ay hindi libre sa mga teknolohikal na limitasyon.

Ang ibang mga teleponong nilagyan ng mga anyo ng voice interface (ginawa ng mga kumpanya gaya ng RIM, Samsung o Motorola) ay regular na pumapasok sa merkado, na nagpapahintulot sa mga user na mag-dial sa pamamagitan ng boses o magpadala ng mga text message. Ang lahat ng mga ito, gayunpaman, ay nangangailangan ng pagsasaulo ng mga tiyak na utos at pagbigkas ng mga ito sa isang sapilitang, artipisyal na anyo, na inangkop sa mga kakayahan ng mga aparato noong panahong iyon. Ito ay nakabuo ng isang malaking bilang ng mga error, na, sa turn, ay humantong sa hindi kasiyahan ng gumagamit.

Gayunpaman, papasok na tayo ngayon sa isang bagong panahon ng computing, kung saan ang mga pag-unlad sa machine learning at ang pagbuo ng artificial intelligence ay nagbubukas ng potensyal ng pag-uusap bilang isang bagong paraan upang makipag-ugnayan sa teknolohiya (8). Ang bilang ng mga device na sumusuporta sa pakikipag-ugnayan ng boses ay naging isang mahalagang salik na nagkaroon ng malaking epekto sa pagbuo ng VUI. Ngayon, halos 1/3 ng populasyon ng mundo ay nagmamay-ari na ng mga smartphone na magagamit para sa ganitong uri ng pag-uugali. Mukhang handa na ang karamihan sa mga user na ibagay ang kanilang mga voice interface.

8. Modernong kasaysayan ng pagbuo ng voice interface

Gayunpaman, bago tayo malayang makipag-usap sa isang computer, tulad ng ginawa ng mga bayani ng A Space Odyssey, kailangan nating pagtagumpayan ang ilang mga problema. Ang mga makina ay hindi pa masyadong mahusay sa paghawak ng mga linguistic nuances. Bukod sa hindi pa rin kumportable ang maraming tao sa pagbibigay ng mga voice command sa isang search engine.

Ipinapakita ng mga istatistika na ang mga voice assistant ay pangunahing ginagamit sa bahay o sa mga malalapit na kaibigan. Wala sa mga nakapanayam ang umamin na gumagamit ng paghahanap gamit ang boses sa mga pampublikong lugar. Gayunpaman, ang blockade na ito ay malamang na mawala sa pagkalat ng teknolohiyang ito.

teknikal na mahirap na tanong

Ang problemang kinakaharap ng mga system (ASR) ay ang pagkuha ng kapaki-pakinabang na data mula sa isang speech signal at iniuugnay ito sa isang partikular na salita na may tiyak na kahulugan para sa isang tao. Ang mga tunog na ginawa ay naiiba sa bawat oras.

Pagkakaiba-iba ng signal ng pagsasalita ay ang likas na pag-aari nito, salamat sa kung saan, halimbawa, nakikilala natin ang isang tuldik o intonasyon. Ang bawat elemento ng speech recognition system ay may partikular na gawain. Batay sa naprosesong signal at mga parameter nito, isang acoustic na modelo ang nilikha, na nauugnay sa modelo ng wika. Ang sistema ng pagkilala ay maaaring gumana batay sa isang maliit o malaking bilang ng mga pattern, na tumutukoy sa laki ng bokabularyo kung saan ito gumagana. Maaaring sila maliliit na diksyunaryo sa kaso ng mga system na kinikilala ang mga indibidwal na salita o utos, pati na rin malalaking database naglalaman ng katumbas ng set ng wika at isinasaalang-alang ang modelo ng wika (grammar).

Mga problemang kinakaharap ng mga voice interface sa unang lugar unawain nang tama ang pananalita, kung saan, halimbawa, ang mga buong pagkakasunud-sunod ng gramatika ay madalas na tinanggal, ang mga error sa linguistic at phonetic, mga pagkakamali, pagtanggal, mga depekto sa pagsasalita, homonyms, hindi makatarungang pag-uulit, atbp. Ang lahat ng mga sistema ng ACP na ito ay dapat gumana nang mabilis at mapagkakatiwalaan. Hindi bababa sa iyon ang mga inaasahan.

Ang pinagmulan ng mga kahirapan ay mga acoustic signal din maliban sa kinikilalang pagsasalita na pumapasok sa input ng sistema ng pagkilala, i.e. ang lahat ng uri panghihimasok at ingay. Sa pinakasimpleng kaso, kailangan mo ang mga ito i-filter out. Ang gawaing ito ay tila nakagawian at madali - pagkatapos ng lahat, ang iba't ibang mga signal ay sinasala at alam ng bawat electronics engineer kung ano ang gagawin sa ganoong sitwasyon. Gayunpaman, dapat itong gawin nang maingat at maingat kung ang resulta ng pagkilala sa pagsasalita ay upang matugunan ang aming mga inaasahan.

Ginagawang posible ng pagsasala na kasalukuyang ginagamit na alisin, kasama ang signal ng pagsasalita, ang panlabas na ingay na nakuha ng mikropono at ang mga panloob na katangian ng mismong signal ng pagsasalita, na nagpapahirap na makilala ito. Gayunpaman, ang isang mas kumplikadong teknikal na problema ay lumitaw kapag ang pagkagambala sa nasuri na signal ng pagsasalita ay ... isa pang signal ng pagsasalita, iyon ay, halimbawa, malakas na talakayan sa paligid. Ang tanong na ito ay kilala sa panitikan bilang ang tinatawag na . Nangangailangan na ito ng paggamit ng mga kumplikadong pamamaraan, ang tinatawag na. deconvolution (paglalahad) ng hudyat.

Ang mga problema sa speech recognition ay hindi nagtatapos doon. Ito ay nagkakahalaga na matanto na ang pagsasalita ay nagdadala ng maraming iba't ibang uri ng impormasyon. Ang boses ng tao ay nagmumungkahi ng kasarian, edad, iba't ibang karakter ng may-ari o ang kanyang estado ng kalusugan. Mayroong isang malawak na departamento ng biomedical engineering na nakikitungo sa pagsusuri ng iba't ibang mga sakit batay sa katangian ng acoustic phenomena na matatagpuan sa signal ng pagsasalita.

Mayroon ding mga application kung saan ang pangunahing layunin ng acoustic analysis ng isang speech signal ay kilalanin ang nagsasalita o i-verify na siya ang sinasabi niyang siya (boses sa halip na susi, password o PUK code). Maaari itong maging mahalaga, lalo na para sa mga teknolohiya ng matalinong gusali.

Ang unang bahagi ng isang speech recognition system ay микрофон. Gayunpaman, ang signal na kinuha ng mikropono ay karaniwang nananatiling hindi gaanong nagagamit. Ipinakikita ng mga pag-aaral na ang hugis at takbo ng sound wave ay malaki ang pagkakaiba-iba depende sa tao, sa bilis ng pagsasalita, at bahagyang sa mood ng kausap - habang sa maliit na lawak ay sinasalamin nila ang mismong nilalaman ng mga binibigkas na utos.

Samakatuwid, ang signal ay dapat na maiproseso nang tama. Ang mga modernong acoustics, phonetics at computer science ay magkakasamang nagbibigay ng maraming hanay ng mga tool na maaaring magamit upang iproseso, suriin, kilalanin at maunawaan ang isang speech signal. Ang dynamic na spectrum ng signal, ang tinatawag na mga dynamic na spectrogram. Ang mga ito ay medyo madaling makuha, at ang pananalita na ipinakita sa anyo ng isang dynamic na spectrogram ay medyo madaling makilala gamit ang mga diskarte na katulad ng mga ginagamit sa pagkilala ng imahe.

Ang mga simpleng elemento ng pagsasalita (halimbawa, mga utos) ay maaaring makilala sa pamamagitan ng simpleng pagkakatulad ng buong spectrograms. Halimbawa, ang diksyunaryo ng mobile phone na naka-activate gamit ang boses ay naglalaman lamang ng ilang sampu hanggang ilang daang salita at parirala, kadalasang naka-pre-stack upang madali at mahusay na matukoy ang mga ito. Ito ay sapat na para sa mga simpleng gawain sa pagkontrol, ngunit ito ay lubhang naglilimita sa pangkalahatang aplikasyon. Ang mga system na binuo ayon sa scheme, bilang panuntunan, ay sumusuporta lamang sa mga partikular na speaker kung saan ang mga boses ay espesyal na sinanay. Kaya kung may bago na gustong gamitin ang kanilang boses para kontrolin ang system, malamang na hindi sila matatanggap.

Ang resulta ng operasyong ito ay tinatawag spectrogram 2-W, iyon ay, isang dalawang-dimensional na spectrum. May isa pang aktibidad sa block na ito na nagkakahalaga ng pagbibigay pansin - segmentasyon. Sa pangkalahatan, pinag-uusapan natin ang tungkol sa paghahati-hati ng tuluy-tuloy na signal ng pagsasalita sa mga bahagi na maaaring makilala nang hiwalay. Ito ay mula lamang sa mga indibidwal na diagnosis na ang pagkilala sa kabuuan ay ginawa. Ang pamamaraang ito ay kinakailangan dahil hindi posible na matukoy ang isang mahaba at kumplikadong pananalita nang sabay-sabay. Ang buong volume ay naisulat na tungkol sa kung aling mga segment ang kikilalanin sa isang speech signal, kaya hindi na tayo magpapasya ngayon kung ang mga natatanging segment ay dapat na mga ponema (katumbas ng tunog), pantig, o maaaring mga alopono.

Ang proseso ng awtomatikong pagkilala ay palaging tumutukoy sa ilang mga tampok ng mga bagay. Daan-daang set ng iba't ibang parameter ang nasubok para sa speech signal. Ang speech signal ay mayroon nahahati sa kinikilalang mga frame at pagkakaroon napiling mga tampokkung saan ang mga frame na ito ay ipinakita sa proseso ng pagkilala, maaari kaming gumanap (para sa bawat frame nang hiwalay) pag-uuri, ibig sabihin. pagtatalaga ng identifier sa frame, na kakatawan nito sa hinaharap.

Susunod na yugto pagpupulong ng mga frame sa magkakahiwalay na salita - kadalasang nakabatay sa tinatawag na. modelo ng mga implicit na modelo ng Markov (HMM-). Pagkatapos ay dumating ang montage ng mga salita kumpletong pangungusap.

Maaari na tayong bumalik sa sistema ng Alexa sandali. Ang kanyang halimbawa ay nagpapakita ng isang multi-stage na proseso ng machine "pag-unawa" ng isang tao - mas tiyak: isang utos na ibinigay sa kanya o isang tanong na tinanong.

Ang pag-unawa sa mga salita, pag-unawa sa kahulugan, at pag-unawa sa layunin ng gumagamit ay ganap na magkaibang mga bagay.

Samakatuwid, ang susunod na hakbang ay ang gawain ng NLP module (), ang gawain kung saan ay pagkilala sa layunin ng gumagamit, ibig sabihin. ang kahulugan ng utos/tanong sa konteksto kung saan ito binigkas. Kung natukoy ang layunin, kung gayon pagtatalaga ng mga tinatawag na kakayahan at kakayahan, ibig sabihin, ang partikular na feature na sinusuportahan ng matalinong katulong. Sa kaso ng isang katanungan tungkol sa lagay ng panahon, ang mga pinagmumulan ng data ng panahon ay tinatawag, na nananatiling ipoproseso sa pagsasalita (TTS - mekanismo). Bilang resulta, naririnig ng user ang sagot sa itinanong.

Boses? Graphic arts? O baka pareho?

Karamihan sa mga kilalang modernong sistema ng pakikipag-ugnayan ay batay sa isang tagapamagitan na tinatawag graphical na interface ng gumagamit (graphical na interface). Sa kasamaang palad, ang GUI ay hindi ang pinaka-halatang paraan upang makipag-ugnayan sa isang digital na produkto. Kinakailangan nito na matutunan muna ng mga user kung paano gamitin ang interface at tandaan ang impormasyong ito sa bawat kasunod na pakikipag-ugnayan. Sa maraming sitwasyon, mas maginhawa ang boses, dahil maaari kang makipag-ugnayan sa VUI sa pamamagitan lamang ng pakikipag-usap sa device. Ang isang interface na hindi pinipilit ang mga user na isaulo at isaulo ang ilang partikular na command o paraan ng pakikipag-ugnayan ay nagdudulot ng mas kaunting problema.

Siyempre, ang pagpapalawak ng VUI ay hindi nangangahulugan ng pag-abandona sa mas tradisyonal na mga interface - sa halip, ang mga hybrid na interface ay magagamit na pinagsasama ang ilang mga paraan ng pakikipag-ugnayan.

Ang voice interface ay hindi angkop para sa lahat ng mga gawain sa isang mobile na konteksto. Gamit ito, tatawagan namin ang isang kaibigan na nagmamaneho ng kotse, at kahit na magpadala sa kanya ng isang SMS, ngunit ang pagsuri sa pinakabagong mga paglilipat ay maaaring maging napakahirap - dahil sa dami ng impormasyong ipinadala sa system () at nabuo ng system (system). Tulad ng iminumungkahi ni Rachel Hinman sa kanyang aklat na Mobile Frontier, ang paggamit ng VUI ay nagiging pinakamabisa kapag nagsasagawa ng mga gawain kung saan maliit ang halaga ng input at output na impormasyon.

Ang isang smartphone na konektado sa Internet ay maginhawa ngunit hindi rin maginhawa (9). Sa tuwing gustong bumili ng isang user o gumamit ng bagong serbisyo, kailangan nilang mag-download ng isa pang app at gumawa ng bagong account. Isang field para sa paggamit at pagbuo ng mga voice interface ay nilikha dito. Sa halip na pilitin ang mga user na mag-install ng maraming iba't ibang app o lumikha ng hiwalay na mga account para sa bawat serbisyo, sinabi ng mga eksperto na ililipat ng VUI ang pasanin ng mga masalimuot na gawaing ito sa isang voice assistant na pinapagana ng AI. Magiging maginhawa para sa kanya na magsagawa ng mabibigat na gawain. Bibigyan lang namin siya ng utos.

9. Voice interface sa pamamagitan ng smart phone

Ngayon, higit pa sa isang telepono at isang computer ang nakakonekta sa Internet. Nakakonekta rin sa network ang mga smart thermostat, ilaw, kettle at marami pang ibang device na pinagsama-sama ng IoT (10). Kaya, may mga wireless na device sa paligid natin na pumupuno sa ating buhay, ngunit hindi lahat ng mga ito ay natural na akma sa graphical na user interface. Ang paggamit ng VUI ay makakatulong sa iyong madaling isama ang mga ito sa aming kapaligiran.

10. Voice interface sa Internet of Things

Ang paggawa ng voice user interface ay malapit nang maging isang pangunahing kasanayan sa taga-disenyo. Ito ay isang tunay na problema - ang pangangailangang ipatupad ang mga voice system ay maghihikayat sa iyo na mag-focus nang higit sa proactive na disenyo, iyon ay, sinusubukang maunawaan ang mga paunang intensyon ng user, inaasahan ang kanilang mga pangangailangan at inaasahan sa bawat yugto ng pag-uusap.

Ang boses ay isang mahusay na paraan upang magpasok ng data—pinapayagan nito ang mga user na mabilis na mag-isyu ng mga utos sa system sa kanilang sariling mga tuntunin. Sa kabilang banda, ang screen ay nagbibigay ng isang mahusay na paraan upang ipakita ang impormasyon: pinapayagan nito ang mga system na magpakita ng malaking halaga ng impormasyon sa parehong oras, na binabawasan ang pasanin sa memorya ng mga gumagamit. Ito ay lohikal na ang pagsasama-sama ng mga ito sa isang sistema ay tunog na nakapagpapatibay.

Ang mga smart speaker tulad ng Amazon Echo at Google Home ay hindi nag-aalok ng visual na display. Makabuluhang pinapabuti ang katumpakan ng pagkilala ng boses sa katamtamang mga distansya, pinapayagan nila ang mga hands-free na operasyon, na nagpapataas naman ng kanilang flexibility at kahusayan - kanais-nais ang mga ito kahit na para sa mga user na mayroon nang mga smartphone na may kontrol sa boses. Gayunpaman, ang kakulangan ng screen ay isang malaking limitasyon.

Mga beep lang ang maaaring gamitin upang ipaalam sa mga user ang mga posibleng command, at ang pagbabasa ng output nang malakas ay nagiging nakakapagod maliban sa mga pinakapangunahing gawain. Ang pagtatakda ng timer na may voice command habang nagluluto ay mahusay, ngunit ang pagtatanong sa iyo kung gaano katagal ang natitira ay hindi na kailangan. Ang pagkuha ng isang regular na taya ng panahon ay nagiging isang pagsubok ng memorya para sa user, na kailangang makinig at sumipsip ng isang serye ng mga katotohanan sa buong linggo, sa halip na kunin ang mga ito mula sa screen sa isang sulyap.

Ang mga taga-disenyo ay mayroon na hybrid na solusyon, Echo Show (11), na nagdagdag ng display screen sa pangunahing Echo smart speaker. Ito ay lubos na nagpapalawak ng pag-andar ng kagamitan. Gayunpaman, ang Echo Show ay hindi pa rin gaanong kayang gawin ang mga pangunahing pag-andar na matagal nang magagamit sa mga smartphone at tablet. Hindi ito maaaring (pa) mag-surf sa web, magpakita ng mga review, o magpakita ng mga nilalaman ng isang shopping cart ng Amazon, halimbawa.

Ang isang visual na display ay likas na isang mas epektibong paraan ng pagbibigay sa mga tao ng maraming impormasyon kaysa sa tunog lamang. Ang pagdidisenyo na may priyoridad ng boses ay maaaring lubos na mapabuti ang pakikipag-ugnayan ng boses, ngunit sa katagalan, ang hindi paggamit ng visual na menu para sa kapakanan ng pakikipag-ugnayan ay magiging tulad ng pakikipaglaban na ang isang kamay ay nakatali sa iyong likod. Dahil sa nagbabantang pagiging kumplikado ng end-to-end na intelligent na voice at display interface, dapat seryosong isaalang-alang ng mga developer ang isang hybrid na diskarte sa mga interface.

Ang pagtaas ng kahusayan at bilis ng pagbuo ng pagsasalita at mga sistema ng pagkilala ay naging posible na gamitin ang mga ito sa mga application at lugar gaya ng, halimbawa:

• militar (mga voice command sa mga eroplano o helicopter, halimbawa, F16 VISTA),

• awtomatikong transkripsyon ng teksto (speech to text),

• mga interactive na sistema ng impormasyon (Prime Speech, voice portal),

• mga mobile device (mga telepono, smartphone, tablet),

• robotics (Cleverbot - ASR system na pinagsama sa artificial intelligence),

• automotive (hands-free na kontrol ng mga bahagi ng kotse, tulad ng Blue & Me),

• mga application sa bahay (smart home system).

Mag-ingat para sa kaligtasan!

Nagsisimula nang gumamit ng mga voice interface ang automotive, mga appliances sa bahay, heating/cooling at home security system, at isang host ng mga appliances sa bahay, kadalasan ay nakabatay sa AI. Sa yugtong ito, ipinapadala ang data na nakuha mula sa milyun-milyong pakikipag-usap sa mga makina pag-compute ng mga ulap. Ito ay malinaw na ang mga marketer ay interesado sa kanila. At hindi lang sila.

Ang isang kamakailang ulat mula sa mga eksperto sa seguridad ng Symantec ay nagrerekomenda na ang mga gumagamit ng voice command ay hindi makontrol ang mga tampok na panseguridad tulad ng mga kandado ng pinto, pabayaan ang mga sistema ng seguridad sa bahay. Ang parehong napupunta para sa pag-iimbak ng mga password o kumpidensyal na impormasyon. Ang seguridad ng artificial intelligence at mga smart na produkto ay hindi pa napag-aaralan nang sapat.

Kapag ang mga device sa buong bahay ay nakikinig sa bawat salita, ang panganib ng pag-hack ng system at maling paggamit ay nagiging isang malaking alalahanin. Kung magkakaroon ng access ang isang attacker sa lokal na network o sa mga nauugnay na email address nito, maaaring baguhin o i-reset ang mga setting ng smart device sa mga factory setting, na hahantong sa pagkawala ng mahalagang impormasyon at pagtanggal ng history ng user.

Sa madaling salita, ang mga propesyonal sa seguridad ay natatakot na ang boses at VUI-driven na artificial intelligence ay hindi pa sapat na matalino upang protektahan tayo mula sa mga potensyal na banta at panatilihing tikom ang ating mga bibig kapag ang isang estranghero ay humingi ng isang bagay.