Puheentunnistus Python: Kuinka kääntää puhe tekstiksi?



Tämä blogi kattaa puheentunnistuksen käsitteen pythonissa esimerkkiohjelmalla, joka muuntaa puheen tekstiksi puheentunnistuksen avulla.

Puhe on yleisin viestintäväline ympäri maailmaa. Suurin osa maailman väestöstä luottaa puheeseen keskustellessaan keskenään. Oletetaan, että rakennamme mallia ja haluamme kirjallisen lähestymistavan sijaan, että järjestelmämme reagoisi puheeseen, siitä tulee melko vaikeaa ja se vaatii paljon tietojen käsittelyä. Puheentunnistusjärjestelmä voittaa tämän esteen kääntämällä puheen tekstiksi. Tässä blogissa käymme läpi puheentunnistuksen moduuli pythonissa . Tässä on luettelo samoista:

Kuinka puheentunnistus toimii?

Puheentunnistusjärjestelmä kääntää puhutut lausunnot periaatteessa tekstiksi. On olemassa useita tosielämän esimerkkejä puheentunnistusjärjestelmästä. Esimerkiksi siri, joka ottaa puheen syötteeksi ja kääntää sen tekstiksi.





Puheentunnistusjärjestelmän käytön etuna on, että se voittaa lukutaidon esteen. Puheentunnistusmalli voi palvella sekä lukutaitoista että lukutaidottomaa yleisöä, koska se keskittyy puhuttuihin lausuntoihin.

Voimme myös tehdä luettelon kaikista uhanalaisista kielistä ympäri maailmaa puheentunnistusjärjestelmän avulla. Vaikka puheentunnistusjärjestelmä näyttää melko kiehtovalta ja ei lainkaan monimutkaiselta, sillä siinä on paljon haasteita.



linkitetty luettelokoodi kohdassa c

Puheentunnistuksen kohtaamat haasteet Järjestelmä

Puheentunnistusjärjestelmää on vaikea tehdä, koska puheessa on niin paljon vaihtelevuuden lähteitä.

Puhumistyyli

Jokaisella henkilöllä on monipuolinen puhetyyli, mukaan lukien aksentit. Kuten me kaikki tiedämme, meillä on erilaisia ​​aksentteja myös englannin puhumiseen. Amerikan englantia, englantia englantia ja niin monia muita aksentteja, kun puhutaan maailman yleisintä kieltä. Ääntäminen vaikeuttaa myös puheen tunnistamisjärjestelmän kääntämistä kokonaan.



Ympäristö

Ympäristö lisää myös järjestelmään paljon taustamelua. Eristetyssä huoneessa auditorioon verrattuna taustamelu vaihtelee paljon. Jopa kaiku voi lisätä paljon melua järjestelmään.

Kaiuttimen ominaisuudet

Vanhan ihmisen ääni ei välttämättä ole sama kuin lapsen ääni. Henkilön puheen ominaisuudet riippuvat monista tekijöistä, mukaan lukien ankaruus ja selkeys.

Kielirajoitukset

Joillakin puhetuilla lausunnoilla ei ehkä ole toimivaa merkitystä käännösten suhteen.

Näiden haasteiden voittamisen jälkeen on melko mahdollista, että mikä tahansa puheentunnistusjärjestelmä kääntää puheen tekstiksi. Nyt kun tiedämme, miten puheentunnistus toimii, voimme tarkastella erilaisia jotka ovat käytettävissä puheen tunnistamiseen pythonissa.

Paketit puhetunnistukseen pythonissa

  • apiai

  • Puheentunnistus

  • Google_speech_cloud

  • Assemblyai

  • Pocketphinx

  • Watson_developer_cloud

  • valkoinen

Käymme läpi tämän blogin SpeechRecognition-paketin yksityiskohdat. Katsotaan myös muistikaistaa alaspäin ymmärtääkseen, miten puheentunnistusjärjestelmät ovat kehittyneet vuosien varrella.

Puheentunnistuksen ensimmäinen prototyyppi oli itse asiassa nimetty lelu radiorex joka tapahtui 1920-luvulla. Siinä oli koira, joka istui koiratalossa, joka ponnahtaa ulos heti, kun joku lausuu sanan rex.

Ainoa ongelma mallissa oli se, että jousi oli kiinnitetty sähkömagneettiin, joka oli herkkä noin 500 Hz: n energialle. Koska se on puhtaasti taajuusilmaisin, sitä voidaan etäyhteyden kautta kutsua puheentunnistusmalliksi.

Vuonna 1962 IBM keksi a kenkälaatikko malli, joka pystyi tunnistamaan yksittäisiä sanoja ja suorittamaan myös muutaman aritmeettisen operaation.

Sitten tuli SYÖJÄTÄR CMU: lta, joka pystyi tunnistamaan yhdistetyn puheen 1000 sanan sanastosta. Noin 1980-luvulla ihmiset alkoivat käyttää tilastollisia malleja, ja yksi eniten käytetty koneoppimisparadigma oli piilotettu markov-malli.

Syvien hermoverkkojen käyttöönoton jälkeen suurin osa puheentunnistusmalleista toimii hermoverkoissa. Mahdollisuuksia ei voida kuvitella hermoverkkojen kanssa, sanasto voi nousta jopa 10 000 sanaan.

Kuinka asentaa puheentunnistus Pythoniin?

Asentaaksesi SpeechRecognition-paketin on python, suorita seuraava komento terminaalissa ja se asennetaan järjestelmään.

asennus-puheentunnistus python-edureka

Toinen lähestymistapa tähän voi olla paketin lisääminen projektitulkista, jos käytät

Paketissa on Tunnistin-luokka, jossa taika tapahtuu periaatteessa. Se on pohjimmiltaan luokka, jota käytetään puheen tunnistamiseen. Seuraavassa on seitsemän tapaa, joilla voidaan lukea erilaisia ​​äänilähteitä eri sovellusliittymien avulla.

  • tunnista_bing ()
  • tunnista_google ()
  • tunnista_google_cloud ()
  • tunnista_houndify ()
  • tunnista_ibm ()
  • tunnista_wit ()
  • tunnista_sfinx ()

Nyt tunnistamisnopeutta voidaan käyttää puheentunnistusjärjestelmän ajamiseen myös offline-tilassa. Se vaatii Pocketsphinxin asennuksen.

tuo puheentunnistus nimellä sr # tunnistintunnusluokan r = sr.Recognizer ()

Mikrofonien tulojen ottaminen

Mikrofonien käyttöä varten meidän on asennettava myös pyaudio-moduuli. Käytämme mikrofoniluokkaa saadaksemme tulopuheen mikrofonista minkä tahansa muun syöttötavan, kuten äänitiedoston, sijasta.

Useimmissa projekteissa voimme käyttää oletusmikrofoneja. Mutta jos et halua käyttää oletusmikrofonia,voit saada luettelon mikrofonien nimistä list_microphone_names -menetelmällä.

Mikrofonin tulon kaappaamiseen käytämme kuuntelutapaa.

tuo puheentunnistus nimellä sr r = sr. tunnistaa () ja sr.Microphone () lähteenä: audio = sr.listen (lähde)

Kuinka asentaa Pyaudio Pythoniin?

Asentaaksesi Pyaudio pythoniin, suorita seuraava komento päätelaitteessa tai jos käytät pycharmia, lisää paketti projektitulkista asetuksiin.

Käytä koteloa

Teemme ohjelman pythonin puheentunnistusmoduulin avulla puheen tunnistamiseksi ja suorittamaan seuraavat:

  1. muuntaa puhe tekstiksi
  2. avaa URL-osoite selainmoduulin avulla
  3. välitä kysely puheentunnistuksen avulla hakua varten URL-osoitteessa

Seuraava on yllä olevan ongelman selvitysohjelma:

tuo puheentunnistus nimellä tuonti verkkoselain nimellä wb r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () ja lähde: sr.Microphone (): print ('[etsi edureka: etsi youtube]') tulosta ('puhu nyt') audio = r3.kuuntele (lähde) jos 'edureka' r2: ssa tunnistaa_google (audio): r2 = sr.Recognizer () url = 'https://www.edureka.co/' ja sr .Mikrofoni () lähteenä: tulosta ('hae kyselysi') audio = r2.kuuntele (lähde) yritä: get = r2.tunnista_google (ääni) tulosta (hanki) wb.get (). Open_new (url + get) paitsi sr.UnknownValueError: tulosta ('virhe') paitsi sr.RequestError muodossa e: print ('epäonnistui'. muoto (e)) jos 'video' r1.recognize_google (audio): r1 = sr.Recognizer () url = ' https://www.youtube.com/results?search_query= 'lähteenä sr.Microphone (): tulosta (' etsi video ') audio = r2.kuuntele (lähde) try: get = r1.recognize_google (audio ) print (get) wb.get (). open_new (url + get) paitsi sr.UnknownValueError: print ('ei ymmärretty') paitsi sr.RequestError nimellä e: print (ei saatu tuloksia '. muoto (e) )

Saat tuloksen kuten kuvassa näkyy. Jos sanot edureka, se kehottaa sinua sanomaan kyselyn, jonka haluat etsiä edureka-URL-osoitteesta, jonka olemme kirjoittaneet URL-muuttujaan. Jos sanot python, seuraava verkkosivu avataan selaimessa.

miten käyttää aws cli

Tässä blogissa olemme keskustelleet siitä, kuinka voimme käyttää pythonin puheentunnistusta puheen kääntämiseen tekstiksi puheentunnistuspaketin avulla. on tullut tunnin tarve sellaisille käsitteille kuin puheentunnistus tai esineiden hylkääminen jotka tarjoavat käsittämättömiä mahdollisuuksia puheentunnistusjärjestelmille, joissa voimme kouluttaa ja testata valtavia puhetietoja järjestelmän rakentamiseksi. syvälle hermoverkostolle taitojen hallitsemiseksi ja oppimisen aloittamiseksi.

onko sinulla kysyttävää? mainitse ne kommenteissa, palaamme sinuun.