# [poszukuje] program do rozpoznawania mowy

## Kabraxis

Witam, jakiś czas temu założyłem temat o syntezaotrze mowy, teraz sytuacja ma się na odwrót, potrzebuję programu, który będzie rozpoznawał moją mowę. Np. nagrywam "komputer turlaj się", a potem mogę to obsłużyć  :Laughing:  Fajnie jak nie będę musiał się powtarzać po 10 razy i skrypt, który ma się wykonać nie odpali się jak powiem "komputer złom z Ciebie" czyli, żeby dobrze rozpoznwał co mówię  :Wink: 

Z góry dziękuje za propozycję programów  :Smile: 

----------

## Aktyn

Tu jest juz wątek  :Smile: 

https://forums.gentoo.org/viewtopic-t-484455.html

Od siebie dodam że też miałem kiedyś program, wersja angielska który też nic nie rozumiał  :Smile: 

A napisanie czegoś takiego co da zadawalające rezultaty to kawał roboty. Łatwiej zdecydowanie w drugą stronę  :Smile: 

Musi przecież dobrze zrozumiec zarówno lektora z dziennika TV, jak i gorola, ślązoka, może jeszcze pijacki bełkot.

Może NASA ma takie programy? w sumie na uczelniach też nic nie wiem żeby coś sie działo. 

Takie rzeczy to tylko w Kraju Kwitnącej Wiśni.

----------

## waltharius

Ostatnio gdzieś widziałem filmik z pokazów Viśty i tam też chcieli się pochwalić programem rozpoznającym mowę i piszącym list do mamusi pod dyktando. Złośliwy twierdzą, że program jest skopany a ci mniej złośliwy, że to wina mikrofonu  :Smile:  (Program zamienił mum na aunt  :Wink:  i inne takie śmieszki).

Tak więc nie wydaje mi się, żebyś znalazł coś sensownego. Jeszcze nie, ale może już niedługo  :Smile: 

Pozdrawiam

Walth

----------

## Aktyn

 *waltharius wrote:*   

> Jeszcze nie, ale może już niedługo 

 

Nie trzymaj nas w niepewności, "gadaj... gadaj co wiesz...! "  :Wink: 

Bo znając życie pewnie sam będę musiał wszystko robić.  :Wink: 

----------

## waltharius

 *Aktyn wrote:*   

>  *waltharius wrote:*   Jeszcze nie, ale może już niedługo  
> 
> Nie trzymaj nas w niepewności, "gadaj... gadaj co wiesz...! " 
> 
> Bo znając życie pewnie sam będę musiał wszystko robić. 

 

Hehe  :Smile:  Tu macie info o rozpoznawaniu głosu pod Viśtą: http://vista.dobreprogramy.pl/index.php?dz=15&n=4620

Tak więc myślę @Aktyn, że musisz chyba zakasać rękawy i do dzieła, bo mimo wszystko chłopaki z MS zaszli już dość daleko. Czas zrobić coś takiego dla Gentoo, choćby miało rozpoznawać podobnie jak to u konkurencji. Nieźle można by się było ubawić takim dynksem, pisząc na przykład list motywacyjny albo lepiej list miłosny.

A wracając do tematu to właśnie dlatego sądzę, że to na razie jest marzenie, które nie prędko będzie spełnione  :Sad: 

----------

## Aktyn

 *waltharius wrote:*   

> A wracając do tematu to właśnie dlatego sądzę, że to na razie jest marzenie, które nie prędko będzie spełnione 

 

Jest marzenie, może też być i cel  :Wink: 

Mowa ma jedną wade, nie jest jednoznaczna, np iPOD, czyli co... działał działał i padł?

Już nie wspomne o podobieństwie zwrotów.

Wiele jest takich zwrotów w języku , często tak mam z komendami w linuksie w linii poleceń, czytasz mana, klepiesz komende, a ona be, dlatego trudno napisć cokolwiek pod człowieka, bo on z reguły nie myśli logicznie (choć da sie zabić za to że jednak logicznie), tak samo jest z mową.

Jednak fakt że panowie z Visty naprawili błąd może znaczyć że jakoś sobie radzą.

----------

## Gabrys

Założę się, że na pokazie, ktoś zapomniał, że list miał być (jak ustalono pisząc demo) do cioci a nie do mamy i powiedział "mom". Z innej beczki, czytałem o czymś takim jak Perl-VoiceBox, czy jakoś tak. Podobno da się go dobrze wytrenować. Jeszcze z takich refleksji, to chyba nikomu nie potrzebny jest program rozpoznający każdą mowę, wystarczy mowa użytkownika, a więc trzeba komputerek wytresować, coby nas rozumiał.

 :Laughing:  Nie, no skoro NAWET na Viscie dobrze nie działa rozpoznawanie mowy, to chyba NAPRAWDE nie da się tego DOBRZE zrobić. 

Pozdrawiam  :Wink: 

----------

## Yatmai

Bawiłem się kiedyś Perlbox-voice, ale myliło mu sie "net" i "music"

----------

## Ratman

Od razu robić coś takiego pod linuxa:

http://www.zabaware.com/

Przyznam się, że bawiłem się piątką jeszcze i miałem pewne osiągnięcia  :Smile: 

----------

## Aktyn

Cena przystępna jak na możliwości, chociaż powiem ja bym za bardzo nie chciał żeby cos to miało zbyt duże możliwości. Kiedy sie ma kompa i ktoś sie chce dostać, to jest to jeszcze jako takie, a tu mamy coś w kompie, i co będzie jak sie zdenerwuje, albo będzie się odznaczać inteligencją wystarczającą aby wpłynąć na psychike człowieka i wykorzystac ten fakt niekoniecznie w naszym interesie   :Confused: 

Oczywiście na razie obawy są nieuzasadnione, ale wiadomo jak świat wygląda. I co potem, powiemy zemerguj i zemerguje, a człowiek z czasem przyzwyczajony do używania takiego wynalazku, sam popadnie w braki intelektualne. Choc jako pomoc jest całkiem fajna.

Ja sie z tym zmagał nie będę bo słabo znam angielski, ale moze faktycznie coś spróbować napisać,  w sumie.. w modółach, które mogły by być ulepszane, modół XXX   :Wink:   też jakieś tam swoje miejsce by znalazł   :Laughing: 

----------

## Kabraxis

Ja proponuję najpierw zacząć od tego aby napisać taki program jak ivonka, który mógłby czytać z dużym podobieństwem do głosu ludzkiego bo to co jest obecnie dostępne pod linuksem nie nadaje się do jakiego kolwiek użytkowania, można się tym co najwyżej przez 15 minut pobawić... Pozatym wydaje mi się, że w chwili obecnej taki program powinien być standardem każdego komputera... Niestety sam nie mam odpowiedniej wiedzy aby coś takiego zrobić  :Wink: 

Dodane:

A co do programu z rozpoznawaniem mowy, ja nie chce aby on rozpoznawał mowę każdego, wręcz byłoby to nieporządane  :Very Happy:  Chcę aby rozpoznawał tylko mnie i mogę mu to nawet nagrać wcześniej przez mikrofon, z tym że jak będe bardziej zmęczony i powiem o sekunde dłużej, żeby rozpoznał...

Dodane2:

Przykład zastosowania, mówię "komputer", w tym momencie komputer rozpoznaje, że go wywołuje i daje mi jakiś pik, że aktywuje słuchanie. Powiedzmy jest aktywny na 10 sekund. Wtedy mówię drukuj nowe faktury, a on odpala mój skrypt, który ściąga z netu z bazy danych to co trzeba, konwertuje, a potem drukuje. Zamierzam sobie napisać taki mały projekcik, jak wkońcu znajdę czas aby zrobić sobię stronę domową, że tak powiem to poumieszczam tam kilka moich rzeczy. Ogólnie dla kogoś kto nie ma czasu (dla mnie) to jest bardzo praktyczne bo zamierzam to umieścić na komputerze uruchomionym 24h na dobę, który będzie miał także inne zastosowania. Tylko, że rozpoznawania tego co mówię sam nie napisze bo to już znacznie przerasta moje możliwości.

----------

## Aktyn

 *Kabraxis wrote:*   

> Ja proponuję najpierw zacząć od tego aby napisać taki program jak ivonka, który mógłby czytać z dużym podobieństwem do głosu ludzkiego

 Zacząć to można niestety od takiego właśnie topora, ważne żeby istniała możliwość usprawniania. (upgrade   :Laughing:  )

 *Kabraxis wrote:*   

> Pozatym wydaje mi się, że w chwili obecnej taki program powinien być standardem każdego komputera... Niestety sam nie mam odpowiedniej wiedzy aby coś takiego zrobić 

   a może masz?  :Smile:   Mało ludzi ma wiedze, ale standart chce kazdy  :Wink:  np ferrari w garażu w willi w pięknym i spokojnym zakątku z masą atrakcji.

 *Quote:*   

> Chcę aby rozpoznawał tylko mnie ...

  własnie, nie dość że ma poznać co sie gada to ma poznać użytkownika, napisać wypracowanie na jakiś temat z dowolnego przedmiotu.

 *Quote:*   

>  Tylko, że rozpoznawania tego co mówię sam nie napisze bo to już znacznie przerasta moje możliwości.

 

Nie tylko twoje  :Smile:  Moim zdaniem jest kupa roboty, nie wiadomo tylko czy braknie człowiekowi wiedzy, czasu, czy możliwości PC sie skończą.

Wprawdzie człowiek nie potrafi skakać zbyt wysoko, ale nie przeszkadzało mu to dostać sie na księżyc.

Dobra byłem wredny, ale sam wobec siebie też nie jestem bezkrytyczny, po prostu mam takie poczucie humoru... czasami...    :Wink: 

Chyba zaczne pisac eseje pt "językowa ironia" zamiast tego programu. Choć próbe może podejme, a jak nie mi to komuś sie może uda.

----------

## Kabraxis

No ja myślę, że dużo łatwiej sprawić aby program rozpoznawał moją mowę niż wszystkich...

Pozatym po co piszecie tutaj teksty w stylu "chcesz program to sam sobie napisz"? Nic to nie wnosi, a wręcz irytuje.

Także wracając na właściwy temat:

Kto zna program, w którego mogę wgrać jakiś dźwięk (mówiony przezemnie teskt), a on rozpozna go gdy wymówię go później i wykona jakieś polecenie.

----------

## mar_rud

Może takie coś:

cvoicecontrol - kiedyś udało mi się to odpalić i gadać pojedyncze polecenia, ale w końcu zrezygnowałem (chyba ze względu na duże zużycie cpu przy gadaniu).

sphinx* - tego nie udało mi się uruchomić, więc nie wiem jak działa.

----------

## Kabraxis

 *mar_rud wrote:*   

> Może takie coś:
> 
> cvoicecontrol - kiedyś udało mi się to odpalić i gadać pojedyncze polecenia, ale w końcu zrezygnowałem (chyba ze względu na duże zużycie cpu przy gadaniu).
> 
> sphinx* - tego nie udało mi się uruchomić, więc nie wiem jak działa.

 

Ok pierwszy już sprawdziłem, faktycznie obciążenie procesora cały czas na 100%... jak sprawdzę drugi to też się wypowiem  :Wink: 

----------

## mar_rud

Chyba wiem, czemu zrezygnowałem z sphinx*. To jest raczej zbiór narzędzi dla studiowania tematu rozpoznawania mowy, niż gotowe narzędzie dla użytkownika końcowego. 

Znalazłem takie zestawienie:

http://www.tldp.org/HOWTO/Speech-Recognition-HOWTO/software.html

i niestety ignorując pozycje typu "This software is primarily for developers." zostaje:

- xvoice - wymaga silnika IBM (trzeba kupić licencję) a wersja na sphinx zatrzymana z powodu braku deweloperów

- CVoiceControl - 100% cpu

----------

## mar_rud

Odświerzę temat, bo postanowiłem pognębić cvoicecontrol i chyba udało się go poprawić.

Okazuje się, że 100% CPU nie wynika z wyrafinowanych algorytmów rozpoznawania mowy, a jedynie z aktywnego czekania na pewne zmiany stanów poszczególnych wątków. Nie za bardzo znam się na tym jak poprawki przenieść do portage, więc podam tutaj patch, może komuś się przyda (jak na razie stosuję technikę Ctrl + Z w czasie emergowania):

 *Quote:*   

> --- cvoicecontrol.c.old	2002-09-05 18:09:06.000000000 +0200
> 
> +++ cvoicecontrol.c	2006-09-28 17:04:24.000000000 +0200
> 
> @@ -53,6 +53,7 @@
> ...

 

Powyższy patch dodaje trochę snu do newralgicznych pętelek i nie jest to idealne rozwiązanie, ale przynajmniej już cpu jest praktycznie nieużywany poza samym momentem rozpoznawania po wydaniu komendy.

Niestety coś się popsuło gdzieś (nie zależnie od patchowania) i zapis ustawień mikrofonu powoduje zamknięcie aplikacji, ale to już inna historia (wygenerować musiałem plik ręcznie z ustawieniami).

----------

## steve0

Tak więc nie wydaje mi się, żebyś znalazł coś sensownego. Jeszcze nie, ale może już niedługo

----------

## Kurt Steiner

Moved from Polish to Polish OTW.

----------

