Projekty
AKTUALNE
U-STAR – konsorcjum międzynarodowe dostarczające platformę do technologii tłumaczenia mowy na mowę
CLARIN – ogólnoeuropejska infrastruktura naukowa umożliwiająca badaczom z dziedziny nauk humanistycznych i społecznych wygodną pracę z bardzo dużymi zbiorami tekstów
Projekt U-Star tworzy konsorcjum 30 różnych instytucji z 25 różnych krajów z całego świata z centralą w Japonii. Zadaniem projektu jest stworzenie infrastruktury do tłumaczenia z mowy na mowę dla wielu różnych języków. Wynikiem tego projektu są już standardy F.745 i H.625 opisujące protokoły komunikacji i technologię umożliwiającą tworzenie systemów tłumaczenia z mowy na mowę. Oprócz tego, powstały również aplikacje mobilne na platformę iOS i Android demonstrujące działanie tych technologii na wielu europejskich językach.
Projekt Clarin jest dużym projektem infrastrukturalnym zrzeszającym kilka mniejszych projektów z różnych krajów Europejskich. Zapoczątkowany dzięki finansowaniu z budżetu ESFRI, obecnie jest finansowany całkowicie z budżetów poszczególnych państw członkowskich projektu. PJATK jest zatem częścią Polskiej grupy projektowej o nazwie CLARIN-PL.
Zadaniem projektu jest stworzenie narzędzi i zasobów umożliwiających naukowcom z dziedzin nauk humanistycznych i socjologicznych na wykonywanie analiz i testowaniu hipotez związanych z analizą danych tekstowych i nagrań mowy.
Udział PJATK podzielono na trzy podstawowe zadania:
- utworzenie korpusów mowy umożliwiających rozwijanie technologi analizy mowy
- implementacja i wdrożenie narzędzi do analizy nagrań mowy
- stworzenie prototypu Elektronicznego Archiwum Wieczystego – urządzenie pozwalającego na bezpieczne przechowywanie danych na długi okres czasu (np. ponad 30 lat)
Korpusy jakie tworzymy w ramach projektu to:
- korpus mowy jakości studyjnej – ok. 50 godzin mowy czytanej
- korpus mowy telefonicznej – ok. 15 godzin mowy – w tym mowa konwersacyjna
Narzędzia, które zaplanowano to:
- konwerter tekstu ortograficznego na wymowę w alfabecie fonetycznym – G2P (grapheme-to-phoneme) converter
- detektor mowy
- system do dopasowania czasowego tekstu do nagrania mowy – speech aligner
- system do wyszukiwania słów kluczowych w mowie
- system do rozpoznawania mówców w nagraniu – diaryzacja mówców
Wszystkie zasoby i narzędzia mają być udostępnione na otwartych licencjach do celów badawczych wszystkim ośrodkom w Polsce i Europie przystępujących do projektu na ustalonych zasadach.
Od 2013 r.
ZAKOŃCZONE
EU-Bridge – technologie tłumaczenia mowy na mowę, projekt Europejski w programie ramowym FP7
SYNAT – uniwersalna, otwarta, repozytoryjna platforma hostingowa i komunikacyjna dla sieciowych zasobów wiedzy dla nauki, edukacji i otwartego społeczeństwa wiedzy
Senat – automatyczna transkrypcja posiedzeń Senatu RP
Luna – rozpoznawanie i rozumienie mowy w zdaniach związanych z automatyczną obsługą w centrach telefonicznych
Podstawowym zadaniem projektu EU-Bridge jest stworzenie innowacyjnych narzędzi i technologii umożliwiających wykonywanie automatycznego tłumaczenia bezpośrednio z nagrania mowy. Wyłoniono kilka przypadków użycia, gdzie taka technologia może być przydatna:
- zastosowania mobilne – tłumacze turystyczne zainstalowane na urządzeniach mobilnych
- tłumaczenie wykładów – tłumaczenie wykładu w czasie rzeczywistym z mowy na mowę
- zastosowania w mediach – tłumaczenie różnych treści w mediach, n.p. wiadomości, filmy, programy radiowe
- parlament europejski – automatyczne tłumaczenie i wspomaganie tłumaczy parlamentu EU
Zadania te wymagały opracowanie trzech różnych zagadnień: rozpoznawania mowy, maszynowego tłumaczenia oraz syntezy mowy. Większość uwagi położono głównie na pierwszych dwóch tematach, gdyż syntezę uznano, w tym kontekście, za problem przeważnie rozwiązany. Był to pierwszy projekt w którym zespół PJATK podjął temat maszynowego tłumaczenia.
Ramy czasowe projektu
02/2012 – 02/2015
Celem projektu jest stworzenie uniwersalnej, otwartej, repozytoryjnej platformy hostingowej i komunikacyjnej dla sieciowych zasobów wiedzy dla nauki, edukacji i otwartego społeczeństwa wiedzy
Proponowana realizacja obejmuje szeroki zakres zadań o charakterze badawczym, podporządkowany głównemu celowi – stworzeniu kompleksowego systemu, który obejmie:
- Platformę informatyczną, realizującą całokształt funkcji użytkowych systemu,
- Podsystemy aplikacyjne, umożliwiające platformie obsługę szerokiej palety zasobów treściowych, z zapewnieniem wysokiego poziomu skalowalności, a także interoperacyjności w układzie międzynarodowym,
- Podsystemy generyczne umożliwiające integrację nowych klas przyszłych aplikacji,
- Podsystem nowych modeli komunikowania naukowego i otwartych społeczności wiedzy, obejmujący również program upowszechniania i promocji adresowany do całego społeczeństwa,
- Zbiór propozycji modeli prawnych umożliwiających rozwój nowych otwartych modeli komunikowania w nauce, edukacji i obszarze dziedzictwa kulturowego,
- Model operacyjny, zapewniający trwałość systemu, a także podejmujący kwestie możliwych obszarów jego komercjalizacji
Udział katedry multimediów PJATK w projekcie polegał na stowrzeniu narzędzi umożwliwiających transliterację nagrań radiowych i telewizyjnych oraz w póżniejszej fazie projektu, nagrań wideo wykładów. Dodatkowym zadaniem było również zebranie kolekcji danych (nagrań i tekstów) potrzebnych do utworzenia w/w narzędzi.
Projekt ten, finansowany początkowo przez Ministerstwo Nauki i Szkolnictwa Wyższego, a później przez Narodowe Centrum Nauki, miał za zadanie stworzenie technologii umożliwiającej transkrypcję posiedzeń Senatu Rzeczypospolitej Polskiej.
Transkkrypcja posiedzeń Sejmu i Senatu jest koniecznym zadaniem w większości państw świata. Obrady Sejmu i Senatu muszą być dostępne publicznie i w całości dla wszystkich obywateli kraju. Niedawno, z rozwojem technologii, udostępniane są również nagrania wideo poseidzeń. Przez ostatnie lata, praca stenografów staje się coraz bardziej uciążliwa, a liczba ekspertów od stenografii się nie zwiększa i nawet czasami maleje. Technologie umożliwiające automatyzację albo wspomaganie takich zadań są przez to mile widziane.
Z pukntu widzenia naukowego, jest to dosyć przyjemna sytuacja, gdyż jako badacze, mamy dostęp do stosunkowo dużej ilości danych bez wielkich kosztów przygotowania nagrań i ich ręcznej transkrypcji. Zadanie to jest również o wiele prostsze gdyż mamy doczynienia z długimi fragmentami wypowiedzi mówionymi przez pojedyńczych i znanych mówców. Tematyka bywa dosyć rozległa, ale tutaj też można liczyć na sotsunkowo ograniczone słownictwo używane w określonym kontekście. Czasami zdarzają się sytuacje utrudniające rozpoznawanie mowy (wiele osób mówiących naraz, poruszenie na sali, pogłos pomieszczenia), ale ogólnie jest o wiele lepiej niż w wielu innych dziedzinach (n.p. jeśli próbujemy rozpoznawać coś na ulicy lub innym miejscu publicznym).
Ramy czasowe projektu
09/2010 – 09/2013
Projekt LUNA miał za zadanie opracowanie technologii rozumienia mowy przeważnie w zastosowaniu dialogów prowadzonych przez telefon. Rozumienie mowy (Spoken Language Understanding) się różni od rozpoznawania mowy dodatkowym elementem rozumienia przekazu semantycznego wypowiedzi w celu podjęcia odpowiedniej decyzji związanej z życzeniem osoby dzwoniącej.
Dotychczasowe systemy telefoniczne wykorzystujące technologie rozpoznawania mowy były po prostu poszerzeniem zwykłych systemów IVR opartych o technologie DTMF, czyli wybierania opcji w menu za pomocą klawiszy telefonu. Technologia mowy umożliwia bardziej intuicyjną pracę poprzez wymawianie opcji w menu zamiast pamiętania i naciskania klawiszy. Niestety, rozwiązanie to było nadal skomplikowane dla użytkownika w wielu sytuacjach co doporowadzało do konieczności zatrudniania wielkiej ilości konsultantów ułatwiających klientom pracę.
Celem projektu LUNA było stowrzenie inteligentnego doradcy komputerowego, który byłby w stanie pomagać klientom na dowolne problemy związane z jakąś dziedziną. Przykładowo, zamiast menu w postaci „Jeśli masz problem z X powiedz X, a jeśli masz problem z Y powiedz Y…” klient słyszy proste pytanie „W czym mogę Ci pomóc?”, a system ma za zadanie zrozumieć wypowiedź klienta i podjąć odpowiednią decyzję związaną z jego naturalną wypowiedzią.
Zadanie to jest niewątpliwie trudne i chociaż udało się uzyskać bardzo duże sukcesy w tej dziedzinie przez uczestników projektu, technologia ta jest nadal dosyć rzadko stosowana. Dla PJATK, projekt ten był wstępem do świata automatycznych usług IVR, owocem którego było stworzenie startupa o nazwie Primespeech oraz współpraca z Zarządem Transportu Miejskiego.
Ramy czasowe projektu
09/2006 – 09/2009