W końcu mamy XXI wiek, technologia poszła niesamowicie w górę i z każdym dniem rozwija się w niewyobrażalnym tempie. Na rynku od wielu lat funkcjonują już symulatory ludzkiej mowy i nie ma osoby, która nie kojarzy chyba najbardziej znanego ze wszystkich symulatora „Ivona”. Z biegiem czasu jest ich coraz więcej, a ich funkcjonalność stale się rozszerza. Dlaczego by więc nie skorzystać z takiego symulatora?
Jakość vs. czas realizacji
Teoretycznie nie ma się nad czym zastanawiać. Jeżeli dla osoby zainteresowanej przeprowadzeniem transkrypcji nagrania kluczowym elementem wykonania jest czas i koszt, to prawdopodobnie zdecyduje się na wykorzystanie symulatora rozpoznawania mowy. Nie ma się co oszukiwać, takie urządzenie wykona pracę przy transkrypcji nagrania o wiele szybciej niż człowiek. Zastanówmy się tylko, na ile dokładny będzie taki przekład mowy na tekst spisany. Czy symulator mowy, choćby i najnowocześniejszy, będzie w stanie wiernie oddać to, co słychać na nagraniu? Moim zdaniem jeszcze długo nie. Chociaż postęp technologiczny każdego dnia jest zauważalny gołym okiem, to wciąż żadna maszyna nie jest w stanie zastąpić człowieka. W niektórych aspektach urządzenia mechaniczne jeszcze długo nie dotrzymają kroku człowiekowi.
Dlaczego transkrypcja wykonana przez człowieka jest lepsza?
W zasadzie to proste. Człowiek jako istota ludzka nie działa automatycznie. Myśli i rozumie to, co usłyszy. A zatem transkrybent, który podejmuje się wykonania transkrypcji nagrania, będzie potrafił wiernie odzwierciedlić odsłuchane nagranie. Biegły w swojej sztuce, będzie w stanie zadbać o odpowiednie zastosowanie interpunkcji oraz wskazanie bardziej emocjonujących fragmentów wypowiedzi. Nie oszukujmy się, nagrania przekształcane do formy pisemnej pełne są takich właśnie emocjonalnych „zwrotów akcji”. Wszystko to jest ludzkie i wiąże się właśnie z tym, że na nagraniu pojawiają się żywe istoty. Dla wysokiej jakości transkrypcji i profesjonalnego jej wykonania bardzo istotny jest kontekst sytuacyjny oraz zrozumienie zachowań i relacji międzyludzkich. To jest właśnie ten element, którego jeszcze długo nie wyłapią żadne symulatory mowy. Szczególne znaczenie ma to w przypadku transkrypcji medycznych oraz prawnych, gdzie kontekst sytuacyjny ma rzeczywisty wpływ na zrozumienie całego przekazu. Nie znaczy to jednak, że przy przepisywaniu innego rodzaju nagrań do formy tekstowej ten element jest bez znaczenia. Jest to istotne dla każdej wykonywanej transkrypcji.
Transkrypcja wykonana przez symulator jest tańsza
Owszem, w żadnym wypadku nie kłócę się z tym stwierdzeniem. Pytanie tylko, na czym zależy osobie zainteresowanej przeprowadzeniem transkrypcji nagrania. Czy ważna jest dla niego jakość i dokładne odwzorowanie tego, co słychać na nagraniu, czy może woli zaoszczędzić kilka złotych, ale otrzymać tekst złożony wyłącznie ze słów, bez zachowania kontekstu sytuacyjnego i wyczucia w nastroju rozmówców? Zastanówcie się, czego tak naprawdę wam potrzeba i znajdźcie odpowiedniego wykonawcę, takiego, który indywidualnie podejdzie do tematu i dopasuje się do waszych oczekiwań. Na koniec wypada dodać jeszcze jedną rzecz, mianowicie transkrypcja wykonana przez symulator za pierwszym razem osiągnie maksymalnie dobry efekt, jaki jest w stanie uzyskać, tymczasem transkrybent z krwi i kości przejrzy spisany tekst ponownie, dzięki czemu wyłapie i poprawi ewentualne błędy czy niejasności. Czy w dalszym ciągu wydaje się wam, że symulator mowy wykona transkrypcję tak samo dobrze jak żywy transkrybent?