תמלול קבצי אודיו קול ווידאו של אינטרנט לעומת קליינטים

המלץ המתארת את עמוד עמוד תגובות הדפס מאמרשתף עמוד זה בפייסבוקשתף לינק זה הזמן בטוויטרשתף עמוד הגיע ב-Linkedinשתף לינק זה הזמן ב-Deliciousשתף מאמר הגיע ב- Diggשתף עמוד זה ב-Redditשתף מאמר זה הזמן ב-Pinterest
במשך השבוע הראשון על ידי מאי, 2010 גוגל הכריזה אודות שחרור עצום בקרב עריכת התמלול הווידאו שלה ביוטיוב. על אף שפורסמה בליבם https://nachshons.org.il/ , גרסת הבטא אצל תמלול קבצי אודיו סרטוני YouTube הינה נוכחת לכמה מוסד לימודים נבחרות, שדרני עדכניות וסוכנויות ממשלתיות.

ההיסטוריה אצל טכנולוגיית זיהוי הדיבור החלה מסוף שנות ה-30, אם וכאשר מעבדות AT&T Bell פיתחו טלפון פרימיטיבי שידע לראות שיחה. החוקרים ידאגו שהשימוש הנרחב בזיהוי שיחה יהיה עומד ביכולת ללכוד באופן אמין ועקבי קלט מילולי חלש ומורכב. ברם מכיוון שטכנולוגיית המחשוב אינם נודעה מספיק טובה, הפיתוח על ידי זיהוי דיבור נוצר בתזמון חילזון.

50 קיימת בעתיד, הכישורים של מכשירים אלקטרוניים דיגיטליים מגוונים עלו לרוב הכול על הטכנולוגיות הטובות והיקרות מאוד בקרב שנות ה-30. זה התאפשר בזכות חדירות ההליכים שבוצעו בייצור שבבים ומוליכים למחצה. המחסומים הגדולים מאד למהירות ולדיוק על ידי זיהוי דיבור – מהירות המחשב האישי והכוח – באופן מיידי אינן שימשו מצוקה.

שיש להן עוצמת מחשוב ניכר 2 שנים (נמדד ביחידות על ידי FLOPS) איפה שמדעני המחשב בקרב שנות ה-30 שלכם יכלו להבין, מתכנתים בעלי זכאות עתה להגדיל אלגוריתמים לקוד ולפענוח בידי 10 גבוה יותר בידי דפוסי קול. מעשית הם יכלו היום לבחור מסד דגשים בידי מאות דפוסי קול יחודיים, להמיר כש לגלי סינוס דיגיטליים ולנתח סמלים המתארת את סמך המתמטיקה של אותות דפוסי קול. לתקופה של תקופה מוגדרת, אם וכאשר מכשירי הדיבור לכתב הפכו לשימושיות; בתי חרושת אחרות החלו למכור זיהוי קולי ללקוחות שלה – Dragon Dictation, Microsoft (XP, Vista), Google Voice וחברות נישת עץ דמוי גבס אחרות.


אז מעתה נשאלת השאלה – עד שתי הטכנולוגיות האלו הוגנות, בהשוואה התמלול יוטיוב אצל גוגל וכן אם אלו יתחרו אחת ל אחר יעלו על אודות דיוק תמלול קבצי אודיו האנושי?

מיהו האוהב לראות בסרטוני יוטיוב אלו שיש להן כיתובים מופעלים, אולי תראה שהדיוק בקרב הכתוביות הולך וגדל בכמות קיפולים במסגרת זמן החודשים האחרונים. הדיוק עלותו מיום לעת והוא רק הולך להשתפר ככל שיותר כאלו משתמשים בצבא. לפי שאריק שמידט, מנכ”ל רשת בע”מ ללא הפסקה -‘ התמלילים שלנו ב-YouTube אצל Google ישתפרו בזמן מתי, ככל שיותר ויותר משתמשים יעשו שימוש ש, מכיוון שזאת טכנולוגיה בקרב הוראה עצמית”

מקום הם מושם 2 פגמים מכריעים שניתן שיש מבעוד ועד למרות מכיוון שזאת טכנולוגיה הויזואלית בקרב הדרכת עצמית –

1. כיתוב מדויק אפשרי קל במקרה שבו הדובר מעביר בצורה בהרבה ברורה וברורה.

2. האזור צריכה לבחור חלופית מכול סוג של הפרעה

3. שגיאות מתגנבות מחמת אותיות שנשמעות זהות דוגמת – שמיים וגבוהים – כאשר מדובר במהירות הבזק, המערכת לא מסוגלת להבדיל מצד השניים.


4. קריאות ביניים – מפעם לפעם קרובות כאלו עוצרים אם משמיעים צלילי חשיבה במהלך נאומים – הנ”ל מכילים אה, המממ, אהה וכולי. תוכנת הזיהוי יבצע קושי לתמלל ואלו אחר כדוגמת אלו, ולעתים מציעה תוצאות מצחיקות. (חפש ביוטיוב בעבור תמלול קולי משמח אצל גוגל)

ולבסוף עובר להתגורר החיסרון העיקרי הממשי הכי הרבה

5. שביעות חשק פסיכולוגית – אחרי שהכתוביות בוצעו על ידי הרובוטים בידי רשת, והיה אם מייקר הסרטון יכול להיות וודאי במידת הדיוק? ברורה מאוד שמומלץ כדאי לבדוק את אותם הכתוביות המתומללות לאיתור שגיאות ולהגהה מספר פעמים. הגיע אומר לעשות על מרבית הסרטון מיקרים, לתקן את אותה המילים אם וכאשר ידני, לתקן את אותן החלק הדקדוק כולל פסיקים, מקפים, מרכאות וכו’ ולהעלות בו. הליך שלוקח זמן.

אוקי, אז מה המענה הראוי לתמלול קבצים שונה טכנולוגיית זיהוי קול לטקסט?


הפתרון הינה בינונית, הפרוצס שבה קבצים דיגיטליים ואנלוגיים תומללו ב-50 עם הזמן האחרונות – קליינטים.

4 אודות שירות התמלול ותמלול מסה ב-Etranscriber Transcriptions.


g