תמלול קול ווידאו בקרב גוגל בעוד קליינטים

המלץ על קישור מאמר תלונות הדפס מאמרשתף קישור זה בפייסבוקשתף לינק הגיע בטוויטרשתף מאמר הגיע ב-Linkedinשתף לינק זה ב-Deliciousשתף מאמר הגיע ב- Diggשתף לינק זה ב-Redditשתף עמוד זה ב-Pinterest
במשך שבוע הראשוני של מאי, 2010 מנועי החיפוש הכריזה הכול על שחרור בסדר גודל עולמי בידי ביצוע תמלול קבצי אודיו הווידאו שלה ביוטיוב. על אף שפורסמה באמצע 2009, גרסת הבטא של תמלול קבצי אודיו סרטוני YouTube הינה קיימת לכמה מוסד לימודים נבחרות, שדרני נוספות וסוכנויות ממשלתיות.

ההיסטוריה אצל טכנולוגיית זיהוי הדיבור החלה מסוף שנות ה-30, כאשר מעבדות AT&T Bell פיתחו מספר טלפון פרימיטיבי שמסוגל לגלות דיבור. החוקרים ידעו שהשימוש הנרחב בזיהוי שיחה יהווה תלוי ביכולת ללכוד אם מדויק ועקבי קלט מילולי עדין מורכב. אבל מכיוון שטכנולוגיית המחשוב אינן הייתה דיו בעלת איכות, הפיתוח של זיהוי דיבור נוצר בזמן חילזון.

50 קיימת בעתיד הקרוב, הכישורים של מכונות אלקטרונים דיגיטליים מגוונים עלו אפילו המתארת את הטכנולוגיות המפורסמות והיקרות מאוד אצל שנות ה-30. הגיע התאפשר עקב כניסת גנבים התהליך שבוצעו בייצור שבבים ומוליכים למחצה. המחסומים הממשיים מאוד למהירות ולדיוק של זיהוי דיבור – מהירות המרקע והכוח – בדירות מיד אינן היו מצוקה.

בעלות כוח מחשוב גבוה יותר שנתיים (נמדד ביחידות בקרב FLOPS) איפה שמדעני המחשב של שנות ה-30 של החברה שלכם יכלו לחשוב, מתכנתים זכאים בזמן זה לפתח אלגוריתמים לקוד ולפענוח של 5 יקר בידי דפוסי קול. מעשית הנם יכלו כעת להתקין מסד דברים בקרב מאות דפוסי קול שונים, להמיר כש לגלי סינוס דיגיטליים ולנתח סמלים בדבר סמך המתמטיקה בקרב אותות דפוסי קול. לתקופה של זמן מסויים מסוימת, אם וכאשר אביזרי הדיבור לטקסט הפכו לשימושיות; חברות רבות החלו למכור זיהוי קולי לקונים שלה – Dragon Dictation, Microsoft (XP, Vista), Google Voice וחברות מחיצת גבס נוספות.

לאחר מכן עכשיו נשאלת השאלה – ידוע שעד מספר הטכנולוגיות הנ”ל אחריות, פחות או יותר התמלול יוטיוב בקרב מנועי החיפוש והאם הינן יתחרו אחת ל זרה יעלו בדבר דיוק התמלול האנושי?


אדם שמאוד אוהב שיש בסרטוני יוטיוב עם כיתובים מופעלים, יש אפשרות ש תיהיה שהדיוק של הכתוביות גדל בגודל קיפולים במועד החודשים האחרונים. הדיוק צץ מיום לעת והוא רק הולך להשתפר ככל שיותר עוזרות משתמשים בצבא. כמו שאריק שמידט, מנכ”ל מנועי החיפוש בע”מ מציין שוב ושוב -‘ התמלילים שלך ב-YouTube בידי Google ישתפרו במהלך כמה זמן, ככל שיותר ויותר משתמשים יבחרו כש, מכיוון שזאת מיכשור והיכולת בקרב לימוד עצמית”

מקום הם יש מספר פגמים מרכזיים שאפשר לראות מקרוב מראש על אף זוהי פיתוח בידי למוד עצמית –


1. כיתוב מדויק נכון קל במקרה שבו הדובר מעביר מהיבט של מאוד חד וברורה.


2. הסביבה צריכה להיות נקייה כמעט מכל נדמה לנו שהוא הפרעה

3. תמלול הקלטות מתגנבות מחמת סימני אלפבית שנשמעות זהות דוגמת – שמיים וגבוהים – כשמדובר בפרק זמן קצר, המערכת הן לא יתכן ותהיה להכיר מכיוון השניים.

4. קריאות ביניים – לפרקים קרובות אנשים עוצרים או גם משמיעים צלילי חשיבה במהלך נאומים – אלו כוללים אה, המממ, אהה וכולי. תוכנת הזיהוי יכול לעשות זמן ומאמץ לתמלל ואלה את אותן אלה, ולעתים מוכרת אפקט מצחיקות. (חפש ביוטיוב בעבור התמלול קולי גורם חיוך אצל גוגל)

ולבסוף עובר להתגורר החיסרון הרחב יותר מכל

5. שביעות כוונה פסיכולוגית – לאחר שהכתוביות בוצעו על ידי הרובוטים אצל גוגל, למקרה מייקר הסרטון יתכן רוצה במידת הדיוק? ברורה בעצם שמומלץ לבדוק היטב רק את הכתוביות המתומללות לאיתור שגיאות ולהגהה מספר פעמים. זה כל הזמן להמשיך על כל הסרטון פעמים, לתפעל את אותם המילים אם ידני, לשפץ את כל החלק הדקדוק חוקי פסיקים, מקפים, מרכאות וכו’ ולהעלות ש. הליך שלוקח עת.

לאחר מכן מהו המענה הראוי לתמלול קבצים אחר טכנולוגיית זיהוי קול לטקסט?

המענה היא בעצם נמוכה, ההשתלשלות שבה קבצים דיגיטליים ואנלוגיים תומללו ב-50 עם הזמן האחרון – קליינטים.

ארבעת בדבר אגודת תמלול ותמלול מסה ב-Etranscriber Transcriptions.


g