بررسی فنی لغتنامههای امروزی
با اینکه سالهاست روزانه برای ترجمه لغات زبانهای مختلف از لغتنامه استفاده میکنم هنوز برای یافتن ترجمه مناسب و معنی برخی لغات مشکل دارم. این یادداشت در مورد این مشکل و راهحلهایی است که تا امروز پیدا کردهام با تاکید ویژه روی راهحلهای آزاد.
طرح صورت مسئله
یک فرد میخواهد معادل لغات و مفاهیم زبان مادریاش را در یک زبان دیگر و نیز معادل مفاهیم و اسامی زبان دیگری را در زبان یا زبانهای مادری خودش پیدا کند. هدف فهمیدن جهان اطرافش است. فرد مورد نظر من زبان مادریاش فارسی یا ترکی آذربایجانی1 است.
افراد به دلائل مختلف به این مشکل برمیخورند. یک نوجوان میخواهد یک رمان ترجمه نشده را بخواند یا در یک فروم اینترنتی بازی احساس یا ایدهاش را بنویسد و احساس و ایدههای دیگران را بفهمد. حتما به لغاتی برخورد میکند که باید از زبان خودش به آن زبان و برعکس ترجمه کند. یکی میخواهد بفهمد خواننده محبوبش چه میگوید و دیگری میخواهد سوالی بپرسد. بویژه ساکنین مناطقی که دانش روز جهان را به زبان محلی خودشان گردآوری و تبدیل نکردهاند.
گریزی به وضعیت ترجمه
من بارها کتابهایی به زبان فارسی در دست گرفتهام که از لغات من در آوردی برای ترجمه استفاده کردهاند یا بجای لغات مصطلح لغاتی را که به نظر شخصی مترجم بهتر بوده خوانند یاد بگیرد استفاده کردهاند یا بدتر از همه اگر کتاب چاپ ایران بوده است لغات و ترجمه دلخواه ممیز را در کتاب چپاندهاند. این آخری باعث ایجاد یک سپر دفاعی ذهنی در من شده است به گونهای که هروقت رمانی چاپ ایران میخوانم و به بخش حساسی میرسم یا به لغات عجیب و غریب غیرمصطلح برمیخورم یا یک حفره در روند داستان حس میکنم در ذهنم اتوماتیکوار صحنهی واقعی را با صحنه قلابی چپانده شده در کتاب (یا حذف شده) جایگزین میکنم. گاهی هم به کتاب مبدا رجوع میکنم و دست به مقایسه میزنم. همه اینها باعث شده که به ندرت کتاب فارسی بخوانم و بنابراین بیش از پیش به لغتنامه احتیاج داشته باشم. (ایده: ایکاش جایی داشتیم که این قبیل مشکلات کتابها را در آنجا گزارش ثبت میکردیم و با مراجعه به آن فورا از این قبیل دستکاریها مطلع میشدیم).
راهحلهای موجود
طی سالهای گذشته من برای ترجمه لغات و متون بین زبان فارسی و سایر زبانها از ترکیبی از روشهای زیر استفاده کردهام. در ادامه آنها را میآورم و نقاط قوت و ضعفشان را مینویسم.
لغتنامههای دوزبانه کاغذی
این اولین روشی بود که برای ترجمه لغات بکار بردم. کتابهای چاپی مختلفی در بازار بود که برخی کار داخل بود و برخی حاصل کار اروپاییها و آمریکاییها (و یحتمل محققین ایرانی مشغول به کار در آنجا).
معایب: چاپی بودند. امکان جستجو نبود. به سختی بروز میشدند. وابسته به روشهای سنتی بودند. معمولا محدود به دو زبان بودند. محاسن: آفلاین و بدون برق و باطری کار میکرد. وابسته به سیستم عامل هم نبود!
لغتنامههای چندزبانه نرمافزاری
با دسترسی به کامپیوتر بازار لغتنامههای نرمافزاری داغ شد. اوائل لغتنامهها با دادههای از پیشتعریف شده عرضه میشدند و بعد کمک لغتنامهها به صورت جدا از نرمافزار منتشر شدند. از میان زبانهای رایج در ایران من تنها لغتنامههای عربی و فرانسوی و انگلیسی و بعضا آلمانی به فارسی دیدهام. حدس میزنم که کمتر لغتنامهای واقعا از زبان منبع به فارسی ترجمه شده باشد چرا که این کار تخصص بالا و نیروهای ماهر میخواهد. احتمالا زبانهای کمتر شناخته شده اول به انگلیسی ترجمه شده و بعد از انگلیسی به فارسی برگردانده شدهاند که این کار هم نیاز به یک لغتنامه بروز انگلیسی به فارسی دارد.
معایب
لغتنامههای دوزبانه که یک طرف آنها فارسی است در اینترنت دست به دست میشوند ولی بیشتر آنها میکس و کپی از یکدیگرند. مجوز استفاده و سازنده اصلی معمولا نامعلوم است. بنابراین هرگز رشد نمیکنند و بهبود پیدا نمیکنند چرا که کسی روی پروژههای با مالک و شرایط استفاده نامعلوم سرمایهگذاری نمیکند. از طرفی آنهایی که من دیدهام کیفیت پایین و غلطهای فراوان دارند و قالب مناسبی هم ندارند. از همه مهمتری دادههای آنها با مجوز آزاد در دسترس نیست که باعث تشویق دیگران به بهبود آنها بشود.
مزایا
دیجیتالی بودن. قابلیت بارگزاری در برنامههای مختلف مانند GoldenDict. قابلیت جستجو و احیانا تبدیل به فرمتهای دیگر برای استفاده در برخی برنامهها. برخی فرمتهای مدرنتر چندزبانه هستند. یعنی لازم نیست لغتنامه دوزبانه مثلا انگلیسی فارسی باشد. بلکه کافیست دوزبانهی «زبان مبدإ به زبان جهانی» باشد. جلوتر توضیح میدهم.
فرهنگهای لغت
فرهنگهای لغت معمولا تکزبانه هستند. هدف آنها ترجمه نیست بلکه گردآوری معانی و تعاریف مربوط به لغات و اصطلاحات مختلف است. برای فهمیدن معنی یک لغت و معادلها و ریشهها و مشتقات آن بسیار مهم و حیاتی است. ایجاد آن هم کار سختی است. در ایران شناخته شدهترین فرهنگ لغت فارسی لغتنامهی دهخداست. این لغتنامه پیش از اختراع اینترنت و هواپیمای مسافربری و تلفن همراه و وب و کامپیوتر و سفر انسان به فضا و جنگ جهانی دوم نوشته شده است.
معایب
ایجاد آن کار سختی است. بروزرسانی آن سخت است. نسخه آزادی از هیچ فرهنگ لغتی در دسترس نیست. البته به گمانم فرهنگ لغت دهخدا که در برخی لغتنامههای آنلاین ایرانی بکار رفته است در حوزه عمومی قرار گرفته ولی نسخهی دیجیتالی آن را در یک قالب آزاد و قابل پردازش توسط کامپیوتر ندیدهام.
مزایا
جامعترین فرهنگلغتی است که تابحال به زبان فارسی نوشته شده است.
لغتنامه دهخدا پیش از اختراع اینترنت و هواپیمای مسافربری و تلفن همراه و وب و کامپیوتر و سفر انسان به فضا و جنگ جهانی دوم نوشته شده است.
ویکیپدیا
ویکیپدیا با معرفی مفهوم ویکی که همه میتوانند آن را ویرایش کنند تحول بزرگی در جهان ایجاد کرد. از طرفی ابزاری ساخت که هر کس میتواند استفاده کند و ویکی خودش را بسازد. از سوی دیگر یک جامعه آنلاین بوجود آورد که در حال جمعآوری و مستندسازی دانش موجود در جهان به زبانهای مختلف است.
مزایا
ویکیپدیا یک ارگان غیرانتفاعی است. یعنی برای پول درآوردن ساخته نشده است و وابسته به اعانه است و اگر پولی دربیاورد داخل ویکیپدیا هزینه یا سرمایهگذاری میشود. وابسته به هیچ دولتی نیست. یعنی مقالات دستوری نیستند. واژهها هم همینطور. هیچ رئیس بزرگی تصمیم نمیگیرد چه چیزی آنجا نوشته بشود و یا نه. لااقل طبق اساسنامه و سیستم اینگونه نیست. البته بازیگران بد همیشه هستند. سلامت این سیستم به این فرض وابسته است که تعداد بازیگران خوب بیش از بازیگران بد هستند و جلوی خرابکاریها و دستکاریهای آنها را بدون نیاز به یک رئیس بزرگ میگیرند (اگر این فرض در میان گروهی از انسانها صحیح نباشد آنها قبل از حل مشکل ویکی و ترجمه باید مشکلات بنیادیتری را حل کنند). هرکسی میتواند مقاله جدید بسازد و مقالات موجود را تغییر بدهد. امکان ثبت دانش به هر زبانی را فارغ از مسائل و مشکلات سیاسی و قومی میدهد. امکان دسترسی آزاد به دادههای خام را فراهم میکند. برای این منظور ویکیکوئری را ببینید. آنجا میتوان به زبان SPARQL کوئری نوشت و نتایج خام ویکی را مشاهده کرد. بنیاد ویکیمدیا پروژههای بسیاری دارد و امروزه نقش مهمی در تامین دادههای خام و چند زبانه برای پروژههای مختلف بازی میکند. یکی از مهمترین ویژگیهای آن هم امکان اتصال مقالات و لغات و معانی مشابه به یکدیگر و نیز اتصال مقالات از یک زبان به زبانهای دیگر است. به این ترتیب ویکیپدیا یک شبکهای از معانی فراهم میکند که راه ما را از یک لغت به سایر لغات و اصطلاحات در زبانهای مختلف باز میکند. این واقعا بینظیر است.
معایب
ویکیپدیا معایبی هم دارد که باید در ذهن داشت. اول اینکه اگر جامعه ویرایشگران کوچک باشد مقالات جهت پیدا میکنند و یا کیفیت آنها افت میکند چرا که نویسندگان با قوانین و اصول نوشتن و ویرایش آشنا نیستند. خرابکاری هم بیشتر است و دیرتر واگردانی میشود. مقالات حساس هم توسط ذینفعها دستکاری میشوند تا ذهنهایی که دربست به آن مقالات اعتماد میکنند جهت پیدا کنند و یا اعتماد عمومی از ویکی ساقط بشود. البته ویکیپدیا محل نوشتن آراء و عقاید شخصی نیست و باید به منابع مختلف رفرنس داده شود در غیر اینصورت مقالات حذف میشوند. ولی این کار هم نیازمند اینست که افرادی مقالات را رصد کنند و در صورت خرابکاری آنها را اصلاح کنند.
سرویس ترجمه آنلاین گوگل
گوگل سالها پیش با راهاندازی سرویس ترجمهاش مثل ویکی جنب و جوشی در دنیای دانش و ترجمه ایجاد کرد. برای اولین بار توانستیم متون مختلف و حتی وبسایتها را کاملا ترجمه کنیم. هرچند کیفیت ترجمه به هر زبانی خیلی خوب نبود. مثلا اگر متنی را از نروژی به فارسی بخواهیم ترجمه کنیم گوگل ابتدا آن را به انگلیسی و بعد به فارسی برمیگرداند که کیفت خروجی بسته به پیچیدگی متن فرق دارد. برای ترجمه میان زبانهای اروپایی DeepL ظاهرا نتایج مشابه یا بهتری تولید میکند.
مزایا
امکان ترجمه خودکار متن میان تعداد زیادی زبان. تشخیص زبان متن ورودی.
معایب
ترجمه برخی زبانها مثل فارسی ضعیف است. دادهها و الگوریتمهای سیستم بسته و فقط در اختیار گوگل هستند. قابل توسعه توسط مردم نیست.
در ادامه به دو پروژهی مهم و آزاد میپردازیم. یکی منحصر به زبان انگلیسی است و دیگری روشی برای پیدا کردن ترجمه لغات در زبانهای مختلف.
Wordnet
وردنت یک بانک اطلاعاتی واژگان زبان انگلیسی است که در دانشگاه پرینستون آمریکا ساخته شده است. اسامی و افعال و صفات و قیدها در گروههایی بنام synsets دستهبندی شدهاند. هر گروه معرف یک معنی خاص و یکتاست. synsetها به بر اساس شباهتهای معنایی و لغوی به یکدیگر وصل شدهاند و یک شبکه معنی بزرگ تشکل میدهند. وردنت را میتوان دانلود کرد یا در اینترنت استفاده کرد. اگر در نتایج روی حرف S کلیک کنید لغات مرتبط نمایش داده میشوند.
روش معنامحوری که وردنت بکاربرده الگویی است برای دستهبندی لغات در سایر زبانها. از طرفی بانک دادهی وردنت طوری طراحی شده که توسط ماشین قابل پردازش باشد. من برای استفاده از وردنت روی اندروید از Aard 2 استفاده میکنم.
BabelNet
یک پروژهی آزاد از دانشگاه ساپینزای ایتالیاست (پروژههای اروپایی که با پول مالیات ایجاد میشوند طبق قانون باید منتشر شوند و در اختیار همه قرار بگیرند). در BabelNet هم مثل وردنت یک شبکه از معانی بین لغات ایجاد شده است. تفاوت آن با وردنت در پوشش بیش از صد زبان مختلف است. Babel synsets بیش از ۱۵ میلیون مدخل دارد. علت بزرگی BabelNet اینست که دادههای منابع آزاد مختلفی به آن خورانده شده است، از جمله ویکیپدیا به زبانهای مختلف.
جمعبندی
وضعیت ترجمه آزاد به زبان فارسی جالب نیست. هر از گاهی پروژهای دانشگاهی انجام شده و رها شده و سازندگان هر یک در گوشهای از جهان پراکنده شدهاند. دادههای آزادی که برای توسعه لغتنامهها و ابزارهای ترجمه بتوان بکار برد به جز ویکیپدیا در دسترسی نیست. سایر زبانهای ایرانی هم وضع به مراتب بدتری دارند و جز ویکیپدیا دادهای که ماشین بتواند پردازش کند وجود ندارد.
علت نوشتن این متن کوتاه هم اشاره به همین کمبود بود. میخواستم یک دیکشنری اندروید بنویسم که فهمیدم مشکل در نبود برنامه نیست بلکه دادهای وجود ندارد که بتوان بر اساس آن کار با ارزشی ایجاد کرد. اگر با پروژهی دیگری آشنا هستید لطفا کامنت بنویسید تا آنها را جمعآوری کنیم شاید بتوان وضع را بهتر کرد.
-
[ترکیآذربایجانی] زبان مادریام یا حداقل زبان مادر و پدرم است. ذهن ما انباشته از مفاهیم و لغات و تجربههایی است که با زبانهایی که با آنها رشد و پرورش یافتهایم در هم تنیدهاند. در مقالهی دیگری تجربه و مشکلات شخصیام را به عنوان یک انسان چندزبانه خواهم نوشت. ↩
سلام؛ براى تهيهى دادهى خام: https://github.com/topics/persian-dictionary
عالی بود