موضوع اصلی در زبانشناسی رایانهای پردازش زبان طبیعی است و هنگامی که کارشناسان رایانه از پردازش زبان طبیعی سخن میگویند اغلب مسائلی را عنوان میکنند که نشان میدهد تمایز روشنی میان خط و زبان قائل نیستند. به سخن دیگر، در بسیاری موارد، این دو حوزه را در هم میآمیزند. بد نیست در آغاز به برخی از کاربردهای رایانه در حوزهٔ خط اشارهای نماییم و سپس به نقش آن در حوزهٔ زبان بهویژه ساختواژه بپردازیم.
۱ حوزهٔ خط
۱-۱ غلطیابی املایی
یکی از ابزارهای سودمندی که واژهپردازها بهتدریج از آن سود جستند، خطایاب یا غلطیاب املایی (spelling checker) است. در نسخههای جدید نرمافزار Word، برای متنهای انگلیسی، میتوان از کاراییهای بالای غلطیاب آن بهره گرفت. از چند سال گذشته، برخی از شرکتهای سازندهٔ نرمافزار واژهپرداز فارسی کوشیدند نمونههایی از چنین غلطیابهایی را برای فارسی بهکار گیرند، از جمله پیشکار، زرنگار، گسترهنگار و نقش. در دو نرمافزار نخست بهنظر میرسد بیشترین اتکای برنامه بر جستجوی قاعدهمند و الگوریتمی ساختهای واژه قرار داشته باشد، در صورتی که در غلطیابِ گسترهنگار که نسخهای از آن در واژهپردازِ نقش نیز به کار رفت، تکیه بر جستجوی واژه در یک فهرست دویست هزار واژهای است. روش دوم، که امکان استفاده از آن در نرمافزارهای دیگر نیز هست، با سرعت و دقت بیشتری کار میکند؛ اما هر دو روش دارای مشکلاتی هستند.
مهمترین اشکال در اغلب غلطیابها عدم توجه آنها به بافت (واژههای همسایه) است، که باعث میگردد واژهای با ظاهر درست در جملهای نابهجا به کار رود و غلط شناخته نشود. مثلاً واژهٔ اسب در جملهٔ زیر درست بهشمار میآید: امروز هوا گرم اسب.
یکی از امکانات غلطیابها افزودن واژههای جدید به فهرست است، که این ویژگی در جستجوهای فهرستی کارآیی بیشتری دارد. از سوی دیگر، امکان پیشنهاد واژهٔ درست در برابر واژهٔ غلط، شمشیری دو لبه است. گرچه پیشنهادهای بهجا میتواند در سرعت غلطگیری بسیار مؤثر باشد، اما پیشنهادهای نامربوط ـ که تعداد آنها در واژهپردازهای فارسی بسیار است ـ بیشتر باعث کندی کار میگردد. نکتهٔ دیگر وابستهگی اینگونه غلطیابها به یک دستور خط خاص است و تا هنگامی که دستور خطی استاندارد (فراتر از دستور خط فرهنگستان) و بدون موارد استثنائی تدوین نگردد، آشفتگی و سردرگمی این نرمافزارها نیز پایان نخواهد گرفت.
۱-۲ بازشناسی خودکار متن (OCR)
درونداد متن کاری وقتگیر و پرخطاست و حجم متنهایی که پیشتر چاپ شدهاند بسیار زیاد است. از اینجاست که اندیشهٔ دروندادِ خودکار متنها شکل میگیرد. درونداد نگارهایِ یک متن (با روش عکسبرداری یا پویش) تصویری غیرقابلاستفاده برای پردازش فراهم مینماید. روشها و سیستمهای متعددی برای بازشناسی خودکار متنهای زبانهای اروپایی (با حروف لاتین) بهوجود آمده و بسیاری از آنها نیز با درجهٔ دقت بالایی کار میکنند. شرکت صَخر وابسته به مایکروسافت، که بیشتر برای خط و زبان عربی فعالیت میکند، نخستین بار برنامهای برای بازشناسی متنهای عربی تهیه کرد. نسخهٔ ابتدایی حتی برای متنهای عربی مشکلاتی داشت، ولی میتوانست در مورد خط فارسی پایهای برای آغاز بهشمار آید. یکی از شرکتهای ایرانی، بر همین اساس، نرمافزاری به نام شناسا تولید که تا مدتی تنها برنامهٔ OCR فارسی بهشمار میآمد. متٱسفانه، با وجود نارساییهای متعدد و درجهٔ دقت پایین، تلاش از سوی تهیهکنندگان برای بهبود و افزایش دقت نرمافزار صورت نگرفت. بهتازگی شرکت صخر نسخهٔ ۶ برنامهٔ متنخوان خودکار خود را عرضه نموده که برای زبان و خط فارسی نیز امکاناتی را ارائه میدهد.
۲ حوزهٔ زبان
پردازش زبان فارسی در سطوح چهارگانهٔ آوایی، ساختواژی، نحو، و معنایی و در حوزههای کاربردی و میانرشتهای به صورت پراکنده و در نهادهای دانشگاهی و پژوهشی انجام پذیرفته و متٱسفانه ارتباط منظمی میان آنها وجود نداشته است. از اینرو، فعالیتهای مشابه و موازی بسیار مشاهده میشود. شاید بتوان امیدوار بود، با ایجاد مراکز پژوهشی مشخص و انجام پژوهشهای هدفدار و برنامهریزی شده، تا اندازهای از پراکندهکاری و دوبارهکاری جلوگیری شود. بهدلیل یادشده، تنها به برخی از پژوهشهای نمونه در هر زمینه اشاره میگردد.
۲-۱ آواشناسی
سیر منطقی بررسی این حوزه باید به شناسائیِ واجهای زبان فارسی و مشخصههای آنها با روشهای آزمایشگاهی و روشن کردن بسیاری از موارد ابهام یا مورد اختلاف دربارهٔ آنها بپردازد؛ از جمله تعیین دقیق واکهها (vowels) و همخوانها(consonants)ی اصلی فارسی معیار و گونههای آنها، وجود واکههای مرکب (diphthongs) و تعداد و کیفیت آنها، ماهیت همزه به عنوان یک واج در جایگاههای مختلف واژه و گونههای آن، و بسیاری نکاتِ دیگر در این زمینه.
مرحلهٔ دیگر بررسی واحدهای زبرزنجیری (suprasegmentals) یا نواهای گفتار است؛ عواملی مانندِ زیر و بمی (pitch)، تکیه (stress)، نواخت (tone)، آهنگ (intonation)، و درنگ (juncture) که در گفتارِ پیوسته بر روی زنجیرهٔ آواها و در سطوح آوا، هجا، واژه و جمله تٱثیر میگذارند. این واحدها نهتنها از نظر تعیین، تغییر و تمایزِ معنی بلکه از لحاظ ایجاد لحن طبیعی گفتار و بیان حالات گوناگون عاطفی دارای اهمیتاند.
پردازش گفتار فارسی بدون توجه دقیق به فرآیندهای آوایی، که مجموعهٔ دگرگونیهایی است که در اثر همنشینی آواها و تٱثیر ویژگیهای آنها در هنگام گفتار بر یکدیگر بهوجود میآید، چه در مرحلهٔ درک و بازشناسی و چه در مرحلهٔ تولید، غیرواقعی و حتی غیرعملی خواهد بود. آنچه گفتار بازسازیشده را از حالتِ ماشینی، خشک و مقطّع به گفتاری طبیعی و انسانی تبدیل میکند دخالت دادن عواملی مانند واحدهای زبرزنجیری و نیز فرآیندهایی آوایی در تولید گفتارِ پیوسته است.
۲-۱-۱ برخی بررسیهای انجامشده در حوزهٔ آواشناسی
اسلامی (۱۳۷۹) ویژگیهای آهنگی زبان فارسی را بررسی کرده و نشان داده که زیر و بمی دارای یک نظام واجشناختی است. بهنظر وی، عناصر آهنگی یعنی تکیهٔ زیر و بمی، نواختِ گوره و نواختِ مرزنما هویت مستقل از یکدیگر دارند و بهطور مستقل نیز میتوانند تغییر کنند و معنای آهنگیِ متفاوتی به پارهگفتار ببخشند. این عناصرِ آهنگی در ترکیب با هم الگوهای آهنگی میسازند که هر کدام نمایندهٔ بافت خاصی هستند. اسلامی نشان میدهد که از ترکیب منطقی تکیهها و نواختهای کناری در زبان فارسی شانزده الگوی آهنگ به دست میآید. ایشان، با طرح مباحثی مربوط به مرز گروههای آهنگی، نشان میدهد که گفتار پیوسته بهصورت قاعدهمند به واحدهای کوچکتر تقسیم میشود. از اطلاعات نحوی میتواند در شناساییِ مرزهای گروههای آهنگی استفاده کرد. آنگاه از بحث مرز گروههای آهنگی در بازسازی گفتار استفاده میشود و بدینوسیله گفتارِ بازسازیشده به واقعیت نزدیکتر میشود.
وی نشان داده که، در تٱکید کلی، الگوی برجستگی واحدهای نحوی بر اساس اصل هستهگریزی است و، در آن، تکیهٔ زیر و بمی روی دورترین وابستهٔ هسته قرار میگیرد. در جملات پیچیده، هرکدام از گروههای نحوی مؤکد، بر اساس همان اصل هستهگریزی، تکیه میگیرند. در آخر، ایشان، بر اساس اطلاعات واجشناختی، واحدهای واژگانی را شناسایی میکنند. از آنجایی که هجای تکیه بر این واحدها مشخص شده است، در بازسازی گفتار میتوان پیشبینی کرد که کدام هجای یک واحد واژگانی میتواند بالقوه جایگاه تکیهٔ زیر و بمی باشد. سپس چگونگی استفاده از اطلاعات واژگانی در بازشناسیِ مرز واژه در گفتار پیوسته مورد بررسی قرار میگیرد. وی متذکر میشود که، بهجز در موارد معدودی، واحدهای واژگانی تکیهپایانیاند و، اگر در پارهگفتار برجسته شوند، هجای تکیهبرِ واژگانیِ آنها محل تکیهٔ زیر و بمی خواهد بود. بنابراین، تکیهٔ زیر و بمی در هر جایی از گفتار که ظاهر شود نشانهٔ مرز واژه است.
نتیجهٔ کار غلامپور (۱۳۷۹) تشخیص رشتهٔ آواییِ ورودی است. سپس، با رجوع به واژگان، صورتهای متفاوتی از مجموعه کلماتی که میتوانند با آن رشتهٔ آوایی متناظر باشند شناسایی میشود. در نهایت، از بین رشته کلمات موجود، با کمک تقطیعگرِ پایین به بالا جملهٔ صحیح تشخیص داده میشود. تقطیعگرِ وی از حدود هشتصد قاعده استفاده میکند که حدود صد ساخت فارسی مشمول آن است.
قاسمی (۱۳۷۷) مبنای آواشناختی برای انتخاب و استخراج واحدهای آوایی بهمنظور سنتزگفتار فارسی معرفی کرده است. وی یازده فرآیند آوایی را بررسی کرده است که، از آن میان، پنج فرآیند را در امر بازسازیِ گفتار مهم و شش مورد از آنها را قابل اغماض میشمارد.
در فرآیند تولید ناقص دو همخوانِ همانند در مرز دو هجا، وی توصیه میکند که در مورد واجهای انسدادی-سایشی در کلمهٔ بازسازیشده بین دو هجا مکثی به اندازهٔ تولید همخوان اول در نظر گرفته و سپس آن همخوان حذف شود. در مورد واجهای دارای مشخصهٔ پیوسته یا خیشومی، بین دو هجای منظور مکثی وجود ندارد و از واحدهای معمولی میتوان استفاده کرد. بهنظر وی، مکث بین دو هجا در گروه اول در حالت بازسازی در پارهگفتار یا جمله ۷۰ میلیثانیه و در واژه ۱۳۰ میلیثانیه است. به کار بردن [h] واکدار به جای [h] سایشی ایجاد اشکال میکند، ولی عکس آن بدون اشکال است. از این رو، قاسمی توصیه میکند که تمام واحدهای دارای [h] را از محیطی استخراج کنیم که دارای [h] باشند. وی نشان داده است که در هجای cvc، اگر همخوان آخر [n] و واکه از نوع بلند (â, u, i) باشد، کشش واکه در این محیط از کشش واکه در محیطهای دیگر حدود ۶۰ میلیثانیه کمتر است و هرگاه در واژهیی [i] قبل از [y] بیاید کشش آن نسبت به محیطهای دیگر کمتر (تقریباً ۷۰ میلیثانیه) میشود. واحدهای دارای همزهٔ بسیار خفیف را نمیتوان بهجای بقیهٔ واحدهای نظیر آنها بهکار برد. بنابراین، در استخراج واحدها نباید از همزهٔ بسیار خفیف استفاده کرد. یعنی اینگونه واحدها را نباید از گروه یا جمله استخراج کرد بلکه باید از واژه استخراج شوند. واجگونهٔ لرزشی [r] و واجگونهٔ واکهگونهٔ [t] را میتوان بهجای هم و بهجای واجگونههای دیگر /r/ به کار برد، ولی واجگونهٔ زنشی [ρ] را نمیتوان بهجای واجگونههای دیگر بهکار برد. بنابراین، در استخراج واحدها نباید واجگونهٔ [ρ] زنشی داشته باشیم. به این ترتیب، فرآیندهای مذکور از فرآیندهای مهم در سنتز طبیعی گفتار بهشمار میآیند.
۲-۲ ساختواژه و نحو
ساختواژه (morphology) به بررسی کوچکترین واحد معنیدار زبان یعنی تکواژ (morpheme)، انواع آن، آرایش و چگونگی شرکت آن در ساخت واحدهای بزرگتر، یعنی واژهها، میپردازد. تکواژ نیز واحدی انتزاعی است که ممکن است صورتهای کاربردی و عینی گوناگونی داشته باشد.
مجموعه واژههای هر زبان موجودی یا داراییِ آن زبان بهشمار میرود و هرچه فهرستِ واژگانِ (lexicon) یک زبان بلندبالاتر باشد آن زبان غنیتر بهشمار میآید. زبان فارسی، با تنوع و انعطاف بسیار، تقریباً از همهٔ الگوها و فرآیندهای واژهسازی چه آنها که بیشتر در زبانهای تصریفی بهکار میروند (مانند اشتقاق) و چه آنها که ویژهٔ زبانهای ترکیبی هستند (یعنی ترکیب) و حتی فرآیند وندافزایی و پیوند که بیشتر مربوط به زبانهای پیوندی است بهره میگیرد و از اینرو، برخلاف تصور برخی از افراد، تواناییِ واژهسازی بالقوهٔ آن بسیار بالاست.
به گمان گروهی «اولین گام در تحلیل نحوی، شناساییِ مقولاتی است که واژههای یک زبان بدان تعلق دارند» (اگرادی و دیگران، ۱۳۸۰، ص۲۰۸). اما شاید در حوزهٔ ساختواژه نیز نخستین گام فراهم آوردن فهرستی از اقلام واژگانی زبان است که امروزه با ایجاد پایگاههای دادههای زبانی عملی میگردد و در بخش دیگری به آن اشاره خواهد شد. اما تنها فهرست واژگان نیست که مورد نیاز برنامههای گوناگون پردازش زبان طبیعی است بلکه فهرستهای ویژهٔ دیگری نیز در فعالیتهای خاص به کار گرفته میشوند. پیش از هرگونه تحلیل خودکار یا پردازش رایانهای متنهای زبانی، توصیف دقیق زبانشناختی آن ضروری است. خوشبختانه بررسیهای علمی زیادی انجام شده است که میتواند زمینهٔ اینگونه تحلیلها را فراهم سازد.
۲-۲-۱ برخی بررسیهای انجامشده در حوزهٔ ساختواژه و نحو
بقایی (۱۳۸۰) و امامی (۱۳۸۰)، با بهرهگیری از پایگاه دادههای زبان فارسی، به جداسازی همهٔ تکواژهای فارسی پرداختند و فهرست کامل آنها را ارائه دادند.
ماهجانی (۱۳۷۸) مدلی برای نمایش اطلاعات نحوی و معناییِ مدخل واژگانی فعل ارائه داده است. مدل پیشنهادی وی از نحو به سوی معنا حرکت میکند. وی، در سطح اول که سطح ساختاری است، اطلاعات دستوری اعم از مقولهٔ نحوی نهاد، چارچوب زیرمقولهای (متممهای اجباری فعل) و مقولهٔ نحوی متممهای اختیاری (ادات) را نشان داده است. در سطح بعدی که ساختار موضوعی است، اطلاعات ساختار موضوعی، نقشهای معنایی، محدودیتهای گزینشی، هستهٔ واژگانی و بالٱخره پربسامدترین ساختها با هستهٔ فعل نشان داده میشود.
سمائی (۱۳۷۷) در پایاننامهٔ دکتری، با توجه به دادههایش، دوازده حوزهٔ دستوری را بازشناخته است. این حوزهها عبارتاند از صفت، ضمیر، اسم، فعل، قید، حرف اضافه، علائم سجاوندی، جملهسازی، گشتار، صرف، املا و واژگان. وی، سپس، ویژگیهای هر حوزه را استخراج و قواعد حاکم بر آن را ارائه کرده است. این کار، به ادعای سمائی، بر اساس فرضیهٔ استقلال نحو چامسکی است.
یکی از چالشهای بزرگ در پردازش خودکار متنهای زبانی شناساییِ واژهها و نشانهگذاری آنهاست. نشانهگذاری دستوری را معمولاً برچسبدهی مینامند و تعیین مجموعهٔ برچسبهای دستوری هر زبان، بهجز چارچوبها و قواعد عمومی، شرایط ویژهٔ خود را نیز دارد.
فرّخ (۱۳۸۱)، با بررسی مفصّل فعل در زبان فارسی، نوعی دستهبندی ارائه داده است که با توجه به آن بتوان برنامهای برای رایانه نوشت تا شناساییِ افعال در متن بهطور خودکار انجام و سپس اجزاء و نوع آنها تعیین شود.
دانشکار آراسته (۱۳۸۱) برنامهای چهارصد خطی، به زبان Visual Basic، برای تشخیص فعل در زبان فارسی نوشته است. این نرمافزار قادر است ویژگیهای زمان، شخص، عدد، معلوم، مجهول، سببی و ریشهٔ فعل را اعلام نماید.
در مرحلهٔ اول، کاربر متنی را که ممکن است شامل یک واژه، یک عبارت، یک جمله یا چندین جمله باشد وارد میکند. واحد متنْ جمله در نظر گرفته شده است؛ بنابراین، باید پایان متن را با یکی از علائم سجاوندی به برنامه اعلام نمود. مرحلهٔ دوم تشخیص واژه است که مرز آن فاصله است. تکواژهایی که مربوط به فعلاند اما جدا نوشته میشوند برای برنامه تعریف شدهاند؛ بنابراین، برنامه بهطور خودکار فاصلهٔ بین این تکواژها و فعل را حذف میکند و این کلمات را بهصورت یک واژهٔ یکپارچه بهحساب میآورد.
مرحلهٔ بعد بررسی فعلبودن یا فعلنبودنِ واژه است. این قسمت بدنهٔ اصلی برنامه است و بیشترین بخشهای برنامه را دربر میگیرد. برای این برنامه یک پایگاه داده شامل ستاکهای گذشته و حال تهیه شده است. ابتدا همهٔ واژه در فهرست جستجو میشود. افعالی که هیچگونه پیشوند یا پسوندی ندارند بهراحتی در فهرست پیدا میشوند. سپس، مشخصات فعل مورد نظر، بر اساس اجزای اعلامشده در فهرست دیگری، اعلام میشود. پایگاه دادههای این برنامه شامل ۴۵۰ واژه است. این برنامه، با طراحی مرحلهبهمرحله، اقدام به شناساییِ اجزای واژه میکند و با جداسازی و تجزیهٔ این افعال نوع فعل را مشخص میکند.
عاصی و حاج عبدالحسینی (Assi and H. Abdolhosseini 2000)، برای تعیین مقولههای دستوری واژههای متنهای پیوستهٔ فارسی، از روشی ریاضی و آماری بهره میگیرند. روش مورد استفاده که برچسبدهی توزیعی (Distributional Part-of-Speech Tagging) نامیده شده، نخستینبار بهوسیلهٔ شوتس (Schuetze 1995) برای زبان انگلیسی بهکار گرفته شد. در این روش، فرض بر این است که رفتار نحوی واژههای در الگوهای هموقوعی (co-occurrence) آنها بازتاب مییابد. برنامه، با ایجاد بردارهای آماری از همسایههای دو سوی هر واژه و بررسی شباهتهای رفتار نحویشان، احتمالهای ممکن مقولهٔ دستوری آن را محسابه میکند و برچسب مناسب را از میان یک مجموعهٔ ۴۵تایی برمیگزیند. تعیین مجموعه برچسبهای هر زبان و برای هر منظور تابع شرایط و معیارهای متعددی است که این کار را به چالشی بزرگ تبدیل میکند. مجموعه برچسب این طرح نیز با نشانههای دقیق و با نظم سلسلهمراتبیِ حسابشدهای مشخص گردیده و برچسبها هیچگونه تداخل یا همپوشانی با یکدیگر ندارند.
۲-۲-۲ روشها و ابزارهای تحلیل دستوری: زبانشناسی پیکرهای
بهموازات پیشرفت و تحولات نظری زبانشناسی جدید و شکلگیری مکاتب گوناگون، روشهای تحلیل نیز تحول یافت. روشهای ساختگرایانه که تا دههٔ چهل و پنجاه میلادی بهاوج رسید، بیشتر به حوزهٔ ساختواژه میپرداخت و از روش تجزیه به سازههای پیاپی (immediate constituents analysis) بهره میگرفت. دستور زایشی با رویکردی نحوی به تکمیل روش یادشده پرداخت و تحلیل سازهای (phrase structure analysis) را بهوجود آورد و، با کمک گرفتن از نمودارهای ژرفساختی، روساختی و گشتارها، تحلیل گشتاری (transformational analysis) را سامان داد. مکتبهای دیگر زبانشناسی نیز تحلیلهای متفاوتی ارائه کردهاند مانند تحلیل رابطهای (relational analysis) و تحلیل نقشگرا (functional analysis) که در هر یک از آنها مجموعهای از قواعد، انگارهها، نمودارها و نشانهها برای توصیف نحوی زبان بهکار گرفته میشود. با گسترش و اهمیت پیدا کردن رویکرد متنگرا و کاربرد عملی آن در حوزهٔ پردازش زبان و نیز بهبود و افزایش امکانات رایانشی برای ذخیرهسازی، ساماندهی، پردازش، جستجو و دستیابی متنهای بزرگ زبانی، شاخهٔ جدیدی در زبانشناسی بهصورت میانرشتهای با رایانه به نام زبانشناسی پیکرهای شکل گرفت.
در سال ۱۹۹۲ میلادی، هلیدی، زبانشناس نامی، در همایش ویژهای دربارهٔ زبانشناسی پیکرهای گفت:
«از نخستین روزهایی که تصمیم گرفتم دستورنویس شوم، همواره میاندیشیدم که دستور موضوعی است با مقدار زیادی نظریه و مقدار ناچیزی داده. از این رو، برای دو نکته اهمیت قائل بودهام: اول آنکه برای بررسی دستور نیاز به حجم بزرگی از دادههای زبانی داریم، چرا که باور دارم دستور را باید به شکلی کمّی مطالعه کرد؛ دیگر آنکه باید چگونگی کاربرد روشهای کمّی را برای تعیین درجات ارتباط میان دستگاههای گوناگون دستوری نشان داد (کاری که در پایاننامهٔ دکتری خود کردهام)». (Halliday 1992, p. 611)
بخش بزرگی از زبانشناسان دیدگاهی همانند هلیدی دارند. همیشه یکی از آرزوهای زبانشناسان کاربردی و حتی بسیاری از نظریهپردازان این بوده است که به مقادیر بزرگی از دادههای زبانی دسترسی داشته باشند.
«در دانش زبان، پیکره مجموعهای از متون نوشتاری یا گفتاری آوانویسی شده است که میتوان آنرا بهعنوان مبنایی برای تحلیل و توصیف زبانی به کار برد» (Kennedy, p. 1)
پیکرهٔ زبانی میتواند بسیار بزرگ، فراگیر و نمایندهٔ تمامی یک زبان یا گونهای از آن باشد؛ به شکل برگههای یادداشت یا پروندههای رایانهای شامل متنهای کامل یا گزیدههایی از آنها، بخشهای پیوستهای از متون یا گزیدهای از نقلقولها و نکات و حتی فهرستهای واژگانی باشد. پیکره میتواند ویژهٔ بررسی خاصی فراهم آید و یا دربرگیرندهٔ مجموعهٔ عظیم و بیساختاری از متون گوناگون باشد که برای منظورهای گوناگون به کار رود. زبانشناسیِ پیکرهای بنیادی روششناختی برای پژوهشهای زبانی بهشمار میآید. در اصل و عملاً زبانشناسی پیکرهای بهآسانی با شاخههای دیگر زبانشناسی میآمیزد. میتوان با کمک پیکره به بررسیهای آوایی، نحوی، اجتماعی یا دیگر زمینههای زبان پرداخت و در این صورت میگوییم که روشها و فنون زبانشناسی پیکرهای را با موضوعات آوای، نحوی و اجتماعی زبان و مانند آن آمیختهایم. (Leech 1992, p. 106)
تنها رشتهٔ دیگر زبانشناسی که، مانند این رشته، با ابزار و روشهای مطالعه و نه با موضوعی خاص سروکار دارد زبانشناسی رایانهای است که بهعنوان مطالعهٔ زبان با کمک رایانه تعریف شده است. امروزه بهنظر میرسد که این دو رشته با یکدیگر پیوند یافتهاند. یعنی میتوان این حوزه را زبانشناسی پیکرهای رایانهای (computer corpus linguistics (CCL)) نامید، که در اینصورت نهتنها روش نوین بررسی زبان بلکه فعالیت پژوهشی تازهای با رویکردی فلسفی در زبانشناسی بهشمار میآید (Ibid). لیچ ویژگیهای مهم این رشته را چنین برمیشمارد:
۱٫ تمرکز بر کنش زبانی و نه توانش زبانی؛
۲٫ تمرکز بر توصیف زبانی و نه بر همگانیهای زبان؛
۳٫ تمرکز بر الگوهای کمّی زبانی همانند الگوهای کیفی آن؛
۴٫ تمرکز بر دیدگاههای تجربی (و نه عقلانی) در بررسیهای علمی زبان.
همانگونه که مشاهده میشود، این ویژگیها مجموعهای را بهوجود میآورد که توجه بیشتری به جنبههای رفتاری زبان و بروز طبیعی گفتار و نوشتار دارد و عملاً در مقابل دیدگاههای چامسکی و پیروان وی قرار میگیرد. (Ibid, p. 107)
تویبرت نیز نگرشی همسو با لیچ نشان میدهد:
«زبانشناسی پیکرهای بر پایهٔ این باور که زبان اساساً پدیدهای اجتماعی است بنا نهاده شده است؛ پدیدهای که پیش از هر چیز میتوان آن را با دادههای تجربی آماده، یعنی در کنشهای ارتباطی مشاهده و توصیف کرد. متنهای مورد مشاهده، در اصل، کنشهای ارتباطی گذرا هستند». (Teubert 1991, p. 1)
از سوی دیگر، وی بررسی این پدیدهٔ اجتماعی را مستلزم دانستن چگونگی درک گوینده یا شنونده از مطالب نمیداند، زیرا زبان، بهعنوان یک پدیدهٔ اجتماعی، بهصورت متنی متجلی میگردد که میتوان آن را مشاهده، ضبط، توصیف و تحلیل کرد.
زبانشناسیِ پیکرهای به توصیف تکتک زبانهای طبیعی میپردازد و نه همگانیهای زبان. از آنجا که نمیتوان به درون ذهن افراد رخنه کرد، تنها میتوان قراردادهای زبانی را در کنشهای ارتباطی و متون یافت. گرچه فرهنگهای لغت، کتابهای دستور و کتابهای درسی زبان نیز جزئی از فضای کلامی هستند، اما نمونههای واقعی از فضای کلامی و متنها بهتر میتوانند واقعیات زبان را نشان دهند. زبانشناسی پیکرهای، با آمیختن سه روش، به فراهم آوردن دانش تجربی زبانی کمک میکند:
الف) استخراج خودکار دادههای زبانی از پیکرهها؛
ب) پردازش برونداد با روشهای عمدتاً آماری؛
پ) ارزیابی و تفسیر اینگونه دادههای پردازششده.
مراحل اول و دوم را میتواند و باید بهطور کامل با برنامه و خودکار انجام داد، اما مرحلهٔ سوم نیاز به تصمیمگیری و منطق انسانی دارد. (Ibid)
پیکرههای زبانی را میتوان برای منظورهای گوناگون بهکار گرفت، از جمله برای فرهنگنگاری، معناشناسی، بررسیهای دستوری، آموزش زبان و مانند اینها. پیکرهها را میتوان از نظر اندازه و گستره به دستههای محدود، متوسط و عظیم تقسیم کرد.
۲-۲-۳ نشانهگذاری پیکرهها (corpus annotation)
برای گویاتر شدن پیکره و کاربردهای خاص، کدهای متفاوتی به آن افزوده میشود. این نشانهگذاری از یکسو میتواند برای ارتباط دادن بخشهای یک پیکره به ساختار کلی آن باشد، مانند شمارهٔ سطر، صفحه، فصل و مانند اینها و یا بافت زبانی را مشخص نماید مانند شرایط تولید زبانی، گونهٔ زبانی، رسانه و مانند آن. از سوی دیگر، نشانهگذاری میتواند صرفاً زبانی باشد. یکی از معدود کارهایی که در زبان فارسی برای برچسبدهی پیکرههای فارسی انجام شده است، طراحی و اجرای برنامهای رایانهای برای برچسبدهی دستوری خودکار متون فارسی است. (Assi and H. Abdolhosseini 2000)
اکنون تنها به برخی از کاربردهای پیکرههای زبانی اشاره میکنیم:
ـ یکی از مهمترین کاربردهای پیکره در پردازش زبانِ طبیعی است. مهمترین دستاورد این حوزه درک و بازشناسی گفتار بوده که تنها با بهرهگیری از پیکرههای بزرگ امکانپذیر گشته است.
ـ اکنون هیچ پروژهٔ فرهنگنگاری پیشرفتهای نمیتوان یافت که از پیکرههای زبانی پایگاههای دادههای زبانی بهرهگیری نکند. نمونهٔ چنین کاربردی در زبان فارسی واژگان گزیدهٔ زبانشناسی است که نرمافزار رایانهای آن نیز با امکانات گسترده آماده شده است (عاصی و عبدعلی ۱۳۷۵) و نمونهٔ دیگر فرهنگ فارسی به انگلیسی پیشرو آریانپور (چهارجلدی) است که با همکاری این نگارنده و بر بنیاد یک پیکرهٔ بزرگ دوزبانه تدوین گردیده است. (آریانپور و عاصی ۱۳۸۲)
ـ ایجاد پایگاههای دادههای زبانی نیز جنبهای دیگر از کاربرد پیکرههای زبانی است که نمونههای متعدد آن را هماکنون در سراسر جهان، به صورت پیوسته یا ناپیوسته، در اختیار داریم. چنین پایگاهی را برای زبان فارسی نیز نگارنده در پژوهشگاه علوم انسانی ایجاد نموده است. (عاصی ۱۳۷۶)
ـ طرحهای بررسی واژههای همایند (collocations) در زبانهای گوناگون با کمک پیکرههای زبانی اجرا شده است. نمونهٔ مهم و موفق آن فرهنگ واژههای همایند BBI برای زبان انگلیسی است. هماکنون در پژوهشگاه علوم انسانی نیز طرحی برای تدوین فرهنگ واژههای همایند فارسی بر اساس پایگاه دادههای زبان فارسی در دست اجراست.
ـ برنامههای پایشگری زبان برای پیگیری و ردگیری تحولات زبانی نیز از امکانات پیکرههای زبانی سود میبرند. اینگونه پیکرهها را پیکرهٔ پویا یا پیکرهٔ پایشگر مینامند. (Kennedy 1998, p. 22)
ـ همهٔ طرحهای ترجمهٔ ماشینی بهگونهای از پیکرههای زبانی سود میبرند، بهویژه سیستمهای جدید که با رویکردی آماری و پیکرهبنیاد بهتازگی از راه میرسند.
نمونهای از پیکرهٔ زبانی که برای زبان فارسی فراهم شده است و اکنون در مرحلهٔ گسترش و تکمیل است، پایگاه دادههای زبان فارسی است که نگارنده در پژوهشگاه علوم انسانی طراحی و اجرا نموده است.
۲-۲-۴ پایگاه دادههای زبان فارسی (Persian Linguistic Database)
هدف از ایجاد پایگاه دادههای زبان فارسی فراهم کردن پیکرهای مطلوب و با حجم عظیمی از دادههای زبانی با گستردگی و گوناگونیهای بسیار و با ساختاری بهسامان و منطقی است، تا امکان هرگونه جستجو و دستیابی سریع به آگاهیهای مورد نیاز را در هر زمان فراهم نماید. چنین پیکرهای میتواند همواره روزآیند گردد و پاسخگوی نیاز کاربران گوناگون در همهٔ زمینههای نظری و کاربری باشد.
در نخستین مرحله، با توجه به نیازهای گوناگون پژوهشی و کاربردی، از طیف دورانهای تاریخی زبان فارسی، برش فارسی معاصر برگزیده شد. همین برش نیز، که بهطور قراردادی از آغاز قرن چهاردهم خورشیدی تا امروز را در بر میگیرد، خود دارای گونههای بسیاری است، از جمله گونهٔ رسمی نوشتاری یا بهاصطلاح فارسی معیار و گونهٔ گفتاری آن، گونههای ادبی و سبکی فارسی، گونههای محاورهای و عامیانهٔ آن، و گونههایی که متغیرهای زبانی و اجتماعی دیگری مانند سن، جنس، سواد و تحصیل، طبقهٔ اجتماعی، و محیطهای مختلف ارتباطی عامل تمایز آنها بهشمار میروند.
دادههای به شکلها و قالببندیها(formats)ی گوناگون در این پایگاه ذخیره میشوند: بهصورت متنهای پیوستهٔ کامل آثار ادبی یا نوشتههای مهم، بهصورت فهرستهای واژهنما و بسامدی از همین متنها و متنهای دیگر، یعنی فهرست همهٔ واژگان آنها بههمراه چند سطر از بافت زبانی آنها و بسامدشان، و نیز بهصورت واژهنامههای تکزبانه و دوزبانه. همچنین، متنهای آوانویسیشدهٔ دادههای گفتاری چه به صورت متن پیوسته و چه به صورت فهرستهای بسامدی در پیکره جای دارند و پیشبینی شده، با به کارگیری امکانات چندرسانهای (multimedia)، فراگوئیِ آوائیِ دادهها نیز ارائه گردد. از اطلاعات این پایگاه به روشهای گوناگون میتوان بهره گرفت: هرگونه جستجو در پیکره، چه به صورت همزمان یا برخط و چه به صورت سفارش و برونخط، بر پایهٔ هریک از اقلام اطلاعاتی و یا ویژگیهای مربوط به آنها از جمله
ـ جستجوی واژگانی (بر پایهٔ یک یا چند کلیدواژه)؛
ـ جستجوی مفهومی (برپایهٔ مفهوم یا معنای مورد نظر)؛
ـ جستجوی تلفظی (بر پایهٔ صورت تلفظی یک واژه)؛
ـ جستجوی همبافت (بر پایهٔ واژههای همایند و یا بافتهای همسایه)؛
ـ گشت و گذار (navigation) در متنها و واژهنامهها.
این جستجوها را میتوان در محدودههای دلخواه (مثلاً دورهٔ زمانی معیّن، یا نویسندههای مشخص، یا حجم معیّنی از پیکره) انجام داد.
گزارشهای پایگاه به گونههای صوری و محتواییِ مختلفی طراحی شدهاند تا پاسخگوی نیازهای گوناگون باشند:
ـ به شکل فهرستهای واژگانی، آماری و بسامدی؛
ـ به شکل اطلاعات موردی؛
ـ به شکل فرهنگ واژهنما (واژهٔ مورد نظر در شکل کاربردی آن همراه با اطلاعاتی دربارهٔ بافت زبانی آن مانند چند سطر جملهٔ شاهد، شمارهٔ سطر و صفحهٔ متن، نام نویسنده و مشخصات اثر، تاریخ کاربرد، بسامد در پیکره و مانند آن)؛
ـ به شکل گزیدههایی از متنهای گوناگون.
این پایگاه برای استفادهٔ همگانی در نظر گرفته شده است، اما مراحل و سطوح دستیابی آن متفاوت است.
پایگاههای دادهها روزبهروز اهمیت بیشتری مییابند و شمار، موضوع و زمینههای کاربردشان گستردهتر میگردد. اکنون از پایگاههای معرفی (knowledge base) گفتگو میشود که بسیاری از رشتههای دانش و فن به آنها مجهز میشوند و همهگونه آگاهیها و معارف، به صورت الکترونیک، در آنها نگهداری میشود (انواری و فتحیانپور ۱۳۷۳). در شبکههای اطلاعاتی گوناگونی که در سراسر جهان در دسترس همه است، پایگاههای دادههای بیشماری وجود دارد که، اگر ما نیازمند گونهای اطلاع باشیم و آن را بهدرستی ارزیابی نماییم، میتوانیم بهخوبی از آن بهرهمند شویم. از جمله دربارهٔ بسیاری از زبانهای مهم جهان دادههای فراوانی گردآوری شده است. اما، در این دریای بیکرانِ اطلاعاتی، دادههای قابل استناد برای زبان فارسی یافت نمیشود.
پایگاه دادههای زبان فارسی در ایران و، در وهلهٔ نخست، برای پاسخگویی به نیازهای پژوهندگان ایرانی ایجاد شده است و در مرحلهٔ بعد، بهعنوان یک بانک اطلاعاتی ایرانی در دسترس همهٔ کسانی است که دربارهٔ زبان فارسی در نقاط دیگر جهان پژوهش میکنند.
برخی از طرحها و پژوهشهای نحوی دیگر که به زبان فارسی مربوط میشوند به شرح زیر است.
رضائی (Rezaei 1999) در پایاننامهٔ دکتری، نتیجهٔ سه تحقیق خود را منعکس کرده است. اول برای تقطیع جملات سادهٔ زبان فارسی سیستمی مبتنی بر شبکهٔ انتقالی برافزوده (Augmented Transition Network) طراحی کرد. این تقطیعگر توالیهای ممکن درونبند ساده را تبیین میکند، اما قادر به تقطیع بندهای درونهای نیست. بنابر تحقیق بعدی وی، تقطیعگر قلب نحوی را نیز در بر میگیرد. ایشان در تحقیق آخر، پدیدههایی از قبیل برجستهسازی و جابهجاییِ بندهای متمم به آخر جمله را مطرح میکند. پدیدههای زبانی، در دو تقطیعگر آخر وی، در قالب نظریهٔ حاکمیت و مرجعگزینی توصیف میشود.
کشاورزی (۱۳۷۸) تقطیعگری برای تقطیع جملات سادهٔ خبری، بر اساس دستور گروه ساختی هستهبنیاد (head-driven phrase structure grammar (HPSG)) و الگوریتمی بالا به پایین، ارائه داده است. این تقطیعگر قادر به شناساییِ گروه اسمی شامل وابستهٔ پیشین اسم، گروه اسمی همپایه، گروه پیشاضافه، گروه پساضافه و گروه فعلی است. تقطیعگر، علاوه بر این، ساده یا ترکیبی بودن گروه فعلی را تشخیص میدهد و از میان ترکیبها فعل مرکب و پیشوندی را به اجزای آنها تقطیع میکند. قواهد ساخت ۴۵۰ جمله و واژگان برای تقطیع، به تقطیعگر داده شده است. تقطیعگر، پس از دریافت جملهٔ ورودی، درختی ارائه میدهد که ساخت نحوی جمله را در شش مرحله مشخص میکند.
طیبی (۱۳۷۴) چندین تلکس دریافتی سازمان هواپیماییِ کشوری را که ساختاری ساده و عاری از ابهام دارند و به زبان انگلیسیاند انتخاب کرده است. سپس، با رویکرد دستور واژگانی نقشمند (Lexical Functional Grammar)، ساخت هرکدام از جملات و ترجمهٔ آنها را به کمک رایانه ارائه داده است.
یونسیفر (۱۳۷۳) نیز تحقیقی انجام داده که، در آن، جملات انگلیسی با شبکهٔ خودکار پیشرو تجزیه میشوند و سپس ترجمه بر اساس روشهای نحوی انجام میگیرد. این کار بر پایهٔ نظریهٔ وابستگیِ مفهومی انجام شده است.
۲-۳ معناشناسی فارسی
معناشناسی (semantics)، که به بررسی و توصیف معنای واژهها و جملههای زبان میپردازد، پیشینهای بسیار طولانی دارد و بیرون از حوزهٔ زبانشناسی ـ مانند فلسفه و روانشناسی ـ نیز مطرح بوده است. واژهها واحدهای منفرد معنایی بهشمار میآیند که در شکلدهی معنای جمله با کمک روابط نحوی شرکت میکنند. از سوی دیگر، هر جنبهای از معنای واژه نیز به صورت طرحی خاص از هنجارهای معنایی، در بافتهای مناسب دستوری، نمود مییابد. مجموعهٔ روابط بههنجاری که یک واحد واژگانی در همهٔ بافتهای ممکن بهوجود میآورد روابط بافتی (contextual relations) نامیده میشود. از این رو، میتوان گفت معنای یک واژه در روابط آن منعکس است (Cruse 1989, pp. 15, 16). معنای واژه را بهطور کلی در دو لایهٔ معنای ادراکی یا مفهومی (conceptual meaning) و معنای متداعی یا ضمنی (associative meaning) در نظر میگیرند. معنای مفهومی بخشهای اساسی و ضروری معنای واژه را در بر میگیرد و معانی ضمنی یا متداعی مانند هالهای آن را فرا میگیرد.
۲-۳-۱ مؤلفههای معنایی
یکی از روشهای تحلیل معنا، مشابه روشی است که در تحلیل آوایی و ساختواژی زبان به کار میرفت و به تجزیه به مؤلفهها یا مشخصههای معنایی (semantic feature / components analysis) معروف است. در این رویکرد، با بررسی مجموعهای از واژههای مرتبط (مانند اصطلاحات خویشاوندی)، مشخصههای مهم و تمایزدهندهٔ معنا شناسایی و دستهبندی میشود و در جدولهای تحلیل معنایی قرار میگیرد:
۲-۳-۲ روابط معناییِ واژهها
یکی از راههای توصیف و تحلیل معنا بررسی روابط مفهومی واژهها و مقایسهٔ آنها با یکدیگر است. مهمترین روابط معنایی عبارتاند از:
ـ هممعنایی (synonymy): دو صورت زبانی متفاوت با معنای یکسان، گرچه معمولاً گفته میشود که هممعناییِ مطلق کمتر وجود دارد، مانند کامپیوتر و رایانه؛
ـ تضاد معنایی (antonymy): دو صورت با دو معنای متضاد، مانند خوب و بد؛
ـ شمول معنایی (hyponymy): معنای یک صورت زبانی معنای دیگری را در بر میگیرد و معمولاً رابطههای شمول معنایی سلسلهمراتبی هستند. مانند حیوان و اسب؛
ـ همآوایی (homophony): دو واژه با صورت آواییِ یکسان و معنی متفاوت (ممکن است صورت نوشتاری آنها متفاوت باشد)، مانند خوار و خار؛
ـ همنامی (homonymy): دو واژه با معنی متفاوت که صورت آوایی و نوشتاری آنها یکسان است، مانند دوش (=دیشب) و دوش (وسیلهای در حمام)؛
ـ چندمعنایی (polysemy): یک واژه که دارای چندین معنی مرتبط با یکدیگر است، مانند دل به معنی «قلب»، «مرکز»، «میان»، «جرٱت»، «شکم»،….
و بسیاری روابط فرعی دیگر.
از دیدگاه زبانشناسی، ساخت و معنای واژههای زبان بهطور عام در حوزهٔ واژهشناسی (lexicology) بررسی میگردد و ساختار معنای و مفهومی واژگان فنی رشتههای علمی اصطلاحات (terms) در حیطهٔ اصطلاحشناسی (terminology) مورد بررسی قرار میگیرد.
۲-۳-۳ برخی پژوهشهای معنایی
عظیمی (۱۳۷۵) تولید و درک گفتار فارسی را مورد بررسی قرار میدهد. بهنظر وی، انسان چیزی را میشنود که انتظار شنیدن آن را دارد. انسان برای درک گفتار طرف مقابل به دنبال سرنخهایی میگردد و، اگر آنها را بیابد، از جزییات کلام صرفنظر میکند و به یک نتیجهگیری کلی مبادرت میورزد. فهمیدن جملات موقعی مشکل میشود که یا این راهکارهای ادراکی مؤثر نیفتد یا جمله متضمّن مسائلی چون پردازش جملات پیچیدهتر باشد. اگر جملات پیچیده باشند، احتمالاً قدمبهقدم پردازش میشوند. وی نظریهٔ خلٱیابی را نیز بررسی میکند. در این نظریه شنونده الفاظی را در حافظه نگه میدارد تا در بخشهای بعدیِ جمله به یک خلٱ برسد و آنگاه لفظ را وارد خلٱ کند. بهنظر وی، نهتنها ساخت نحوی جمله بلکه عناصر واژگانی نیز به درک گفتار کمک میکند. علاوه بر اینها، که همه جنبهٔ زبانی دارند، مسائلی غیرزبانی نیز در این روند مؤثرند.
شمس فرد (۱۳۷۴) در پایاننامهٔ کارشناسی ارشد خود طرحی برای درک متن فارسی بر پایهٔ نظریهٔ وابستگی مفهومی ارائه داده است. باقری (۱۳۷۵) نیز، با استفاده از قواعد تولیدی، جملات حوزهٔ خاصی را بر پایهٔ نظریهٔ وابستگی مفهومی تقطیع کرده است.
تقطیعگر رئیسقاسم (۱۳۷۰) از دو قسمت نحوی و معنایی تشکیل شده است. قسمت نحوی آن شامل تمام توالیهای ممکن موضوعهای بندهای ساده است. قسمت معنایی هم شبکهٔ وابستگی مفهومی جملات را بهدست میدهد.
نمونههای یادشده تنها شمار کوچکی از بررسیهای انجامشده را در بر میگیرد و کارهای بسیاری در حال حاضر در دست انجام است که هریک نیاز به معرفی مفصّل دارد و نتایج آنها در آینده نمودار خواهد گردید.
منابع
برگرفته از: مجله «دستور» فرهنگستان، شماره ۱/۱
به جای تحلیل بهگید واکافت/واکاوی/واکاوش بهتر نبست؟
بنظر من (نوشتگاه) از تارنما بهتره
با تشکر فراوان.خواهشمند است جهت نوشتن صحیح زبان فارسی در دستگاه تلفن راهنمائی فرمائید