سید مصطفی عاصی، مدیر و مجری پایگاه دادگان زبان فارسی، لیسانس زبان و ادبیات انگلیسی و کارشناسی ارشد زبانشناسی همگانی از دانشگاه تهران و دکترای زبانشناسی با گرایش کامپیوتر و فرهنگنگاری از دانشگاه اکستر انگلیس است. او در حال حاضر همچنین عضو هیات علمی فرهنگستان زبان و ادب فارسی، مدیر گروه زبانشناسی پژوهشگاه علوم انسانی و مطالعات فرهنگی و رییس انجمن زبانشناسی ایران است.
از وی مقالات و پژوهشهای فارسی و انگلیسی بسیاری در مجلات و سمینارهای داخلی و بینالمللی ارائه شده است. عاصی کتابهایی در حوزه کامپیوتر، زبانشناسی و فرهنگنگاری در کارنامه خود دارد که از آن جملهاند: «پیشنهاد شما چسیت؟»، «سیستم رایانهای و برنامههای واژهنامههای بسامدی»، «سیستم رایانهای و برنامه واژهنامههای چندزبانی و ریشهشناسی»،«استاندارد کد تبادل اطلاعات 8 بیتی فارسی»، «استاندارد صفحه کلید فارسی کامپیوتر»،«استاندارد نحوه ارائه کد زبانها» ( تالیف گروهی)، «واژگان گزیده زبانشناسی » و «فرهنگ زبانشناسی» با همکاری محمد عبدعلی، «مجموعه مقالات نخستین همایش انجمن زبانشناسی ایران » و فرهنگ یک جلدی، دوجلدی و چهارجلدی فارسی – انگیسی آریانپور (با همکاری دکتر آریانپور).
نسترن صادقی -
پایگاه دادگان زبان فارسی چیست؟
مجموعهای نرمافزاری برای ذخیره، پردازش و ارائه دادههای زبانی فارسی است. این پایگاه دربرگیرنده پیکرههای گوناگونی از زبان فارسی است که با وجود حجمی عظیم و با گستردگی و گوناگونیهای بسیار، دارای ساختاری بسامان و منطقی است و امکان هرگونه جستجو و دستیابی سریع به آگاهیهای مورد نیاز را در هر زمان فراهم آورده است. پیکرههای این پایگاه میتوانند همواره روزآیند شود و پاسخگوی نیاز همه پژوهندگان زبان فارسی در همه زمینههای نظری و کاربردی باشند.
هدف از ایجاد این پایگاه چه بوده؟
امروزه دیگر کسی درباره لزوم بنیاد نهادن بررسیهای زبانشناختی بر دادههای واقعی و مستند تردیدی ندارد. برای هر نوع پژوهش، به پیکره زبانی ویژهای که در بردارنده نمونههای مناسب و کافی باشد نیاز است و هر چه گستردهتر و متنوعتر باشد، معتبرتر وسودمندتر است. اما گستردگی و تنوع پیکره در شکلهای سنتی دارای محدودیتهای بسیاری است.
هنگامی که حجم پیکره از مرزی میگذرد، سازماندهی و بهرهگیری از آن مشکل و سپس ناممکن میشود. گوناگونی دادهها گرچه در بیشتر بررسیها اهمیت بسیار و نقش تعیینکنندهای دارد؛ اما باز هم مشکل را پیچیدهتر میکند.
از سوی دیگر بسیاری از فعالیتهای علمی درحوزه زبان، ادبیات و زبانشناسی به دادههای مشابهی نیاز دارند که هر یک برای خود به گوشهای از گستره زبان میپردازد. چه بسا پیکرهای مشابه یا دارای همپوشی بسیار که بدون آگاهی از وجود دیگری و با صرف وقت و هزینه زیاد به وجود آمده است و پس از بهرهبرداری به کناری نهاده شده است.
ایراد دیگری که اغلب بر این دادههای پراکنده وارد است، داشتن ناراستیهای فراوان به دلیل یکبار مصرف بودن آنها است؛ چرا که کمتر فرصتی برای آزمودن، ویراستن و پیراستن آنها فراهم میشود. بالاخره با توجه به ماهیت ایستای اینگونه پیکرهها حتی اگر بخواهیم از آنها در طرحهای دیگری بهره بگیریم، پس از گذشت مدتی کهنه و شاید بیاعتبار به شمار آیند.
هدف از ایجاد پایگاه دادههای زبان فارسی(دادگان زبان فارسی)، فراهم کردن مجموعهای از پیکرههای مطلوب، مناسب و دور از نارساییهای یاد شده است.
این طرح چگونه آغاز شد؟
از اوایل سال 1372 کار ایجاد پایگاه دادههایی برای زبان فارسی با طراحی و سرپرستی من در پژوهشگاه علوم انسانی آغاز شد و تا سال 1378 دو مرحله آن به اجرا درآمد و مرحله سوم که مهمترین فاز یعنی گسترش و افزایش حجم دادهها و دگرگونی اساسی در نرمافزار و ایجاد امکانات نوین شبکهای برای ارائه خدمات و اطلاعات آن در شبکه جهانی اینترنت بود، به دلیل نبود منابع مالی چند سالی از اجرا باز ماند؛ تا اینکه با کمک مالی وزارت ارتباطات و فناوری اطلاعات از سال 1381 اجرای فاز سوم این طرح آغاز گردید و دو سال بعد به پایان رسید.
ویژگیهای پایگاه دادگان زبان فارسی چیست؟
پایگاه دادگان زبان فارسی فراگیر و متنوع است. در واقع فراتر از یک یا چند پیکره خاص است و کاربران بر پایه نیاز و هدف پژوهشی خود میتوانند پیکره مناسب را از آن برگزینند. حتی پژوهندگان میتوانند پیکرههای اختصاصی خود را وارد پایگاه کنند و تحلیلها و فهرستگیریهای مورد نظر خود را انجام دهند.
پایگاه دادگان زبان فارسی تنها مجموعهای از مواد خام زبانی نیست بلکه دارای متنهای نشانهگذاری شده از جمله شناسنامه متن، برچسبهای دستوری، آوایی، ریشهای و معنایی است که همواره افزایش مییابد. این دادگان مجهز به نرمافزارهای اختصاصی جستجو، تقطیع و تحلیل متن است که میتواند انواع فهرستهای واژگانی، بسامدی و آماری را ارائه کند.
آیا هدف شما در نهایت استخراج واژهها از تمامی متون به زبان فارسی است؟ آیا واقعا این کار امکانپذیر است؟
زبان فارسی مفهومی بسیار وسیع دارد و میتواند دربرگیرنده همه گونههای گفتاری، نوشتاری، سبکی و کاربردی این زبان در همه دورانهای تحول آن باشد. برای نزدیک شدن به این دریای دادهها لازم است آن را به محدودههایی بخش کنیم و در مراحل منظم و به تدریج آنها را پوشش دهیم. در نخستین مرحله با توجه به نیازهای گوناگون پژوهشی و کاربردی، از طیف دورانهای تاریخیِ زبان فارسی، برش فارسی معاصر برگزیده شد.
همین برش هم که به طور قراردادی از آغاز قرن چهاردهم خورشیدی تا امروز را در بر میگیرد، خود دارای گونههای بسیاری است از جمله رسمی نوشتاری ،یا فارسی معیار و گونه گفتاری آن، گونههای ادبی، سبکی و حرفهای فارسی، گونههای محاورهای و عامیانه آن و گونههایی که متغیرهای زبانی و اجتماعی دیگری مانند سن، جنس، سواد و تحصیل، طبقه اجتماعی و محیطهای مختلف ارتباطی، عامل تمایز آنها به شمار میروند.
دادهها از چه منابعی استخراج شدند؟
از گونههای نوشتاری با استفاده از متنهای معتبر و با رعایت معیارهای مختلف نمونهگیری شده و البته هیچگونه محدودیت و امساکی در مورد آثار مهم ادبی و نویسندگان سرشناس و بویژه صاحب سبک و تاثیرگذار اعمال نمیشود.
فهرستهای مفصلی از همه منابع مهم نظم و نثر فارسی معاصر فراهم شد. این فهرستها به طور جداگانه برای آثار شعری، داستانی، غیرداستانی، نمایشنامه و فیلمنامه، ادبیات کودکان، نشریههای ادورای و مجلات علمی، تخصصی و ادبی فراهم گردید. شمار آثاری که دراین فهرستها قرار گرفتند، بیش از یک هزار و پانصد عنوان شد که پس از بررسی و کنار گذاشتن موارد مشابه، بیش از پانصد عنوان برای درونداد پایگاه دادهها برگزیده شد. میتوان ادعا کرد که نمونههای برگزیده، نمایندهای واقعی از زبان فارسی معاصر به شمار میرود.
حدود 450 اثر داستانی و غیر داستانی نثر، 250 اثر شعری از شاعران معاصر، بیش از 80 عنوان مجله و نشریه علمی ادبی و تخصصی، نزدیک به 300 عنوان نمایشنامه و فیلمنامه، و 200 عنوان ادبیات کودک ، چندین عنوان روزنامه و نشریه خبری، برخی از کتابهای درسی دانشگاهی و دبیرستانی، برخی از کتابهای دبستانی، نامههای اداری و بخشنامهها ، مجموعة کامل قوانین و مقررات، نشریهها و جزوههای پراکنده، پوسترها، دیوارنوشتهها و مانند اینها ازجمله این متون هستند.
مراحل آمادهسازی آن چیست؟ به چه صورت این واژهها گردآوری میشوند؟
درابتدا فهرستی با بیش از 500 اثر از میان آثار اشاره شده، برای تایپ برگزیده شد. تاکنون بیش از 300 متن و رویهم بیش از 24000 صفحه که به بیش از پنج میلیون واژه میرسد، تایپ شده است. متنهای دیگری شامل کتاب و مقالههای تخصصی با نزدیک به ده میلیون واژه گردآوری شده که بخشی از آنها وارد پایگاه شده و بقیه در دست تبدیل، ویرایش و درونداد است.
همچنین، بیش از 60 ساعت گفتار پیوسته مربوط به گفتگوهای هدایتشده، محاوره عادی و طبیعی افراد و برنامههای رادیویی و تلویزیونی بر روی نوار و یا به صورت فایلهای دیجیتالی ضبط شده و سپس این متنهای گفتاری از نوار بر روی کاغذ پیادهسازی شده و بالاخره در فایلهایی با بیش از دو میلیون واژه تایپ شده است. بخشهای مشخصی از متنهای نوشتاری و گفتاری (تاکنون بیش از 3 میلیون واژه) ویرایش شده و بخشهای برگزیدهای از متون ِویرایش شده، برچسبدهی دستوری، آوایی وریشهای شده و این فرایندی دائمی است و پیوسته ادامه دارد.
مجموع متنهای گردآوری شده نزدیک به صد میلیون واژه میشود که تاکنون 60 میلیون واژه آن به پایگاه وارد شده است.
مجموعه این دادهها به گونهای سازماندهی شده که هر واژه با پیوندهای گوناگون به متن اصلی و به همه مشخصات شناسنامهای متن ارتباط مییابد مانند نام نویسنده، نام اثر، ناشر و سال و مکان انتشار، شماره سطر و صفحه و همچنین دستهبندیهای گوناگون مربوط به نوع، سبک، موضوع و رشته اثر. پیوندهایی نیز میان واژه و ریشه آن، همایندهایش، مقوله دستوری و تلفظ آن وجود دارد که امکان هرگونه جستجوی بسامدی، آماری، درونمتنی یا بافتی واژه را فراهم میسازد.
نحوه استفاده از این پایگاه چگونه است؟
در مرورگر اینترنت از طریق وارد شدن به وبگاه پژوهشگاه و پیوند پایگاه دادههای زبان فارسی و یا مستقیما با وارد کردن نشانی http://pldb.ihcs.ac.ir. در حالت عادی کاربران اینترنتی به عنوان مهمان میتوانند نمونه کوچکی از امکانات را بر صفحه نمایشگر مشاهده کنند؛ اما کسانی که ثبتنام میکنند، به عنوان عضو، به امکانات بیشتری دسترسی پیدا خواهند کرد.
کاربران میتوانند بر پایه هر یک از اقلام اطلاعاتی یا ویژگیهای مربوط به آنها، جستجوهای تک موردی، گروهی یا کلی انجام دهند. از جمله جستجوی واژگانی(بر پایه یک یا چند کلید واژه )، جستجوی تلفظی ( بر پایه صورت تلفظی یک واژه )، جستجوی هم بافت( بر پایه واژههای همایند و یا بافتهای همسایه)، گشت وگذار در متنها و واژهها. این جستجوها را میتوان در محدودهای دلخواه (مثلا دوره زمانی یا نویسندهای مشخص یا حجم معینی از پیکره) انجام داد.
این پایگاه بیشتر مورد استفاده چه کسانی قرار میگیرد؟
همه پژوهشگرانی که درباره زبان فارسی تحقیق میکنند، چه در ایران و چه در کشورهای دیگر جهان ازاین پایگاه دادهها استفاده میکنند. تاکنون بیش از 50 کشور به پایگاه مراجعه کردهاند و بسیاری از پژوهندگان برای دریافت اطلاعات درخواست عضویت کردهاند. زبانآموزان و معلمان زبان فارسی، مترجمان، دانشجویان و استادان زبانشناسی، فرهنگنگاران و دستورنویسان ازجمله کاربران اصلی این دادگان هستند. امروزه، نویسندگان و منتقدان ادبی نیز در آفرینش و نقد آثار ادبی به فهرستهای بسامدی، آماری و واژگانی زبان همچون ابزاری کارآ و دقیق مینگرند.
برگرفته از: خبرگزاری ایبنا
دیدگاه های شما پس از بررسی راهبران تارنما، در این بخش نمایش داده خواهند شد.