persianlanguage.ir

خانه » گفتگو » دکتر عاصی از «پایگاه دادگان زبان فارسی» می‌گوید

دکتر عاصی از «پایگاه دادگان زبان فارسی» می‌گوید دکتر عاصی از «پایگاه دادگان زبان فارسی» می‌گوید

۰۴ آبان ۱۳۸۸

دکتر عاصی از «پایگاه دادگان زبان فارسی» ...

سید مصطفی عاصی، ‌مدیر و مجری پایگاه دادگان زبان فارسی، لیسانس زبان و ادبیات انگلیسی و ‌کارشناسی ارشد زبانشناسی همگانی از دانشگاه تهران و دکترای زبانشناسی با گرایش کامپیوتر و فرهنگ‌نگاری از دانشگاه اکستر انگلیس است. او در حال حاضر همچنین عضو هیات علمی فرهنگستان زبان و ادب فارسی، مدیر گروه زبانشناسی پژوهشگاه علوم انسانی و مطالعات فرهنگی و رییس انجمن زبانشناسی ایران است.
از وی مقالات و پژوهش‌های فارسی و انگلیسی بسیاری در مجلات و سمینارهای داخلی و بین‌المللی ارائه شده است. عاصی کتابهایی در حوزه کامپیوتر، زبانشناسی و فرهنگ‌نگاری در کارنامه خود دارد که از آن جمله‌اند: «پیشنهاد شما چسیت؟»، «سیستم رایانه‌ای و برنامه‌های واژه‌نامه‌های بسامدی»،‌ «سیستم رایانه‌ای و برنامه واژه‌نامه‌های چندزبانی و ریشه‌شناسی»،«‌استاندارد کد تبادل اطلاعات 8 بیتی فارسی»، «‌استاندارد صفحه کلید فارسی کامپیوتر»،‌«استاندارد نحوه ارائه کد زبان‌ها» ( تالیف گروهی)،‌ «واژگان گزیده زبانشناسی » و «فرهنگ زبانشناسی» با همکاری محمد عبدعلی،‌ «مجموعه مقالات نخستین همایش انجمن زبانشناسی ایران » و فرهنگ یک جلدی، دو‌جلدی و چهارجلدی فارسی – انگیسی آریانپور (با همکاری دکتر آریانپور).

نسترن صادقی - ­پایگاه دادگان زبان فارسی چیست؟
مجموعه‌ای نرم‌افزاری برای ذخیره، پردازش و ارائه داده‌های زبانی فارسی است. این پایگاه دربرگیرنده پیکره‌های گوناگونی از زبان فارسی است که با وجود حجمی عظیم و با گستردگی و گوناگونی‌های بسیار، دارای ساختاری بسامان و منطقی است و امکان هرگونه جستجو و دستیابی سریع به آگاهی‌های مورد نیاز را در هر زمان فراهم آورده است. پیکره‌های این پایگاه می‌توانند همواره روزآیند شود و پاسخگوی نیاز همه پژوهندگان زبان فارسی در همه زمینه‌های نظری و کاربردی باشند.

هدف از ایجاد این پایگاه چه بوده؟
امروزه دیگر کسی درباره لزوم بنیاد نهادن بررسی‌های زبانشناختی بر داده‌های واقعی و مستند تردیدی ندارد. برای هر نوع پژوهش، به پیکره زبانی ویژه‌ای که در بردارنده نمونه‌های مناسب و کافی باشد نیاز است و هر چه گسترده‌تر و متنوع‌تر باشد، معتبرتر وسودمندتر است. اما گستردگی و تنوع پیکره در شکل‌های سنتی دارای محدودیت‌های بسیاری است.

هنگامی که حجم پیکره از مرزی می‌گذرد، سازماندهی و بهره‌گیری از آن مشکل و سپس ناممکن می‌شود. گوناگونی داده‌ها گرچه در بیشتر بررسی‌ها اهمیت بسیار و نقش تعیین‌کننده‌ای دارد؛ اما باز هم مشکل را پیچیده‌تر می‌کند.

از سوی دیگر بسیاری از فعالیت‌های علمی درحوزه زبان، ادبیات و زبانشناسی به داده‌های مشابهی نیاز دارند که هر یک برای خود به گوشه‌ای از گستره زبان می‌پردازد. چه بسا پیکره‌ای مشابه یا دارای همپوشی بسیار که بدون آگاهی از وجود دیگری و با صرف وقت و هزینه زیاد به وجود آمده است و پس از بهره‌برداری به کناری نهاده شده است.

ایراد دیگری که اغلب بر این داده‌های پراکنده وارد است، داشتن ناراستی‌های فراوان به دلیل یکبار مصرف بودن آنها است؛ چرا که کمتر فرصتی برای آزمودن، ویراستن و پیراستن آنها فراهم می‌شود. بالاخره با توجه به ماهیت ایستای اینگونه پیکره‌ها حتی اگر بخواهیم از آنها در طرح‌های دیگری بهره بگیریم، پس از گذشت مدتی کهنه و شاید بی‌اعتبار به شمار آیند.

هدف از ایجاد پایگاه داده‌های زبان فارسی(دادگان زبان فارسی)، فراهم کردن مجموعه‌ای از پیکره‌های مطلوب، مناسب و دور از نارسایی‌های یاد شده است.

این طرح چگونه آغاز شد؟
از اوایل سال 1372 کار ایجاد پایگاه داده‌هایی برای زبان فارسی با طراحی و سرپرستی من در پژوهشگاه علوم انسانی آغاز شد و تا سال 1378 دو مرحله آن به اجرا درآمد و مرحله سوم که مهمترین فاز یعنی گسترش و افزایش حجم داده‌ها و دگرگونی اساسی در نرم‌افزار و ایجاد امکانات نوین شبکه‌ای برای ارائه خدمات و اطلاعات آن در شبکه جهانی اینترنت بود، به دلیل نبود منابع مالی چند سالی از اجرا باز ماند؛ تا اینکه با کمک مالی وزارت ارتباطات و فناوری اطلاعات از سال 1381 اجرای فاز سوم این طرح آغاز گردید و دو سال بعد به پایان رسید.

ویژگی‌های پایگاه دادگان زبان فارسی چیست؟
پایگاه دادگان زبان فارسی فراگیر و متنوع است. در واقع فراتر از یک یا چند پیکره خاص است و کاربران بر پایه نیاز و هدف پژوهشی خود می‌توانند پیکره مناسب را از آن برگزینند. حتی پژوهندگان می‌توانند پیکره‌های اختصاصی خود را وارد پایگاه کنند و تحلیل‌ها و فهرست‌گیری‌های مورد نظر خود را انجام دهند.

پایگاه دادگان زبان فارسی تنها مجموعه‌ای از مواد خام زبانی نیست بلکه دارای متن‌های نشانه‌گذاری شده از جمله شناسنامه متن،‌ برچسب‌های دستوری، ‌آوایی، ‌ریشه‌ای و معنایی است که همواره افزایش می‌یابد. این دادگان مجهز به نرم‌افزارهای اختصاصی جستجو، تقطیع و تحلیل متن است که می‌تواند انواع فهرست‌های واژگانی، ‌بسامدی و آماری را ارائه کند.

آیا هدف شما در نهایت استخراج واژه‌ها از تمامی متون به زبان فارسی است؟ آیا واقعا این کار امکان‌پذیر است؟
زبان فارسی مفهومی بسیار وسیع دارد و می‌تواند دربرگیرنده همه گونه‌های گفتاری، ‌نوشتاری، سبکی و کاربردی این زبان در همه دوران‌های تحول آن باشد. برای نزدیک شدن به این دریای داده‌ها لازم است آن را به محدوده‌هایی بخش کنیم و در مراحل منظم و به تدریج آنها را پوشش دهیم. در نخستین مرحله با توجه به نیازهای گوناگون پژوهشی و کاربردی، ‌از طیف دوران‌های تاریخیِ زبان فارسی، ‌برش فارسی معاصر برگزیده شد.

همین برش هم که به طور قراردادی از آغاز قرن چهاردهم خورشیدی تا امروز را در بر می‌گیرد، خود دارای گونه‌های بسیاری است از جمله رسمی نوشتاری ،‌یا ‌فارسی معیار و گونه گفتاری آن، ‌گونه‌های ادبی، ‌سبکی و حرفه‌ای فارسی، ‌گونه‌های محاوره‌ای و عامیانه آن و گونه‌هایی که متغیرهای زبانی و اجتماعی دیگری مانند سن، جنس، سواد و تحصیل، ‌طبقه اجتماعی و محیط‌های مختلف ارتباطی، عامل تمایز آنها به شمار می‌روند.

داده‌ها از چه منابعی استخراج شدند؟
از گونه‌های نوشتاری با استفاده از متن‌های معتبر و با رعایت معیارهای مختلف نمونه‌گیری شده و البته هیچگونه محدودیت و امساکی در مورد آثار مهم ادبی و نویسندگان سرشناس و بویژه صاحب سبک و تاثیر‌گذار اعمال نمی‌شود.

فهرست‌های مفصلی از همه منابع مهم نظم و نثر فارسی معاصر فراهم شد. این فهرست‌ها به طور جداگانه برای آثار شعری، داستانی، ‌غیرداستانی، نمایشنامه و فیلمنامه، ادبیات کودکان، ‌نشریه‌های ادورای و مجلات علمی، ‌تخصصی و ادبی فراهم گردید. شمار آثاری که دراین فهرست‌ها قرار گرفتند، بیش از یک هزار و پانصد عنوان شد که پس از بررسی و کنار گذاشتن موارد مشابه، ‌بیش از پانصد عنوان برای درونداد پایگاه داده‌ها برگزیده شد. می‌توان ادعا کرد که نمونه‌های برگزیده، نماینده‌ای واقعی از زبان فارسی معاصر به شمار می‌رود.

حدود 450 اثر داستانی و غیر داستانی نثر، ‌250 اثر شعری از شاعران معاصر، بیش از ‌80 عنوان مجله و نشریه علمی ادبی و تخصصی،‌ نزدیک به 300 عنوان نمایشنامه و فیلمنامه،‌ و 200 عنوان ادبیات کودک ، چندین عنوان روزنامه و نشریه خبری، برخی از کتاب‌های درسی دانشگاهی و دبیرستانی، ‌برخی از کتاب‌های دبستانی، نامه‌های اداری و بخشنامه‌ها ، مجموعة کامل قوانین و مقررات، نشریه‌ها و جزوه‌های پراکنده، ‌پوسترها، دیوارنوشته‌ها و مانند اینها ازجمله این متون هستند.

مراحل آماده‌سازی آن چیست؟ به چه صورت این واژه‌ها گردآوری می‌شوند؟
درابتدا فهرستی با بیش از 500 اثر از میان آثار اشاره شده،‌ برای تایپ برگزیده شد. تاکنون بیش از 300 متن و رویهم بیش از 24000 صفحه که به بیش از پنج میلیون واژه می‌رسد، تایپ شده است. متن‌های دیگری شامل کتاب و مقاله‌ه‌ای تخصصی با نزدیک به ده میلیون واژه گردآوری شده که بخشی از آنها وارد پایگاه شده و بقیه در دست تبدیل،‌ ویرایش و درونداد است.

همچنین، بیش از 60 ساعت گفتار پیوسته مربوط به گفتگوهای هدایت‌شده، محاوره عادی و طبیعی افراد و ‌برنامه‌های رادیویی و تلویزیونی بر روی نوار و یا به صورت فایل‌های دیجیتالی ضبط شده و سپس این متن‌های گفتاری از نوار بر روی کاغذ پیاده‌سازی شده و بالاخره در فایل‌هایی با بیش از دو میلیون واژه تایپ شده است. بخش‌های مشخصی از متن‌های نوشتاری و گفتاری (تاکنون بیش از 3 میلیون واژه) ویرایش شده و بخش‌های برگزیده‌ای از متون ِویرایش شده، برچسب‌دهی دستوری، آوایی وریشه‌ای شده و این فرایندی دائمی است و پیوسته ادامه دارد.

مجموع متن‌های گردآوری شده نزدیک به صد میلیون واژه می‌شود که تاکنون 60 میلیون واژه آن به پایگاه وارد شده است.

مجموعه این داده‌ها به گونه‌ای سازماندهی شده که هر واژه با پیوندهای گوناگون به متن اصلی و به همه مشخصات شناسنامه‌ای متن ارتباط می‌یابد مانند نام نویسنده، نام اثر، ‌ناشر و سال و مکان انتشار، ‌شماره سطر و صفحه و همچنین دسته‌بندی‌های گوناگون مربوط به نوع، ‌سبک، موضوع و رشته اثر. پیوندهایی نیز میان واژه و ریشه آن، همایند‌هایش، مقوله دستوری و تلفظ آن وجود دارد که امکان هرگونه جستجوی بسامدی، آماری، درون‌متنی یا بافتی واژه را فراهم می‌سازد.

نحوه استفاده از این پایگاه چگونه است؟
در مرورگر اینترنت از طریق وارد شدن به وبگاه پژوهشگاه و پیوند پایگاه داده‌های زبان فارسی و یا مستقیما با وارد کردن نشانی http://pldb.ihcs.ac.ir. در حالت عادی کاربران اینترنتی به عنوان مهمان می‌توانند نمونه کوچکی از امکانات را بر صفحه نمایشگر مشاهده کنند؛ اما کسانی که ثبت‌نام می‌کنند، به‌ عنوان عضو، به امکانات بیشتری دسترسی پیدا خواهند کرد.

کاربران می‌توانند بر پایه هر یک از اقلام اطلاعاتی یا ویژگی‌های مربوط به آنها، جستجوهای تک موردی، ‌گروهی یا کلی انجام دهند. از جمله جستجوی واژگانی(بر پایه یک یا چند کلید واژه )،‌ ‌جستجوی تلفظی ( بر پایه صورت تلفظی یک واژه )، ‌جستجوی هم بافت( بر پایه واژه‌های همایند و یا بافت‌های همسایه)، ‌گشت وگذار در متن‌ها و واژه‌ها. این جستجوها را می‌توان در محدوده‌ای دلخواه (مثلا دوره زمانی یا نویسنده‌ای مشخص یا حجم معینی از پیکره) انجام داد.

این پایگاه بیشتر مورد استفاده چه کسانی قرار می‌گیرد؟
همه پژوهشگرانی که درباره زبان فارسی تحقیق می‌کنند، چه در ایران و چه در کشورهای دیگر جهان ازاین پایگاه داده‌ها استفاده می‌کنند. تاکنون بیش از 50 کشور به پایگاه مراجعه کرده‌اند و بسیاری از پژوهندگان برای دریافت اطلاعات درخواست عضویت کرده‌اند. زبان‌آموزان و معلمان زبان فارسی، مترجمان، دانشجویان و استادان زبانشناسی، فرهنگ‌نگاران و دستورنویسان ازجمله کاربران اصلی این دادگان هستند. امروزه، نویسندگان و منتقدان ادبی نیز در آفرینش و نقد آثار ادبی به فهرست‌های بسامدی، آماری و واژگانی زبان همچون ابزاری کارآ و دقیق می‌نگرند.



برگرفته از: خبرگزاری ایبنا
­

نظر دهید


آگهی کار



هنر و رایانه