جمعه, ۳۱ فروردین, ۱۴۰۳ / 19 April, 2024
مجله ویستا

طرح ایجاد پایگاه داده های زبان فارسی با کمک کامپیوتر


این طرح ، طرحی بنیادی و گسترده برای زبان فارسی است كه با توجه به هدف ، سودمندیها و كاربران گوناگون آن ، می تواند به عنوان طرح مادر یا پشتیبان برای بسیاری از طرحهای زبانی ، ادبی و زبانشناختی زبان فارسی به كار گرفته شود . اكنون چند ماه است كه اجرای فازاول این طرح در پژوهشگاه علوم انسانی و مطالعات فرهنكی آغاز شده است .
۱ – هدف طرح
هدف این طرح گردآوری و سازماندهی یك پیكره زبانی پایه برای زبان فارسی (شامل متنهای مهم و واژگان عمده آن ) در درون یك سیستم اطلاعات كامپیوتری و ایجاد نخستین بانك داده های زبان فارسی برای بهره گیری همه كاربران و پژوهندگان است .
۲ - پیشینه بانكهای داده های زبانی
گرچه درگذشته سازمانها ، مراكز پژوهشی ، كتابخانه ها و مانند اینها به گردآوری اطلاعات تخصصی در زمینه های گوناگون و ارائه آنها با سرعت و تنوع زیاد علاقه مند بوده اند ؛ اماتنها پس از پیدایش كامپیوتر ، اندیشه ایجاد پایگاههای داده ها و بانكهای اطلاعاتی به خود جامه عمل پوشید . بویژه در زمینه پژوهشهای زبانی و فرهنگ نگاری ، روشهای كامپیوتری (یعنی پردازش خودكار زبان طبیعی Automated Natural Language Processing بسیار موفق بوده است . در سه دهه گذشته ، بیشتر كشورهای صنعتی به ایجاد بانكهای زبانی خود پرداختنه اند . این كشورها ، ابتدا با گردآوری داده ها یا پیكره های زبانی (Corpus Linguistics ) ) و سپس با سازماندهی آنها در پایگاههای داده ها (Databases) و بانكهای اطلاعات زبانی (Linguistic Data Banks )، از شبكه های جهانی داده های زبانی (International Networks of Linguistic Data ) بهره برداری می كنند . در پیوست الف ، نمونه هایی از هریك آورده شده و برای آگاهی از جزئیات بیشتر ، از منابع مربوط نیز یاد گردیده زبان فارسی را همواره از نظر منابع ادبی و واژگان ، یكی از زبان ها ی غنی و با سابقه به شمار آورده اند ؛ اما تا كنون بررسی همه جانبه و دقیقی با تكیه بر آمار و داده های كافی ، درباره این زبان انجام نیافته است . همچنین بسیاری از پژوهشهای زبانشناختی و تصمیم گیریها در برنامه ریزی زبانی ، تنها با دسترسی به یك پیكره زبانی كافی و است .
۳-دلایل پیشنهاد طرحمستند ، ارزش و اعتبار خواهند داشت از سوی دیگر، با گسترش كار برد كامپیوتر و پیدایش امكانات تازه نرم افزاری و سخت افزاری ، و وجود نمونه های بسیاری از این گونه بانك های داده ای زبانی در جهان و اثبات سود مندی و كارایی آنها ، زمان برای آغاز كوششهایی برای زبان فارسی ، از هر جهت مناسب می نماید .
دستیابی سریع به مجمو عه عظیمی از پیكره زبان فارسی و نیز امكان هرگونه جستجوی جهتدار، موضوعی و یا ساختاری در میان داده ها ، آرزوی هر پژوهنده زبان است . یك گنجینه بسامان از متنهای مهم و واژگان فارسی ، منبعی قابل اعتماد و آماری دقیق در دسترس افراد یا سازمانهای علاقه مند قرار می دهد . برخی از كاربردها ی بانك داده های زبانی در زمینه های زیر است :
- فعالیتهای گوناگون فرهنگ نگاری
- واژه گزینی علمی
- بررسیهای دستوری و تدوین دستور زبان امروز
- بررسی تحولات تاریخی زبان فارسی و پیگیری سیر تحول واژگان آن
- مطالعات سبك شناسی در دوره های گوناگون ، یا درباره نویسندگان و شاعران مشخص
- بررسیهای آوایی و گویش شناسی
- تالیف تدوین فرهنگ تاریخی زبان فارسی
- اجرای طرح ترجمه ماشینی برای زبان فارسی
۵- كاربران
به طور كلی همه سازمانها و افرادی كه به گونه ای با زبان فارسی و مسائل گوناگون آن سرو كار دارند، می توانند كاربران بالقوه این پایگاه باشند .
۵-۱- سازمانها
- سازمانهایی كه به پژوهشهای زبانی و زبان شناختی می پردازند ، مانند پژوهشگاه علوم انسانی و مطالعات فرهنگی ؛
- سازمانهای برنامه ریزی زبانی ، مانند فرهنگستان زبان ؛
- سازمانهایی كه با آموزش زبان سروكار دارند ، مانند دانشگاه ها و وزارت آموزش و پرورش ؛
- سازمانهای چاپ و نشر ؛
- كتابخانه ها و مراكز اسناد ؛
- رسانه های همگانی ، و بسیاری از سازمانهای دیگر ؛
۴-۲- اشخاص
- نویسندگان ، شاعران و روز نامه نگاران ؛
- مترجمان و ویراستاران ؛
- منتقدان ادبی ؛
- زبانشناسان ؛
- فرهنگ نگاران ؛
- چكیده نویسان ؛
- دستور نویسان ؛
- اصطلاحشناسان ؛
- برنامه سازان كامپیوتر ؛
- معلمان زبان و پژوهندگانی كه از داده های زبانی به عنوان ماده اولیه كار خود بهره می گیرند .
۶- مراحل اجرای طرح
این طرح به طور كلی ، در سه دوره – یا فاز – متفاوت انجام می پذیرد :
- دوره ۱. گردآوری داده ها و فراهم آوردن واژه ها مه های بسامدی ؛
- دوره ۲. سارماندهی و ایجاد پایگاه داده ها
- دوره۳. بهره برداری ، نگهداری ، افزایش داده ها و روز آینده سازی پایگاه .
ترتیب زمانی ، زمانبندی تخمینی و ارتباط دوره ها به صورت زیر خواهند بود :
۷ – ویژگیهای پایگاه داده ها
در این طرح ، زبان فارسی و ساختار داده ها ، دارای مشخصات ویژه ای خواهند بود كه در زیر تنها به چارچوب
آنها اشاره می شود :
۷ – ۱ – زبان فارسی
۷ – ۱ – ۱ – گستره و محدوده :به طور كلی این اصطلاح می تواند همه گونه های گفتاری ، نوشتاری ، سبكی و كاربردی زبان را در همه دورانهای تحول آن دربرگیرد ؛ اما لازم است كه محدوده آن به گونه ای مشخص گردد . از این رو ، نخست دو برش جداگانه تاریخی از آن در نظر می گیریم : اول زبان فارسی امروز یا فارسی معاصر ، و دیگری دورانهای گذشته زبان فارسی .از سوی دیگر برش گذشته فارسی ، خود به خود به گونه نوشتاری محدود خواهد شد ، در صورتی كه برش امروزین ، گونه های گفتاری رانیز می توان دربرگیرد .هدف نخست این طرح ، زبان فارسی امروز خواهد بود و در مراحل بعد به دورانهای گذشته پرداخته خواهد شد .
۷ – ۱ – ۲ – بخشهای سازنده پیكره زبانی
برای فراهم آوردن پیكره زبانی فارسی امروز ، بابسته است مجموعه گوناگون و شاخصی از همه نمونه های مهم آن – تا حد امكان – را گردآورد . و برای این منظور ، یك بررسی دقیق آماری و مشاوره با كارشناسان گوناگون ضروری است؛ اما می توان پیش بینی كرد كه نمونه هایی از هریك از منابع و گونه های زیر مورد نیاز باشد :
- نمونه های شاخص نظم و نثر (مهمترین آثار ادبی )؛
- نمونه های مهم متنهای علمی و آموزشی (رشته های گوناگون )؛
- نمونه های مهم از نشریات (مقاله های گوناگون در زمینه های ادبی ، فرهنگی، اجتماعی ، سیاسی ، هنری ، علمی ، ورزشی و مانند اینها )؛
- نمونه های مهم از گونه های گفتاری رسمی و غیر رسمی ( گفتارهای رادیویی و تلویزیونی ، مصاحبه ها ، گفتگوهای خودمانی ، مكالمه های تلفنی و مانند اینها كه ضبط و بازنویسی شده باشند ) ؛
- فهرست های واژگانی برگرفته از فرهنگها و واژه نامه های عمومی و تخصصی و بسیاری منابع دیگر .
۷ – ۲ – ساختار پایگاه :
منظور از ایجاد یك پایگاه داده ها ، سازماندهی داده ها به گونه ای است كه بتوان میان بخشهای آن ارتباط برقرار كرد و از راه جستجو به هر گونه آگاهی مورد نظر دست یافت .
۷ – ۲ – ۱ – پایگاه داده های پیوستار(Relational DATABASE):
بررسی بیشتر پایگاههای ایجاد شده برای زبانهای گوناگون ، نشان می دهد كه از میان سه گونه مهم و شناخته شده " سلسبه مراتبی "، " شبكه ای " و "پیوستار " ، نوع پیوستار بیشترین موفقیت را داشته است . دلیل این امر ، می تواند سادگی نسبی و كارآیی بالای آن باشد . نرم افزارهای آماده ای برای این منظور وجود دارد كه با بررسی ، مشاوره و آزمون می تواند مناسبترین نمونه را برگزید .
۷ – ۲ – ۲ – شكل داده ها :
داده های زبانی ، در این پایگاه به صورتهای گوناگون گردآوری می شود – چه به شكل متن پیوسته و چه به صورت فهرستهای واژگانی دارای تعریف و یا بدون تعریف و حتی مجموعه یادداشتهای پژوهشی .
۷ – ۲ – ۳ – پیوندهای میان داده ها:
بخشهای متون و اقلام به گونه ای با یكدیگر ارتباط می یابند كه امكان جستجو و دستیابی به بیشترین آگاهیها ، در زمانی كوتاه فراهم گردد . مثلأ با معرفی یك واژه ، بخشی از یك واژه ، یك نشانه اختصاری ، پاره ای از یك متن ، نام نویسنده ، گونه ای از زبان ، نام یك اثر ، مفهوم كلی یك واژه ، و یا نشانه های كلیدی دیگر ، بتوان به تعاریف ، مترادفها ، متضادها ، همخانواده ها ، تركیبات ، نمونه كاربردی ، تاریخ كاربرد ، نویسنده یا كاربرنده و بسیاری دیگر از اطلاعات مربوط به آن دست یافت و یا آمارهایی از دسته های معینی واژه یا اصطلاح در یك یا چند متن دلخواه به دست آورد .
۸ – مختصری پیرامون ویژگیهای هر دوره
۸ – ۱ – دوره اول:
این دوره ، می تواند طرحی مستقل برای تدوین تعداد دلخواهی واژه نامه بسامدی برای متنهای برگزیده
ربان فارسی به شمار آید. این دوره شامل یك مرحله مقدماتی بررسی و آماده سازی امكانات ، نیروی انسانی و متنها ، و مرحله گردآوری و درونداد واژه ها ، اصطلاحات ، و متون شاخص و نمونه های گوناگون زبان فارسی ، و تدوین كامپیوتری واژه نامه های بسامدی ، واژه نما (معجم المفهرس ) و فهرست های آماری گوناگون است .
از ویژگیهای این دوره ، نتایج مجزا و مستقلی است كه به صورت واژه نامه ها و آمار واژگانی برای انتشار ارائه میگردد . همچنین انعطاف پذیری آن است كه به موازات افزایش نیروی انسانی و تجهیزات كامپیوتری ، می توان سرعت و حجم كار را افزایش داد و باامكانات كمتر ، روند پیشرفت كندتر ؛ ولی بدون اشكال ادامه خواهد یافت .
۸ – ۲ – دوره دوم :
این دوره ، می تواند همزمان با دوره ۱ آغاز شده ، به موازات آن پیشرفت كند . دراین دوره ، پس از نصب و راه اندازی سیستم پایگاه داده ها ، كار درونداد همه داده ها آماده شده ، و سازماندهی آنها در درون پایگاه آغاز می شود . همچنین آزمایش برنامه ها و كارآیی سیستم . آغاز بهره برداری از پایگاه ، در این مرحله انجام خواهد شد .
نیازهای نرم افزاری و سخت افزاری ، با بررسی بسته برنامه های كاربردی بسیاری كه برای این منظورها تهیه شده – و در بازار موجود است – و با توجه به حجم داده ها ، تعداد كاربران و چگونگی ارائه خدمات تعیین می گردد.
۸ – ۳ – دوره سوم :
این دوره ، پس از مرحله نصب و راه اندازی سیستم آغاز خواهد شد و مدت آن نامحدود خواهد بود ؛ چرا كه شامل عملیات نگهداری ، بهره برداری ، روزآیند كردن ، بهبود و افزایش امكانات و داده های بانك می شود . در این دوره ، كار تهیه واژه نامه های بسامدی (دوره ۱ )دنبال خواهد شد و نیز بانك داده های زبانی همواره فعال خواهد بود .۹ – سازمان
سازمان و تشكیلات این پایگاه ، به موازات پیشرفت آن و با آغاز هر مرحله تازه آن ، گسترش خواهد یافت و از نظر نیروی انسانی ، به همكاری گروهی از كارشناسان با تخصصهای زبان و زبانشناسی ، كامپیوتر ، و ادبیات در كنار كاركنان بخش اداری نیاز خواهد بود .
۱۰ – زمان بندی
زمان اجرای مراحل اول و دوم ، به طور تخمینی تعیین شده است كه با پیشرفت تدریجی طرح ، می توان آن را دقت بخشید .
پیوست الف :
چند نمونه موجود و فعال پایگاه داده های زبانی
در این پیوست ، ابتدا به چند پیكره زبانی بزرگ كه خود اساس ایجاد پایگاهها و بانكهای داده های زبانی قرار گرفته اند اشاره می شود.
برخی از پیكره های زبانی كه تنها برای زبان انگلیسی ایجاد شده است ، عبارت اند از :
۱ – پیكره دانشگاه بر اون ( Brown University Corpus of American English) كه در سال ۱۹۶۱ با بیش از ۵ میلیون واژه نمونه از كتابها و مجلات منتشر شد در همان سال ایجاد شد .
۲-پیكره زبانی دانشگاه بیر منگام ( Birmingham University Corput) كه از یك مجموعه متن زبان انگلیسی عمومی (با نزدیك به ۲۰ میایون واژه )به مجموعه گوناگونی از متنهای تخصصی (با نزدیك به ۲۰ میلیون واژه) مربوط به سالهای ۱۹۶۰ تا ۱۹۸۱ تشكیل شده است .
۳ -پیكره زبانی مركز پژوهشهای ارتباطی بل (Bellcore Corpora) مجموعه ای از متنهای زبان انگلیسی امروز (شامل ۷۰ میلیون واژه از مركز نیویورك تایمز از سال ۱۹۸۳ به بعد و متنهای گوناگون دیگر )
۴- پیكره مشترك لانگمن – لانكاستر برای زبان انگلیسی (Longman – Lancaster English Language Corpus) با ۳۰ تا ۵۰ میلیون واژه از زبان انگلیسی گفتاری و نوشتاری .
۵ -پیكره جهانی زبان انگلیسی (International Corpus of English , ICE ) طرحی برای گردأوری یك میلیون واژه از گونه های انگلیسی ، در سراسز جهان كه در اوایل دهه ۱۹۹۰ آماده خواهد شد .
و بسیاری دیگر كه برای آگاهی بیشتر درباره آنها ، می توان به منبع شماره ۳ مراجعه كرد . در این كتاب ، بیش از ۳۹ پیكره زبانی برای زبان انگلیسی و تعداد زیادی برای دورانهای گوناگون و آثار كلاسیك آن معرفی شده است .همچنین مشخصات چندین پیكره بزرگ كه برای زبان فرانسه فراهم شده ارائه گردیده ، از جمله : پیكره ARTEL كه با همكاری مركز ملی پژوشهای علمی فرانسه (CNRS) و دانشگاه شیكاگو از حدود ۲۰۰۰ متن برگزیده و ۱۵۰ میلیون واژه تشكیل شده است . یا پیكره FRANTEXT كه با ۱۷۰ میلیو ن واژه برای فراهم أوردن مواد پایگاه داده های بزرگزبان فرانسه (Trexor de le Langue Francaisa ) ایجاد شد .در همین منبع ، پیكره های زبانی ایجاد شده برای بسیاری از زبانهای جهان ، از جمله : آلمانی ، ایتالیلیی ، اسپانیایی ، بیشتر زبانهای اسلاوی ، سوئدی ، نروژی ،هلندی ، عربی ، عبری ، ارمنی ، لاتینی ، یونانی ، ژاپنی ،و مانند اینها معرفی شده است .در پی فراهم آوردن اینگونه مواد زبانی ، بسیاری از كشورها به ایجاد بانكهای داده های زبانی در سطح ملی پرداختند ، از جمله : كشور های فرانسه ، كانادا ، آلمان ، ایتالیا ، اسپانیا ، روسیه ، ایالات متحده ، هلند ، سوئد ، دانمارك ، انگلستان .
فراتر از این ،اكنون چندین بانك داده های زبانی و واژگانی ، در سطح جهانی به وسیله سازمانهای بین المللی ایجاد گردیده و مورد بهره برداری است . مثلا جامعه اروپا ، بانك داده های خود را از طریق سازمان جهانی استاندارد (EURONET ) از راه ISONET و مركز اطلاعات اصلاحشناسی جهانی ( Infoterm) از راه TERMNET ارائه می كنند (نگاه كنید به منابع شماره ۴و ۵ ).
پیوست ب :
برخی از منابع و مراجع
۱)Assi , S.M.(۱۹۸۹) Problems of Special – Purpose English – Persian Lexicography With Particular Reference to Computer Techniques . Ph. D. Thesis . Exeter : University of Exeter.
۲) Grill m Ernst (۱۹۹۰) Relational Databases m (translated by Roger Jevons ) , New York : Ellis Horwood.
۳) Lancashire , Jan(ed.) , (۱۹۹۱) The Humanities Computing Yearbook : ۱۹۸۹-۹۰ . Oxford : Clarendon Press.
۴) Sager , J.C. and J.McNaught (۱۹۸۱) Feasibility Study of the Establishment of a Terminological Data Bank in the U.K , Manchester: UMIST.
۵) Ssger , J.C. and J.McNaught (۱۹۸۰) Selective Survey of Existing Linguistic Data Banks in Europe, Manchester: UMIST.
۶) Sager , J.C. and J.McNaught (۱۹۸۰) Specifications of a Linguistic Data Bank for the U.K, Manchester: UMIST.
۷) Sinclair , J.M. (ed.) , (۱۹۸۷) Looking Up , London: Collins ELT.۸) همچنین ، می توان به دوره های نشریات زبانشناسی كامپیوتری ، مانند مجله انجمن رایانش زبانی و ادبی Computing) مراجعه كرد .

نوشته: مصطفی عاصی
منبع : مركز اطلاعات و مدارك علمی ایران


همچنین مشاهده کنید