Lingwistyczna eksploracja internetu
Informacje ogólne
Kod przedmiotu: | 09-LEI-11 |
Kod Erasmus / ISCED: |
15.9
|
Nazwa przedmiotu: | Lingwistyczna eksploracja internetu |
Jednostka: | Instytut Językoznawstwa |
Grupy: |
Moodle - przedmioty Szkoły Nauk o Języku i Literaturze |
Punkty ECTS i inne: |
0 LUB
2.00
(w zależności od programu)
|
Język prowadzenia: | język polski |
Rodzaj przedmiotu: | obowiązkowe |
Kierunek studiów: | Językoznawstwo komputerowe |
Poziom przedmiotu: | I stopień |
Cele kształcenia: | Przedmiotem zajęć jest zapoznanie studenta z podstawową problematyką językoznawstwa korpusowego w obrębie językoznawstwa stosowanego. Szczególny nacisk położony będzie na kwestie budowy bazy empirycznej, prowadzącej do realizacji danych badań. Zajęcia mają pozwolić studentowi na gromadzenie zasobów tekstowych pod pewnym względami (kryteria żądania, kryteria wykonalności zadania w danym czasie, kryteria kosztu itp.). |
Rok studiów (jeśli obowiązuje): | I rok |
Skrócony opis: |
Kurs obejmuje podstawowe informacje z dziedziny językoznawstwa komputerowego, ze szczególnym uwzględnieniem wykorzystania metod lingwistycznej eksploracji internetu. |
Pełny opis: |
Treści kształcenia: Prezentacja tzw. wiodących czasopism z zakresu językoznawstwa komputerowego; problem komponentu matematycznego w tekstach językoznawczych. Metody preselekcji literatury źródłowej. Językoznawstwo stosowane a językoznawstwo korpusowe: cele, osiągnięcia, ewolucja, metody. Formaty wybranych tekstowych plików elektronicznych. Oprogramowanie, przetwarzanie, manipulacja. Polskie archiwa prasowe, np. czasopism: „Gazeta Wyborcza”, „Rzeczpospolita”, „Polityka” itp. Format tekstu, wielkość zasobu, cena. Polskie korpusy. Korpus referencyjny, narodowy, diachroniczny, synchroniczny itp. Problem dozwolonego użytku. Prawa autorskie a badania naukowe. Historia i ewolucja polskich bibliotek cyfrowych. Instalacje regionalne, instytucjonalne. Dynamika rozwoju bibliotek. Ograniczenia technologiczne. Podstawowe oprogramowanie bibliotek – dLibra. Narzędzia automatycznej analizy tekstu. Polskie analizatory morfologiczne. Analiza wielkich plików tekstowych. Alternatywne zasoby danych: ispell, morfologik, sjp.pl, zasoby 2.0. Typy dostępności informacji elektronicznej. Dostępność silna i słaba. Ocena wartości informacji elektronicznej. Bogactwo anotacji. Praktyka pracy z tekstem. Możliwości obróbki pozyskanego zasobu tekstowego. Polskie wyszukiwarki internetowe. Ograniczenia i możliwości. Miejsce wyszukiwarki w tworzeniu zasobu tekstu elektronicznego. Praktyka pracy z aplikacjami automatyzującymi pozyskiwanie tekstu: makra, pętle. |
Literatura: |
Podstawowa: 1.Butler, Ch. 1985. Computers in linguistics. Oxford; New York: Blackwell. 2. Clark, A. (red.). 2010. The handbook of computational linguistics and natural language processing. Oxford: Wiley-Blackwell. 3. Crystal, D. 2007. Language and the internet. Cambridge: Cambridge University Press. 4. Hunston, S. 2008. Corpora in applied linguistics. Cambridge: Cambridge University Press. 5. Lewandowska-Tomaszczyk, B. (red.). 2005. Podstawy językoznawstwa korpusowego: Łódź: Wydawnictwo Uniwersytetu Łódzkiego. 6. Lubaszewski, W. (red.). 2009. Słowniki komputerowe i automatyczna ekstrakcja informacji z tekstu. Kraków: AGH Uczelniane Wydawnictwa Naukowo-Dydaktyczne. 7. McEnery, T., Xiao, R., Tono, Y. (red.). 2008. Corpus-based language studies: an advanced resource book. London; New York: Routledge. 8. Sinclair, J. 1992. Corpus, concordance, collocation. Oxford: Oxford University Press. 9. Taberski, G., Vetulani, Z. 2010. Zasoby językowe i technologie przetwarzania tekstu: POLINT-112-SMS jako przykład aplikacji z zakresu bezpieczeństwa publicznego. Ogólna ontologia bytów na potrzeby projektu POLINT-112-SMS. Poznań: Wydawnictwo Naukowe Uniwersytetu im. Adama Mickiewicza. Dodatkowa: 1. Czasopisma: International Journal of Corpus Linguistics ICAME Journal Corpus Linguistics and Linguistic Theory |
Efekty uczenia się: |
Po zakończeniu modułu (przedmiotu) i potwierdzeniu osiągnięcia efektów kształcenia student: Wie, jakie są najważniejsze czasopisma podejmujące problematykę automatycznego przetwarzania tekstów. Swobodnie wymieni czołowych przedstawicieli nurtu korpusowego w językoznawstwie. Wie, co to jest językoznawstwo korpusowe w panoramie językoznawstwa w ogóle, potrafi określić, czego oczekuje po językoznawstwie korpusowym, zna możliwości i ograniczenia pracy z tekstem elektronicznym. Potrafi wymienić podstawowe typy tekstów elektronicznych, potrafi nazwać programy, które służą do obsługiwania danych typów tekstów ze względu na format (pdf, txt, html, djvu itp.). Potrafi natychmiast wskazać najobszerniejsze polskie archiwa prasowe, umie określić, jakiej informacji może tam poszukiwać, a jakiej nie; umie określić ich wielkość i funkcjonalność, cechy diachroniczne itp. Potrafi zaproponować ulepszenia tego typu archiwum; potrafi wskazać światowe archiwa tekstów elektronicznych, potrafi przewidzieć, jakie głównie teksty znajdują się w tych archiwach. Zna główne polskie korpusy językowe. Umie powiedzieć, jaki jest ich rozmiar i jaka jest ich dostępność i użyteczność. Potrafi omówić specyfikę zagadnienia tzw. dozwolonego użytku, umie wykazać, w jaki sposób dopuszcza się wykorzystanie ilustracji cytatowej tekstu elektronicznego. Potrafi wymienić polskie biblioteki cyfrowe, umie opisać ich specyfikę, tj. umie powiedzieć, czym różni się biblioteka cyfrowa od biblioteki klasycznej. Umie pokrótce omówić historię i rozwój bibliotek cyfrowych (polskich i zagranicznych). Potrafi powiedzieć, co to jest analizator morfologiczny, zna w praktyce zakres jego obsługi, tak w trybie wsadowym, jak i w trybie konsoli. Wie, że istnieją elektroniczne zbiory danych alternatywne względem zbiorów o charakterze komercyjnym (np. słowniki); potrafi wyjaśnić, skąd bierze się popularność formatów „open”. Rozróżnia tzw. silną dostępność vs. słabą dostępność tekstu elektronicznego; potrafi zarówno podnieść, jak i obniżyć dostępność własnych zasobów elektronicznych. Potrafi praktycznie wykorzystać narzędzia do obróbki tekstów; potrafi stworzyć listy frekwencyjne, kolokacje, potrafi tokenizować tekst. Potrafi wskazać zastosowania różnych wyszukiwarek internetowych (polskich i zagranicznych). Potrafi je skategoryzować na podstawie ich funkcjonalności; umie wykazać kierunek rozwoju wyszukiwarek. Potrafi zastosować procedury automatyzujące pozyskiwanie tekstu elektronicznego. Potrafi określić, dla jakiego typu zadania warto podjąć się prac optymalizacyjnych. |
Metody i kryteria oceniania: |
Warunkiem zaliczenia przedmiotu jest poprawne sformułowanie odpowiedzi na pytania dotyczące treści kształcenia kursu; szczególnie promowane będzie własna inwencja w zakresie rozwiązania problemu optymalizacji dostępu do zasobu elektronicznego. |
Zajęcia w cyklu "Semestr zimowy 2020/2021" (zakończony)
Okres: | 2020-10-01 - 2021-02-28 |
Przejdź do planu
PN WT ŚR CZ PT |
Typ zajęć: |
Konwersatorium, 30 godzin, 30 miejsc
|
|
Koordynatorzy: | (brak danych) | |
Prowadzący grup: | (brak danych) | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: |
Przedmiot -
Zaliczenie
Konwersatorium - Zaliczenie |
Zajęcia w cyklu "Semestr zimowy 2021/2022" (zakończony)
Okres: | 2021-10-01 - 2022-02-23 |
Przejdź do planu
PN WT ŚR CZ PT |
Typ zajęć: |
Konwersatorium, 30 godzin, 30 miejsc
|
|
Koordynatorzy: | (brak danych) | |
Prowadzący grup: | (brak danych) | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: |
Przedmiot -
Zaliczenie
Konwersatorium - Zaliczenie |
Zajęcia w cyklu "Semestr zimowy 2022/2023" (zakończony)
Okres: | 2022-10-01 - 2023-02-26 |
Przejdź do planu
PN WT ŚR CZ PT |
Typ zajęć: |
Konwersatorium, 30 godzin, 30 miejsc
|
|
Koordynatorzy: | (brak danych) | |
Prowadzący grup: | (brak danych) | |
Lista studentów: | (nie masz dostępu) | |
Zaliczenie: |
Przedmiot -
Zaliczenie
Konwersatorium - Zaliczenie |
Właścicielem praw autorskich jest Uniwersytet im. Adama Mickiewicza w Poznaniu.