Uniwersytet im. Adama Mickiewicza w Poznaniu - Centralny System Uwierzytelniania

NA SKRÓTY
STUDENCI, PRACOWNICY
JEDNOSTKI ORGANIZACYJNE
PRZEDMIOTY
- Lingwistyczna eksploracja internetu
STUDIA
AKADEMIKI
POMOC

Lingwistyczna eksploracja internetu

Informacje ogólne

Kod przedmiotu:	09-LEI-11
Kod Erasmus / ISCED:	15.9 Kod klasyfikacyjny przedmiotu składa się z trzech do pięciu cyfr, przy czym trzy pierwsze oznaczają klasyfikację dziedziny wg. Listy kodów dziedzin obowiązującej w programie Socrates/Erasmus, czwarta (dotąd na ogół 0) – ewentualne uszczegółowienie informacji o dyscyplinie, piąta – stopień zaawansowania przedmiotu ustalony na podstawie roku studiów, dla którego przedmiot jest przeznaczony. / (0329) Dziennikarstwo i informacja (inne) Kod ISCED - Międzynarodowa Standardowa Klasyfikacja Kształcenia (International Standard Classification of Education) została opracowana przez UNESCO.
Nazwa przedmiotu:	Lingwistyczna eksploracja internetu
Jednostka:	Instytut Językoznawstwa
Grupy:	Moodle - przedmioty Szkoły Nauk o Języku i Literaturze
Punkty ECTS i inne:	0 LUB 2.00 (w zależności od programu) Podstawowe informacje o zasadach przyporządkowania punktów ECTS: roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS; tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h; 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się; tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS; nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta. zobacz reguły punktacji
Język prowadzenia:	język polski
Rodzaj przedmiotu:	obowiązkowe
Kierunek studiów:	Językoznawstwo komputerowe
Poziom przedmiotu:	I stopień
Cele kształcenia:	Przedmiotem zajęć jest zapoznanie studenta z podstawową problematyką językoznawstwa korpusowego w obrębie językoznawstwa stosowanego. Szczególny nacisk położony będzie na kwestie budowy bazy empirycznej, prowadzącej do realizacji danych badań. Zajęcia mają pozwolić studentowi na gromadzenie zasobów tekstowych pod pewnym względami (kryteria żądania, kryteria wykonalności zadania w danym czasie, kryteria kosztu itp.).
Rok studiów (jeśli obowiązuje):	I rok
Skrócony opis:	Kurs obejmuje podstawowe informacje z dziedziny językoznawstwa komputerowego, ze szczególnym uwzględnieniem wykorzystania metod lingwistycznej eksploracji internetu.
Pełny opis:	Treści kształcenia: Prezentacja tzw. wiodących czasopism z zakresu językoznawstwa komputerowego; problem komponentu matematycznego w tekstach językoznawczych. Metody preselekcji literatury źródłowej. Językoznawstwo stosowane a językoznawstwo korpusowe: cele, osiągnięcia, ewolucja, metody. Formaty wybranych tekstowych plików elektronicznych. Oprogramowanie, przetwarzanie, manipulacja. Polskie archiwa prasowe, np. czasopism: „Gazeta Wyborcza”, „Rzeczpospolita”, „Polityka” itp. Format tekstu, wielkość zasobu, cena. Polskie korpusy. Korpus referencyjny, narodowy, diachroniczny, synchroniczny itp. Problem dozwolonego użytku. Prawa autorskie a badania naukowe. Historia i ewolucja polskich bibliotek cyfrowych. Instalacje regionalne, instytucjonalne. Dynamika rozwoju bibliotek. Ograniczenia technologiczne. Podstawowe oprogramowanie bibliotek – dLibra. Narzędzia automatycznej analizy tekstu. Polskie analizatory morfologiczne. Analiza wielkich plików tekstowych. Alternatywne zasoby danych: ispell, morfologik, sjp.pl, zasoby 2.0. Typy dostępności informacji elektronicznej. Dostępność silna i słaba. Ocena wartości informacji elektronicznej. Bogactwo anotacji. Praktyka pracy z tekstem. Możliwości obróbki pozyskanego zasobu tekstowego. Polskie wyszukiwarki internetowe. Ograniczenia i możliwości. Miejsce wyszukiwarki w tworzeniu zasobu tekstu elektronicznego. Praktyka pracy z aplikacjami automatyzującymi pozyskiwanie tekstu: makra, pętle.
Literatura:	Podstawowa: 1.Butler, Ch. 1985. Computers in linguistics. Oxford; New York: Blackwell. 2. Clark, A. (red.). 2010. The handbook of computational linguistics and natural language processing. Oxford: Wiley-Blackwell. 3. Crystal, D. 2007. Language and the internet. Cambridge: Cambridge University Press. 4. Hunston, S. 2008. Corpora in applied linguistics. Cambridge: Cambridge University Press. 5. Lewandowska-Tomaszczyk, B. (red.). 2005. Podstawy językoznawstwa korpusowego: Łódź: Wydawnictwo Uniwersytetu Łódzkiego. 6. Lubaszewski, W. (red.). 2009. Słowniki komputerowe i automatyczna ekstrakcja informacji z tekstu. Kraków: AGH Uczelniane Wydawnictwa Naukowo-Dydaktyczne. 7. McEnery, T., Xiao, R., Tono, Y. (red.). 2008. Corpus-based language studies: an advanced resource book. London; New York: Routledge. 8. Sinclair, J. 1992. Corpus, concordance, collocation. Oxford: Oxford University Press. 9. Taberski, G., Vetulani, Z. 2010. Zasoby językowe i technologie przetwarzania tekstu: POLINT-112-SMS jako przykład aplikacji z zakresu bezpieczeństwa publicznego. Ogólna ontologia bytów na potrzeby projektu POLINT-112-SMS. Poznań: Wydawnictwo Naukowe Uniwersytetu im. Adama Mickiewicza. Dodatkowa: 1. Czasopisma: International Journal of Corpus Linguistics ICAME Journal Corpus Linguistics and Linguistic Theory
Efekty uczenia się:	Po zakończeniu modułu (przedmiotu) i potwierdzeniu osiągnięcia efektów kształcenia student: Wie, jakie są najważniejsze czasopisma podejmujące problematykę automatycznego przetwarzania tekstów. Swobodnie wymieni czołowych przedstawicieli nurtu korpusowego w językoznawstwie. Wie, co to jest językoznawstwo korpusowe w panoramie językoznawstwa w ogóle, potrafi określić, czego oczekuje po językoznawstwie korpusowym, zna możliwości i ograniczenia pracy z tekstem elektronicznym. Potrafi wymienić podstawowe typy tekstów elektronicznych, potrafi nazwać programy, które służą do obsługiwania danych typów tekstów ze względu na format (pdf, txt, html, djvu itp.). Potrafi natychmiast wskazać najobszerniejsze polskie archiwa prasowe, umie określić, jakiej informacji może tam poszukiwać, a jakiej nie; umie określić ich wielkość i funkcjonalność, cechy diachroniczne itp. Potrafi zaproponować ulepszenia tego typu archiwum; potrafi wskazać światowe archiwa tekstów elektronicznych, potrafi przewidzieć, jakie głównie teksty znajdują się w tych archiwach. Zna główne polskie korpusy językowe. Umie powiedzieć, jaki jest ich rozmiar i jaka jest ich dostępność i użyteczność. Potrafi omówić specyfikę zagadnienia tzw. dozwolonego użytku, umie wykazać, w jaki sposób dopuszcza się wykorzystanie ilustracji cytatowej tekstu elektronicznego. Potrafi wymienić polskie biblioteki cyfrowe, umie opisać ich specyfikę, tj. umie powiedzieć, czym różni się biblioteka cyfrowa od biblioteki klasycznej. Umie pokrótce omówić historię i rozwój bibliotek cyfrowych (polskich i zagranicznych). Potrafi powiedzieć, co to jest analizator morfologiczny, zna w praktyce zakres jego obsługi, tak w trybie wsadowym, jak i w trybie konsoli. Wie, że istnieją elektroniczne zbiory danych alternatywne względem zbiorów o charakterze komercyjnym (np. słowniki); potrafi wyjaśnić, skąd bierze się popularność formatów „open”. Rozróżnia tzw. silną dostępność vs. słabą dostępność tekstu elektronicznego; potrafi zarówno podnieść, jak i obniżyć dostępność własnych zasobów elektronicznych. Potrafi praktycznie wykorzystać narzędzia do obróbki tekstów; potrafi stworzyć listy frekwencyjne, kolokacje, potrafi tokenizować tekst. Potrafi wskazać zastosowania różnych wyszukiwarek internetowych (polskich i zagranicznych). Potrafi je skategoryzować na podstawie ich funkcjonalności; umie wykazać kierunek rozwoju wyszukiwarek. Potrafi zastosować procedury automatyzujące pozyskiwanie tekstu elektronicznego. Potrafi określić, dla jakiego typu zadania warto podjąć się prac optymalizacyjnych.
Metody i kryteria oceniania:	Warunkiem zaliczenia przedmiotu jest poprawne sformułowanie odpowiedzi na pytania dotyczące treści kształcenia kursu; szczególnie promowane będzie własna inwencja w zakresie rozwiązania problemu optymalizacji dostępu do zasobu elektronicznego.

Zajęcia w cyklu "Semestr zimowy 2020/2021" (zakończony)

Okres:	2020-10-01 - 2021-02-28	Wybrany podział planu: tygodniowy cykl przedmiotu Przejdź do planu PN WT ŚR CZ PT
Typ zajęć:	Konwersatorium, 30 godzin, 30 miejsc więcej informacji
Koordynatorzy:	(brak danych)
Prowadzący grup:	(brak danych)
Lista studentów:	(nie masz dostępu)
Zaliczenie:	Przedmiot - Zaliczenie Konwersatorium - Zaliczenie

Zajęcia w cyklu "Semestr zimowy 2021/2022" (zakończony)

Okres:	2021-10-01 - 2022-02-23	Wybrany podział planu: tygodniowy cykl przedmiotu Przejdź do planu PN WT ŚR CZ PT
Typ zajęć:	Konwersatorium, 30 godzin, 30 miejsc więcej informacji
Koordynatorzy:	(brak danych)
Prowadzący grup:	(brak danych)
Lista studentów:	(nie masz dostępu)
Zaliczenie:	Przedmiot - Zaliczenie Konwersatorium - Zaliczenie

Zajęcia w cyklu "Semestr zimowy 2022/2023" (zakończony)

Okres:	2022-10-01 - 2023-02-26	Wybrany podział planu: tygodniowy cykl przedmiotu Przejdź do planu PN WT ŚR CZ PT
Typ zajęć:	Konwersatorium, 30 godzin, 30 miejsc więcej informacji
Koordynatorzy:	(brak danych)
Prowadzący grup:	(brak danych)
Lista studentów:	(nie masz dostępu)
Zaliczenie:	Przedmiot - Zaliczenie Konwersatorium - Zaliczenie

Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet im. Adama Mickiewicza w Poznaniu.