Uniwersytet im. Adama Mickiewicza w Poznaniu - Centralny System Uwierzytelniania
Strona główna

Laboratorium IV: Text processing

Informacje ogólne

Kod przedmiotu: 23-KODU-LABPT4
Kod Erasmus / ISCED: (brak danych) / (brak danych)
Nazwa przedmiotu: Laboratorium IV: Text processing
Jednostka: Wydział Psychologii i Kognitywistyki
Grupy: Moodle - przedmioty Szkoły Nauk Społecznych
Przedmioty dla 3 semestru kognitywistyki II stopnia
Przedmioty na Wydziale Psychologii i Kognitywistyki
Punkty ECTS i inne: 8.00 Podstawowe informacje o zasadach przyporządkowania punktów ECTS:
  • roczny wymiar godzinowy nakładu pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się dla danego etapu studiów wynosi 1500-1800 h, co odpowiada 60 ECTS;
  • tygodniowy wymiar godzinowy nakładu pracy studenta wynosi 45 h;
  • 1 punkt ECTS odpowiada 25-30 godzinom pracy studenta potrzebnej do osiągnięcia zakładanych efektów uczenia się;
  • tygodniowy nakład pracy studenta konieczny do osiągnięcia zakładanych efektów uczenia się pozwala uzyskać 1,5 ECTS;
  • nakład pracy potrzebny do zaliczenia przedmiotu, któremu przypisano 3 ECTS, stanowi 10% semestralnego obciążenia studenta.

zobacz reguły punktacji
Język prowadzenia: język angielski
Kierunek studiów:

Kognitywistyka

Poziom przedmiotu:

II stopień

Cele kształcenia:

A1

Introduction of NLP methods for Text Processing.

A2

Development of students' programming skills.


Wymagania wstępne w zakresie wiedzy, umiejętności oraz kompetencji:

Basic programming skills in Python

Fundamental concepts of linguistics

English – B2


Participation in Corpus Linguistics lab (23-KODL-LBK Laboratorium 1.1: Badania korpusowe) is not a prerequisite for this course, however is strongly advised.

Metody prowadzenia zajęć umożliwiające osiągnięcie założonych EK:

Lecture introducing selected concepts

Discussion

Case study

Programming tasks and exercises

Projects


Nakład pracy studenta (punkty ECTS):

Activity

Duration (in hrs, estimated)

Hours according to a plan

60 h

Student's own work

Preparation before classes

30 h


Reading

50 h


Reports (2) preparation and writing

60 h


SUM

200 h


ECTS SUM

8


Skrócony opis:

Text processing laboratory develops participants' knowledge and skills in Natural Language Processing, focusing on textual data analysis such as: text preprocessing (collecting and cleaning the data), analysis (word counts, statistics, topical modelling). We will also cover topics from language engineering: machine learning models and pipeline construction.

Pełny opis:

Topics:

Elements of the text processing pipeline

Basic tools for text processing (e.g. Python - NLTK, Java OpenNLP)

Corpus creation with simple binary categories (e.g. positive and negative opinions, spam and not-spam e-mails)

Classifier training for binary categories (elements of machine learning)

Classifier evaluation (F-1 score)

Corpora for discourse analysis – data collection and annotation schemes (e.g. Rhetorical Structure Theory, Argument Interchange Format)

Annotation tools for discourse analysis

Collecting and annotating corpora for discourse analysis

Classifier training for complex discoursive properties

Classifier evaluation methods for multi-class discourse corpora

Literatura:

Ingersoll, Grant S., et al. (2013). Taming text: how to find, organize, and manipulate it. Manning Publications Co.

Stede, Manfred. (2012). Discourse processing. Morgan & Claypool Publishers.

Janier, Mathilde, and Patrick Saint-Dizier (2019). Argument Mining: Linguistic Foundations. John Wiley & Sons.

Efekty uczenia się:

After passing the module and EU verification, a student:

Has familiarity with processing stages of NLP

Can create a text corpus using correct methodology for sampling and annotation

Can perform manual corpus annotation and calculate Inter Annotator Agreement

Can write simple computer programme for annotated corpora analysis

Uses available literature and other resources for further development of skills and knowledge

Has familiarity with fundamental concepts of computational linguistics and can use them in a written text

Has ability to organize information and to draw conclusions

Metody i kryteria oceniania:

Project 1 - Text classifier: 20 points

1-2 pages report;

Accompanying code

Accompanying corpus

Project 2 - Discourse processing: 20 points

3 – 5 pages report;

Accompanying code

Accompanying corpus

In-class activity: 20 points

Programming tasks

In-class discussion

Case studies

Max: 60 points

Scale:

bardzo dobry (bdb; 5,0): 55 - 60 points

dobry plus (+db; 4,5): 50 - 54 points

dobry (db; 4,0): 45 - 49 points

dostateczny plus (+dst; 3,5): 40 - 44 points

dostateczny (dst; 3,0): 35 - 39 points

niedostateczny (ndst; 2,0): 0 - 34 points.

Participation in at least 80% of the classes is required.

Zajęcia w cyklu "Semestr zimowy 2020/2021" (zakończony)

Okres: 2020-10-01 - 2021-02-28
Wybrany podział planu:
Przejdź do planu
Typ zajęć:
Zajęcia laboratoryjne, 60 godzin więcej informacji
Koordynatorzy: Barbara Konat
Prowadzący grup: Barbara Konat
Lista studentów: (nie masz dostępu)
Zaliczenie: Przedmiot - Zaliczenie z notą
Zajęcia laboratoryjne - Zaliczenie z notą
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Uniwersytet im. Adama Mickiewicza w Poznaniu.
ul. Wieniawskiego 1
61-712 Poznań
tel: +48 61 829 4000
kontakt deklaracja dostępności USOSweb 7.0.3.0 (2024-03-22)