Measuring the Novelty of Scientific Papers
- Prelegent(ci)
- Pavel Savov
- Afiliacja
- Polsko-Japońska Akademia Technik Komputerowych
- Termin
- 19 listopada 2021 14:15
- Informacje na temat wydarzenia
- 5820 i online https://meet.google.com/jbj-tdsr-aop
- Seminarium
- Seminarium badawcze „Systemy Inteligentne”
Prezentacja będzie poświęcona przedstawieniu rozprawy doktorskiej pt. "Measuring the Novelty of Scientific Papers"
Z powodu szybkiego wzrostu liczby artykułów badawczych publikowanych co roku śledzenie rozwoju dziedzin nauki staje się coraz trudniejsze. Nie sposób przeczytać wszystkie ukazujące się publikacje. Zarówno badacze, jak i np. urzędnicy decydujący o przydziale środków na badania naukowe podczas wyszukiwania potencjalnie przełomowych artykułów polegają na tradycyjnych indeksach scjentometrycznych opartych na analizie cytowań. To podejście jest obarczone pewnymi wadami. Prace publikowane przez bardziej znanych autorów zwykle zyskują większy rozgłos i więcej cytowań niż prace mniej znanych badaczy poruszające te same tematy w podobnym czasie. Prowadzi to do dalszego nieproporcjonalnego wzrostu liczby cytowań.
W rozprawie omówiono ten i inne problemy oraz zaproponowano metodę automatycznej oceny innowacyjności tekstu opartą na uczeniu maszynowym, przeznaczoną do stosowania obok analizy cytowań w procesie poszukiwania obiecujących publikacji. Metoda ta, w odróżnieniu od dotychczas stosowanych, nie wymaga eksperckiej wiedzy dziedzinowej, na jej wyniki nie wpływa też reputacja autorów ocenianych prac, a polega jedynie na automatycznej analizie zawartości tekstowej.
Na niniejszą rozprawę składają się trzy recenzowane artykuły opublikowane w znaczących międzynarodowych źródłach opisujące postęp prac nad liczbową miarą innowacyjności tekstu opartą na błędzie predykcji jego wieku. Do predykcji lat publikacji użyto pierwotnie modelu klasyfikacji wieloklasowej, a następnie modelu regresji porządkowej (ang. ordinal regression) zaimplementowanego przy użyciu binarnych klasyfikatorów Support Vector Machines (SVM). Jako cech użyto prawdopodobieństw występowania w tekście “tematów” w rozumieniu modelowania tematycznego - Latent Dirichlet Allocation (LDA), a następnie Correlated Topic Models (CTM). Do trenowania zarówno modeli tematycznych, jak i predykcyjnych użyto diachronicznych korpusów artykułów naukowych obejmujących wieloletnie okresy.
Zaproponowana miara innowacyjności jest oparta na odchyleniu błędu predykcji roku publikacji od jego wartości oczekiwanej i - tym samym - odzwierciedla podobieństwo zawartości ocenianego tekstu do artykułów publikowanych w przeszłości lub przyszłości, a zatem jego prawdopodobną innowacyjność. Jej wartość jest tym większa im późniejszy jest przewidziany przez model rok publikacji.
W rozprawie pokazano wreszcie, jak przy pomocy regresji porządkowej w połączeniu z aktualnymi modelami osadzania słów (BERT) znacznie obniżyć średni błąd bezwzględny predykcji wieku tekstów. W tej wersji metody nie użyto modelowania tematycznego, a trenowanie modeli predykcyjnych i predykcja roku publikacji odbywa się na poziomie pojedynczych zdań. Omówiono i porównano kilka różnych funkcji agregujących predykcje dla poszczególnych zdań w finalną predykcję dla całego tekstu.
Proponowaną metodę zastosowano na trzech korpusach obejmujących publikacje z ponad dwudziestu lat w źródłach wiodących w swoich dziedzinach - konferencjach SIGIR i The Web Conference (dawniej: International World Wide Web Conference) oraz czasopiśmie Journal of Artificial Societies and Social Simulation (JASSS). Pokazano, jak wartości proponowanej miary innowacyjności korelują z liczbą cytowań, a także omówiono jej wady i wskazano kierunki przyszłych badań.
Rozprawa zawiera również przegląd literatury wskazujący obecny stan wiedzy w obszarze automatycznych metod analizy rozwoju dziedzin wiedzy, identyfikacji potencjalnie przełomowych artykułów, systemów rekomendacji publikacji naukowych i pokrewnych.
Plan wystąpień w tej edycji jest dostępny tutaj
The schedule of presentations can be checked here
Zapis wystąpienia Pavla Savova