Korpus dokumentów sejmikowych Rzeczypospolitej przedrozbiorowej ma na celu zebranie wszystkich uchwał (laudów) sejmikowych sprzed 1795 roku, na ile ich wydania są dostępne i ich udostępnienie nie jest zakazane przez prawa autorskie. Poza tym korpus włącza inne dokumenty związane z sejmikami (listy króla i innych osób do sejmiku, dokumenty wydawane przez instytucje odpowiedzialne przed sejmikami) – jeżeli takie dokumenty wydane zostały razem z laudami sejmikowymi.
Najważniejsza część korpusu do instrukcje uchwalane przez sejmiki ziemskie dla posłów na sejm walny oraz wykonawcze uchwały podatkowe (związane z przeniesieniem większego obszaru spraw skarbowych na sejmiki w XVII wieku). Instrukcje miały na celu przekazanie posłowi woli miejscowej zbiorowości obywateli szlacheckich, którą miał on wykonywać. Ponieważ na najczęściej występujących zgromadzeniach sejmikowych (sejmikach ziemskich) mógł się pojawić z równym głosem każdy szlachcic, należy uznać dokumenty sejmikowe za materiał do badania nowożytnej demokracji bezpośredniej.
Korpus zawiera dokumenty polskojęzyczne i łacińskie. Większość tekstów łączy te dwa języki. Dodatkową warstwę informacji lingwistycznych (morfosyntaktycznych) wygenerowano tylko dla języka polskiego.
Korpus pełni przede wszystkim pomocniczą funkcję dla badacza historii: koncentruje się na udostępnieniu jak największej ilości źródeł, stawiając na dalszym miejscu ujednolicenie ortografii i ręczną kontrolę poprawności przepisania tekstów (ze względów ekonomicznych). Nie należy polegać na pełnej, jednostkowej poprawności danych i powinny one być używane pomocniczo albo do celów statystycznych. Teksty zostały odczytane z obrazów za pomocą oprogramowania OCR. Za wydzielenie i datowanie poszczególnych dokumentów odpowiadał skrypt komputerowy, którego trafność jest istotnie niższa niż człowieka.
Przy lingwistycznym przetrwarzaniu tekstów wykorzystano modele dla programów Morfeusz i Concraft, przygotowane w IPI PAN na podstawie danych Elektronicznego Korpusu Tekstów Polskich z XVII I XVIII w. (Korpusu Barokowego – Korby)[1][2]. Na stronie Korpusu Barokowego można też znaleźć więcej informacji o współczesnych i historycznych korpusach tekstów polskojęzycznych. Chociaż korpus sejmikowy wykorzystuje narzędzia Korby, to jest zupełnie odrębnym zasobem i twórcy i administratorzy Korby nie są za niego odpowiedzialni.
Każdy fragment opatrzony jest informacją o wykorzystanym wydaniu papierowym i zakresie stron, gdzie można skontrolować bardziej pewną wersję danego tekstu (często dostępną w bibliotece cyfrowej).
W wersji 0.8 (29.05.2021) korpus zawiera ok. 3,5 milionów segmentów (technicznych jednostek bliskich wyrazom). Znajdują się w nim następujące zbiory dokumentów:
Jest to razem zaledwie sześć województw i ziem (nie wszystkie z pełnym pokryciem chronologicznym nawet dla okresu po 1572 roku), podczas gdy taryfy podatków łanowego, podymnego i czopowego wyróżniały w 1629 r. ok. 50 województw i ziem obciążonych podatkami w samej Koronie, nie licząc Litwy[3]. Jednakże nie jest to też całkiem przypadkowy wybór województw: województwo ruskie miało szczególnie dużą populację i wpłacało najwięcej do skarbu; krakowskie należało obok województw wielkopolskich do tak zwanych województw górnych, za których zdaniem często podążały inne. Więcej województw będzie można dodać do korpusu w miarę ich dostępności.
Celem oznaczenia autorstwa obecnego w korpusie nie jest ustalenie osoby opracowującej dokument, lecz instytucji albo osoby wydającej go oficjalnie. Jeżeli nie da się wskazać jasno jednej osoby bądź instytucji, wprowadzone jest oznaczenie szlachta [danej jednostki terytorialnej] (zwłaszcza w przypadku protestacji) albo inny (jako ostateczność).
Chociaż oznaczenia autorstwa wykonane zostały ręcznie, to podział tekstu wydań książkowych na poszczególne dokumenty jest komputerowego pochodzenia. W związku z tym część dokumentów jest sztucznie rozbita na mniejsze jednostki (z powodu fragmentów rozpoznanych błędnie jako nagłówki) albo połączona. Ta druga sytuacja wydaje się rzadsza; w takim wypadku autor zostaje oznaczony jako inny albo decyduje przeważająca większość tekstu, kiedy mniejszość ma mało istotną objętość.
Teksty konfederacji, uchwały na rokach sądowych i lauda obozowe przypisane są w miarę możliwości do odpowiednich sejmików. Jako kryterium przyjęte jest obecność w tekście twierdzenia, że wypowiada się w nim cała szlachta danego regionu (często wyraża się to formułą My rady, dygnitarze i całe rycerstwo X (obywatele X)). Faktyczna legalność sejmiku nie jest oczywiście weryfikowana. Jeśli dokument wypowiada się w imieniu szeregu osób wymienionych z nazwiska, oznaczenie autorstwa przyjmuje raczej postać w rodzaju szlachta województwa ruskiego.
[1] https://www.korba.edu.pl/overview
[2] Włodzimierz Gruszczyński, Dorota Adamiec, Renata Bronikowska, Aleksandra Wieczorek. Elektroniczny Korpus Tekstów Polskich z XVII i XVIII w. – problemy teoretyczne i warsztatowe. „Poradnik Językowy” 8 (2020). S. 32–51.
[3] Anna Filipczak-Kocur. Sejm zwyczajny z roku 1629. Państwowe Wydawnictwo Naukowe, Warszawa 1979. S. 116-117.